OpenAl采用智谱标准评测GPT-4.1系列大模型

aiuc • 4天前 • AI资讯 • 阅读 5

4月15日消息，OpenAI发布的了最新GPT-4.1系列大模型，其中在评测函数调用能力时采用了ComplexFuncBench。

ComplexFuncBench是由智谱团队提出的专用于评估大模型复杂函数调用能力的测试基准。

据悉，ComplexFuncBench主要评测大模型在128K的长上下文下进行多步带约束的函数调用的能力。相比于现有函数调用测试基准，ComplexFuncBench要求大模型对真实场景下的用户需求进行细粒度理解，并在此基础上进行多步带推理的函数调用，这对模型的函数调用能力提出了更高的挑战。（果青）

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/23889

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

AI OpenAl 智谱

赞 (0)

0 0

字节跳动发布Seaweed-7B视频模型，AI视频生成迈向新高度

上一篇 4天前

OpenAI API组织漏洞引争议，GitHub意外频发，开源理想遭遇现实挑战

下一篇 4天前

AI资讯

马斯克寻求中东投资者支持xAI 估值或达450亿美元

0040

aiuc
2024年11月1日
AI资讯

OpenAI回应《纽约时报》版权诉讼：毫无根据，数据来自公开渠道

0020

aiuc
2024年1月9日
AI资讯

微软出手！为deepfake色情受害者提供工具，彻底清除 Bing 搜索中的不良图像

0010

aiuc
2024年9月6日
AI资讯

首个人工智能大脑植入手术帮助一名男子恢复了手的感觉

0040

aiuc
2023年8月3日
AI资讯

OpenAI估值或破千亿美元，AI巨头融资大战再升级

0030

aiuc
2024年8月29日
AI资讯

让拖拉机思考我国“农业大脑”智能工程亮相

0030

aiuc
2017年11月2日
AI资讯

英伟达因巴以冲突取消以色列AI峰会

0040

aiuc
2023年10月11日
AI资讯

AI产业盛会：探索未来，共创智能新篇章

0020

aiuc
2025年3月2日
AI资讯

光线传媒：正探索AI与内容创作的结合点已参与百度文心一言的测试

0030

aiuc
2023年3月20日

发表回复