大模型评测乱象调查:参数规模不代表一切

aiuc • 2023年9月25日上午9:54 • AI资讯 • 阅读 3

[db:摘要]

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/23268

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

参数量大模型评测评测集

赞 (0)

0 0

欧洲风投Index如何在早期抓住AI投资机会

上一篇 2023年9月25日

以色列发布AI坦克“Barak”

下一篇 2023年9月25日

AI资讯

南京大学黄宜华：自动化机器学习AutoML 让AI设计AI

0030

aiuc
2018年9月10日
AI资讯

2018年有哪些AI领域获得了融资？

0020

aiuc
2018年9月12日
AI资讯

迪士尼据称成立特别工作组利用AI控制电影成本

0030

aiuc
2023年8月9日
AI资讯

工业3D相机！工业5.0之下的机器视觉革命

0030

aiuc
2020年5月14日
AI资讯

艺术家侵权诉讼新进展新增被告Runway

0030

aiuc
2023年12月5日
AI资讯

OpenAI股权风波:Altman承认曾通过红杉基金持股

0040

aiuc
2024年12月20日
AI资讯

千人聚会、50万人围观，2024 AI创新者大会暨PEC·提示工程峰会顺利召开

0040

aiuc
2024年11月18日
AI资讯

SoCreate:一款颠覆传统的编剧软件，采用生成式 AI 图像和视觉工具

0030

aiuc
2024年10月7日
AI资讯

加拿大要把AI带上飞机，他们都准备干什么？

0030

aiuc
2018年5月2日

发表回复