大模型评测乱象调查:参数规模不代表一切

[db:摘要]

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/23268

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年9月25日
下一篇 2023年9月25日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注