“百模大战”家家第一,大模型“跑分”作弊何时休?

[db:摘要]

文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。

本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/22193

该文观点仅代表作者本人,平台仅提供信息存储空间服务。

(0)
aiucaiuc
上一篇 2023年11月29日
下一篇 2023年11月29日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注