基准测试

AI资讯

OpenAI推出AI Agent评测基准PaperBench

[db:摘要]

aiuc
2025年4月3日
0030
AI资讯

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

[db:摘要]

aiuc
2025年2月18日
0030
"AI终极挑战揭晓：基准测试惨淡成绩揭示AI系统短板，准确率未超10%"的犀利解读

AI终极挑战揭晓：基准测试惨淡成绩揭示AI系统短板随着AI技术的飞速发展，我们似乎已经站在了一个新的科技前沿。然而，一项最新的基准测试结果却揭示了AI系统的短板。这项由非营利组织…

aiuc
AI资讯 2025年1月24日
0030
AI资讯

智源与腾讯推出长文本理解基准测试模型LongBench v2

[db:摘要]

aiuc
2024年12月20日
0030
AI资讯

微软推Windows Agent Arena，测试AI助手在真实Windows环境中的性能

[db:摘要]

aiuc
2024年9月14日
0030
AI资讯

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

[db:摘要]

aiuc
2024年8月7日
0010
AI资讯

Anthropic推出新计划，资助新一代AI基准测试的开发

[db:摘要]

aiuc
2024年7月2日
0040
谷歌推出人工智能系统Gemini,有望扩大在AI领域的影响力

[db:摘要]

aiuc
AI资讯 2023年12月25日
0040
亚马逊AWS推出人类基准测试团队，改进人工智能模型评估

[db:摘要]

aiuc
AI资讯 2023年11月30日
0030