从编码到创意写作 xAI Grok-3 击败 GPT4.5全能登顶大模型竞技场

aiuc • 2025年3月4日上午9:48 • AI资讯 • 阅读 4

[db:摘要]

xAI 最近发布了一则激动人心的消息，其最新 AI 模型 Grok-3在 Chatbot Arena 排行榜上表现突出。这款模型被命名为“grok-3preview-02-24”，在多个关键领域展现了卓越性能。

xAI 的 Grok-3-Preview-02-24就以1分的微弱优势超越 GPT4.5-Preview。Grok-3获得了超过3，000票，并总体上与第一名并列。它在困难提示、编码任务、数学问题、创意写作、指令遵循以及处理较长查询方面表现尤为出色。Chatbot Arena 是一个通过人类偏好进行大规模语言模型（LLM）评估的众包平台，使用 Elo 评级系统为模型排名，提供全面的性能衡量。

这一成就标志着 xAI 和其创始人埃隆·马斯克在 AI 发展领域的显著进展。马斯克一直倡导开发强大且与人类价值观相符的 AI。Grok-3在这一基准测试中的成功凸显了模型的能力，以及 xAI 在竞争激烈的 AI 领域的进步。

值得注意的是，“grok-3preview-02-24”被描述为最新生产模型，但名称中包含“preview”，这可能表明它仍处于测试阶段，这一细节可能引发对其完全生产就绪性的讨论。

本文由「aiuc」编辑整理，文章链接：https://www.aiuc.net/3692

该文观点仅代表作者本人，平台仅提供信息存储空间服务。

Chatbot Arena Grok-3 LLM X+AI

赞 (0)

0 0

华科字节推出 Liquid：重新定义多模态模型的生成与理解

上一篇 2025年3月4日上午9:41

Anthropic估值飙升至615亿美元，成功筹集35亿美元，开启新篇章

下一篇 2025年3月4日

AI资讯

温州将迎首个元宇宙园区！重磅活动第一弹：万元悬赏，用“AI”画出温州元宇宙

0040

aiuc
2022年10月26日
AI资讯

华为杨超斌：“以智赋网” 迈向高阶自治，跃升数智生产力

0030

aiuc
2024年6月27日
AI资讯

报道称OpenAI或将推出类X社交媒体功能，计划整合ChatGPT

0030

aiuc
4天前
AI资讯

OmniSVG横空出世：复旦联手阶跃星辰打造多模态矢量图生成新标杆

0060

aiuc
2025年4月10日
AI资讯

OFweek（第二届）中国人工智能产业大会–AI+机器人论坛完美落幕

0030

aiuc
2018年8月31日
AI资讯

支付宝“刷脸办事”已支持170+城市：税务、公积金查取、电子证件最受欢迎

0020

aiuc
2018年12月29日
AI资讯

可解释的AI与规则的重生

0030

aiuc
2019年3月25日
AI资讯

谷歌的AI布局：机器学习是重心继续在中国招人

0040

aiuc
2017年11月30日
AI资讯

媲美Suno！字节推AI音乐产品海绵音乐：输入灵感一键生成音乐

0030

aiuc
2024年8月1日

发表回复