机器之心报道
机器之心编辑部
几乎毫无预兆,马斯克人工智能公司 xAI 发布了最新模型 Grok 4.1。
就在刚刚,xAI 宣布,Grok 4.1 已经向所有用户开放,可以在 Grok 官网、X 以及 iOS 和 Android 应用中使用。
图片
Grok 4.1将立即在 Auto 模式中推送,并可在模型选择器中手动选择。
图片
此次,Grok 4.1 将在真实世界可用性方面带来显著提升,尤其是在创造力、情感互动和协作交互方面表现出色。Grok 4.1 对细微意图的感知能力更强,与用户对话更加吸引人,整体人格也更连贯,同时完全保留了前代模型强大的智能与可靠性。
图片
马斯克在 x 上宣传一波自家模型。
为实现这些提升,xAI 在支撑 Grok 4 的同一套大规模强化学习基础设施上进一步优化了模型的风格、个性、助人性和对齐性。并且,为了优化这些不可直接验证的奖励信号,xAI 开发了全新的方法,能够利用前沿的智能体式推理模型作为奖励模型,从而可以大规模自主评估并迭代输出结果。
与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。
图片
接下来看 Grok 4.1 的能力特征。
SOTA 通用能力
Grok 4.1 在盲测的人类偏好评估中树立了全新的标杆。
在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代号:quasarflux)以 1483 的 Elo 分数位居总榜首位,领先最高的非 xAI 模型整整 31 分。
Grok 4.1 的非推理模式(代号:tensor)无需使用思维 token 便能即时响应,在排行榜上以 1465 Elo 分数位居第二。即便不启用推理,Grok 4.1 也超越了其他所有模型在启用完整推理配置下的表现。
与 Grok 4 相比,Grok 4.1 的整体表现实现了大幅超越 ,前者此前的总排名仅为第 33 名。
图片