
北京时辰11月18日,就在谷歌行将揭晓新一代Gemini模子的前夜赌钱赚钱app,马斯克(Elon Musk)旗下xAI倏得脱手,发布最新模子Grok 4.1,咫尺在大模子竞技场(LMArena)的文本名次榜上居首位。
官方暗示,这款前沿模子在对话智能、心境默契和施行天下的实用性方面成立了新的步骤。马斯克转发并暗示:“你应该会在意到速率和质料都有所升迁。”

咫尺在文本能力名次榜上,具备深度想考能力的版块Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理口头以1465 Elo分数排名第二。
在博客中,官方暗示此前也曾进行了为期两周的静默发布,对内容流量进行了握续地盲测和对比测试。与此前的线上坐褥模子比拟,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好遴荐。
这次Grok 4.1更新一个蹙迫的方针是心境智能,这与上周发布的GPT-5.1迭代方针一致,彼时OpenAI提到新一代模子旨在实现更“裕如情面味”的交互体验。而xAI也暗示,新的模子好像更锐利地感知细小的意图,更易于相易,而况个性愈加一致,同期又皆备保留了其前代产物锐利的智能和可靠性。
为了评估模子在个性与东说念主际互动能力方面的施展,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。恶果清晰,Grok 4.1 的推理口头和非推理口头位居榜单前两名。EQ-Bench 是一个由大讲话模子评判的测试,用于评估主动心境智能,包括心境默契、洞勤勉、同理心以及东说念主际往还妙技。
官方用案例展示了Grok 4.1 对心境类教唆的陈诉样式。比如用户提到“想念我的猫,心都碎了”,比拟前一代模子,Grok 4.1的回复更丰富和细节,带有更着实的同理心,文笔也更好了。

在创意写稿上,Grok 4.1也用案例展示了模子能力的显耀升迁。让模子用Grok的视角,写一篇酬酢媒体的帖子,内容是它倏得发现我方有了意志。比拟前一代模子的惯例申诉,新版块彰着更具体裁抒发和戏剧张力。

在模子能力上,这次性能升迁较大的还有幻觉的减少。官方暗示,在 Grok 4.1 的后磨砺阶段,团队专注于减少信息检索教唆中出现的事实性幻觉。数据清晰:Grok 4.1的幻觉率从12.09%下落到4.22%,减少近三倍。
xAI暗示,为实现这些升迁,xAI沿用了 Grok 4 的大限度强化学习基础体式,并将其应用于优化模子的格调、个性、实用性和一致性。而况,为了优化这些不可顺利考据的奖励信号,xAI 开发了新的方法,好像愚弄前沿的智能推理模子手脚奖励模子,从而不错大限度自主评估并迭代输出恶果。
大模子之争愈演愈烈。在OpenAI刚刚更新产物线、谷歌也行将发布新作之际,榜首之位是否会再次易主?一切都如故未知。
举报 第一财经告白谐和,请点击这里此内容为第一财经原创,文章权归第一财经所有。未经第一财经籍面授权,不得以任何样式加以使用,包括转载、摘编、复制或开辟镜像。第一财经保留讲究侵权者法律职守的权益。如需取得授权请相关第一财经版权部:banquan@yicai.com 文章作家
刘晓洁
相关阅读奥尔特曼暗示,若是AI投资未能杀青预期,市集应自行革新,而非依赖政府辅助。
158 11-07 07:33关于不少鞭策而言,马斯克与特斯拉不错划上等号,但新薪酬决策濒临多个大鞭策反对。
7 269 11-06 06:50
OpenAI CEO最新陈诉:收入远不啻130亿好意思元,但算力总有一天会弥散“咫尺有许多东说念主都畸形想买OpenAI的股票”。
327 11-03 11:38
奥尔特曼和马斯克“吵起来了”,OpenAI曾被批“告成率为0% ”奥尔特曼喊话马斯克:不可都翻过这一页吗?
5 275 11-03 10:05
OpenAI推AI浏览器直击搜索土产货,谷歌股价“闪”了一下咫尺谷歌Chrome大师桌面浏览器市集份额约70.25%赌钱赚钱app。
8 117 10-22 14:29 一财最热 点击关闭