就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。
就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。
更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。
Grok 4.1升级了什么?
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和?Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。
官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。
为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。
在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。
“盲测”登顶,Grok 4.1到底有多强?
Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。
LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。
与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力,xAI还强调了新模型在“软实力”上的提升。
· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。
· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。
更少的“幻觉”
快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。
根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。
为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道新万博体育:人物传记问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
(本文由AI翻译,网易编辑负责校对)
《www.99re这里只有精品》,《Q8X2R7L1T4J5M9B6W3》在线免费黄片
“高压监狱2星辰影院”
狠狠婷婷综合久久久久久
……
11月17日
“露全奶網站”职业女性必须穿高跟鞋是偏见歧视
↓↓↓
11月17日,这就是秘鲁丨这个“邻居”国家藏不住了!3分钟带你“穿越”古印加文明第十五届中国航展:市民游客雨中观展热情不减,亚洲黄色视频一区二区不卡,日日97,龙优视频黄色网站在线,一级毛片免费一级A片
11月17日,最高检发布“南四湖专案”指导性案例,欧美一级特黄大片做受另类,人人操人人摸人人舔人人爽,亚洲视频激情小说,www.女生自拍偷拍
11月17日,如何完善联农带农机制(政策问答·2024年中国经济这么干),国内精品看视频在线,农场主的女儿们电影在线观看完整免费高清原声满天星,精品日本一区二区免费91,欧美sv
11月17日|美官员:美国对也门胡塞武装目标发动新一轮袭击|毛片A片免费观看视频免费网站|日本视频wwwww色|A片日韩欧美激情性不一卡|9.1起飞78免费版
11月17日|台湾大学生“大厂”实习谁最卷?“首来族”被机器人送餐“惊到”!|舔奶奶|91在线播放免费不卡无毒|星野大战光头免费观看|黄瑟A 级视频
11月17日|三亚恢复往返日本航线|欧美性交免费资原站|天堂精品视频在线观看免费|50多岁岳用嘴帮我口出|欧美熟妇人妻XXXXX……
11月17日,刘斯奋艺文生涯七十年学术研讨会在穗举办,啊 啊 爽 插进去了视频,18毛片,你懂得国产精品永久在线,A,欧美视频
11月17日,奔向梦想!2024希望工程·蒙牛少年足球公益行正式启动,无机杀手黄小鬼的视频资源,18馃埐馃埐馃埐馃埐馃埐馃埐馃埐馃埐馃埐馃埐馃埐馃毇,美女裸乳头,性爱网青草
11月17日|上海闵行港澳沙龙、香港上海闵行联谊会换届|黄色网站我爱干a片|亚洲aⅴ欧美aⅴ天堂|毛片三区|西施被 到爽 高潮小说
11月17日,2024年注册会计师全国统一考试举行,在钱免费观看欧美一级片,40岁少妇视频,美女隐私秘秘 18禁视频网站,新毛片一级毛片毛片
11月17日,首套房贷利率重回“3”字头 多地银行回调房贷利率下限,四位少妇精油按摩,激情乱伦网,人与野鲁 片∵女人写真,美女黄片毛片在线看
11月17日,2024年京北快乐足球节落幕 传递健康运动理念,又粗又硬一区二区,91女学生无套洗澡视频,91久久精品无码专区嫖妓,91自拍九色91
11月17日|积极发挥卓越工程师在强国复兴伟业中的重要作用(“厦门实践”调研行)厦门五缘湾生态良好风景怡人|欧美性事网站|无码色色|全网免费在线观看毛片|日韩专区欧美色图
11月17日|多国“Z世代”在长春感受中外多元文化|3d 无尽 女仆 护士 3D|欧美操逼免费看|www.4色|一级a做片免费观看久久按摩
11月17日|广州海关开展校园普法活动 缉毒犬亮身手受欢迎|一级片片片大A片|男男GaYGAYS✅男同肌肉|网易cc顶级享受微博|999久久久国产精品
美国滞留太空宇航员瘦成锥子脸,LV大秀明星生图|浙江去年国际货邮吞吐量增长49% 计划增5条国际航线|久久最大色视频网站|爱搞为爱搞点激情|亚洲色图10p|国产v综合v亚洲欧美大另类
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺