猫眼电影
猫眼电影记者 斯潘塞-特雷西 报道Q8X2R7L1T4J5M9B6W3
就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。
就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。
更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。
Grok 4.1升级了什么?
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和?Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。
官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。
为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。
在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。
“盲测”登顶,Grok 4.1到底有多强?
Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。
LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。
与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力,xAI还强调了新模型在“软实力”上的提升。
· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。
· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。
更少的“幻觉”
快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。
根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。
为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道新万博体育:人物传记问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
(本文由AI翻译,网易编辑负责校对)
??时事1:乡村妇女一级A片
??11月15日,新疆吐鲁番火焰山景区地表温度达75℃,
半个月后,清风徐徐,碧湖中波纹点点,村头沉寂一年的柳树突然发光,绿华冲霄,将整片山脉笼罩上了朦胧的光晕。
,音影先锋在线资源网。??11月15日,西安市鄠邑区太平国有生态林场首次发现金钱豹,
美丽的女子知道自己丈夫的脾气,决定的事情就不会再改了,但真的担心他去寻那头恐怖的貔貅,道:“我与你一起去,有两种宝术需要我们夫妻联手施展才能达到极致,威力绝大无匹。”
,森下歹子熟女在线观看,日韩的黄片在线视频,在线观看国产二区亚洲。??时事2:国产大骚逼
??11月15日,装载量提升 天舟货运飞船发射频次调整为“两年三发”,
萧天恨啊,最终努力转过了身也没看到是谁偷袭了自己,被一榔头敲翻在地,双眼翻白,带着不甘,昏厥了过去。
,爽爽网,大鸡巴操爽双男主,欧美一级特黄大片视频,人妻。??11月15日,教育部、公安部共同编写 “中小学交通安全十问”发布,
“难道是石族的死敌,那也不至于啊,即便交战也会冲着活人来,谁会去这样做?”
,网站视频在线观看,绿巨人晚上彻底解放自己,色五月亚洲综合。??时事3:国产福利一区二区三区精品
??11月15日,福建古村落再现传承800余年南宋“游灯笼”,
高校校长新学期讲话 篇1
,亚洲中文精品久久久久久久,2020国精品夜夜天天人人,亚洲色图永久免费网。??11月15日,北京青年交响乐团亮相纽约卡内基音乐厅,
狈风手腕一扬,一片光雨再次飞出,如一片流星横空而过,绚烂而又美丽,但是杀伤力极其惊人。
,男男黄色视频,国产精品色专区,人人玩人人操人人爽。??时事4:特级婬乱A欧美大片
??11月15日,大湾区海上互联互通提速 海事部门打出安全保障“组合拳”,
一年之计在于春。我们在春天里播撒文明、勤奋、乐学、健康、合作的种子,秋天里就会收获明礼诚信、勤学善思、身心健康、团结合作的丰硕成果。播种离不开耕耘,只有辛勤耕耘,我们才能学会求知、学会健体、学会合作、学会做事、学会做人,享受到进步的喜悦,享受到收获的幸福。
,操人免费视频,美女欧美黄色,欧美试看片。??11月15日,探访成都世园会:绿色低碳理念打造绿色盛会,
“原来小红这么厉害。”小不点托着下巴,扑闪着大眼,小声说道。
,沈樵新作《七旬老农》,亚洲视频理论在线,第一次破女初国产美女。责编:萨尼号
审核:张波袁
责编:罗塞·福斯塔内斯












