就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。
就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。
更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。
这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。
Grok 4.1升级了什么?
xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和?Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。
官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。
为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。
在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。
“盲测”登顶,Grok 4.1到底有多强?
Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。
LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:
· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。
· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。
· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。
与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。
“情商”与“文采”,一个都不能少
除了通用能力,xAI还强调了新模型在“软实力”上的提升。
· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。
· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。
更少的“幻觉”
快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。
在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。
根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。
为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道新万博体育:人物传记问题的公开基准测试。
挑战与未来:真正的对手还在路上
尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。
目前,我们尚不清楚它与GPT-5.1相比的真实表现。
更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。
Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)
(本文由AI翻译,网易编辑负责校对)
《一级毛片免费看看》,《Q8X2R7L1T4J5M9B6W3》无码毛片视频一区二区无码
“青色大脑下载中文版安装”
男 女 摸 水流啊9
……
11月13日
“草久久久”玫瑰的故事直播
↓↓↓
11月13日,“古波斯的荣耀:伊朗文物精华展”在上海博物馆开幕,高姐帮你打脚枪,国产精品偷伦视频免费观看,欧美色图 亚洲,肌肌入肌肌
11月13日,纪录片《千里江入淮》研讨会举行,纪美视频免费观看最新一期,综合网不卡淫秽电影,free嫩白的12sex性摘花,欧美性交大片又黄又爽大片免费在线观看
11月13日,探访浙江规模最大的盐田复垦项目,男女猛烈无遮挡GIF动态图,男男裸妆,原神丽莎被爆 羞羞,人人操人人干三级
11月13日|格林纳达总理:中国一直以和平方式开展合作 引领“全球南方”发展|世界观|看全部免费的毛片|a片网站限免|全裸体美女黄色毛片|黄片人妻系列
11月13日|晋商大院里的“百善壁”:不同字体写成365个“善”字|日韩AⅤ在线高清免费看|大香焦久久一级黄色视频|陈美娇1v7现场后续|久久精品无码专区国产
11月13日|福州港江阴港区年度整车出口突破万辆|黄色精品区一|主播 在线 精品|婬乱A片欧美大片免费|99riav77……
11月13日,营养、风味双提升 研究揭示木薯叶在功能食品领域的潜力,九色91POPNY人妻,reePorno80馃拫馃憴,中文字幕无码乱伦,打屁股网站外网
11月13日,【讲习所中国与世界】习近平:中国始终是“全球南方”的一员,永远属于发展中国家,免费看性爱视频的网站,www.久色,把女人弄爽A片视频,igao精品
11月13日|新疆高级人民法院原党组成员蒋新华接受审查调查 |欧美AAA 视频二区|黄网站观看18岁在线视频|欧美性欲网站|中文无码乱人伦中文视频播放
11月13日,斯诺克世界大奖赛:中国军团2胜2负 已有3人晋级16强,av觀看網址,青草园VA视频在线,黄色福利院,性色毛片A片全部免费无码h
11月13日,广东省政协委员热议大湾区建设:加快大湾区规则机制“软联通”,欧美高清另类,苍井空张腿实干13分钟,夜夜大片网,huidebo,com
11月13日,5月4日北京市属公园迎客67.6万人次 “红色游”持续升温,油管18,黄色毛片一一一黄色毛片一一黄色毛片一一一纸网站给我看,五月天色婷婷综合,国产又爽又湿又刺激的视频
11月13日|甘肃:力争到2030年全省67%以上可治理沙化土地得到治理|91最新在线视频免费观看|色偷偷资源站2|十月丁香欧美性爱|黄色大片免费看久久网站
11月13日|宇宙年龄究竟有多大?最新研究发现比当前宇宙学模型预测的年轻|欧美性大开放久久综合48|亚洲产国偷v产偷v自拍小说|国外av黄色在线观看网站|亚洲华人在线免费视频
11月13日|进出西藏列车有机蔬菜实现“现摘现炒”|亚洲精品www永久|美女国产|国内视频在线观看不卡aaa|黄色带awww
鲁邦三世新作动画定档,岛屿少年|广东自然教育基地增至135家|欧美操逼视频,|silk-144郗及引引觴木化|视频一区二区亚洲|www.aqd2025.gov.cn
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺