(10秒完整评测)BOB最新地址电脑版v43.40.22.71.65.64.16-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

AI榜单“变天”了!马斯克发布Grok 4.1,盲测排名登顶第一

2025-11-15 04:12:35
来源:

猫眼电影

作者:

梁盛

手机查看

  猫眼电影记者 郭洪 报道Q8X2R7L1T4J5M9B6W3

就在OpenAI发布GPT-5.1,大谈“情商”之际,埃隆·马斯克(Elon Musk)也带着他的xAI,火速加入了这场“AI体验”之战。

就在刚刚,xAI宣布推出Grok 4.1,这是对现有Grok 4模型的重大升级,并已在grok.com、X平台以及iOS和Android应用向所有用户全面开放。。官方宣称,新版本在创意表达、情感互动和协同交流方面表现尤为突出,并且出现幻觉的概率仅为此前模型的三分之一。

更引人注目的是,在一个公开的“盲测”竞技场(LMArena)上,Grok 4.1的“思考模式”版本已悄然登顶总榜第一,甚至其“非推理”的快速模式,都击败了所有对手的“完整推理”模式。

这场突如其来的“榜首易主”,无疑为日趋白热化的AI竞赛,又增添了浓重的火药味。

Grok 4.1升级了什么?

xAI本次发布了两个Grok 4.1模型:Grok 4.1(非推理模式)和?Grok 4.1 Thinking(思考模式)。这两个模型均可免费使用,但付费用户面临的限制更少。

官方表示,新版本能更细致地理解隐含意图,与之对话引人入胜,也更能保持人设的一致性。

为了优化模型的风格、人格和有用性,xAI利用前沿的代理型推理模型(agentic reasoning models)作为“奖励模型”,在大规模环境中自主评估并迭代模型的回答。

在11月1日至14日的“静默上线”期间,xAI在真实流量上进行了盲测式的成对比较评估,结果显示,在64.78%的情况下,用户更偏好Grok 4.1。

“盲测”登顶,Grok 4.1到底有多强?

Grok 4.1在盲测的人类偏好评估中树立了新的行业标准。

LMArena是一个开源工具,用户可以通过并排、盲测的方式,比较不同大语言模型的表现。在这个竞争最激烈的“斗兽场”里,Grok 4.1取得了惊人的成绩:

· Grok 4.1的“思考模式”(代号:quasarflux)以1483 Elo的成绩位列总榜第一,领先所有非xAI模型31分。

· Grok 4.1的“非推理模式”(代号:tensor)无需使用“思考词元”(thinking tokens),可立即生成回答,并以1465 Elo的成绩排名第二。

· 更夸张的是,Grok 4.1的“非推理”模式表现,超过了所有其他模型在“完整推理模式”下的公开排行榜成绩。

与之相比, Grok 4此前在该榜单上的综合排名仅为第33位。

“情商”与“文采”,一个都不能少

除了通用能力,xAI还强调了新模型在“软实力”上的提升。

· 情绪智能(Emotional Intelligence) 为评估模型在个性与人际互动方面的进展,xAI对Grok 4.1进行了EQ-Bench3测试。这是一项由LLM作为裁判的测试,用于评估模型在主动情绪智能、理解力、洞察力、共情能力和人际技能方面的表现。

· 创意写作能力(Creative Writing) xAI同样测量了Grok 4.1在Creative Writing v3基准测试中的表现。在该测试中,模型需要根据32个不同的写作提示,在3次迭代中生成回答。

更少的“幻觉”

快速响应模型在配备搜索工具后,虽然能迅速给出答案,但更容易出现事实性错误。

在Grok 4.1的后训练阶段,xAI重点降低了模型在信息查询类提示中的事实性“幻觉”。

根据xAI的说法,Grok 4.1出现幻觉的概率是此前模型的三分之一,这使其成为xAI迄今为止的最佳版本之一。

为了验证这一点,xAI不仅在真实的生产流量中进行了评估,还使用了FActScore——一个包含500道新万博体育:人物传记问题的公开基准测试。

挑战与未来:真正的对手还在路上

尽管Grok 4.1的“盲测”成绩斐然,但AI的王座之争远未结束。

目前,我们尚不清楚它与GPT-5.1相比的真实表现。

更重要的是,谷歌(Google)正在准备发布Gemini 3.0,这可能会成为迄今为止最强大的模型。

Grok 4.1的发布,无疑是马斯克在AI竞赛中投下的一枚重要棋子。但在这场“神仙打架”的牌局中,谁能笑到最后,还远未可知。(易句)

(本文由AI翻译,网易编辑负责校对)

??时事1:泰达足球俱乐部

??11月15日,湖南郴州:设社区“零工驿站” 打造15分钟就业圈,

  (二)加大资金投入,城镇建设取得新突破

,kb体育app官网。

??11月15日,广西平果哈嘹足球队赴文莱参加友谊赛 足球为媒促人文交流,

  “真香!”孩子们生起一堆火,在湖边烤鸟蛋,跟毛球一起享用美餐。

,亚盈体育主页官网,澳门js国际网3016,188体育体育下载。

??时事2:爱博好玩吗?

??11月15日,上海消保委2023年受理消费者投诉41万余件 涉及医美等多个方面,

  老师们,明天暑假就正式开始了,暑假中也没有远程研修任务,所以大家可以好好休息一下,让紧张了一学期的身心得到放松。下面我想重点强调以下几个问题:

,188金博网app下载,bwin世界杯玩法,ballbet贝博登陆备用。

??11月15日,沪港启智未来 2024上马启智儿童慈善跑在沪举办,

  三委会换届后,一大批思想作风好,工作能力强,文化知识渊,为民办事勤的同志走上了村级领导岗位,使村里领导班子更加团结,干群关系更加密切,民主管理更加规范,为促进村里进一步发展奠定了扎实的基础,但我们也注意到,个别村在三委会换届后给村级组织建设带来了新的情况,为此,我们要以这次培训班为契机,进一步加强农村基层组织建设,为建设和谐提供强有力的组织保证。

,ag线上下载,BOB快速登陆,葡京客户端下载。

??时事3:腾博会投注世界杯

??11月15日,习言道|金融监管要“长牙带刺”、有棱有角,

  补天阁上下,原本士气低落,现在见到曾经的门人回来,莫不热血澎湃,激烈冲杀,大战各路敌手。

,jdb电子夺宝试玩,manxbetx用户登录,银河官方网。

??11月15日,万千气象看福建·唱响海上牧歌丨闽海扬波:福州海洋经济展现强劲动力,

  “阿云!”

,球探比分 网球,太阳2在线登录,爱博快速登陆。

??时事4:篮球投注app

??11月15日,台湾花莲县海域发生5.0级地震 震源深度20千米,

  赤曦闪烁,剑鸣震耳,那柄赤剑第一个冲起,飞向高天,划出一片红艳艳的光,如晚霞般。接着洁白光辉一闪,一柄白色的玉剑冲霄。而后,紫气氤氲,蒸腾而上,一口紫剑长鸣。

,多宝app官方,e世博app下载,华球足球比分。

??11月15日,中方:祝贺春节申遗成功,欢迎各国朋友到中国体验丰富多彩的春节文化,

  “青大婶你没事吧?”小不点跑了回来,见到青鳞鹰的伤口处插着一杆铁矛,还有几支铁箭,心疼的眼泪都快落下来了。

,ty天游官网,利升棋牌游戏,半岛体育官方入口。

责编:杨强耕

审核:邱玲

责编:王凌羽

相关推荐 换一换