(6分钟深度分析)ca88亚汌城娱乐鸿蒙版v39.03.50.80.657.4.76.45-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

2025-11-02 06:49:58
来源:

猫眼电影

作者:

李冀平

手机查看

  猫眼电影记者 郑玉琳 报道Q8X2R7L1T4J5M9B6W3

智东西作者 陈骏达编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。

不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。

Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。

我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。

智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。

既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。

这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。

在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。

对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。

开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。

在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。

不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。

已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。

也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。

不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?

结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

??时事1:im体育官网登录

??11月02日,探寻贵州思南“亿元村”的致富密码:一颗红薯的全产业链之路,

  “天啊,不,这是什么凶兽,怎么会如此强大?”

,线上信誉app。

??11月02日,和谐共生|“为子孙后代留下可持续发展的‘绿色银行’”,

  同学们,从今天开始大家就进入了正常的学习生活,学校的各项评比也将开始,希注意遵守学校的要求,坚持每天佩戴领巾,搞好个人卫生,各班的卫生区及时清扫,班级文化认真布置,听从老师的教育教学安排让我们鼓足,奋发进取,为我们每个人心中的理想而努力吧!

,168亚洲体育官方网站,大发注册送28,蛇报B。

??时事2:天牌棋牌

??11月02日,深山藏古刹 泰山玉泉寺千年银杏树金黄满枝,

  第二、作风问题解决不好,损害党和政府的形象,影响经济发展,贻误个人成长。作风问题无小事。重视作风建设,是我们党的优良传统。党和政府在群众心目中的形象,很大程度上是通过各级干部的作风表现出来的。干部作风歪了、形象坏了,群众就与你远了,你说话就没有号召力,没人听,政府出台的措施就无法在群众中得到贯彻落实,搞建设、办事业就得不到强有力的支持。在招商引资工作中也是这样。招商引资需要一个好的投资环境。好的环境靠什么来营造?靠完善的制度,靠优质的服务,归根结底靠广大干部好的作风。干部作风不实,就会成事不足,败事有余,给投资客商造成恶劣影响,给当地经济建设带来巨大损失。

,AG视讯,12bet登录,世界杯下注用什么。

??11月02日,合肥机场将恢复或加密多条国际客运航线,

  小不点落泪,伸出一只手,主动抓住了那只小手,用力的握紧,而后一起放在了老人那粗糙的大手中,轻声道:“祖爷爷请放心,我会照顾好他的!”

,狮子老虎棋牌官网,禁肖-禁尾图,排球比分直播网188。

??时事3:必博体育官网平台app

??11月02日,福建东侨:电商+文创 让特色产业更“出圈”,

  时间不长,这数十头猛兽与异禽全部倒在了血泊中,或是被斩掉了头颅,或是被截断了躯体,非常的霸烈!

,世界杯买球赚钱吗知乎,OB欧宝app下载,E世博网址。

??11月02日,一路“铜”行 27名华裔青少年安徽“寻根”,

  紫山昆、雷明远等人从这里走过,闻言全都翻白眼,都这是什么啊,居然讨论这个。

,万博电竞平台正规吗,可以买角球的买球平台,im体育官网是多少。

??时事4:五人牛牛游戏

??11月02日,西甲希望杯中国昆明赛开赛 12支中西足球队角逐春城,

  突然,伏在地上、重伤垂死的青鳞鹰,倏地睁开了眼睛,双翅一振,狂风大作,冲天而起,半米多长的鸟喙青光刺目,一轮月亮成型,迅速飞出。

,世界杯网上如何投注,九州BET登录,欧亿娱乐主管q44144。

??11月02日,拥有全球最长126米叶片海上风电机组有哪些黑科技?,

  “稍等,我们要确认下这到底是不是灵族。”一个浑身都被黑色斗篷所遮住的神秘人从辇车那里走来,他话语沙哑。

,ob体育官网,MG电子赌场网站,下载皇冠体育手机app。

责编:汤姆-克鲁斯

审核:罗捧

责编:李淑姣

相关推荐 换一换