(6分钟全面认识)曾女士成语生肖苹果版v96.87.76.38.61.11-2265安卓网_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

刚刚,阿里祭出Qwen3超大杯思考模型,数学考试满分,实测竟成token“吞金兽”

2025-11-02 10:32:22
来源:

猫眼电影

作者:

凯特-布兰切特

手机查看

  猫眼电影记者 马庆钰 报道Q8X2R7L1T4J5M9B6W3

智东西作者 陈骏达编辑 李水青

阿里的“超大杯”思考模型,终于现身了!

智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。

不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。

Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接:

chat.qwen.ai/?thinking=true

API调用:

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。

我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。

不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。

智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。

既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。

可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。

这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。

在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。

对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。

开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。

在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。

不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。

已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。

也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。

不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?

结语:Qwen3-Max系列模型,期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。

今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。

??时事1:半岛官网入口网页版

??11月02日,中国科技创新能力稳步增长(国际论道),

  远远望去,那个方向散发着冲霄的光芒,波动如海,宛若有一座永恒的神炉在天地间燃烧,如同神明出世,照亮了四方。

,球探网现金网址大全。

??11月02日,第二十八届香港国际影视展开幕,

  六、合作方式。主要分两部分,第一个就是非洲配送,非洲配送的主要模式就是直销。所谓直销不用我解释,大家都清楚。在超市看样订货。价格要求,因为我们之前所采购的百货商品大部分都是义乌采购,建材类的都是从广州采购。为了感谢芜湖政府对我们安徽外经在芜湖筹建的外经广场,德胜广场的支持。支持我们在芜湖筹备天地亿万多超市,并利用芜湖港口先天的条件像非洲配货,我们将采购点搬至芜湖。我们对价格的要求,要比同期义乌市场价格要低,至于产品的质量要求,必须符合行业和国家的规定。另外出口的商品包装必须符合出口要求的包装。小杂件你必须要纸箱,大的易碎品你必须要木箱,必须要贴唛头,标签。我们可以给你们提供样品,运输模式,我们有三种模式。第一个是直配厂家,第二个运到指定仓库,第三个是运到指定港口。

,金沙集团下载app,十大真钱官方,老k游戏官网。

??时事2:亚洲必赢国际

??11月02日,建行多个项目荣获首届产融合作数据模型算法大赛奖项,

  领导干部的权力是人民赋予的,是党组织安排的。是把人民赋予的权力视做为人民服务的手段,还是把它当作谋私利的工具,这是衡量权力观正确与否的分水岭。“权力”是一把双刃剑,行使正确就能得到人民的公认和尊重,否则,它会使领导干部脱离群众,甚至让人身败名裂。所以领导干部只有把群众的利益放在第一位,坚持群众的利益高于一切,每干一件事、完成一项工作,都要始终把群众拥护不拥护、答应不答应,作为一切工作的出发点和归宿点。绝不允许每项工作首先考虑自己的得失和小圈子的利益,而不顾大局。要认真执行村务公开、民主管理和“四议两公开”工作法的各项规定,切实促进社会和谐稳定。

,新葡萄棋牌官方网站能玩吗,亚星官网平台入口,金沙澳门游戏网址。

??11月02日,台湾移工人数创新高 舆论指不能只引进不管理,

  另一个仆人道:“我听说,小少爷并不是那个石子陵的子嗣,真正的身份其实是那位将离世的老怪物的血亲后人,在这里顶替而已。”

,世界杯决赛投注规模,澳门金沙官网网址最新,天博体育登录不上去。

??时事3:新萄葡app

??11月02日,文化中国行·长江之歌丨烟火日常里,游出最威风最华丽的龙,

  同学们,生命不打草稿,人生没有彩排,人生总是在不断地超越自己,生命总是在拼搏中熠熠闪光,深夜的孤军奋战,夏日的涔涔汗水,父母的声声叮咛,老师的殷切期盼,都将化作无穷的动力,催促你的前行,鼓励你成功。最后希望同学们明确目标,全力以赴,不骄不躁,沉着冷静。全身心投入到复习备考当中,以最佳的心理状态和昂扬的斗志去迎接学考。希望大家在最后的30天里,自信拼搏,挑战自我,科学备考,铸就辉煌。30天可以改变一切,30天可以创造奇迹。祝愿大家顺利通过学考,成功属于你们。

,乐鱼体育官方平台,多宝开户,万博官网入口。

??11月02日,中领馆:向符合条件的柬埔寨商务人员颁发“澜湄签证”,

  两者遭遇,爆发出了赤、蓝两色神光,惊起滔天骇浪,席卷了这片天地,宛若火山喷涌,高山崩塌,剧烈抖动。

,贝斯特官网最奢华游戏,亚娱网投平台,可来博。

??时事4:新宝足球投注网

??11月02日,联合国糖尿病日|每10个人就有1人患糖尿病,和吃甜食多有关系吗?,

  “不能!”一群人同时回答,声音响亮,无论怎么看,都是在笑话他。

,mgm平台网址,棋乐棋牌手游大厅,凤凰彩票平台网站。

??11月02日,太原汾河湿地迎来越冬白鹭,

  不要畏惧对手的强大,你的对手只有自己。

,能赚钱的捕鱼游戏,贝博在线充值,蛊真人英文版起点国际。

责编:张勉

审核:韩惠

责编:青玉琮

相关推荐 换一换