刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

智东西作者陈骏达编辑李水青

阿里的“超大杯”思考模型，终于现身了！

智东西11月4日报道，刚刚，阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点，但它已借助工具使用和测试时计算，在AIME 2025和HMMT（哈佛-MIT数学锦标赛）等具有挑战性的推理基准测试中，达到100%的准确率。

不过，这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”：在11月2日的23点54分，林俊旸便发文“它来了，你们可以试试”，配图是开启思考模式的Qwen3-Max。

Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育：信息，模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称，随着训练的继续，新万博体育：版本将会推出。

用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍，Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合，在思考模式下，模型在智能体编程、常识推理，以及数学、科学和通用领域的推理能力等方面都有显著提升。

体验链接：

chat.qwen.ai/?thinking=true

API调用：

https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview

值得注意的是，Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态，并选择以输出“限时免费”的模式对外提供API服务。

我们在体验中发现，Qwen3-Max-Thinking早期预览版的确挺费token的，如果不是限时免费输出的话，使用成本或许会较为高昂。

不过，该问题是可以用自带的思考预算控件解决的，用户可以在1024-81920个token的思考预算区间内随意切换，直接控制模型的推理长度。

智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型，用户需要在左上方选择Qwen3-Max，并开启输入框中的Thinking模式。

既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分，我们便拿这场竞赛难度最高的压轴题，来考察该模型的数学推理能力。

可以看到，Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案，不断验算，不断以新的方式解题目，甚至调用了代码解释器，从多种角度证明了其结果。

这一过程耗时大概4-5分钟，不过确实保证了答案的完全正确。将这一结果放到token计数器后，大致计算出其对应的token用量在1.2万-1.5万之间。

在智能体编程任务上，我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。

Qwen3-Max-Thinking早期预览版能准确分析用户需求，输出所需的网页。网页设计简洁清晰，也符合开源项目分享网站的基本使用需求，就是在样式和字体选择上略显粗糙。

对于其输出的网站结果而言，Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上，这一模型使用了整整1417行代码完成了任务。

开启深度推理的DeepSeek-V3.2生成了如下网页预览，代码源文件中包含787行代码。

在常识推理类任务上，Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。

不过，平心而论，此类题目Qwen-3-Max也能轻松解决，只需要几十个字。

已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈，这一模型的回复更为直接、切中要点，也更为“商务”，几乎避开了所有“人性化”的情感。

也有网友在自己打造的“randombench”基准测试上，考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题，在这一基准测试上，此前只有GPT-5（思考模式）和Grok 4达到了相同的水准。

不过，广大网友们最关心的问题，或许还是：到底啥时候上Hugging Face？

结语：Qwen3-Max系列模型，期待拉满

阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一，在社交媒体的评论区中，已有不少网友开启催更模式。

今年9月5日，阿里上线Qwen3系列最强模型Qwen3-Max的预览版本，这也是阿里迄今为止最大的模型，参数量超1万亿。

此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力，其在数学竞赛上的满分表现就是例证之一。在定位上，这或许就是一款专为高难度推理而生的模型，并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果，其整体表现仍有待观察。

《黄色电影三级片a片》，《Q8X2R7L1T4J5M9B6W3》

91在线视频国产福利试看

“加勒比色综合久久久久久久久”

91大视频

……

11月04日

“性生大片免费观看视频网站一”颜宁丘成桐有新身份

↓↓↓

感冒后千万别做这3件事，是四海重明

11月04日，中巴经济走廊农业合作项目首批进口干辣椒入库四川内江，欲漫天堂，最新a片在线，一级a一级aA片免费，欧美成人在线播放免费

11月04日，庐山脚下的千年石岛落星墩"水落石出”（高质量发展调研行）浙江桐庐深澳村：品味非遗之韵，午夜三级片视频在线观看，日韩欧美一中文字宇幕，18禁黄网站禁止免费观，1313久久午夜精品片

11月04日，“‘一带一路’国家气象培训中心”在香港成立，黑色奶头喷奶水在线观看，纲手脱衣露奶，国产精品主播，日本人添奶添泬视频

11月04日，青海省“果洛州青少年管乐团”赴鲁展演并获奖，一级黄色视频免费观看，一级A片色试看10分钟免费的，亚洲精品91免费国产，Av毛片午夜专区色欲AV

11月04日，雪中临汾汾河景区看自然与人文的交响，日韩一本无码福利视频，超薄丝袜足j一区二区三区，少女双乳91无套视频，人人爽，人人插入

11月04日，“欢乐春节”系列活动在纽约启动，姐姐的裙子掉了第几集，男人女人一级a性视频，一区二区国产，国内精品久久久久久tv国内精品

11月04日，“五一”假期海南离岛免税购物金额5.47亿元，2019亚洲中文字幕，国产三级毛片，18岁禁看网，第一章初尝人妻苏琴的味道

11月04日，北京创建首批“骑手友好社区” 小哥们体验如何？，欧美日韩老妇女人，六十叠韵母交尾，美国一级婬片A片免费看30分，性乂乂乂少laolao

11月04日|安徽绩溪：大美鄣山人间景峡谷秀水称绝色|性生活黄色视频|久久奈|欧美性视频一级真人视频|李小白 | vK

监制：邓金木

策划：赖晗

主创：唐征宇林箴贺陈佛烘颜亦阳陈林韵

编辑：王家菁、段圣祺

新万博体育

下载APP

全部

刚刚，阿里祭出Qwen3超大杯思考模型，数学考试满分，实测竟成token“吞金兽”

热门视频