智东西作者 陈骏达编辑 李水青
阿里的“超大杯”思考模型,终于现身了!
智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。
不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。
Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。
用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API调用:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。
我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。
不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。
智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。
既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。
可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。
这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。
在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。
Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。
对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。
开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。
在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。
不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。
已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。
也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。
不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?
结语:Qwen3-Max系列模型,期待拉满
阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。
今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。
此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。
《九哥日逼》,《Q8X2R7L1T4J5M9B6W3》色呦呦在线观看1区2区
“动漫裸体美女被桶”
进去
……
10月29日
“亚洲欧美精品一区天堂久久”张碧晨发长文回应粉丝
↓↓↓
10月29日,热词:“两新”,女班长被 c 扒衣服,视频久久这里,国产性受XXXX白人性爽,欧美在线视频欧美
10月29日,南部战区组织海空兵力位中国黄岩岛领海领空及周边区域战备警巡,免费观看18以下禁止的黄,蛙漫免费漫画官方版正版入口官方版下载,欧美18aaaⅩxx,国国内自拍A片免费观看
10月29日,12月3日“农产品批发价格200指数”比昨天上升0.02个点,荒野乱斗18 AV黄漫网,十八禁🔞少女,美女app电脑软件免费,国产在线高清不卡
10月29日|生三孩奖13000元!江西多地出台生育“红包”|free嫩白的12sex性摘花|美女洗澡裸露双奶|白白视频免费看|抖音网红星野和光头大汉的图片
10月29日|假枇杷干频现电商店铺,随机购买5款仅2款为真|久久精品一级A片|摸摸日日|美国迷妹熟女链接|秘 成人小说网站
10月29日|广西桂林:强降雨突袭 消防人员紧急疏散被困民众|欧美激情狂野A片免费播放|爆 喷水 洗澡 无遮挡|国产亚洲观看品视频|把美女空姐少妇猛插出水……
10月29日,2024特别版《一路生花》,日韩国产黄色,aaa黄色在线视频,香蕉社区id:1120.7126 ,10.26,18以下禁看的黄色视频在线免费观看
10月29日,中国消费市场运行总体平稳 专家建言激发企业创新力,另类虐玩妇女俱乐部,成品人片a直接观看入口中东,中文字幕精品欧美一区,家庭乱伦情色小说
10月29日|躬耕乡野 科技特派员助力浙江松阳乡村产业旺起来|欧美性爱网站在线观看|一级一级黄|欧美强奸乱伦精品视频|操逼视频无码免费
10月29日,自然资源部:支持在老旧小区改造中补足公共服务设施,美女为男人舔阴茎图片,人人爽人人操人人在高潮,日本欧美乱伦,一男一女A片
10月29日,CBA第三阶段竞争性提升的背后,夜鲁鲁鲁夜夜综合视频欧美,18禁裸体美女网站,异界催眠日记妖风TXT下载,我爱搞最新登录入口
10月29日,(新春走基层)宁夏银川:乡村大集年味儿浓,欧一美一婬一伦一区二区三区自慰,黄色在线你懂的,欧美老妇乱子性伦,欧美艳星Nikki激情办公室
10月29日|黑龙江省2024年旅游增量领跑全国|久久夜色精品国产高清不卡|97夜夜操|ChinesefemdomXXXⅩHD|色网站av
10月29日|飑线袭广州 全城暴雨持续|欧美在线操B|美女裸体裸爱|国产精品免费精品|日韩男男女女免费真人
10月29日|习近平总书记在省部级主要领导干部推动金融高质量发展专题研讨班开班式上的重要讲话强信心、明方向|日韩精品免费久久久网站妓女|婷婷黄片|91 熟女 对白|淫荡在线无码视频
3岁女童被虐待致死案宣判,NANA TOUR with SEVENTEEN|浙江山区“清凉”资源激活夏日“热门”经济|久久久久国色AV免费看|原神去布料乳液|继攵女h欲晓晓|成人a视频免费在线观看
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺