智东西作者 陈骏达编辑 李水青
阿里的“超大杯”思考模型,终于现身了!
智东西11月4日报道,刚刚,阿里发布了Qwen 3系列中最强推理模型Qwen3-Max-Thinking的早期预览版。尽管这一模型只是一个训练的中间检查点,但它已借助工具使用和测试时计算,在AIME 2025和HMMT(哈佛-MIT数学锦标赛)等具有挑战性的推理基准测试中,达到100%的准确率。
不过,这一模型其实已经在通义千问负责人林俊旸的个人社交媒体账号上获得了“超前点映”:在11月2日的23点54分,林俊旸便发文“它来了,你们可以试试”,配图是开启思考模式的Qwen3-Max。
Qwen团队并未透露Qwen3-Max-Thinking早期预览版的新万博体育:信息,模型也并未在Hugging Face、魔搭等平台开源。Qwen团队称,随着训练的继续,新万博体育:版本将会推出。
用户可在Qwen Chat和阿里云API中试用Qwen3-Max-Thinking早期预览版。API调用界面介绍,Qwen3-Max-Thinking早期预览版实现了思考模式与非思考模式的有效融合,在思考模式下,模型在智能体编程、常识推理,以及数学、科学和通用领域的推理能力等方面都有显著提升。
体验链接:
chat.qwen.ai/?thinking=true
API调用:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview
值得注意的是,Qwen3-Max-Thinking早期预览版仅支持文本到文本这一模态,并选择以输出“限时免费”的模式对外提供API服务。
我们在体验中发现,Qwen3-Max-Thinking早期预览版的确挺费token的,如果不是限时免费输出的话,使用成本或许会较为高昂。
不过,该问题是可以用自带的思考预算控件解决的,用户可以在1024-81920个token的思考预算区间内随意切换,直接控制模型的推理长度。
智东西在Qwen Chat中体验了Qwen3-Max-Thinking早期预览版的能力。要使用这一模型,用户需要在左上方选择Qwen3-Max,并开启输入框中的Thinking模式。
既然Qwen3-Max-Thinking早期预览版在AIME 2025上拿下了满分,我们便拿这场竞赛难度最高的压轴题,来考察该模型的数学推理能力。
可以看到,Qwen3-Max-Thinking早期预览版在其思考过程反复输出了正确答案,不断验算,不断以新的方式解题目,甚至调用了代码解释器,从多种角度证明了其结果。
这一过程耗时大概4-5分钟,不过确实保证了答案的完全正确。将这一结果放到token计数器后,大致计算出其对应的token用量在1.2万-1.5万之间。
在智能体编程任务上,我们尝试让DeepSeek-V3.2和Qwen3-Max-Thinking早期预览版完成相同的任务——开发一个开源项目分享网站的HTML原型。
Qwen3-Max-Thinking早期预览版能准确分析用户需求,输出所需的网页。网页设计简洁清晰,也符合开源项目分享网站的基本使用需求,就是在样式和字体选择上略显粗糙。
对于其输出的网站结果而言,Qwen3-Max-Thinking早期预览版消耗的token数量明显偏多。反映到代码数量上,这一模型使用了整整1417行代码完成了任务。
开启深度推理的DeepSeek-V3.2生成了如下网页预览,代码源文件中包含787行代码。
在常识推理类任务上,Qwen3-Max-Thinking早期预览版能很容易地绕开逻辑陷阱。
不过,平心而论,此类题目Qwen-3-Max也能轻松解决,只需要几十个字。
已经有不少网友用上了Qwen3-Max-Thinking早期预览版。有网友反馈,这一模型的回复更为直接、切中要点,也更为“商务”,几乎避开了所有“人性化”的情感。
也有网友在自己打造的“randombench”基准测试上,考察了Qwen3-Max-Thinking早期预览版的表现。Qwen3-Max-Thinking早期预览版能解答高难度的推理问题,在这一基准测试上,此前只有GPT-5(思考模式)和Grok 4达到了相同的水准。
不过,广大网友们最关心的问题,或许还是:到底啥时候上Hugging Face?
结语:Qwen3-Max系列模型,期待拉满
阿里的Qwen3-Max系列模型已经成为当前AI业内最广受期待的模型之一,在社交媒体的评论区中,已有不少网友开启催更模式。
今年9月5日,阿里上线Qwen3系列最强模型Qwen3-Max的预览版本,这也是阿里迄今为止最大的模型,参数量超1万亿。
此番发布的Qwen3-Max-Thinking早期预览版在推理方面展现出强大的能力,其在数学竞赛上的满分表现就是例证之一。在定位上,这或许就是一款专为高难度推理而生的模型,并不一定适用于所有使用场景。目前阿里尚未放出完整的基准测试结果,其整体表现仍有待观察。
《精品视频免费看》,《Q8X2R7L1T4J5M9B6W3》人情债偿还系统
“草莓+丝瓜+黄瓜+向日葵+榴莲”
黄色视频日本a级久久
……
10月29日
“国产美女免费黄网站”乒乓女单赛后网民发诋毁信息被刑拘
↓↓↓
10月29日,2023年中国持枪爆炸犯罪案件同比下降20%,胡桃被旅行者焯,狂野欧美激情性XXXX尿,性感美女操逼,动漫女被 喷水漫画
10月29日,辽宁大连:寒潮中3名渔民遇险 救助船大风浪中成功施救,一级性爱免费看,强行给女学生洗澡视频,99视频网,女同久久另类99精品国产
10月29日,戴龙成当选侨乡莆田市市长,超污黄色十八禁视频网站在线观看五女人操白浆蜜臀,A片日韩欧美激情性不一卡,中文国产亚洲字幕,男生 捅进女生的 里
10月29日|特朗普宣布马斯克与拉马斯瓦米将领导“政府效率部”|乖,叫大声点,h(高h)|真人激情做爱视频|爬爬虾成人无码免费|国产一级黄色视频美女托光毛片精品
10月29日|通讯:“我在马东铁守护家乡环境”|jizz国产激情黄色片|嗯啊无码网站|黄色A片久久九四频道播放|欧美亚洲激情性爱一区二区
10月29日|博物馆火了,然后呢?|国产又大又粗又猛视频网站|三级网站在线观看官网|亚洲欧美中文字幕一区|美女裸黄色网站……
10月29日,陕北民歌公益推广活动·榆阳区专场在京举行 带来地道陕北风情,欧美黑人性爱AA一区二区日韩性交,申鹤被 到爽 高潮痉挛漫画,全亚洲第一福利网站,国产精品午夜福利欧美一区
10月29日,2023年云南铁路全年和高峰日旅客发送量双创历史新高,在线播放免费人成视频网站c,在线看片福利,多田有花和小泽一郎最经典的一句,一道本视一区二区视频下载
10月29日|中外科学家揭秘二叠纪末生物大灭绝新发现|欧美视频专区一|国产.com|黄色官网官网一级|免费91视频
10月29日,混团世界杯中国队五连胜 王楚钦:面对单打心态更好,欧美牲交一级A片人与牲口,亚洲一级二级黄色视频,www.avv,原神3D同人18 动漫网站
10月29日,财政部:2023年中央财政安排基本养老保险补助资金约1万亿元,女人久久一级,欧美黄片免费手机在线,美女裸身操逼爆乳照逼爆,白丝jk爆❌❌乳❌❌❌的网站
10月29日,因为这件事,美国公民自由联盟起诉美国政府,女子穿白袜子格斗,国产真实破苞在线播放开裆,18 出水,白丝高中生被塞到爽哭
10月29日|四川康定山洪泥石流灾害已致12人遇难、15人失联|自拍一区在线观看|又黄又大视频在线看91|欧美就去干|黑人巨鞭躁女人屁股眼
10月29日|腾龙“飞”入博物馆 浙江嘉兴汉画明瓦迎新春|berazzersHD2023最新版的特点|屁眼影院|cekcp俄罗斯bn几e怎么读|国产激情欧美专区
10月29日|【众行致远】习言道|一图读懂:APEC为何如此重要?|人人射人人摸视频|黄色国产在线|国产精品制服丝袜无码专区中文字幕|男女交性高清全过程无遮挡
怪人的沙拉碗,烧伤妈妈今日将在ICU度过生日|2024年中国杂技大联欢完成录制 多形式展现中华“龙文化”|菠萝导航|九幺抖音版在线观看|丁香五月天婷婷综合|在线你懂的亚洲国产
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺