澳门皇冠 下载,以简单为核心,却拥有强大的功能与丰富的内容_新万博体育

新万博体育

图片
搜索
猫眼电影 融媒体矩阵
  • 山东手机报

  • 猫眼电影

  • 大众网官方微信

  • 大众网官方微博

  • 抖音

  • 人民号

  • 全国党媒平台

  • 央视频

  • 百家号

  • 快手

  • 头条号

  • 哔哩哔哩

首页 >新闻 >社会新闻

给阿里千问一个“客观估计”——围绕QWen3的大模型横评

2025-11-15 22:12:13
来源:

猫眼电影

作者:

汪远更

手机查看

  猫眼电影记者 胡安琪 报道Q8X2R7L1T4J5M9B6W3

导语:Qwen3 旗舰模型已进入全球第一梯队、国内Top 2–3的行列:综合能力略低于Gemini3、GPT-5.1和Kimi K2 Thinking,但与Grok 4.1、Claude Opus 4.1属于同档。

阿里近期发布的千问App引发了外界的关注,其背后的Qwen3大模型与国际和国内几大模型的性能对比,到底水平如何?对用户来说又该如何根据不同的任务来选择不同的大模型?今天给大家做个对比与总结。

01 Qwen3的基本面

阿里在今年推出的第三代大模型Qwen3,是千问App的核心底座。它有几个关键特点:

一、体量和架构

Dense模型:从0.6B一直到32B;

MoE旗舰:Qwen3-235B-A22B(235B 总参数、22B 活跃参数),相当于“参数巨舰+算力省电”。

二、训练规模

训练数据约36万亿token,覆盖119种语言/方言。对数学、代码、STEM推理做了额外强化。提供“Thinking 模式”,类似GPT-o1 / DeepSeek-R1那种显式推理版。

三、应用形态

包括文本对话、写作、代码、多模态(图像/文档/表格),长上下文版本能支持百万级token,对长文档场景很友好。

千问App由于面向C端,通常会使用类似“Qwen3-Max / Qwen3-235B旗舰+ Thinking版”的组合。

02 拿什么“尺子”来衡量Qwen3?

使用如下指标来测评Qwen3的水平:

Artificial Analysis Intelligence Index(AA 指数)

AA指数把MMLU-Pro、GPQA、HLE、LiveCodeBench、SciCode 等十几个高含金量基准融合,

最后给每个模型一个0–100 的综合“智能分”。这个分数目前是国际上最常被引用的大模型“总评分”之一。

LMArena / Text Arena(人类盲评Elo榜)

采用大量真实用户不看模型名,只看回答,投票哪一个更好的方法,用Elo评分来排名,更偏“真实使用体验”的维度。

除此以外,还会使用一些单项基准来进行评测:

AIME2025:竞赛级数学;HLE(Humanity’s Last Exam):极难综合考试;LiveCodeBench/SciCode:偏实战的软件工程与科学代码;以及其它经典的MMLU、GSM8K、HumanEval 等。

本次评测主要围绕AA榜+人类盲评榜,再辅以少量专项基准,尽量做到客观公正。

进入“顶级区”,但天花板依旧。

AA指数:按目前公开信息,各主流大模型的AA指数得分可以见下表:

注:在AA《State of AI: China Q2 2025》里被列为“最佳非推理 LLM”之一,分数带星号表示部分基于厂商数据估计

就以上得分看,Qwen3的旗舰版本已经站在Grok 4.1和Claude 4.1的身边,但和Gemini3 Pro、GPT-5.1、K2 Thinking之间,还维持着7–10分左右的差距——这在顶尖模型之间,依然是能感知的差距。

人类盲评Elo榜:评测结果是Gemini3 Pro和Grok4.1(Thinking)轮流占据榜首附近。GPT-5.1、Claude 4家族也稳居头部。Qwen3旗舰的打分虽然略低于这些“榜一大哥”,但确实已经混在第一梯队前列,和它们同一张榜单抢票。

更直观的表述是:真正让海外开发者和研究者投票时,用户已经可以感受到:“Qwen3是强模型,和GPT-5 / Gemini3这一线对比,体验上不会拉开巨大差距。”

再看几个单项评测:

AIME 2025:竞赛数学

测试结果大致排序是:GPT-5 Codex (high) ≈ GPT-5.1 > Kimi K2 Thinking > Grok 4 > Qwen3 235B > Gemini 2.5 / Claude 4 系列。

可以理解为,Qwen3在高难数学上是第一梯队,只是在“竞赛数学+推理特化”的场景中,GPT-5.1 / K2 / Grok 4这些“卷数学的怪物”更强。

HLE:超难综合推理

在这个测试中,Kimi K2 Thinking和GPT-5家族在HLE里表现最扎眼。Qwen3和GPT-4.1/Grok-3/Gemini-2.5 Pro这一代差不多,略有提升。测试结果意味着,Qwen3在极限综合推理上没拉胯,但也不是拿第一的那个。

LiveCodeBench / SciCode:工程代码&科学代码

在工程代码方面,GPT-5.1?K2 Thinking? Grok4≈Gemini2.5Pro> Qwen3≈DeepSeek-V3.2。在科学代码(SciCode)测试中,差距更缩小,大家都在40%多一点的区间里挤。

也就是说,如果你用千问写代码,它的水平大致就是“略弱一点的GPT-5.1 / K2 / Grok4”,但绝不是上一代那种明显掉队。

03 中国四强对比:Kimi、Qwen3、DeepSeek、豆包

Kimi K2 Thinking的综合智能得分约67分,在AA榜上直接冲进全球前五,由于模型专门强调浏览、工具调用、Agent任务,所以在HLE、BrowseComp等偏“代理”的基准上特别强。

Qwen3的综合智能得分60 分左右,各方面比较均衡。DeepSeek-V3.2-Exp的综合智能约57分,特点是国产芯片适配、长上下文性能、推理能效方面做了优化,为中国算力环境量身定制。

豆包1.5 Pro(非推理版),AA China Q2 报告中给出的智能指数约 48*,在非推理模型里属于头部,且被列为“最佳非推理大模型”之一;但其推理版(Thinking)目前还没有完整的AA综合分公开。

综合分数上:K2 Thinking > Qwen3 > DeepSeek-V3.2 >豆包1.5Pro。但如果从“算力成本+国产芯片环境”出发,DeepSeek就有独特位置,而Qwen3则在“生态+稳健通用能力”上更加均衡。

04 用户的视角

日常问答、写作与知识检索

对中文/中英混合的日常用法来说,Qwen3 + 千问App 基本已经是世界级的体验之一。回答速度、知识覆盖、上下文记忆、写作风格都很成熟。和GPT-5.1 / Gemini 3 Pro相比,差距主要在极限长链推理和一些特定专业英文领域。豆包则在自然中文表达、口语化对话、社交媒体语境下的风格更自然,适合做聊天、轻量问答和内容创作。

数学&竞赛级题目

如果用户的使用场景是:竞赛数学、高级逻辑题、极端复杂链式推理等,GPT-5.1、Gemini 3 Pro、Kimi K2 Thinking、Grok 4.1 目前仍然略强。

代码开发

Qwen3 在LiveCodeBench / SciCode 这类基准上的表现,已经是“工程可用”的一线水平。真正大规模做代码重构、复杂调试时,GPT-5.1、K2 Thinking、Grok4在一些数据里略有优势,但Qwen3+好的工具链(IDE插件、CI集成)足以支撑绝大多数团队的日常开发工作。

多模态、文档和表格

这一块是Qwen家族的强项之一:Qwen2.5-VL和Qwen3-Omni在图像理解、PDF/文档解析、表格/图表任务上,经常在论文和评测里拿高分。对用户来说意味着你把PPT、PDF、扫描件、复杂报表丢给千问,它一般能看得比较明白。

??时事1:十大真钱赌场

??11月15日,2023微博之夜收官 以社交之力发挥价值导向作用,

  老师师们、同学们:

,牛牛注册送38元。

??11月15日,女子带宠物上飞机导致航班延误,要赔偿其他乘客吗?,

学校及周边安全教育国旗下 篇15

,万博manbetx手机登录网页,世界杯买球平台叫什么,宝博体育官网链接。

??时事2:鸭博网站

??11月15日,云南正式进入5G-A商用时代 发布十大应用场景,

工商银行信用卡逾期怎么协商本金?需要什么材料?
,足球世界杯 网站推荐,世界杯投注权威颊fc3,tv,果博手机版下载。

??11月15日,广西海警查获特大非法改装大马力摩托艇走私案,

  三是积极协调发展各项事业,推进社会全面进步。要按照“三个统筹”的要求,促进社会各项事业与经济发展紧密结合,不断提高人民群众的生活质量和科学文化素质。要大力实施科教兴乡战略,加强农业科技服务体系建设,大力推广应用先进适用技术,促进科技进步与创新。积极开展各类文体活动,丰富广大群众的业余生活。深化人口与计划生育综合改革,落实农村奖励扶持政策,稳定低生育水平。进一步加强基层民主政治建设,提高党务、村务公开质量,认真落实四议两公开工作法,保证人民群众依法行使民主权利。扎实开展“创先争优”活动,通过活动开展,着力引导和促使基层党组织和广大在服务地区经济发展、推动地区科学发展上创先争优,在务实创新、创造工作业绩上创先争优,在坚持学习、提高能力上创先争优,在改进作风、切实为民服务上创先争优,在从严要求、提升社会形象上创先争优。开展创先争优活动的最终目的,就是要通过活动开展,充分发挥基层党组织的战斗堡垒作用和共产的先锋模范作用,积极推动地区经济发展、促进社会和谐,提升服务群众的意识和水平。全乡各级党组织要以求真务实的作风开展好创先争优活动,不断发挥党组织的创造力、凝聚力和战斗力,为推动我乡科学发展和谐发展率先发展做出新的贡献。在创先争优活动中,各支部要特别注重继续抓好城乡党组织“1+1”结对互帮、承诺制和农村“五强五争创”、“争五星”等党性实践活动,机关支部要切实开展好“四比三优一满意”活动,通过扎实开展“创先争优”活动,达到组织创先进,争优秀,群众得实惠的目的。广泛开展群众性精神文明创建活动,加大公民文明行为教育力度,突出抓好未成年人思想道德建设,倡导健康文明的生活方式。认真组织实施公民道德建设工程,不断提升公民思想道德水平。切实抓好精神文明示范点建设和“三改”工作,加大改厨、改厕、改圈力度,营造家庭文化氛围,提高精神文明建设的总体水平;坚持环境卫生月查季评制度,彻底清理门前“三堆”和垃圾死角,引导广大群众养成文明洁净的良好卫生习惯,为建设社会主义新农村营造优美的生产生活环境。

,顶盛体育靠谱,彩99旧版本2016,皇冠足球app怎么下载。

??时事3:皇冠滚球手机客户端

??11月15日,酒店“先囤后付”划算吗?“0元囤”可能面临这些风险,

  孩子们发出惊呼声,小不点扛回来一头巨兽,十几米长,拥有豹躯,可是却长了一颗可怕的蛟头,即便死去了,依旧在散发着凶威。

,云顶平台首页,皇冠比分90,云博体育app。

??11月15日,智能快递柜为何不“香”了,

  我们党的根基在人民、血脉在人民、力量在人民。我们的村干部来源于农民。我们必须始终坚持全心全意为人民服务的根本宗旨,切实把以人为本、执政为民、服务人民的要求落实到每一项工作中去。要牢固树立群众观点,切实尊重群众意愿,以群众满意为第一标准,以人民幸福为第一目的。要自觉坚持群众路线,经常深入组户,问政于民、问需于民、问计于民,进一步增进群众感情。要深入群众, 竭力争取群众对党委政府、村支部村委会工作的理解和支持,虚心听取群众的合理诉求,及时反映特殊困难群众的真难实苦,真心解决群众反映的实际困难和问题。大力宣传各项强农惠民政策,扎实推进各项民生工程,坚决兑现向群众承诺的实事,千方百计让的老百姓生活得更加幸福,更有尊严。

,世界杯赌球在哪购买,伟德苹果版,缙云游戏中心。

??时事4:滚球竞彩APP

??11月15日,新疆伊宁天鹅湖景区:越冬天鹅成群 画面美不胜收,

  小不点发动攻势,以那轮银月守护己身,令太古魔禽冲起,去迎击敌人。

,买球app排行榜,龙8国际体育APP,万博官方manbext官网。

??11月15日,聚焦APEC中国工商理事会香港论坛:香港如何“链”通世界?,

  上一学年,学校面貌大为改观。塑胶运动场的完工为授牌仪式的成功举办奠定了基础。标准化的实验大楼,完善的实验设备,为学校的科学施教提供了有力保障。校园文化氛围浓厚,体现出我校学生文雅、教师儒雅、环境幽雅、学校高雅的深厚底蕴。学校还添臵了教师办公设备,美化了教师办公室,为教师提供了舒适的办公环境。学校新校区建设正在积极筹备之中。

,伟德体育外围官网,帝臣国际真人打牌,申博真人在线app下载。

责编:沈静文

审核:朱胜利

责编:阿桑奇

相关推荐 换一换