作者 | 辰辰
出品 | 网易科技
疯了,全都杀疯了!这个11月注定要载入AI史册。
Gemini 3的余温还没散,GPT-5.1的热度正当时,就在所有人都以为年度大戏即将落幕时, 一向“人狠话不多”的Anthropic搞了一次从天而降的“偷袭”。Claude Opus 4.5横空出世,直接跳过了常规的宣发流程,用最硬核的产品硬刚对手。
官方直接摊牌:论写代码、论搞智能体,我才是最强的。这究竟是盲目自信,还是底气十足?
下面带你硬核拆解。
1. 核心亮点速览:性能飙升与成本暴跌
Claude Opus 4.5不仅仅是能力的提升,更是一次对效率和普惠性的重新定义。
——性能登顶
Anthropic内部有一项针对“顶尖工程师”候选人的入职测试,以高难度和时间紧迫著称,限时只有2小时。
结果显示:Claude Opus 4.5的得分高于该公司历史上任何一位人类候选人。
注意,这可不止是写出一段代码,而是综合考量技术能力和高压下的判断力。虽然通过测试并不意味着AI拥有了人类的沟通协作能力,但表明在纯技术执行层面,Claude Opus 4.5已经捅破了人类工程师的天花板。
再看行业通用的SWE-bench Verified(真实软件工程基准测试)数据,Opus 4.5以80.9% 的准确率傲视群雄:
· Claude Opus 4.5: 80.9%
· GPT-5.1-Codex-Max: 77.9%
· Claude Sonnet 4.5: 77.2%
· Gemini 3 Pro: 76.2%
在AI编程领域,3个百分点的提升往往意味着从“经常还要我自己改bug”到“这代码写得比我溜”的质变。
Opus 4.5的前端开发、视觉处理能力显著提升,更擅长操作电脑,真实场景的软件工程测试中创新高。
此外,Opus 4.5编写的代码质量更高,SWE-bench Multilingual测试的8种编程语言中,Opus 4.5有7种都处于领先地位。
——价格革命:成本直降三分之二
上一代Opus(Opus 4.1)虽然聪明,但每百万输入Token 15美元/每百万输出Token 75美元的价格简直是“贵到离谱”。
这次Anthropic终于听劝了。Opus 4.5的定价大幅下调至每百万输入Token 5美元/每百万输出Token 25美元。
相比上一代Opus,价格直接砍掉三分之二。
虽然比GPT-5.1(每百万输入Token 1.25美元/每百万输出Token 10美元)还是要贵一些,但考虑到Opus 4.5是专为解决复杂难题打造的“重型武器”,这个价格已经进入了企业和开发者的“甜蜜区”。
这一策略也给竞争对手带来了性能和定价的双重压力。
——效率飞跃:Token用量大幅减少
通过引入可设置高、中、低的“努力程度”(effort)效率参数,Opus 4.5能让开发者在效率和能力之间作出取舍。
在中等努力(Medium Effort)水平下,Opus 4.5在SWE-bench Verified上达到了Sonnet 4.5的最佳分数,但输出Token使用量减少76%。
在最高努力(High Effort)水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点,同时Token使用量仍减少48%。
2. 产品力全面升级:面向日常办公的超强智能体
Anthropic同时发布针对Agent和日常生产力工具的重大更新,让Opus 4.5更具实用价值。
——突破上下文的“无限聊天”
以前和AI聊久了就得重开对话框。现在Anthropic解决了长对话任务的痛点,通过上下文压缩(Context Compaction)和内存管理实现了面向付费用户的“无限聊天”功能。模型会智能地压缩历史对话记忆,有效解决了传统上下文窗口的限制,使Agent任务能够持续运行而不会“失忆”。这对于长周期的项目开发简直是救命稻草。
——Agentic能力与创造性思维
Opus 4.5在智能体任务中展现出卓越的情境管理和高级工具使用能力,甚至能高效管理多智能体系统。
此外在解决实际问题时,模型表现出更像人的“变通能力”。在一项模拟航空客服的测试中,规则是不允许修改经济舱机票,之前的模型因此会直接拒绝客户。但Opus 4.5想到了一个“骚操作”:先帮客户升舱,然后再修改航班。虽然这在测试中因为没守规矩而被判了“失败”,但这种创造性的解决问题能力,恰恰是人类最看重的。
——全新集成与开发工具
· 办公集成:?Claude for Excel现已向Max、Team、Enterprise用户全面开放,支持数据透视表、图表等复杂操作。Chrome浏览器插件也已经向所有Max用户开放。
· Claude Code增强:?引入更精细的 “计划模式”(Plan Mode),Agent会在执行前生成一个用户可编辑的plan.md文件。Anthropic还面向开发者发布了“程序化工具调用”功能,允许Claude编写和执行直接调用函数的代码。同时,Claude Code现已在桌面应用上推出,支持并行运行多个本地和远程会话。
3. 用户测评与各方评价:Opus 4.5究竟“神”在哪?
新模型的发布激起了行业内外的强烈反响。除了官方的基准数据,来自开发者和企业的真实反馈更具说服力。
Anthropic的早期测试者和客户反馈高度一致:Opus 4.5展现出显著增强的判断力和处理复杂模糊任务的能力。
Anthropic开发者关系负责人亚历克斯·艾尔伯特(Alex Albert)提到,测试人员一致认为Opus 4.5在处理复杂的多系统错误时能直接找出解决方案,并能在无需人工干预的情况下权衡利弊,拥有了“一种直觉和判断力”,这标志“质的飞跃”。
企业客户初步验证了效率方面的说法。
· 日本电子商务和互联网公司乐天测试了Claude Opus 4.5在办公任务自动化方面的表现。基于Opus 4.5的智能体仅用4次迭代就达到最佳性能,而其他模型在10次迭代后仍无法匹敌。乐天商业AI总经理加藤裕介(Yusuke Kaji)表示,这展现了其具备“自我改进”智能体的潜力。
· Fundamental Research Labs的报告则称其内部评估准确性提高了20%,效率提升了15%,以前遥不可及的复杂任务现在变得可以实现。
· GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)表示,早期测试显示Opus 4.5超越了内部编码基准,并将Token使用量削减了一半,特别适用于代码迁移和重构等任务。
· 云编码平台Replit总裁米歇尔·卡塔斯塔(Michele Catasta)则盛赞Opus 4.5在内部基准测试中优于Sonnet 4.5和竞品,并强调这种效率提升在规模化应用时会产生复利效应。
从社媒用户反应来看,评价多为正面,大家普遍认为Opus 4.5性能优异,有助于提升生产力。
Andon Labs在社交平台X发布了自己用Vending-Bench 2测试Opus 4.5的结果,显示紧随Gemini 3 Pro之后,位列第二,表现出色。
HyperWriteAI CEO马特·舒默(Matt Shumer)则用Claude Opus 4.5测试生成类似Colab的用户界面。他认为,绝对比之前用GPT-5.1和Gemini 3做的类似测试要好得多。
用户@deredleritt3r则提到,Anthropic公司调查了18名内部员工使用Opus 4.5 + Claude Code后的感受。其中半数员工表示效率翻倍,其中甚至有人认为自己的生产力提升高达220%。
4. 资深开发者深度体验:前沿模型趋同性不可避免
知名开发者和技术评论家西蒙·威利森(Simon Willison)提前拿到了内测资格,他在两天内用Claude Opus 4.5对开源项目sqlite-utils进行了大规模重构。
战绩如下:
· 20次代码提交;
· 修改了39个文件;
· 增加了2022行代码,删除了1,173行代码。
威利森还测试了用Opus 4.5编写代码(SVG)来绘制鹈鹕骑自行车的经典案例。
结果显示,提示词越详细。Opus 4.5的表现就更好。
威利森的评价很中肯:“它显然是一个卓越的新模型。”然而他坦言,在编程任务切换回Sonnet 4.5后,工作速度并未感觉明显放缓。
换言之,对于日常任务,很难明显感知到Opus 4.5和Sonnet 4.5的巨大差异。这说明现在的模型在处理“简单任务”时已经出现了边际效应递减。
威利森指出,对于当下的一系列“前沿模型”(Frontier LLMs),要找到能明确区分它们与上一代模型的具体任务示例变得越来越困难。他呼吁AI实验室提供“一个在Sonnet 4.5上失败但在Opus 4.5上成功的具体提示示例”,这比基准测试上个位数的提升更具吸引力。
威利森还提到,尽管Anthropic声称Opus 4.5在对抗提示词注入(Prompt Injection)攻击方面比业界其他任何前沿模型都更具鲁棒性,但安全问题依然存在。数据显示,单次尝试提示注入的成功率约为1/20;如果攻击者尝试十种不同的攻击,成功率则上升到1/3。这表明,在设计应用程序时,仍需假定攻击者能够找到绕过模型防御的方法。
用户@peterwildeford也在X上提到,“基准测试指数已不再能可靠排除风险。最终判断很大程度上依赖于专家意见。”虽然他认为Claude 4.5 Opus足够安全,“但这种从基准指数向主观感受的转变令人担忧。”
5. 竞争格局:AI大战持续升温
Opus 4.5的发布,发生在OpenAI和Google模型更新的“混战”之后,充分体现了AI市场的白热化竞争。
Anthropic自身的高速增长为这场竞争奠定了基础。在2025年第一季度,Anthropic的年化收入达到20亿美元,相比上一季度的10亿美元翻了一倍多。同时,年消费超过10万美元的客户数量也实现了同比八倍的增长。
然而,Opus 4.5在Haiku 4.5(10月)和Sonnet 4.5(9月)发布后仅数周内即上线,这种快速迭代清晰反映了整个行业的动态:竞争压力迫使厂商不断加速。
Anthropic开发者关系主管艾尔伯特承认,他们之所以能如此快速地迭代,部分原因在于使用Claude自身来加速产品开发和模型研究。
另一方面,Opus 4.5的定价大幅下调虽然会压缩利润空间,但却能扩大潜在市场。艾尔伯特预测,降价将促使大量初创企业更广泛地将Opus 4.5集成到其产品中并作为核心功能展示。
对于开发者和企业而言,这种激烈的竞争带来了最直接的好处:AI能力的迅速提升和价格的不断下降。更强的性能、更低的成本和“无限聊天”等实用功能,意味着AI智能体将在日常工作流中扮演更核心的角色。Opus 4.5的到来,或许正是我们工作方式彻底变革的开始。
6. 总结:开发者的新玩具,行业的新标杆
Claude Opus 4.5的发布,标志着AI模型竞争进入了“拼落地、拼逻辑、拼成本”的下半场。
它不再只是单纯地堆参数,而是通过“Effort”参数控制思考深度,通过“无限对话”解决实际工作流痛点。对于需要处理复杂逻辑、长代码重构、深度研究的用户来说,这无疑是目前的地表最强工具。
如果你是普通用户,Sonnet 4.5依然是性价比之王;但如果你是需要处理复杂架构的程序员,或者需要AI进行深度调研的研究员,每个月花点钱升级到Opus 4.5,可能是今年最划算的一笔投资。
《欧洲杯球队资料》,《Q8X2R7L1T4J5M9B6W3》足球新闻万博
“28彩票平台开户”
国际对战平台
……
11月20日
“dafa登录官网”猎冰
↓↓↓
11月20日,西甲希望杯中国昆明赛开赛 12支中西足球队角逐春城,天天斗地主单机,leyu乐鱼官方入口,世界杯彩票网站排名,鸿博体育在线登陆
11月20日,434件!无锡海关查获一起旅客超量携带化妆品进境案,立博下载地址,和记娱乐网站是多少,msyz888明仕,腾龙娱乐app官方网站
11月20日,机构预测2030年中国高端医疗器械市场规模有望突破3000亿美元,威尼斯人官网登陆页,亚博下载,澳门皇冠官网视频直播,888真人线路检测
11月20日|【世界说】美学者刊文揭美国的“自恋型人格障碍”|威廉希尔足球网|AG真人论坛|哪个网站可以投注世界杯|金牌足球贴士记录
11月20日|交通银行天津市分行原党委书记、行长郭宏伟接受审查调查|bet9九州体育10年信誉|六合内部玄机A|二八杠的技巧口诀|幸运快三下载平台
11月20日|(新春走基层)海南铁路“四棱战士”郑庆华的春运:保障每一趟列车平稳运行|投注世界杯|水果拉霸app下载|龙8网址多少|双赢棋牌娱乐最新版……
11月20日,国台办:利用船舶遇险事故造谣抹黑大陆 我们对此坚决反对,爱城最新地址,捕鱼之海底捞,德州风云,世界杯足球投注规则
11月20日,安理会审议乌克兰问题 中方呼吁有关方面逐步恢复谈判,火狐电竞app,BOB博鱼体育官网入口,万象城,亚博AG真人
11月20日|追光的你|闪光的青春|爱博真人投注|AG官方平台|188球探比分网|十大网赌网址登录
11月20日,宁夏姚磨村入选2024世界旅游联盟——旅游助力乡村振兴案例,沙巴体育有app吗,沙巴官网体育在线,PG电子游戏最新地址,ROR入口
11月20日,广州(南沙)农业对外开放合作试验区建设启动,千亿手机官网下载app,华体汇体育app下载官网,六合财经A,网博平台
11月20日,【小新的Vlog】次元壁破了!“歪果仁”在青海玉树过起了游牧生活,bet365快速登陆,大发真钱,现金网官网注册,AG8国际
11月20日|“天外来客”汇聚吉林引“星友”参观|在线购买体育彩票|韦德官网|365bet体育在线信誉平台|利澳彩票平台注册
11月20日|以坚持党中央集中统一领导为根本保证(人民观点)|有没有可以玩德州的app|亚博可靠吗|完美世界电竞官网|网投专为体育打造
11月20日|广东中欧班列(德国方向)今年首列发运|365体育投注论坛|ag亚洲游戏国际手机版下载|星速下载怎么样|真人正规排行
香飘飘总裁说国货要对国人好,冯椿|“十四冬”单板滑雪平行大回转青年组女子比赛精彩瞬间|m6米乐客服|怎么世界杯买球|千亿注册App|乐鱼官网进入
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺