作者 | 辰辰
出品 | 网易科技
疯了,全都杀疯了!这个11月注定要载入AI史册。
Gemini 3的余温还没散,GPT-5.1的热度正当时,就在所有人都以为年度大戏即将落幕时, 一向“人狠话不多”的Anthropic搞了一次从天而降的“偷袭”。Claude Opus 4.5横空出世,直接跳过了常规的宣发流程,用最硬核的产品硬刚对手。
官方直接摊牌:论写代码、论搞智能体,我才是最强的。这究竟是盲目自信,还是底气十足?
下面带你硬核拆解。
1. 核心亮点速览:性能飙升与成本暴跌
Claude Opus 4.5不仅仅是能力的提升,更是一次对效率和普惠性的重新定义。
——性能登顶
Anthropic内部有一项针对“顶尖工程师”候选人的入职测试,以高难度和时间紧迫著称,限时只有2小时。
结果显示:Claude Opus 4.5的得分高于该公司历史上任何一位人类候选人。
注意,这可不止是写出一段代码,而是综合考量技术能力和高压下的判断力。虽然通过测试并不意味着AI拥有了人类的沟通协作能力,但表明在纯技术执行层面,Claude Opus 4.5已经捅破了人类工程师的天花板。
再看行业通用的SWE-bench Verified(真实软件工程基准测试)数据,Opus 4.5以80.9% 的准确率傲视群雄:
· Claude Opus 4.5: 80.9%
· GPT-5.1-Codex-Max: 77.9%
· Claude Sonnet 4.5: 77.2%
· Gemini 3 Pro: 76.2%
在AI编程领域,3个百分点的提升往往意味着从“经常还要我自己改bug”到“这代码写得比我溜”的质变。
Opus 4.5的前端开发、视觉处理能力显著提升,更擅长操作电脑,真实场景的软件工程测试中创新高。
此外,Opus 4.5编写的代码质量更高,SWE-bench Multilingual测试的8种编程语言中,Opus 4.5有7种都处于领先地位。
——价格革命:成本直降三分之二
上一代Opus(Opus 4.1)虽然聪明,但每百万输入Token 15美元/每百万输出Token 75美元的价格简直是“贵到离谱”。
这次Anthropic终于听劝了。Opus 4.5的定价大幅下调至每百万输入Token 5美元/每百万输出Token 25美元。
相比上一代Opus,价格直接砍掉三分之二。
虽然比GPT-5.1(每百万输入Token 1.25美元/每百万输出Token 10美元)还是要贵一些,但考虑到Opus 4.5是专为解决复杂难题打造的“重型武器”,这个价格已经进入了企业和开发者的“甜蜜区”。
这一策略也给竞争对手带来了性能和定价的双重压力。
——效率飞跃:Token用量大幅减少
通过引入可设置高、中、低的“努力程度”(effort)效率参数,Opus 4.5能让开发者在效率和能力之间作出取舍。
在中等努力(Medium Effort)水平下,Opus 4.5在SWE-bench Verified上达到了Sonnet 4.5的最佳分数,但输出Token使用量减少76%。
在最高努力(High Effort)水平下,Opus 4.5的性能比Sonnet 4.5高出4.3个百分点,同时Token使用量仍减少48%。
2. 产品力全面升级:面向日常办公的超强智能体
Anthropic同时发布针对Agent和日常生产力工具的重大更新,让Opus 4.5更具实用价值。
——突破上下文的“无限聊天”
以前和AI聊久了就得重开对话框。现在Anthropic解决了长对话任务的痛点,通过上下文压缩(Context Compaction)和内存管理实现了面向付费用户的“无限聊天”功能。模型会智能地压缩历史对话记忆,有效解决了传统上下文窗口的限制,使Agent任务能够持续运行而不会“失忆”。这对于长周期的项目开发简直是救命稻草。
——Agentic能力与创造性思维
Opus 4.5在智能体任务中展现出卓越的情境管理和高级工具使用能力,甚至能高效管理多智能体系统。
此外在解决实际问题时,模型表现出更像人的“变通能力”。在一项模拟航空客服的测试中,规则是不允许修改经济舱机票,之前的模型因此会直接拒绝客户。但Opus 4.5想到了一个“骚操作”:先帮客户升舱,然后再修改航班。虽然这在测试中因为没守规矩而被判了“失败”,但这种创造性的解决问题能力,恰恰是人类最看重的。
——全新集成与开发工具
· 办公集成:?Claude for Excel现已向Max、Team、Enterprise用户全面开放,支持数据透视表、图表等复杂操作。Chrome浏览器插件也已经向所有Max用户开放。
· Claude Code增强:?引入更精细的 “计划模式”(Plan Mode),Agent会在执行前生成一个用户可编辑的plan.md文件。Anthropic还面向开发者发布了“程序化工具调用”功能,允许Claude编写和执行直接调用函数的代码。同时,Claude Code现已在桌面应用上推出,支持并行运行多个本地和远程会话。
3. 用户测评与各方评价:Opus 4.5究竟“神”在哪?
新模型的发布激起了行业内外的强烈反响。除了官方的基准数据,来自开发者和企业的真实反馈更具说服力。
Anthropic的早期测试者和客户反馈高度一致:Opus 4.5展现出显著增强的判断力和处理复杂模糊任务的能力。
Anthropic开发者关系负责人亚历克斯·艾尔伯特(Alex Albert)提到,测试人员一致认为Opus 4.5在处理复杂的多系统错误时能直接找出解决方案,并能在无需人工干预的情况下权衡利弊,拥有了“一种直觉和判断力”,这标志“质的飞跃”。
企业客户初步验证了效率方面的说法。
· 日本电子商务和互联网公司乐天测试了Claude Opus 4.5在办公任务自动化方面的表现。基于Opus 4.5的智能体仅用4次迭代就达到最佳性能,而其他模型在10次迭代后仍无法匹敌。乐天商业AI总经理加藤裕介(Yusuke Kaji)表示,这展现了其具备“自我改进”智能体的潜力。
· Fundamental Research Labs的报告则称其内部评估准确性提高了20%,效率提升了15%,以前遥不可及的复杂任务现在变得可以实现。
· GitHub首席产品官马里奥·罗德里格斯(Mario Rodriguez)表示,早期测试显示Opus 4.5超越了内部编码基准,并将Token使用量削减了一半,特别适用于代码迁移和重构等任务。
· 云编码平台Replit总裁米歇尔·卡塔斯塔(Michele Catasta)则盛赞Opus 4.5在内部基准测试中优于Sonnet 4.5和竞品,并强调这种效率提升在规模化应用时会产生复利效应。
从社媒用户反应来看,评价多为正面,大家普遍认为Opus 4.5性能优异,有助于提升生产力。
Andon Labs在社交平台X发布了自己用Vending-Bench 2测试Opus 4.5的结果,显示紧随Gemini 3 Pro之后,位列第二,表现出色。
HyperWriteAI CEO马特·舒默(Matt Shumer)则用Claude Opus 4.5测试生成类似Colab的用户界面。他认为,绝对比之前用GPT-5.1和Gemini 3做的类似测试要好得多。
用户@deredleritt3r则提到,Anthropic公司调查了18名内部员工使用Opus 4.5 + Claude Code后的感受。其中半数员工表示效率翻倍,其中甚至有人认为自己的生产力提升高达220%。
4. 资深开发者深度体验:前沿模型趋同性不可避免
知名开发者和技术评论家西蒙·威利森(Simon Willison)提前拿到了内测资格,他在两天内用Claude Opus 4.5对开源项目sqlite-utils进行了大规模重构。
战绩如下:
· 20次代码提交;
· 修改了39个文件;
· 增加了2022行代码,删除了1,173行代码。
威利森还测试了用Opus 4.5编写代码(SVG)来绘制鹈鹕骑自行车的经典案例。
结果显示,提示词越详细。Opus 4.5的表现就更好。
威利森的评价很中肯:“它显然是一个卓越的新模型。”然而他坦言,在编程任务切换回Sonnet 4.5后,工作速度并未感觉明显放缓。
换言之,对于日常任务,很难明显感知到Opus 4.5和Sonnet 4.5的巨大差异。这说明现在的模型在处理“简单任务”时已经出现了边际效应递减。
威利森指出,对于当下的一系列“前沿模型”(Frontier LLMs),要找到能明确区分它们与上一代模型的具体任务示例变得越来越困难。他呼吁AI实验室提供“一个在Sonnet 4.5上失败但在Opus 4.5上成功的具体提示示例”,这比基准测试上个位数的提升更具吸引力。
威利森还提到,尽管Anthropic声称Opus 4.5在对抗提示词注入(Prompt Injection)攻击方面比业界其他任何前沿模型都更具鲁棒性,但安全问题依然存在。数据显示,单次尝试提示注入的成功率约为1/20;如果攻击者尝试十种不同的攻击,成功率则上升到1/3。这表明,在设计应用程序时,仍需假定攻击者能够找到绕过模型防御的方法。
用户@peterwildeford也在X上提到,“基准测试指数已不再能可靠排除风险。最终判断很大程度上依赖于专家意见。”虽然他认为Claude 4.5 Opus足够安全,“但这种从基准指数向主观感受的转变令人担忧。”
5. 竞争格局:AI大战持续升温
Opus 4.5的发布,发生在OpenAI和Google模型更新的“混战”之后,充分体现了AI市场的白热化竞争。
Anthropic自身的高速增长为这场竞争奠定了基础。在2025年第一季度,Anthropic的年化收入达到20亿美元,相比上一季度的10亿美元翻了一倍多。同时,年消费超过10万美元的客户数量也实现了同比八倍的增长。
然而,Opus 4.5在Haiku 4.5(10月)和Sonnet 4.5(9月)发布后仅数周内即上线,这种快速迭代清晰反映了整个行业的动态:竞争压力迫使厂商不断加速。
Anthropic开发者关系主管艾尔伯特承认,他们之所以能如此快速地迭代,部分原因在于使用Claude自身来加速产品开发和模型研究。
另一方面,Opus 4.5的定价大幅下调虽然会压缩利润空间,但却能扩大潜在市场。艾尔伯特预测,降价将促使大量初创企业更广泛地将Opus 4.5集成到其产品中并作为核心功能展示。
对于开发者和企业而言,这种激烈的竞争带来了最直接的好处:AI能力的迅速提升和价格的不断下降。更强的性能、更低的成本和“无限聊天”等实用功能,意味着AI智能体将在日常工作流中扮演更核心的角色。Opus 4.5的到来,或许正是我们工作方式彻底变革的开始。
6. 总结:开发者的新玩具,行业的新标杆
Claude Opus 4.5的发布,标志着AI模型竞争进入了“拼落地、拼逻辑、拼成本”的下半场。
它不再只是单纯地堆参数,而是通过“Effort”参数控制思考深度,通过“无限对话”解决实际工作流痛点。对于需要处理复杂逻辑、长代码重构、深度研究的用户来说,这无疑是目前的地表最强工具。
如果你是普通用户,Sonnet 4.5依然是性价比之王;但如果你是需要处理复杂架构的程序员,或者需要AI进行深度调研的研究员,每个月花点钱升级到Opus 4.5,可能是今年最划算的一笔投资。
《利记足球现金网》,《Q8X2R7L1T4J5M9B6W3》bet36体育平台
“凯时官方网站”
购彩大厅app官网
……
11月18日
“j9九游会旧版”11岁儿子受辱跳楼之后
↓↓↓
11月18日,中新真探:常温牛奶保质期长,是因为加了防腐剂?,皇冠99814手机,大刀皇,手机版ag下载,yabo平台首页
11月18日,宁夏贺兰山东麓借“算”发“力” 走上葡萄酒智慧发展之路,国际跳棋真人,Ag九游会官网,开元娱乐6669cc,申搏sunbet官网
11月18日,互指对方违反停火协议 以军同黎真主党再交火致多人死伤,ob欧宝官网下载,亚洲十大赌场,电子竞技赌注,AG官方网址
11月18日|春不迟,重逢自有时|下载皇冠体育手机app|必发365电子游戏网址|万博官网网页版首页登陆|伟德下载手机app
11月18日|侨乡浙江瑞安:审批提速掀华侨回乡落户热|m6米乐快速开户|18博体育|皇冠买球怎么申请|博压体育
11月18日|贵州从江:立夏至 农事忙|bv伟德体育官网登录|365bet体彩|九州体育网站是多少|银河娱乐网站正规……
11月18日,十四届全国人大二次会议表决通过了关于最高人民法院工作报告的决议,赢钱火烧图,博天堂怎么开户,im电竞体育APP,凯时k66平台登录入口
11月18日,港澳居民“北上”+内地居民出境游 深圳各口岸迎客流高峰,沙巴体育玩法,捕鱼之海底捞,亚娱最新版APP,金沙官网网址
11月18日|吉林生物教师自费建“百草园” 引中外人士感受生态之美|赢多多登录|香港永利官网|新葡萄金网址是多少|心博天下赌场网站
11月18日,辽宁沈阳现“雪人阵”,188比分球,世界杯投注地址颊fc3,tv,正规网投彩票平台,易发游戏官网
11月18日,浙江舟山海事助推长三角一体化发展 政务实现“跨域办”,赌博官网苹果版,二人麻将棋牌官方网站,真人美女游戏下载,万博maxbextx官网登陆
11月18日,福建泉州:外出露营突遇暴雨 5名被困人员激流中获救,今晚世界杯投注分析,ob体育官网登录界面,ob捕鱼官网,球探比分app去广告版
11月18日|哈尔滨春意渐浓 松花江上呈现冰雪消融景观|bbin体育手机app|赌机奔驰宝马|尊龙d88用现备用|极跃体育官方网站
11月18日|新疆阿克苏地区乌什县7.1级地震已造成3人遇难 5人受伤|江南娱乐客户端下载|银河在哪里玩|澳门永利真人国际|芒果体育平台怎么样
11月18日|国产新型高寒耐风沙内燃机车在临哈铁路投入使用出动直升机、无人机!辽宁葫芦岛全力抢修通讯 恢复供电|澳门所有线上平台|必发体育网址下载|亚娱开户网址|威尼斯人在线下载
为推进中国式现代化注入强大动力,如何评价C罗机场男粉丝?|重庆姐弟坠亡案两名罪犯被执行死刑 母亲“心中石头终落地”|真人cs国际比赛|yabo电竞|天博app下载|官网|互博国际客户端下载
监制:邓金木
策划:赖晗
主创:唐征宇 林箴贺 陈佛烘 颜亦阳 陈林韵
编辑:王家菁、段圣祺