猫眼电影
猫眼电影记者 赵李 报道Q8X2R7L1T4J5M9B6W3
西风 发自 凹非寺量子位 | 公众号 QbitAI
两小时高强度工程任务,模型得分超过所有人类。
刚刚,Claude Opus 4.5问世,主打编码、Agent与computer use
Opus 4.5在前端开发、视觉能力上显著提升,更擅长使用电脑。
在深度研究、PPT制作与电子表格处理等日常任务方面的表现也全面升级。
让它用附件模板创建财务对比分析,分分钟就能完成模板读取、同行数据收集与估值倍数表创建,直接输出Excel成果:
用它修改法律文档,它也能迅速解包模板、修改公司名称、检查签名块,最终生成的Word文件包含修订痕迹与定制内容:
团队实测中发现,模型核心优势在于“理解力”,它能解决Sonnet模型无法发现的bug,同时知道“何时先思考再行动”。
目前,Opus 4.5已通过app、API及三大主流云平台开放使用。开发者通过Claude API调用claude-opus-4-5-20251101即可使用,定价每百万tokens 5美元(输入)/25美元(输出)
与此同时,官方还更新了Claude开发者平台、Claude Code及App,并拓展了在Excel、Chrome及桌面端使用Claude的新方式。
编码智能体能力全面升级
团队内部测试发现,Claude Opus 4.5能够自主处理模糊场景、权衡复杂决策,无需人工引导;面对跨系统复杂漏洞时,可独立定位并提供修复方案。
之前Sonnet 4.5几乎无法完成的任务,如今Opus 4.5已能轻松胜任。测试者普遍认为Claude Opus 4.5能“真正理解用户需求”。
团队向应聘性能工程师职位的候选人发放了一份业界公认难度极高的居家测试(take-home exam)。同时,他们也将这份考题作为内部基准,用来测试Claude Opus 4.5。
在规定的2小时时间限制内,Claude Opus 4.5的得分超过了所有参加过该考试的人类候选人
团队表示,该居家测试旨在评估技术能力与时间压力下的判断力,这一结果引发了新万博体育:AI如何重塑工程行业的思考。
下面来看具体数据。
视觉处理、推理与数学方面,Claude Opus 4.5均超越前代,达业界顶尖水平:
编码能力方面,Opus 4.5在SWE-bench多语言测试中,8种编程语言里有7种的表现位列榜首。
在Aider Polyglot基准测试中,面对高难度编码难题,得分较Sonnet 4.5大幅提升10.6%
Opus 4.5在智能体搜索方面也有显著提升:
长时任务续航能力拉满,在Vending-Bench测试中,Opus 4.5的任务完成收益较Sonnet 4.5高出29%,全程保持高效输出不跑偏:
团队强调,模型的实际能力甚至比部分测试基准测出来的要更好。有时候,Claude的解决方案会超出预期,基准测试会将此判定为失败。
比如在τ2-bench中,有一个场景,模型必须扮演航空公司服务Agent,帮助一位陷入困境的客户。基准测试预期模型应拒绝修改基础经济舱预订(因该舱位规定不可更改),但Opus 4.5却找到了巧妙且合规的解决方案:先升级舱位,再修改航班。
最后,Claude Opus 4.5安全防护能力升级,尤其是在抵御提示词注入攻击等方面:
开发者平台以及系列产品升级
面向开发者,Claude API新增了“努力度参数” (effort parameter),开发者可根据需求选择最小化时间与成本或最大化能力表现。
在中等努力度设置下,Claude Opus 4.5在SWE-bench Verified测试中达到Sonnet 4.5的最佳得分,输出tokens用量却减少76%。
在最高努力度设置下,其性能较Sonnet 4.5提升4.3个百分点,同时tokens用量减少48%。
借助努力度控制、上下文压缩及高级工具调用功能,Claude Opus 4.5支持更长时运行、新万博体育:任务处理,且所需人工干预大幅减少。
Claude Opus 4.5还能高效管理多个子智能体,支持构建复杂协调的多智能体系统。
在团队测试中,结合这些技术,Opus 4.5在深度调研评估中的表现提升了近15个百分点。
另外,Claude系列产品也随之升级了。
随Opus 4.5的发布,Claude Code推出两大新功能:
计划模式(Plan Mode)现在能生成更精准的执行计划并全面落地,Claude会先主动确认需求细节,再生成可编辑的 plan.md文件后执行操作。
Claude Code现已登陆桌面端应用,支持并行运行多个本地及远程会话,也就是说,可同时安排一个智能体修复漏洞,一个检索GitHub,另一个更新文档。
对于Claude app用户,再也不用担心上下文窗口不够,长对话中断。现在Claude会自动按需总结之前的对话内容,聊天直接解锁无限续航模式
除此之外,支持跨标签页处理任务的Chrome浏览器Claude扩展程序,现已向所有Max订阅用户开放。
Claude for Excel今日起将测试权限扩展至所有Max、Team及Enterprise用户。
面向可使用Opus 4.5的Claude及Claude Code用户,官方取消了Opus专用限额。针对Max与Team Premium用户的整体使用额度已上调,Opus tokens用量与此前Sonnet大致持平。
官方Blog:https://www.anthropic.com/news/claude-opus-4-5参考链接:https://x.com/claudeai/status/1993030546243699119?s=20
??时事1:AOA网投平台
??11月19日,【奋力谱写中国式现代化新篇章——习近平总书记今年以来治国理政纪实】中国式现代化 民生为大,
村干部培训班的 篇5
,英亚体育官方网。??11月19日,博茨瓦纳感谢南非对复活节交通事故死难、幸存者的安置,
西疆猛兽太多了,到处都是茂密的老林,不见人烟,恶兽、猛禽到处都是,是一片最为可怕的原始之地。
,外围买球赛,leyuvip1,千亿PT游戏。??时事2:oubo体育
??11月19日,2023年中国外贸有五个“超预期”,
高层次的各处洞天福地中,人们张口结舌。
,世界杯在哪里买球,AG8国际大厅平台,乐享彩票网站。??11月19日,黄河壶口瀑布现“金流飞瀑”景观,
在不久前的一战中,青鳞鹰被那条紫金蛇咬了一口,尽管它很果断的切掉了一大块血肉,但依旧没有能彻底阻住毒素蔓延。
,万博真人投注,ag8国际大厅登录,2026世界杯投注柯fc3。tv。??时事3:美高梅官方直营网
??11月19日,中国单体转体最大吨位双索面预应力混凝土斜拉桥完成“转身”,
“呀,我想起来了,你是阿蛮姐,给我讲过很多故事,还说要带我去看赤羽鹤,对我可好了。”小不点突然想起了小女孩是谁。
,打鱼兑换现金,ag时间漏洞让我赢了十几万,9号彩票。??11月19日,奥斯卡、塞尔吉尼奥归化程序启动 国足明年18强赛有望添俩猛将 ,
小不点无所畏惧,一路径直就杀了进来,徒手战凶寇,没有废什么力气,就让二十几人骨断筋折,失去了战斗力。
,9570官方金沙登录,英皇娱乐官方网站,宝博棋牌官网版。??时事4:博天堂全站APP
??11月19日,独家视频丨习近平:中国式现代化,必将为世界发展带来新的更大机遇,
二是要理顺管理体制。积极推行城市管理综合执法,建立统一的执法队伍,相对集中行政执法权,变多头管理为统一管理,变多家执法为综合执法,减轻群众负担,提高执法效果。城市管理要实行政府统一领导,分级负责,以块为主,条条保证,社会监督,依法管理。市委、市政府对临沂城管理工作,按照"两级政府、三级管理、四级网络"的要求,合理划分事权,明确职责,抓紧建立完善管理体制,尽快运转。
,澳门捕鱼入口,凤凰娱乐游戏平台登录,百老汇网站登录。??11月19日,激发蕴藏在人民群众中的创造伟力,
部队生活是艰苦的,军训虽然不是在前方打仗,但是严格的队列操练、摸爬滚打,可能会让人感到劳累、枯燥,尤其是军训期间天气可能冷热变化无常,同学们要准备闯过训练、生活等一道道难关。我以长征组歌中的一段歌词送给大家,希望大家在困难的时候,想一想红军前辈:雪皑皑,野茫茫,高原寒,炊断粮。红军都是钢铁汉,千锤百炼不怕难。雪山低头迎远客,草毯泥毡扎营盘。风雨侵衣骨更硬,野菜充饥志越坚。官兵一致同甘苦,革命理想高于天。
,3133cc拉斯维加斯下载,新利luck体育,威尼斯人首页地址。责编:邢波
审核:李井泉
责编:华阳镇












