猫眼电影
猫眼电影记者 林菁 报道P6F3X2M7T9QJ8L1B4WZR
机器之心报道
机器之心编辑部
十一假期还没开始,大模型又开始卷起来了!
昨天,DeepSeek 开源新模型 V3.2-Exp,深夜 Anthropic 也不甘人后,重磅发布 Claude Sonnet 4.5。
作为编程领域的王者,Claude 新模型依然强势,自称为世界上最好的编码模型。
我们都知道,GPT-5 Codex 曾自称能独立运行超过 7 小时。但这次,Claude Sonnet 4.5 把自主编码时长提到了 30 多个小时。
此外,Claude 还称它为构建复杂智能体的最强模型,也是使用计算机( computer use)的最佳模型,在推理和数学方面显示出巨大的进步。
Claude Sonnet 4.5 使这一切成为可能。Anthropic 将它与一系列产品重大升级一同发布:
在 Claude Code 方面,Anthropic 添加了检查点功能 —— 这是用户需求最高的功能之一 —— 它能保存你的进度,并让你即时回滚到之前的状态。Anthropic 更新了终端界面,并推出了原生的 VS Code 扩展。他们为 Claude API 增添了新的上下文编辑功能和记忆工具,让智能体能够运行更长时间,并处理更高复杂度的任务。在 Claude 应用程序中,他们将代码执行和文件创建(电子表格、幻灯片和文档)功能直接融入对话之中。此外,他们还为上个月加入候补名单的 Max 用户提供了 Claude for Chrome 扩展。
Anthropic 还为开发者提供了他们自己用于打造 Claude Code 的基础工具。他们将其称为 Claude Agent SDK。
Anthropic 表示,这是他们发布过的最符合对齐要求的前沿模型,与之前的 Claude 模型相比,在多个对齐领域都有显著改进。
Claude Sonnet 4.5 版本今日已全面上线。如果你是开发者,只需通过 Claude API 使用 claude-sonnet-4-5 即可。定价与 Claude Sonnet 4 版本保持一致,每百万 token 输入 / 输出分别为 3 美元 / 15 美元。
前沿智能
Claude Sonnet 4.5 在 SWE-bench 验证评估中处于 SOTA 水平,该评估衡量的是现实世界中的软件编码能力。实际上,Anthropic 观察到它在复杂的多步骤任务上能够保持专注超过 30 小时。
Claude Sonnet 4.5 代表了 computer use 方面的重大飞跃。在 OSWorld(一个在现实世界计算机任务中测试人工智能模型的基准测试平台)上,Sonnet 4.5 现在以 61.4% 的成绩领先。就在四个月前,Sonnet 4 以 42.2% 的成绩领先。Claude for Chrome 扩展将这些升级后的功能加以利用。在下面的演示中,他们展示了 Claude 直接在浏览器中工作,浏览网站、填写电子表格并完成任务。
该模型在包括推理和数学在内的广泛评估中也展现出了更强的能力:
金融、法律、医学和理工科(STEM)领域的专家发现,与包括 Opus 4.1 在内的旧模型相比,Sonnet 4.5 在特定领域知识和推理方面表现得明显更好。
该模型的能力也体现在早期客户的体验中:
Anthropic 迄今为止对齐最好的模型
Anthropic 表示,Claude Sonnet 4.5 不仅是他们性能最强的模型,也是目前与人类价值观一致性最高的前沿模型。Claude 提升的能力以及 Anthropic 广泛的安全训练,让他们能够大幅改善模型的表现,减少诸如谄媚、欺骗、争取主导权(power-seeking)以及鼓励妄想性思维等令人担忧的行为。对于模型的智能体和计算机使用能力,Anthropic 在抵御提示注入攻击方面也取得了显著进展,这是使用这些能力的用户面临的最严重风险之一。
你可以在 Claude Sonnet 4.5 系统卡片中阅读一套详细的安全性和一致性评估,其中首次包括使用「机制可解释性技术」进行的测试。
系统卡地址:https://assets.anthropic.com/m/12f214efcc2f457a/original/Claude-Sonnet-4-5-System-Card.pdf
Claude Sonnet 4.5 版本将在 Anthropic 的 AI 安全等级 3(ASL-3)保护措施下发布,这是按照他们将模型能力与适当保障措施相匹配的框架进行的。这些保障措施包括名为分类器的过滤器,其旨在检测潜在危险的输入和输出,特别是那些与化学、生物、放射性等相关的内容。
这些分类器有时可能会无意中标记正常内容。Anthropic 已为用户提供便利,让他们能够继续与 Sonnet 4 进行任何中断的对话,该模型带来的化学、生物、放射性风险较低。Anthropic 在减少这些误报方面已经取得了显著进展。
Claude Agent SDK
Claude 称他们花了六个多月的时间更新 Claude Code 的能力,因此自己知道如何构建和设计 AI 智能体。过程中他们解决了许多难题:包括智能体如何在长时间运行的任务中管理内存,如何处理平衡自主性和用户控制性的权限系统,以及如何协调子智能体朝着共同目标努力。
今天的发布就是以上努力的成果,也就是 Claude Agent SDK。它 Claude Code 的基础架构相同,但它不仅在编码领域,还在各种任务中展现出令人印象深刻的优势。从今天起,用户可以使用它来构建自己的智能体。
最后,Claude 还发布了一个临时研究的预览版,叫 Imagine with Claude.
在这个实验中,Claude 可以即时生成软件,且前提是不预先设定任何功能,也不预先编写任何代码。我们所看到的是 Claude 实时创建、响应并适应请求,并与用户交互互动。
视频链接:https://mp.weixin.qq.com/s/N45l-O7_CzTtDCRKS2nKCg
以上视频就是该实验的有趣演示,展示了 Claude Sonnet 4.5 的功能 —— 它可以让您了解将强大的模型与合适的基础架构相结合所能实现的潜力。
“Imagine with Claude” 将在未来五天内面向 Max 订阅用户开放。
你想体验吗?
??时事1:女性脱👙给我揉🐻平台
??09月25日,全球“街”力丨点赞中国新科技!墨西哥青年眼中的中国“新三样”,
二、落实、落实、再落实
,欧美疯狂做受XXXX高潮免费看。??09月25日,妊娠期糖尿病预测有了新方法,
招商银行信用卡宽限期几天算逾期,多久影响信用?
,黃色成人JVD,人妻旧番h动漫6080,欧美作受❌❌❌。??时事2:卫鲤肉图全彩无遮
??09月25日,文明的坐标丨“江南水乡”同里古镇,
二要夯实工作责任。建立农村低保制度,维护和保障农村困难群众的基本生活,是各级政府的重要职责。各乡镇长既是农村低保工作的第一责任人,更是农村广大困难群众的代言人,务必要把这件实事抓紧抓好、抓出成效。各相关部门要通力合作,共同做好相关工作。民政部门要加强指导、精心组织,将全面实施农村低保制度作为当前民政工作的首要任务,下大力气抓紧抓好。财政部门要抓好资金落实,及时足额落实农村低保资金。监察部门要加强督促检查,确保农村低保公平、公正实施。审计部门要加强对资金使用的监督管理。扶贫、农业、统计等部门要主动配合民政部门,准确提供农村贫困户扶贫档案和资料,做好保障对象的核查工作,协助做好保障对象和家庭收入的核定工作。要教育各级干部特别是乡、村干部认识到农村低保是一种义务和责任,要把实施农村低保作为广施爱心的具体行动,带着对贫困群众的真挚感情做好农村低保各项工作。对象确定要公平、公正,分档补助要注重实际,工作程序要简单快捷、方便群众。
,三笠同人18❌黄漫网站,人妖TuBEHD╳㐅╳HD青少年,日ⅹ视频。??09月25日,王沪宁会见老挝建国阵线中央委员会主席辛拉冯,
众人发呆,觉得他又有点像憨娃了。
,雏田比基尼装图片,舒淇与大荫蒂交3D,休内谢精一汇编6的深刻意义。??时事3:色多多app♥入口破解版日本
??09月25日,大湾区“跨境理财通”业务试点实施细则修订发布,
作风建设是一项长期工程和艰巨的任务,要想搞好作风建设,我认为关键要做到以下四点:
,与子亂倫一级A片,Free❌❌❌国产天美MD视频,打屁股sm调教🍑视频。??09月25日,首届浙江省中美合作办学工作研讨会召开,
石林虎与石飞蛟两人并肩站在一起,一同仰望空中的凶禽,释放祖器的力量,狂暴气息如洪流一般逆天而上。
,扒开李沁双腿猛烈进入,王者荣耀西施奖励自己的皮肤,女人与公豬一级毛片免费看。??时事4:我脱个精光露出奶头喂给男朋友
??09月25日,严查拒载、议价、绕路等行为 北京开展出租汽车行业专项整治行动上海上半年签发口岸外国人团体旅游签证4.3万人次 环比增长近两成, 对于一个离开校园、工作多年的“老考生”来说,再次参加高考是一个巨大的挑战,备考这期间李龙除了陪伴家人,其他时间几乎都投入在复习上。3月下旬,李龙曾卸载了手机中的社交软件,专心备考。,女仆乖乖趴下脱内衣内裤照片大全,书房欢爱H白灼汁水激情视频,大🐻美女100%棵视频。
??09月25日,(粤港澳大湾区)珠澳共建老年教育联合办学点,
最后,祝老师们在新的一年里身体健康、工作顺利!祝同学们学习进步、健康快乐!谢谢大家!
,灵狐者被啪纯肉高H,七龙珠全彩h龟波本子,ouoldll喵。责编:胡常峰
审核:吴鹏波
责编:尚兵