机器之心编辑部
本周五凌晨,Anthropic 正式发布了最新一代大模型 Claude Opus 4.8。
Anthropic 表示,新模型构建于 Opus 4.7 基础之上,具备更敏锐的判断力,对自身进展的「诚实度」更高,并且能够比前一代模型更长时间地独立工作。
作为 Claude 模型系列中参数最大的旗舰级模型,Claude Opus 4.8 在各项基准测试中均有所提升,旨在能够成为你更高效的协作伙伴。Anthropic 表示,即日起新模型已上线,API 价格没有变化,还是输入 Token 价格每百万个 5 美元,输出 Token 价格每百万个 25 美元。快速模式(Fast Mode)下的价格只有以前的 1/3:输入 Token 价格每百万个 10 美元,输出 Token 价格每百万个 50 美元。
在 Opus 4.8 发布后,Cursor 等平台也立即上线了该模型。
随着 Opus 4.8 共同发布的还有多项新功能。claude.ai 平台的用户现可自行调节 Claude 在执行任务时投入的「精力」程度。Claude Code 新增了「动态工作流」功能,使其能够应对超大规模的复杂问题。此外,Opus 4.8 的「极速模式」(Fast Mode)现已上线 —— 在该模式下,模型的运行速度可提升至常规模式的 2.5 倍。
下表展示了 Opus 4.8 在编程、智能体能力、逻辑推理及实际知识型工作任务等测试中,与前代版本及其他竞品模型的对比情况。可见多项能力大幅超越了 GPT-5.5。
据早期测试用户反馈,Claude Opus 4.8 在执行部分任务时相比前代表现得更为可靠,且判断力更加敏锐,也有人表示 token 消耗似乎变少了。
不过也有用户表示,作为一个小版本更新,Opus 4.8 的能力提升并不明显。
Opus 4.8 最显著的改进之一在于其「诚实性」。Anthropic 对所有模型都进行了诚实性训练 —— 例如,训练它们避免做出那些无法提供佐证的断言。然而,AI 模型普遍存在一个问题:它们有时会仓促下结论,尽管证据尚不充分,却依然自信地声称自己在工作中取得了进展。
早期测试人员反馈称,Opus 4.8 更倾向于主动指出其工作中的不确定之处,且极少做出缺乏依据的断言。Anthropic 的内部评估结果也印证了这一点:数据显示,Opus 4.8 允许其编写的代码中存在缺陷却未加提示的概率,仅为其前代模型的四分之一左右。
和以前一样,Anthropic 在正式发布新模型之前对其进行了一次详尽的「对齐性」(Alignment)评估。在积极特质方面,对齐团队得出的结论是:Opus 4.8「在支持用户自主权、始终维护用户最佳利益等『亲社会特质』的各项衡量指标上,均创下了新的高点。」
评估结果还显示,Opus 4.8 出现「未对齐行为」(即偏离预期行为,例如欺骗用户或协助进行滥用操作)的发生率显著低于 Opus 4.7,且已达到 Anthropic 目前对齐效果最佳的模型 Claude Mythos Preview 的同等水平。
除了 Claude Opus 4.8 之外,本次更新最有趣的部分是动态工作流(Dynamic workflows)。
这项目前处于「研究预览」阶段的新功能允许 Claude 在 Claude Code 环境中承接规模更为庞大的任务。Claude 能够自主规划工作流程,并在单次会话中同时启动数百个并行运行的「子智能体」(Subagents)。在提示中使用「workflow」一词即可开始。
得益于 Opus 4.8 的加持,这些智能体的持续运行时间得到了进一步延长,最多能跑上几天,中途断了还能继续。在大模型向用户提交最终报告之前,Claude 会先行对自身的输出结果进行严格的验证。
当然,这非常耗费 token。
搭载 Opus 4.8 的 Claude Code 现已具备处理代码库级迁移任务的能力 —— 它能以现有的测试套件为质量基准,全程负责处理数十万行代码的迁移工作,直至代码最终合并入库。
Anthropic 在这里举的例子是他们把 JavaScript 运行时 Bun 用 Rust 重写了一遍,原作者 Jarred Sumner 利用动态工作流将 Bun 从 Zig 移植到 Rust,现有测试套件的通过率高达 99.8%,Rust 代码量约为 75 万行,从首次提交到合并仅用了 11 天。
「动态工作流」功能目前已面向 Claude Code 的企业版、团队版及 Max 版用户开放。
Claude.ai 与 Cowork 平台中的加入了「投入度控制」(Effort control)功能,在模型选择器旁新增了一项控制选项,允许用户自行设定 Claude 在生成回复时应投入多少精力与资源。在「高投入」(High Effort)设置下,Claude 会进行更频繁、更深入的思考,从而给出更优质的回复。而在「低投入」(Low Effort)设置下,Claude 的响应速度会更快,且消耗用户的速率限制(Rate Limits)也会更慢。人们现在拥有了这一选择权,所有套餐方案均已开放「投入度控制」功能。
Messages API 现在支持在 messages 数组中接收「系统条目」(System Entries)。开发者可以在任务执行过程中实时更新 Claude 的指令,而无需清空提示词缓存,也无需通过模拟「用户回合」的方式来传递更新。在特定的运行框架(Harness)中,开发者可以利用此功能在智能体运行期间动态调整权限、token 预算或环境上下文。
视频链接:https://mp.weixin.qq.com/s/-GmUORU8V5PNW0_6A5uNcw
Opus 4.8 默认采用「高投入」设置,Anthropic 认为这是在质量与用户体验之间取得最佳平衡的方案。针对编程类任务,该投入度级别所消耗的 Token 数量与 Opus 4.7 的默认设置相近,但性能表现更为出色。
用户可以选择「额外投入」(在 Claude Code 中对应「xhigh」选项)或「最大投入」(Max),此时模型将消耗更多 Token 以产出更优质的结果。Anthropic 建议在处理高难度任务或运行耗时较长的异步工作流时,选用「额外投入」模式。Anthropic 已在 Claude Code 中上调了速率限制,以适应高投入度级别下 Token 消耗量增加的需求。用户可根据自身项目的具体情况,灵活选择最适合的投入度级别。
Anthropic 称,用户将会发现,Opus 4.8 相较于其前代版本,虽改进幅度适中,但提升效果却是实实在在、显而易见的。Anthropic 正致力于开发并发布一系列新模型,旨在以更低的成本,提供与 Opus 同样强大的各项能力。
除此以外,Anthropic 还计划发布一类全新的模型,其智能水平将超越现有的 Opus 模型。作为「Glasswing 项目」的一部分,目前已有少数机构开始试用「Claude Mythos 预览版」来开展网络安全相关工作。鉴于此类模型具备极高的能力水平,在正式面向大众发布之前,必须先行建立更为强健的网络安全防护体系。目前,Anthropic 在构建这些安全防护措施方面已取得快速进展,并预计在未来数周内,即可将 Mythos 级别的模型正式向所有客户开放。
新模型发布的同时,Anthropic 宣布了获得最新一轮融资:其在 H 轮融资中筹集了 650 亿美元,投后估值高达 9650 亿美元。要知道,今年 2 月刚完成的 G 轮融资,估值还是 3800 亿美元。
本轮融资由 Altimeter Capital、Dragoneer、Greenoaks 与红杉资本领投。Anthropic 表示,这笔投资将帮助推进 AI 研究并扩大产能,以满足人们对 Claude 日益增长的需求。
本轮融资还包括此前来自超大规模数据中心的 150 亿美元承诺投资,其中有亚马逊投资的 50 亿美元。值得关注的是,内存厂商美光、三星和 SK 海力士也加入了投资的行列。
在融资公告中 Anthropic 也透露,自今年 2 月完成 G 轮融资以来,Claude 在全球企业客户中的应用持续增长,本月初的年化收入已经突破 470 亿美元。
Anthropic 的优势还将继续?
参考内容:
https://www.anthropic.com/news/claude-opus-4-8
https://www.anthropic.com/news/series-h
Claude Opus 4.8 模型 System Card:
https://cdn.sanity.io/files/4zrzovbb/website/c886650a2e96fc0925c805a1a7ca77314ccbf4a6.pdf