【Anthropic 推出 Claude Opus 4.8,在编码和诚信方面均有所提升】
Anthropic 今日宣布推出其最新 AI 模型 Claude Opus 4.8。Anthropic 声称该模型是一个“更有效的合作者”,在智能编码、多学科推理、智能计算机使用、知识工作和智能财务分析方面均有所提升。
测试人员发现 Opus 4.8 在执行智能任务时“更加可靠,判断力也更加敏锐”,而且该模型在诚实度方面也有所提高。
早期测试人员报告称,Opus 4.8 更倾向于标记其工作中的不确定性,并且不可能做出未经证实的断言。我们的评估也证实了这一点,结果表明,Opus 4.8 允许其编写的代码中的缺陷未被标记的可能性比其前代产品降低了约四倍。
一致性评估表明,该模型在支持用户自主性和以用户最佳利益为出发点等亲社会特质指标上取得了新高。欺骗等不一致性行为的发生率低于 Opus 4.7,与 Claude Mythos Preview 相似。
人类学基准测试表明,Opus 4.8 在 SWE-Bench Pro 测试中得分 69.2%,在该测试和其他几个基准测试中均优于 GPT-5.5 和 Gemini 3.1 Pro,尽管 GPT-5.5 在终端编码基准测试中领先。
Opus 4.8 的快速模式运行速度也提高了 2.5 倍,而且价格比以前的型号便宜了三倍。
除了 Opus 4.8 之外,Anthropic 还为其产品线添加了新功能。
动态工作流(研究预览版) - Claude Code 能够完成更大规模的任务。它能够在单个会话中规划工作并运行数百个并行子代理。它能够完成跨越数十万行代码的代码库规模迁移。此功能适用于 Claude Code 的企业版、团队版和 Max 版。
响应力度控制 - 在 Claude.ai 和 Cowork 中,用户可以选择 Claude 在回复中投入的精力。设置越低,Claude 的响应速度越快,消耗速率限制的速度也越慢。Opus 4.8 默认设置为高响应力度,Anthropic 认为这是质量和用户体验之间最佳的平衡点。
Messages API - Messages API 接受 messages 数组中的系统条目,因此开发者可以在任务进行过程中更新 Claude 的指令。
Claude Opus 4.8 现已全面推出。其常规使用价格与 Opus 4.7 相比没有变化。
Anthropic 正在研发功能与 Opus 4.8 相同但成本更低的模型,以及一种比 Opus 更智能的新型模型。Anthropic 表示,他们一直在为正在少数机构测试的 Claude Mythos 模型开发安全保障措施,并预计“在未来几周内”将 Mythos 级模型推广给所有客户。
