Claude Opus 4.7 正式发布，将可靠性置于智能之上

首页

新闻

2026-06-05

DouglasHarris

Anthropic 今年保持着激进的开发节奏，几乎每隔一天就会推出新功能。备受期待的 Claude Opus 4.7 刚刚正式发布，有趣的是，Anthropic 在公告中直言不讳地表示：“这并非我们最强大的模型。” 传闻中更强大的 Claude Mythos Preview 仍处于待命状态。尽管如此，Opus 4.7 依然引发了广泛关注，因为它致力于解决“更可靠”而非“更智能”的问题。

基准测试结果尤为亮眼。在严苛的编程基准测试 SWE-bench Pro 上， 4.7版从上一版本的53.4%跃升至64.3%，提升近11个百分点，超越了GPT-5.4（57.7%）和Gemini 3.1 Pro（54.2%）。在视觉推理基准测试CharXiv上，其得分从69.1%跃升至82.1%，这得益于新增的2576像素长边识别能力，其清晰度是前代产品的三倍以上。在工具调用评估 MCP-Atlas 上，其得分达到 77.3%；而在法律 AI 平台 Harvey 的 BigLaw 基准测试中，得分高达 90.9%。然而，在代理搜索评估BrowseComp上，4.7版从83.7%微降至79.3%，被GPT-5.4和Gemini超越——这归因于其“不编造”的个性，当信息不完整时，它更倾向于报告错误而非进行猜测。

除了数据之外，其性格的转变更值得关注。Replit的负责人在测试后指出：“它在技术讨论中能与我针锋相对，帮助我做出更明智的决策，确实表现得像一位更优秀的同事。”数据科学平台Hex也观察到，当数据缺失时，4.7会直接报告错误，而非像以往那样提供“看似合理但完全错误”的替代值。与此同时，任务恢复能力也显著提升——Notion 团队的测试表明，该工具的错误率已降至此前水平的三分之一，当工具链出现故障时，它能够绕过障碍并独立完成任务。 Vercel 甚至发现了一种新行为：在编写系统级代码之前，4.7 会先自行进行数学证明。

当然，能力提升伴随着代价。4.7 引入了新的分词器，处理相同文本时生成的令牌数量增加了 1 到 1.35 倍。此外，它在处理复杂任务时往往会“思考得更久一些”，因此实际消耗几乎肯定会更高。为解决这一问题，Anthropic新增了“xhigh”超强思考强度级别。Claude Code已将所有包默认设置为该级别，并推出了Deep Review指令/ultrareview、面向Max用户的Auto Mode扩展，以及“任务预算”功能的公开测试版，以帮助开发者管理令牌使用。

功能更强大的 Mythos Preview 近期已通过“Project Glasswing”项目向企业开放，用于网络安全研究，但由于其能力过于强大且安全评估尚未完成，目前尚未公开发布。

今日发布的 4.7 版本标志着 Anthropic 高频迭代节奏中的最新里程碑。Mythos 终将面世——而当它真正到来时，目前已相当强大的 4.7 版本或许仅仅是个开始。

Suno领投方：删除帖子无法填补版权诉讼的漏洞备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼，而其领投投资人的坦率言论，可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures（Suno的核心投资者）合伙人C.C. Gong近日删除了一个推文，该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中，Suno的辩护主要依赖“合理使用”的论点，声称AI生成的音乐仅仅是一种“工具”，既不会直接与受版权保护的原创作品竞争

海尔推出全球最轻的人工智能运动外骨骼机器人，重量仅为1.75公斤海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录，标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺，融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤，实现了轻量化与高强度的完美平衡，展现出极致的机械性能。为提升舒适度，该机器人融入了非牛顿流体材料，触感柔软亲肤，

耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线，主演均由AI生成今日，耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演，故事背景设定在神秘的秦岭矿区。剧中，退役情报官秦月率队深入该区域，揭开了一起尘封已久的矿难真相，以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域，那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一，该剧在筹备阶段便引发了业界热烈讨论，而关于其A

相关专题推荐

漫画创作