Claude Opus 4.7 正式发布,将可靠性置于智能之上
Anthropic 今年保持着激进的开发节奏,几乎每隔一天就会推出新功能。备受期待的 Claude Opus 4.7 刚刚正式发布,有趣的是,Anthropic 在公告中直言不讳地表示:“这并非我们最强大的模型。” 传闻中更强大的 Claude Mythos Preview 仍处于待命状态。尽管如此,Opus 4.7 依然引发了广泛关注,因为它致力于解决“更可靠”而非“更智能”的问题。

基准测试结果尤为亮眼。在严苛的编程基准测试 SWE-bench Pro 上, 4.7版从上一版本的53.4%跃升至64.3%,提升近11个百分点,超越了GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)。 在视觉推理基准测试CharXiv上,其得分从69.1%跃升至82.1%,这得益于新增的2576像素长边识别能力,其清晰度是前代产品的三倍以上。 在工具调用评估 MCP-Atlas 上,其得分达到 77.3%;而在法律 AI 平台 Harvey 的 BigLaw 基准测试中,得分高达 90.9%。 然而,在代理搜索评估BrowseComp上,4.7版从83.7%微降至79.3%,被GPT-5.4和Gemini超越——这归因于其“不编造”的个性,当信息不完整时,它更倾向于报告错误而非进行猜测。
除了数据之外,其性格的转变更值得关注。Replit的负责人在测试后指出:“它在技术讨论中能与我针锋相对,帮助我做出更明智的决策,确实表现得像一位更优秀的同事。”数据科学平台Hex也观察到,当数据缺失时,4.7会直接报告错误,而非像以往那样提供“看似合理但完全错误”的替代值。 与此同时,任务恢复能力也显著提升——Notion 团队的测试表明,该工具的错误率已降至此前水平的三分之一,当工具链出现故障时,它能够绕过障碍并独立完成任务。 Vercel 甚至发现了一种新行为:在编写系统级代码之前,4.7 会先自行进行数学证明。

当然,能力提升伴随着代价。4.7 引入了新的分词器,处理相同文本时生成的令牌数量增加了 1 到 1.35 倍。此外,它在处理复杂任务时往往会“思考得更久一些”,因此实际消耗几乎肯定会更高。 为解决这一问题,Anthropic新增了“xhigh”超强思考强度级别。Claude Code已将所有包默认设置为该级别,并推出了Deep Review指令/ultrareview、面向Max用户的Auto Mode扩展,以及“任务预算”功能的公开测试版,以帮助开发者管理令牌使用。
功能更强大的 Mythos Preview 近期已通过“Project Glasswing”项目向企业开放,用于网络安全研究,但由于其能力过于强大且安全评估尚未完成,目前尚未公开发布。
今日发布的 4.7 版本标志着 Anthropic 高频迭代节奏中的最新里程碑。Mythos 终将面世——而当它真正到来时,目前已相当强大的 4.7 版本或许仅仅是个开始。
相关文章
Suno领投方:删除帖子无法填补版权诉讼的漏洞
备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼,而其领投投资人的坦率言论,可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures(Suno的核心投资者)合伙人C.C. Gong近日删除了一个推文,该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中,Suno的辩护主要依赖“合理使用”的论点,声称AI生成的音乐仅仅是一种“工具”,既不会直接与受版权保护的原创作品竞争
海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤
海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录,标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺,融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤,实现了轻量化与高强度的完美平衡,展现出极致的机械性能。为提升舒适度,该机器人融入了非牛顿流体材料,触感柔软亲肤,
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成
今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
相关专题推荐
评论 (0)
0/500
Anthropic 今年保持着激进的开发节奏,几乎每隔一天就会推出新功能。备受期待的 Claude Opus 4.7 刚刚正式发布,有趣的是,Anthropic 在公告中直言不讳地表示:“这并非我们最强大的模型。” 传闻中更强大的 Claude Mythos Preview 仍处于待命状态。尽管如此,Opus 4.7 依然引发了广泛关注,因为它致力于解决“更可靠”而非“更智能”的问题。

基准测试结果尤为亮眼。在严苛的编程基准测试 SWE-bench Pro 上, 4.7版从上一版本的53.4%跃升至64.3%,提升近11个百分点,超越了GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)。 在视觉推理基准测试CharXiv上,其得分从69.1%跃升至82.1%,这得益于新增的2576像素长边识别能力,其清晰度是前代产品的三倍以上。 在工具调用评估 MCP-Atlas 上,其得分达到 77.3%;而在法律 AI 平台 Harvey 的 BigLaw 基准测试中,得分高达 90.9%。 然而,在代理搜索评估BrowseComp上,4.7版从83.7%微降至79.3%,被GPT-5.4和Gemini超越——这归因于其“不编造”的个性,当信息不完整时,它更倾向于报告错误而非进行猜测。
除了数据之外,其性格的转变更值得关注。Replit的负责人在测试后指出:“它在技术讨论中能与我针锋相对,帮助我做出更明智的决策,确实表现得像一位更优秀的同事。”数据科学平台Hex也观察到,当数据缺失时,4.7会直接报告错误,而非像以往那样提供“看似合理但完全错误”的替代值。 与此同时,任务恢复能力也显著提升——Notion 团队的测试表明,该工具的错误率已降至此前水平的三分之一,当工具链出现故障时,它能够绕过障碍并独立完成任务。 Vercel 甚至发现了一种新行为:在编写系统级代码之前,4.7 会先自行进行数学证明。

当然,能力提升伴随着代价。4.7 引入了新的分词器,处理相同文本时生成的令牌数量增加了 1 到 1.35 倍。此外,它在处理复杂任务时往往会“思考得更久一些”,因此实际消耗几乎肯定会更高。 为解决这一问题,Anthropic新增了“xhigh”超强思考强度级别。Claude Code已将所有包默认设置为该级别,并推出了Deep Review指令/ultrareview、面向Max用户的Auto Mode扩展,以及“任务预算”功能的公开测试版,以帮助开发者管理令牌使用。
功能更强大的 Mythos Preview 近期已通过“Project Glasswing”项目向企业开放,用于网络安全研究,但由于其能力过于强大且安全评估尚未完成,目前尚未公开发布。
今日发布的 4.7 版本标志着 Anthropic 高频迭代节奏中的最新里程碑。Mythos 终将面世——而当它真正到来时,目前已相当强大的 4.7 版本或许仅仅是个开始。
Suno领投方:删除帖子无法填补版权诉讼的漏洞
备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼,而其领投投资人的坦率言论,可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures(Suno的核心投资者)合伙人C.C. Gong近日删除了一个推文,该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中,Suno的辩护主要依赖“合理使用”的论点,声称AI生成的音乐仅仅是一种“工具”,既不会直接与受版权保护的原创作品竞争
海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤
海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录,标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺,融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤,实现了轻量化与高强度的完美平衡,展现出极致的机械性能。为提升舒适度,该机器人融入了非牛顿流体材料,触感柔软亲肤,
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成
今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A





首页






