选项
首页
新闻
Claude Opus 4.7 正式发布,将可靠性置于智能之上

Claude Opus 4.7 正式发布,将可靠性置于智能之上

2026-06-05
1

Anthropic 今年保持着激进的开发节奏,几乎每隔一天就会推出新功能。备受期待的 Claude Opus 4.7 刚刚正式发布,有趣的是,Anthropic 在公告中直言不讳地表示:“这并非我们最强大的模型。” 传闻中更强大的 Claude Mythos Preview 仍处于待命状态。尽管如此,Opus 4.7 依然引发了广泛关注,因为它致力于解决“更可靠”而非“更智能”的问题。

image.png

基准测试结果尤为亮眼。在严苛的编程基准测试 SWE-bench Pro 上, 4.7版从上一版本的53.4%跃升至64.3%,提升近11个百分点,超越了GPT-5.4(57.7%)和Gemini 3.1 Pro(54.2%)。 在视觉推理基准测试CharXiv上,其得分从69.1%跃升至82.1%,这得益于新增的2576像素长边识别能力,其清晰度是前代产品的三倍以上。 在工具调用评估 MCP-Atlas 上,其得分达到 77.3%;而在法律 AI 平台 Harvey 的 BigLaw 基准测试中,得分高达 90.9%。 然而,在代理搜索评估BrowseComp上,4.7版从83.7%微降至79.3%,被GPT-5.4和Gemini超越——这归因于其“不编造”的个性,当信息不完整时,它更倾向于报告错误而非进行猜测。

除了数据之外,其性格的转变更值得关注。Replit的负责人在测试后指出:“它在技术讨论中能与我针锋相对,帮助我做出更明智的决策,确实表现得像一位更优秀的同事。”数据科学平台Hex也观察到,当数据缺失时,4.7会直接报告错误,而非像以往那样提供“看似合理但完全错误”的替代值。 与此同时,任务恢复能力也显著提升——Notion 团队的测试表明,该工具的错误率已降至此前水平的三分之一,当工具链出现故障时,它能够绕过障碍并独立完成任务。 Vercel 甚至发现了一种新行为:在编写系统级代码之前,4.7 会先自行进行数学证明。

image.png

当然,能力提升伴随着代价。4.7 引入了新的分词器,处理相同文本时生成的令牌数量增加了 1 到 1.35 倍。此外,它在处理复杂任务时往往会“思考得更久一些”,因此实际消耗几乎肯定会更高。 为解决这一问题,Anthropic新增了“xhigh”超强思考强度级别。Claude Code已将所有包默认设置为该级别,并推出了Deep Review指令/ultrareview、面向Max用户的Auto Mode扩展,以及“任务预算”功能的公开测试版,以帮助开发者管理令牌使用。

功能更强大的 Mythos Preview 近期已通过“Project Glasswing”项目向企业开放,用于网络安全研究,但由于其能力过于强大且安全评估尚未完成,目前尚未公开发布。

今日发布的 4.7 版本标志着 Anthropic 高频迭代节奏中的最新里程碑。Mythos 终将面世——而当它真正到来时,目前已相当强大的 4.7 版本或许仅仅是个开始。

相关文章
Suno领投方:删除帖子无法填补版权诉讼的漏洞 Suno领投方:删除帖子无法填补版权诉讼的漏洞 备受瞩目的AI音乐生成平台Suno正面临一场艰难的版权诉讼,而其领投投资人的坦率言论,可能恰恰为对方提供了他们梦寐以求的证据。 Menlo Ventures(Suno的核心投资者)合伙人C.C. Gong近日删除了一个推文,该推文与公司当前的法律辩护策略直接相悖。在之前的版权诉讼中,Suno的辩护主要依赖“合理使用”的论点,声称AI生成的音乐仅仅是一种“工具”,既不会直接与受版权保护的原创作品竞争
海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤 海尔推出全球最轻的人工智能运动外骨骼机器人,重量仅为1.75公斤 海尔集团推出了全球最轻的运动型人工智能外骨骼机器人——海尔外骨骼机器人W3。此次发布创下了行业轻量化新纪录,标志着在轻量化设计和智能人体运动增强领域取得了重大突破。高端材料成就超轻量化设计W3采用创新的一体化制造工艺,融合全碳纤维与钛合金。这种航空级材料组合将总重量控制在仅1.75公斤,实现了轻量化与高强度的完美平衡,展现出极致的机械性能。为提升舒适度,该机器人融入了非牛顿流体材料,触感柔软亲肤,
耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 耀科传媒首部AIGC剧集《秦岭青铜之谜》今日上线,主演均由AI生成 今日,耀科传媒的AIGC奇幻悬疑短剧《秦岭青铜秘闻》正式上线。该剧由公司签约的首批两位AI演员秦凌月和林西妍主演,故事背景设定在神秘的秦岭矿区。 剧中,退役情报官秦月率队深入该区域,揭开了一起尘封已久的矿难真相,以及跨越两代人的血祭之谜——这个真相就隐藏在受限的地下区域,那里是科学探索与古代巫术交汇之地。作为中国最早完全由AI数字人支撑的影视作品之一,该剧在筹备阶段便引发了业界热烈讨论,而关于其A
相关专题推荐
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
教育与学习 最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程
最佳AI数据科学导师:精通SQL、Pandas及机器学习工作流程

探索2026年最优秀的人工智能数据科学导师,帮助他们掌握SQL、Pandas以及机器学习工作流程。在XIX.AI上查看我们精心挑选的顶级导师名单,获得强大而具有变革性的指导。通过对比免费和付费选项,并结合实际应用案例进行了解,今天就开启你的数据科学精通之路吧。

10 个工具
xix.ai
评论 (0)
0/500
OR