人类揭示其最聪明的“混合推理” AI模型
Anthropic 刚刚发布了 Claude 3.7 Sonnet,标志着其首个人工智能“混合推理模型”的亮相。这一突破性模型旨在应对更复杂的挑战,在数学和编码等任务上超越了早期版本。
为了配合这一进步,Anthropic 还推出了 Claude Code 的“有限研究预览”,这是一款智能编码工具。虽然 Anthropic 已经为 AI 编码解决方案(如 Cursor)提供支持,但 Claude Code 被定位为一个交互式伙伴,能够搜索和阅读代码、修改文件、编写和运行测试、将代码推送到 GitHub,并使用命令行工具。
Claude 3.7 Sonnet 将于周一在 Claude 应用程序以及 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上正式可用。定价与其前身 3.5 Sonnet 保持一致,输入每百万 token 为 3 美元,输出每百万 token 为 15 美元。
与 OpenAI 等竞争对手提供独立推理模型不同,Anthropic 强调将推理能力直接集成到模型本身中。正如 Anthropic 的产品研究负责人 Dianne Penn 在接受《The Verge》采访时解释道:“我们坚信推理是 AI 的一项功能,而不是完全独立的东西。”例如,Claude 在处理简单查询如“现在是星期几?”时不会遇到太多困难,但在处理复杂提示(如规划两周的意大利旅行并考虑天气条件)时表现出色。
Anthropic
Anthropic
Penn 指出,Claude 3.7 Sonnet 在智能编码、财务和法律事务方面表现出显著改进。虽然 Claude 尚未支持实时网络搜索——这是其他模型已具备的功能——但其知识截止日期为 2024 年 10 月,信息更加新颖。开发者可以通过其 scratchpad 功能影响模型的运行方式,并指定精确的响应时间。Anthropic 的产品副总裁 Michael Gerstenhaber 表示:“有时候,开发者只需指明回答这个问题不应超过 200 毫秒,”这凸显了一个战略性的产品决策。
在内部,Anthropic 员工已使用新模型设计前端网站界面、创建交互式游戏,并进行长达 45 分钟的编码活动,例如构建测试集和迭代优化测试用例,Penn 说道。

Claude Code. Anthropic
Penn 提到,Anthropic 通过让模型玩一款老式 Pokémon 视频游戏来评估其能力,将模型的 API 映射到控制器界面。虽然 Claude 3.5 Sonnet 最初难以离开 Pallet Town,但 Claude 3.7 已成功击败了多个道馆馆主。
Elon Musk 上周发布的 Grok-3 凸显了 AI 模型竞争的快速发展。目前,凭借 Claude 3.7 Sonnet 的出色表现,Anthropic 暂时领先。其发布预示着一个未来,单一模型将能处理所有任务,而无需为不同功能使用专门工具。
相关文章
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
相关专题推荐
评论 (4)
0/500
Hybrid reasoning sounds like a game-changer for coding tasks, but I'm curious about the real-world cost. The article mentions new pricing tiers—will this make AI development more accessible or just widen the gap between big labs and indie researchers? 🤔
¡Otra IA 'más inteligente'? 😅 La verdad es que estos lanzamientos ya se sienten como una rutina mensual. Me interesa eso del "razonamiento híbrido", pero me pregunto: ¿realmente resolverá problemas del mundo real de forma más confiable, o solo será mejor en benchmarks artificiales? Veremos cómo se compara en usabilidad con GPT-o.
ハイブリッド推論モデルって何?数学やコーディングが得意なのはすごいけど、AIが複雑な問題を解けるようになると、人間の仕事が奪われるんじゃないかと少し心配😅 でも技術の進歩は止められないから、うまく付き合っていくしかないですね。
Anthropic 刚刚发布了 Claude 3.7 Sonnet,标志着其首个人工智能“混合推理模型”的亮相。这一突破性模型旨在应对更复杂的挑战,在数学和编码等任务上超越了早期版本。
为了配合这一进步,Anthropic 还推出了 Claude Code 的“有限研究预览”,这是一款智能编码工具。虽然 Anthropic 已经为 AI 编码解决方案(如 Cursor)提供支持,但 Claude Code 被定位为一个交互式伙伴,能够搜索和阅读代码、修改文件、编写和运行测试、将代码推送到 GitHub,并使用命令行工具。
Claude 3.7 Sonnet 将于周一在 Claude 应用程序以及 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上正式可用。定价与其前身 3.5 Sonnet 保持一致,输入每百万 token 为 3 美元,输出每百万 token 为 15 美元。
与 OpenAI 等竞争对手提供独立推理模型不同,Anthropic 强调将推理能力直接集成到模型本身中。正如 Anthropic 的产品研究负责人 Dianne Penn 在接受《The Verge》采访时解释道:“我们坚信推理是 AI 的一项功能,而不是完全独立的东西。”例如,Claude 在处理简单查询如“现在是星期几?”时不会遇到太多困难,但在处理复杂提示(如规划两周的意大利旅行并考虑天气条件)时表现出色。
Anthropic
Anthropic
Penn 指出,Claude 3.7 Sonnet 在智能编码、财务和法律事务方面表现出显著改进。虽然 Claude 尚未支持实时网络搜索——这是其他模型已具备的功能——但其知识截止日期为 2024 年 10 月,信息更加新颖。开发者可以通过其 scratchpad 功能影响模型的运行方式,并指定精确的响应时间。Anthropic 的产品副总裁 Michael Gerstenhaber 表示:“有时候,开发者只需指明回答这个问题不应超过 200 毫秒,”这凸显了一个战略性的产品决策。
在内部,Anthropic 员工已使用新模型设计前端网站界面、创建交互式游戏,并进行长达 45 分钟的编码活动,例如构建测试集和迭代优化测试用例,Penn 说道。

Claude Code. Anthropic
Penn 提到,Anthropic 通过让模型玩一款老式 Pokémon 视频游戏来评估其能力,将模型的 API 映射到控制器界面。虽然 Claude 3.5 Sonnet 最初难以离开 Pallet Town,但 Claude 3.7 已成功击败了多个道馆馆主。
Elon Musk 上周发布的 Grok-3 凸显了 AI 模型竞争的快速发展。目前,凭借 Claude 3.7 Sonnet 的出色表现,Anthropic 暂时领先。其发布预示着一个未来,单一模型将能处理所有任务,而无需为不同功能使用专门工具。
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
ElevenLabs宣布黑石集团、杰米·福克斯和伊娃·朗格利亚成为新投资者
语音人工智能公司ElevenLabs披露了其5亿美元D轮融资的更多投资者名单,该轮融资最初于2月宣布。 其中包括贝莱德(BlackRock)、威灵顿(Wellington)、D.E. Shaw和施罗德(Schroders)等机构投资者;英伟达(NVIDIA)、Salesforce、桑坦德银行(Santander)、KPN和德国电信(Deutsche Telekom)等企业;以及杰米·福克斯(Jam
WordPress.com 现已支持 AI 助手撰写和发布文章,还有更多功能
广受欢迎的网站托管和发布平台 WordPress.com 现已开始引入人工智能助手——这一举措或将重塑网络的呈现方式。该公司于周五宣布,将允许人工智能助手在用户网站上起草、编辑和发布内容,同时还能管理评论、更新和修正元数据,并通过标签和分类对内容进行整理。所有这些操作均通过一个界面进行控制,网站所有者只需使用自然语言命令说明其需求即可。凭借这些新功能,网站几乎可以完全由人工指导的AI代理来创建和运
Hybrid reasoning sounds like a game-changer for coding tasks, but I'm curious about the real-world cost. The article mentions new pricing tiers—will this make AI development more accessible or just widen the gap between big labs and indie researchers? 🤔
¡Otra IA 'más inteligente'? 😅 La verdad es que estos lanzamientos ya se sienten como una rutina mensual. Me interesa eso del "razonamiento híbrido", pero me pregunto: ¿realmente resolverá problemas del mundo real de forma más confiable, o solo será mejor en benchmarks artificiales? Veremos cómo se compara en usabilidad con GPT-o.
ハイブリッド推論モデルって何?数学やコーディングが得意なのはすごいけど、AIが複雑な問題を解けるようになると、人間の仕事が奪われるんじゃないかと少し心配😅 でも技術の進歩は止められないから、うまく付き合っていくしかないですね。





首页






