選項
首頁
新聞
人類揭示其最聰明的“混合推理” AI模型

人類揭示其最聰明的“混合推理” AI模型

2025-06-02
121

Anthropic 剛剛推出了 Claude 3.7 Sonnet,標誌著其首個「混合推理模型」的首次亮相。這個突破性的模型旨在應對更複雜的挑戰,相較於早期版本,在數學和程式設計等任務上表現更出色。

為了配合這一進展,Anthropic 同時推出了 Claude Code 的「有限研究預覽」,這是一款代理程式設計工具。雖然 Anthropic 已經為 Cursor 等 AI 程式設計解決方案提供支持,但 Claude Code 被定位為一個互動性強的夥伴,能夠搜尋和閱讀程式碼、修改檔案、撰寫和執行測試、將程式碼推送至 GitHub,並使用命令列工具。

Claude 3.7 Sonnet 將從週一開始在 Claude 應用程式以及 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 中提供。價格與其前身 3.5 Sonnet 保持一致,為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。

與 OpenAI 等競爭對手提供獨立的推理模型不同,Anthropic 強調將推理能力直接整合到模型本身中。正如 Anthropic 的產品研究負責人 Dianne Penn 對《The Verge》解釋說:「我們從根本上相信,推理是 AI 的一項功能,而不是完全獨立的東西。」例如,Claude 不會在處理簡單查詢如「現在是什麼時間?」時遇到太多困難,但在處理複雜的提示,如計畫為期兩週的義大利旅行並考慮天氣條件時,表現尤為出色。

Claude 的最新模型卡片。Anthropic
Claude 的軟體工程表現。Anthropic
Penn 指出,Claude 3.7 Sonnet 在代理程式設計、金融和法律事務方面顯示出顯著的進步。雖然 Claude 尚未支持即時網路搜尋——這是其他模型已具備的能力——但其知識截止日期為 2024 年 10 月,使其更具時效性。開發者可以透過其 scratchpad 功能影響模型的運作方式,並指定確切的回應時間。Anthropic 的產品副總裁 Michael Gerstenhaber 表示:「有時,開發者只需要表明回答問題不應超過 200 毫秒」,這突顯了一項策略性產品決策。

在內部,Anthropic 的員工已利用新模型設計前端網站介面、創建互動遊戲,並進行長達 45 分鐘的程式設計活動,例如建立測試集和反覆改進測試案例,根據 Penn 的說法。

Claude 程式碼的螢幕截圖。
Claude Code。Anthropic

Penn 提到,Anthropic 透過讓模型玩老式 Pokémon 電子遊戲來評估其能力,將模型的 API 對接到控制器介面。雖然 Claude 3.5 Sonnet 最初難以離開 Pallet Town,但 Claude 3.7 已成功擊敗了幾位道館領袖。

Elon Musk 上週推出的 Grok-3 凸顯了 AI 模型競爭的快速步伐。目前,憑藉 Claude 3.7 Sonnet 的出色表現,Anthropic 暫時領先。其發布暗示了未來一個模型即可處理所有任務,而無需針對不同功能使用專門工具。

相關文章
Notion 將其工作區轉變為人工智慧代理的樞紐 Notion 將其工作區轉變為人工智慧代理的樞紐 生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人 ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人 語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
相關專題推薦
生產率 AI 架構設計師:運用自然語言建構可擴展的系統架構
AI 架構設計師:運用自然語言建構可擴展的系統架構

立即在 XIX.AI 探索 2026 年最佳 AI 架構設計工具。我們精心挑選並廣受好評的清單,匯集了強大且具革命性的解決方案,讓您能透過自然語言建構可擴展的系統架構。透過實務見解,比較免費與付費選項的差異。立即釋放您的 AI 優勢,並簡化開發流程。

10 個工具
xix.ai
漫畫創作 AI角色建立工具:為漫畫主角生成詳細的背景故事及視覺參考資料
AI角色建立工具:為漫畫主角生成詳細的背景故事及視覺參考資料

2026年最新最佳AI角色建立工具:發現那些備受好評的工具,它們能夠幫助你為漫畫角色生成詳細的背景故事和視覺素材。我們精心整理的這份每週更新的列表會根據實際測試結果,對比免費與付費選項的優劣。找到這些強大且能改變創作流程的工具,幫助你塑造引人入勝的角色,提升創作效率。立即訪問XIX.AI檢視排名,找到最適合你的故事創作助手吧。

10 個工具
xix.ai
健康與養生 AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫
AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫

探索 2026 年最佳 AI 孕期輔助工具,為您量身打造安全且針對各孕期的運動與營養計畫。獲取精選的高評分推薦,包含免費與付費方案的比較,以及實用經驗分享。透過 XIX.AI 的專家指南,開啟您最健康的孕期旅程。立即探索。

10 個工具
xix.ai
寫作 最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文
最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文

立即前往 XIX.AI,探索 2026 年最頂尖的免費且難以被察覺的 AI 寫手。我們精心篩選的頂級清單,能協助您將生硬的草稿轉化為自然流暢、宛如人類撰寫的文字。透過實際測試與每週更新的排行榜,比較免費與付費選項的優劣。立即解鎖您的 AI 寫作優勢。

10 個工具
xix.ai
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
評論 (4)
0/500
CarlLopez
CarlLopez 2026-04-21 02:01:01

Hybrid reasoning sounds like a game-changer for coding tasks, but I'm curious about the real-world cost. The article mentions new pricing tiers—will this make AI development more accessible or just widen the gap between big labs and indie researchers? 🤔

RaymondRodriguez
RaymondRodriguez 2026-02-28 16:00:54

¡Otra IA 'más inteligente'? 😅 La verdad es que estos lanzamientos ya se sienten como una rutina mensual. Me interesa eso del "razonamiento híbrido", pero me pregunto: ¿realmente resolverá problemas del mundo real de forma más confiable, o solo será mejor en benchmarks artificiales? Veremos cómo se compara en usabilidad con GPT-o.

RalphGarcia
RalphGarcia 2026-02-24 06:00:38

ハイブリッド推論モデルって何?数学やコーディングが得意なのはすごいけど、AIが複雑な問題を解けるようになると、人間の仕事が奪われるんじゃないかと少し心配😅 でも技術の進歩は止められないから、うまく付き合っていくしかないですね。

JoeCarter
JoeCarter 2025-08-14 13:00:59

This new Claude 3.7 sounds wild! 🤯 Hybrid reasoning? That's like giving AI a supercharged brain for math and coding. Can't wait to see how it stacks up against others in real-world tasks.

OR