人類揭示其最聰明的“混合推理” AI模型
Anthropic 剛剛推出了 Claude 3.7 Sonnet,標誌著其首個「混合推理模型」的首次亮相。這個突破性的模型旨在應對更複雜的挑戰,相較於早期版本,在數學和程式設計等任務上表現更出色。
為了配合這一進展,Anthropic 同時推出了 Claude Code 的「有限研究預覽」,這是一款代理程式設計工具。雖然 Anthropic 已經為 Cursor 等 AI 程式設計解決方案提供支持,但 Claude Code 被定位為一個互動性強的夥伴,能夠搜尋和閱讀程式碼、修改檔案、撰寫和執行測試、將程式碼推送至 GitHub,並使用命令列工具。
Claude 3.7 Sonnet 將從週一開始在 Claude 應用程式以及 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 中提供。價格與其前身 3.5 Sonnet 保持一致,為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。
與 OpenAI 等競爭對手提供獨立的推理模型不同,Anthropic 強調將推理能力直接整合到模型本身中。正如 Anthropic 的產品研究負責人 Dianne Penn 對《The Verge》解釋說:「我們從根本上相信,推理是 AI 的一項功能,而不是完全獨立的東西。」例如,Claude 不會在處理簡單查詢如「現在是什麼時間?」時遇到太多困難,但在處理複雜的提示,如計畫為期兩週的義大利旅行並考慮天氣條件時,表現尤為出色。
Anthropic
Anthropic
Penn 指出,Claude 3.7 Sonnet 在代理程式設計、金融和法律事務方面顯示出顯著的進步。雖然 Claude 尚未支持即時網路搜尋——這是其他模型已具備的能力——但其知識截止日期為 2024 年 10 月,使其更具時效性。開發者可以透過其 scratchpad 功能影響模型的運作方式,並指定確切的回應時間。Anthropic 的產品副總裁 Michael Gerstenhaber 表示:「有時,開發者只需要表明回答問題不應超過 200 毫秒」,這突顯了一項策略性產品決策。
在內部,Anthropic 的員工已利用新模型設計前端網站介面、創建互動遊戲,並進行長達 45 分鐘的程式設計活動,例如建立測試集和反覆改進測試案例,根據 Penn 的說法。

Claude Code。Anthropic
Penn 提到,Anthropic 透過讓模型玩老式 Pokémon 電子遊戲來評估其能力,將模型的 API 對接到控制器介面。雖然 Claude 3.5 Sonnet 最初難以離開 Pallet Town,但 Claude 3.7 已成功擊敗了幾位道館領袖。
Elon Musk 上週推出的 Grok-3 凸顯了 AI 模型競爭的快速步伐。目前,憑藉 Claude 3.7 Sonnet 的出色表現,Anthropic 暫時領先。其發布暗示了未來一個模型即可處理所有任務,而無需針對不同功能使用專門工具。
相關文章
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
相關專題推薦
評論 (4)
0/500
Hybrid reasoning sounds like a game-changer for coding tasks, but I'm curious about the real-world cost. The article mentions new pricing tiers—will this make AI development more accessible or just widen the gap between big labs and indie researchers? 🤔
¡Otra IA 'más inteligente'? 😅 La verdad es que estos lanzamientos ya se sienten como una rutina mensual. Me interesa eso del "razonamiento híbrido", pero me pregunto: ¿realmente resolverá problemas del mundo real de forma más confiable, o solo será mejor en benchmarks artificiales? Veremos cómo se compara en usabilidad con GPT-o.
ハイブリッド推論モデルって何?数学やコーディングが得意なのはすごいけど、AIが複雑な問題を解けるようになると、人間の仕事が奪われるんじゃないかと少し心配😅 でも技術の進歩は止められないから、うまく付き合っていくしかないですね。
Anthropic 剛剛推出了 Claude 3.7 Sonnet,標誌著其首個「混合推理模型」的首次亮相。這個突破性的模型旨在應對更複雜的挑戰,相較於早期版本,在數學和程式設計等任務上表現更出色。
為了配合這一進展,Anthropic 同時推出了 Claude Code 的「有限研究預覽」,這是一款代理程式設計工具。雖然 Anthropic 已經為 Cursor 等 AI 程式設計解決方案提供支持,但 Claude Code 被定位為一個互動性強的夥伴,能夠搜尋和閱讀程式碼、修改檔案、撰寫和執行測試、將程式碼推送至 GitHub,並使用命令列工具。
Claude 3.7 Sonnet 將從週一開始在 Claude 應用程式以及 Anthropic 的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 中提供。價格與其前身 3.5 Sonnet 保持一致,為每百萬輸入 token 3 美元,每百萬輸出 token 15 美元。
與 OpenAI 等競爭對手提供獨立的推理模型不同,Anthropic 強調將推理能力直接整合到模型本身中。正如 Anthropic 的產品研究負責人 Dianne Penn 對《The Verge》解釋說:「我們從根本上相信,推理是 AI 的一項功能,而不是完全獨立的東西。」例如,Claude 不會在處理簡單查詢如「現在是什麼時間?」時遇到太多困難,但在處理複雜的提示,如計畫為期兩週的義大利旅行並考慮天氣條件時,表現尤為出色。
Anthropic
Anthropic
Penn 指出,Claude 3.7 Sonnet 在代理程式設計、金融和法律事務方面顯示出顯著的進步。雖然 Claude 尚未支持即時網路搜尋——這是其他模型已具備的能力——但其知識截止日期為 2024 年 10 月,使其更具時效性。開發者可以透過其 scratchpad 功能影響模型的運作方式,並指定確切的回應時間。Anthropic 的產品副總裁 Michael Gerstenhaber 表示:「有時,開發者只需要表明回答問題不應超過 200 毫秒」,這突顯了一項策略性產品決策。
在內部,Anthropic 的員工已利用新模型設計前端網站介面、創建互動遊戲,並進行長達 45 分鐘的程式設計活動,例如建立測試集和反覆改進測試案例,根據 Penn 的說法。

Claude Code。Anthropic
Penn 提到,Anthropic 透過讓模型玩老式 Pokémon 電子遊戲來評估其能力,將模型的 API 對接到控制器介面。雖然 Claude 3.5 Sonnet 最初難以離開 Pallet Town,但 Claude 3.7 已成功擊敗了幾位道館領袖。
Elon Musk 上週推出的 Grok-3 凸顯了 AI 模型競爭的快速步伐。目前,憑藉 Claude 3.7 Sonnet 的出色表現,Anthropic 暫時領先。其發布暗示了未來一個模型即可處理所有任務,而無需針對不同功能使用專門工具。
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
ElevenLabs 宣布 BlackRock、傑米·福克斯與伊娃·朗格莉亞成為新投資人
語音人工智慧公司 ElevenLabs 已公布其 5 億美元 D 輪融資的更多投資者名單,該輪融資最初於二月宣布。 投資者陣容包括黑石集團(BlackRock)、威靈頓管理(Wellington)、D.E. Shaw及施羅德(Schroders)等機構投資者;NVIDIA、Salesforce、桑坦德銀行(Santander)、KPN及德國電信(Deutsche Telekom)等企業;以及傑米·
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Hybrid reasoning sounds like a game-changer for coding tasks, but I'm curious about the real-world cost. The article mentions new pricing tiers—will this make AI development more accessible or just widen the gap between big labs and indie researchers? 🤔
¡Otra IA 'más inteligente'? 😅 La verdad es que estos lanzamientos ya se sienten como una rutina mensual. Me interesa eso del "razonamiento híbrido", pero me pregunto: ¿realmente resolverá problemas del mundo real de forma más confiable, o solo será mejor en benchmarks artificiales? Veremos cómo se compara en usabilidad con GPT-o.
ハイブリッド推論モデルって何?数学やコーディングが得意なのはすごいけど、AIが複雑な問題を解けるようになると、人間の仕事が奪われるんじゃないかと少し心配😅 でも技術の進歩は止められないから、うまく付き合っていくしかないですね。





首頁






