Claude Opus 4.7 正式推出,重視可靠性勝於智能
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。

基準測試結果相當亮眼。在嚴苛的程式設計基準測試 SWE-bench Pro 上, 4.7 版本的成績從前一版的 53.4% 躍升至 64.3%,提升近 11 個百分點,超越了 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。 在視覺推理基準測試 CharXiv 上,其表現從 69.1% 躍升至 82.1%,這主要得益於新增的 2576 像素長邊識別能力,其清晰度較前代產品提升了三倍以上。 在工具呼叫評估 MCP-Atlas 上,其得分為 77.3%;而在法律 AI 平台 Harvey 的 BigLaw 基準測試中,則達到 90.9%。 然而,在代理式搜尋評估BrowseComp上,4.7版從83.7%微幅下滑至79.3%,被GPT-5.4和Gemini超越——這歸因於其「不捏造」的個性,當資訊不完整時,它傾向於報告錯誤而非進行推測。
除了數字之外,性格的轉變更值得注意。Replit 的負責人在測試後指出:「它在技術討論中能與我切磋,協助我做出更佳決策,確實像一位更優秀的同事。」數據科學平台 Hex 也觀察到,當資料缺失時,4.7 會直接回報錯誤,而非像以往那樣提供「看似合理但完全錯誤」的替代值。 與此同時,任務韌性也顯著提升——Notion 團隊的測試顯示,該工具的錯誤率已降至先前水平的三分之一,且當工具鏈發生故障時,它能克服障礙並獨立完成任務。 Vercel 甚至發現了一種新行為:在編寫系統級代碼之前,4.7 會先自行進行數學證明。

當然,能力提升伴隨著代價。4.7 引入了新的分詞器,針對相同文本生成的令牌數量增加了 1 到 1.35 倍。此外,它在處理複雜任務時傾向於「思考更久一些」,因此實際消耗量幾乎肯定會更高。 為解決此問題,Anthropic 新增了「xhigh」超高額度思考強度等級。Claude Code 已預設將所有套件設為此等級,並推出「深度審查」指令 / ultrareview、針對 Max 用戶的 Auto Mode 擴充功能,以及「任務預算」功能的公開測試版,以協助開發者管理字元使用量。
功能更強大的 Mythos Preview 近期已透過「Project Glasswing」計畫向企業開放,用於網路安全研究;但由於其能力過於強大且安全評估尚未完成,目前尚未對外公開發布。
今日發布的 4.7 版本標誌著 Anthropic 高頻次發布節奏中的最新里程碑。Mythos 終將問世——而當它真正登場時,現已相當強大的 4.7 版本或許僅僅是序幕。
相關文章
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
相關專題推薦
評論 (0)
0/500
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。

基準測試結果相當亮眼。在嚴苛的程式設計基準測試 SWE-bench Pro 上, 4.7 版本的成績從前一版的 53.4% 躍升至 64.3%,提升近 11 個百分點,超越了 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。 在視覺推理基準測試 CharXiv 上,其表現從 69.1% 躍升至 82.1%,這主要得益於新增的 2576 像素長邊識別能力,其清晰度較前代產品提升了三倍以上。 在工具呼叫評估 MCP-Atlas 上,其得分為 77.3%;而在法律 AI 平台 Harvey 的 BigLaw 基準測試中,則達到 90.9%。 然而,在代理式搜尋評估BrowseComp上,4.7版從83.7%微幅下滑至79.3%,被GPT-5.4和Gemini超越——這歸因於其「不捏造」的個性,當資訊不完整時,它傾向於報告錯誤而非進行推測。
除了數字之外,性格的轉變更值得注意。Replit 的負責人在測試後指出:「它在技術討論中能與我切磋,協助我做出更佳決策,確實像一位更優秀的同事。」數據科學平台 Hex 也觀察到,當資料缺失時,4.7 會直接回報錯誤,而非像以往那樣提供「看似合理但完全錯誤」的替代值。 與此同時,任務韌性也顯著提升——Notion 團隊的測試顯示,該工具的錯誤率已降至先前水平的三分之一,且當工具鏈發生故障時,它能克服障礙並獨立完成任務。 Vercel 甚至發現了一種新行為:在編寫系統級代碼之前,4.7 會先自行進行數學證明。

當然,能力提升伴隨著代價。4.7 引入了新的分詞器,針對相同文本生成的令牌數量增加了 1 到 1.35 倍。此外,它在處理複雜任務時傾向於「思考更久一些」,因此實際消耗量幾乎肯定會更高。 為解決此問題,Anthropic 新增了「xhigh」超高額度思考強度等級。Claude Code 已預設將所有套件設為此等級,並推出「深度審查」指令 / ultrareview、針對 Max 用戶的 Auto Mode 擴充功能,以及「任務預算」功能的公開測試版,以協助開發者管理字元使用量。
功能更強大的 Mythos Preview 近期已透過「Project Glasswing」計畫向企業開放,用於網路安全研究;但由於其能力過於強大且安全評估尚未完成,目前尚未對外公開發布。
今日發布的 4.7 版本標誌著 Anthropic 高頻次發布節奏中的最新里程碑。Mythos 終將問世——而當它真正登場時,現已相當強大的 4.7 版本或許僅僅是序幕。
小紅書組織重整:柯南出任總裁,成立 AI 主業務部門 Dots 及海外事業部 Rednote
4月30日,小紅書向全體員工發佈內部通告,宣布啟動新一輪組織架構調整。此次變革的核心在於將社群、電商和商業化三大業務線,與公司的技術系統全面整合。 公司新設了名為「Dots」的「AI優先」部門,此舉標誌著小紅書已正式將人工智慧提升為最高戰略優先事項,旨在使其從工具型功能轉型為核心生產力。在人事任命方面,南(丁玲)獲任命為小紅書總裁,負責公司核心業務營運,並直接向執行長邢宇匯報。 各業務領域的負責人
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作





首頁






