選項
首頁
新聞
《Cursor Composer 2》對決《Claude Opus 4.6》:效能測試引發新一輪 AI 程式設計辯論

《Cursor Composer 2》對決《Claude Opus 4.6》:效能測試引發新一輪 AI 程式設計辯論

2026-06-06
3

3月19日,Cursor 正式發布其自主研發的編碼模型 Composer 2。 這項公告在開發者社群中立即引發熱議——根據 Cursor 的說法,Composer 2 在 Terminal-Bench 2.0 上的得分為 61.7%,在相同的測試條件下,顯著超越了 Claude Opus 4.6 的 58.0%

Anthropic 的旗艦模型,竟被自家 IDE 內建的模型超越?隨著消息傳開,相關辯論迅速浮現。

顯示 Terminal-Bench 2.0 分數比較圖表

三項關鍵基準測試結果

Cursor 發布了三組基準測試結果,均已公開:

Terminal-Bench 2.0(代理式終端編碼任務):Composer 2 獲得 61.7% 的成績,超越 Claude Opus 4.6 的 58.0%。 然而,OpenAI GPT-5.4 仍以 75.1%保持領先。CursorBench(Cursor 內的真實世界編碼情境): Composer 2 達到 61.3%,相較於前代 Composer 1.5 的 44.2% 有顯著提升,且高於 Claude Opus 4.6 的 58.2%。SWE-bench 多語言(多語言軟體工程): Composer 2 達 73.7%,相較前代有顯著提升。

然而,有一點值得注意:Anthropic 先前曾報告,在最佳化設定下,Claude Opus 4.6 於 Terminal-Bench 2.0 上的得分為 65.4%,遠高於 Cursor 所引用的 58.0%。 此差異源於測試框架——Cursor 採用 Harbor 等第三方代理環境,並取五次執行結果的平均值;而 Anthropic 的數據則來自其自身的優化配置。由於採用不同的參考系統,這兩組數據無法直接比較。 Cursor 並未迴避此點;該公告明確指出「結果取決於代理程式、測試框架及設定。」

成本僅為 Opus 4.6 的十分之一

成本效益才是 Composer 2 真正的隱藏優勢。

其定價為每百萬輸入/輸出代幣 0.50 美元/2.50 美元,相較於 Claude Opus 4.6 的 5 美元/25 美元,以及 GPT-5.4 的 2.5 美元/15 美元,對比極為鮮明。 Cursor 解釋,Composer 2 是專為長週期編碼任務從頭打造,運用其專有的強化學習(RL)訓練與「自我摘要」技術,同時降低延遲與成本——他們將此描述為「前沿智慧 + 極致速度」。

Composer 2 是 Cursor 的第三款自研模型,繼承自 Composer 1(2025 年 10 月)和 1.5 版(2026 年 2 月)。此版本強調「長時程任務」,並將更快、更輕量的變體設為 Cursor IDE 的預設模型。

這場「浴火重生」的意義

Cursor 決定將其模型與 Opus 4.6 直接比較,預示著更廣泛的 AI 編碼工具領域正發生轉變。

OpenAI 與 Anthropic 在通用前沿能力上展開競爭,而像 Cursor 這樣的垂直工具供應商則採取了不同的路線:將特定任務的表現精煉至卓越水準,再利用價格優勢脫穎而出。 VentureBeat 和 The New Stack 等媒體指出,Composer 2 將加速「多模型路由」的實際部署——即使用 Opus 或 GPT 進行複雜推理,並切換至 Composer 2 處理日常高頻率編碼,從而兼顧兩者的優勢。

Claude Opus 4.6 於 2 月 5 日推出,並在 Terminal-Bench 2.0、Humanity's Last Exam 及 GDPval-AA 等數項基準測試中名列前茅。Cursor 的新測試結果至少對其在專業編碼領域的統治地位提出了質疑。

迄今為止,開發者的反應大多正面,但許多人表示希望先觀察實際專案的表現再下結論——這是一個合理的立場,畢竟基準測試終究只是基準測試。Cursor 已開放訂閱用戶在 IDE 內免費試用 Composer 2。

資料來源:Cursor 官方公告及主要科技媒體,截至 2026 年 3 月 20 日。最新排名可於 tbench.ai 或 Cursor 官網查閱。

相關文章
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助 百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助 據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
StrictlyVC 舊金山站將匯聚 TDK Ventures、Replit 等企業的領導者 StrictlyVC 舊金山站將匯聚 TDK Ventures、Replit 等企業的領導者 今年首場 StrictlyVC 活動即將在舊金山登場,時間比你想像的還要快。 4月30日於菲律賓文化中心(Sentro Filipino Cultural Center)舉辦的聚會門票現仍開放購買,現場將有陣容強大的講者陣容。除了StrictlyVC一貫以人脈拓展與社群互動著稱外,這場舊金山活動對於尋求最新募資洞見的人工智慧創新者與創辦人而言,將具有特別的價值。誰將登上舞台門票現已開售,但若您尚未
Notion 將其工作區轉變為人工智慧代理的樞紐 Notion 將其工作區轉變為人工智慧代理的樞紐 生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
相關專題推薦
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
動畫創作 專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像
專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具,能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項,找到最適合你的創作工具,今天就在XIX.AI上將你的故事變為現實吧。

10 個工具
xix.ai
漫畫創作 漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩
漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩

立即前往 XIX.AI,探索 2026 年最優秀的漫畫 AI 自動上色工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的解決方案,這些工具能以零一致性錯誤的方式套用平面色彩,大幅提升您的工作效率。透過免費與付費版本的比較、實際測試結果,以及每週更新的排行榜,找到最適合您的工具。立即解鎖您的 AI 優勢。

10 個工具
xix.ai
寫作 頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點
頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點

探索 2026 年最優秀的 AI 角色設定生成工具,打造立體鮮明的角色。XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具能生成一貫的動機與致命缺陷。透過實際測試,比較免費與付費選項的差異。立即釋放您的說故事潛能。

10 個工具
xix.ai
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
評論 (0)
0/500
OR