《Cursor Composer 2》對決《Claude Opus 4.6》:效能測試引發新一輪 AI 程式設計辯論
3月19日,Cursor 正式發布其自主研發的編碼模型 Composer 2。 這項公告在開發者社群中立即引發熱議——根據 Cursor 的說法,Composer 2 在 Terminal-Bench 2.0 上的得分為 61.7%,在相同的測試條件下,顯著超越了 Claude Opus 4.6 的 58.0%。
Anthropic 的旗艦模型,竟被自家 IDE 內建的模型超越?隨著消息傳開,相關辯論迅速浮現。

三項關鍵基準測試結果
Cursor 發布了三組基準測試結果,均已公開:
Terminal-Bench 2.0(代理式終端編碼任務):Composer 2 獲得 61.7% 的成績,超越 Claude Opus 4.6 的 58.0%。 然而,OpenAI GPT-5.4 仍以 75.1%保持領先。CursorBench(Cursor 內的真實世界編碼情境): Composer 2 達到 61.3%,相較於前代 Composer 1.5 的 44.2% 有顯著提升,且高於 Claude Opus 4.6 的 58.2%。SWE-bench 多語言(多語言軟體工程): Composer 2 達 73.7%,相較前代有顯著提升。然而,有一點值得注意:Anthropic 先前曾報告,在最佳化設定下,Claude Opus 4.6 於 Terminal-Bench 2.0 上的得分為 65.4%,遠高於 Cursor 所引用的 58.0%。 此差異源於測試框架——Cursor 採用 Harbor 等第三方代理環境,並取五次執行結果的平均值;而 Anthropic 的數據則來自其自身的優化配置。由於採用不同的參考系統,這兩組數據無法直接比較。 Cursor 並未迴避此點;該公告明確指出「結果取決於代理程式、測試框架及設定。」
成本僅為 Opus 4.6 的十分之一
成本效益才是 Composer 2 真正的隱藏優勢。
其定價為每百萬輸入/輸出代幣 0.50 美元/2.50 美元,相較於 Claude Opus 4.6 的 5 美元/25 美元,以及 GPT-5.4 的 2.5 美元/15 美元,對比極為鮮明。 Cursor 解釋,Composer 2 是專為長週期編碼任務從頭打造,運用其專有的強化學習(RL)訓練與「自我摘要」技術,同時降低延遲與成本——他們將此描述為「前沿智慧 + 極致速度」。
Composer 2 是 Cursor 的第三款自研模型,繼承自 Composer 1(2025 年 10 月)和 1.5 版(2026 年 2 月)。此版本強調「長時程任務」,並將更快、更輕量的變體設為 Cursor IDE 的預設模型。
這場「浴火重生」的意義
Cursor 決定將其模型與 Opus 4.6 直接比較,預示著更廣泛的 AI 編碼工具領域正發生轉變。
OpenAI 與 Anthropic 在通用前沿能力上展開競爭,而像 Cursor 這樣的垂直工具供應商則採取了不同的路線:將特定任務的表現精煉至卓越水準,再利用價格優勢脫穎而出。 VentureBeat 和 The New Stack 等媒體指出,Composer 2 將加速「多模型路由」的實際部署——即使用 Opus 或 GPT 進行複雜推理,並切換至 Composer 2 處理日常高頻率編碼,從而兼顧兩者的優勢。
Claude Opus 4.6 於 2 月 5 日推出,並在 Terminal-Bench 2.0、Humanity's Last Exam 及 GDPval-AA 等數項基準測試中名列前茅。Cursor 的新測試結果至少對其在專業編碼領域的統治地位提出了質疑。
迄今為止,開發者的反應大多正面,但許多人表示希望先觀察實際專案的表現再下結論——這是一個合理的立場,畢竟基準測試終究只是基準測試。Cursor 已開放訂閱用戶在 IDE 內免費試用 Composer 2。
資料來源:Cursor 官方公告及主要科技媒體,截至 2026 年 3 月 20 日。最新排名可於 tbench.ai 或 Cursor 官網查閱。
相關文章
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助
據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
StrictlyVC 舊金山站將匯聚 TDK Ventures、Replit 等企業的領導者
今年首場 StrictlyVC 活動即將在舊金山登場,時間比你想像的還要快。 4月30日於菲律賓文化中心(Sentro Filipino Cultural Center)舉辦的聚會門票現仍開放購買,現場將有陣容強大的講者陣容。除了StrictlyVC一貫以人脈拓展與社群互動著稱外,這場舊金山活動對於尋求最新募資洞見的人工智慧創新者與創辦人而言,將具有特別的價值。誰將登上舞台門票現已開售,但若您尚未
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備
相關專題推薦
評論 (0)
0/500
3月19日,Cursor 正式發布其自主研發的編碼模型 Composer 2。 這項公告在開發者社群中立即引發熱議——根據 Cursor 的說法,Composer 2 在 Terminal-Bench 2.0 上的得分為 61.7%,在相同的測試條件下,顯著超越了 Claude Opus 4.6 的 58.0%。
Anthropic 的旗艦模型,竟被自家 IDE 內建的模型超越?隨著消息傳開,相關辯論迅速浮現。

三項關鍵基準測試結果
Cursor 發布了三組基準測試結果,均已公開:
Terminal-Bench 2.0(代理式終端編碼任務):Composer 2 獲得 61.7% 的成績,超越 Claude Opus 4.6 的 58.0%。 然而,OpenAI GPT-5.4 仍以 75.1%保持領先。CursorBench(Cursor 內的真實世界編碼情境): Composer 2 達到 61.3%,相較於前代 Composer 1.5 的 44.2% 有顯著提升,且高於 Claude Opus 4.6 的 58.2%。SWE-bench 多語言(多語言軟體工程): Composer 2 達 73.7%,相較前代有顯著提升。然而,有一點值得注意:Anthropic 先前曾報告,在最佳化設定下,Claude Opus 4.6 於 Terminal-Bench 2.0 上的得分為 65.4%,遠高於 Cursor 所引用的 58.0%。 此差異源於測試框架——Cursor 採用 Harbor 等第三方代理環境,並取五次執行結果的平均值;而 Anthropic 的數據則來自其自身的優化配置。由於採用不同的參考系統,這兩組數據無法直接比較。 Cursor 並未迴避此點;該公告明確指出「結果取決於代理程式、測試框架及設定。」
成本僅為 Opus 4.6 的十分之一
成本效益才是 Composer 2 真正的隱藏優勢。
其定價為每百萬輸入/輸出代幣 0.50 美元/2.50 美元,相較於 Claude Opus 4.6 的 5 美元/25 美元,以及 GPT-5.4 的 2.5 美元/15 美元,對比極為鮮明。 Cursor 解釋,Composer 2 是專為長週期編碼任務從頭打造,運用其專有的強化學習(RL)訓練與「自我摘要」技術,同時降低延遲與成本——他們將此描述為「前沿智慧 + 極致速度」。
Composer 2 是 Cursor 的第三款自研模型,繼承自 Composer 1(2025 年 10 月)和 1.5 版(2026 年 2 月)。此版本強調「長時程任務」,並將更快、更輕量的變體設為 Cursor IDE 的預設模型。
這場「浴火重生」的意義
Cursor 決定將其模型與 Opus 4.6 直接比較,預示著更廣泛的 AI 編碼工具領域正發生轉變。
OpenAI 與 Anthropic 在通用前沿能力上展開競爭,而像 Cursor 這樣的垂直工具供應商則採取了不同的路線:將特定任務的表現精煉至卓越水準,再利用價格優勢脫穎而出。 VentureBeat 和 The New Stack 等媒體指出,Composer 2 將加速「多模型路由」的實際部署——即使用 Opus 或 GPT 進行複雜推理,並切換至 Composer 2 處理日常高頻率編碼,從而兼顧兩者的優勢。
Claude Opus 4.6 於 2 月 5 日推出,並在 Terminal-Bench 2.0、Humanity's Last Exam 及 GDPval-AA 等數項基準測試中名列前茅。Cursor 的新測試結果至少對其在專業編碼領域的統治地位提出了質疑。
迄今為止,開發者的反應大多正面,但許多人表示希望先觀察實際專案的表現再下結論——這是一個合理的立場,畢竟基準測試終究只是基準測試。Cursor 已開放訂閱用戶在 IDE 內免費試用 Composer 2。
資料來源:Cursor 官方公告及主要科技媒體,截至 2026 年 3 月 20 日。最新排名可於 tbench.ai 或 Cursor 官網查閱。
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助
據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
StrictlyVC 舊金山站將匯聚 TDK Ventures、Replit 等企業的領導者
今年首場 StrictlyVC 活動即將在舊金山登場,時間比你想像的還要快。 4月30日於菲律賓文化中心(Sentro Filipino Cultural Center)舉辦的聚會門票現仍開放購買,現場將有陣容強大的講者陣容。除了StrictlyVC一貫以人脈拓展與社群互動著稱外,這場舊金山活動對於尋求最新募資洞見的人工智慧創新者與創辦人而言,將具有特別的價值。誰將登上舞台門票現已開售,但若您尚未
Notion 將其工作區轉變為人工智慧代理的樞紐
生產力軟體公司 Notion 正邁入「代理時代」。在週三的直播產品發布會上,以協作式筆記應用程式聞名的 Notion 揭曉了一套全新的開發者平台,該平台不僅擴展了其自訂 AI 代理程式的能力,還能與外部代理程式串接,並讓團隊建立自動化多步驟工作流程,從任何資料庫中擷取資料。透過建立一個「協調層」——一個能在多個工具和資料來源之間協調 AI 工作的系統——Notion 將自身定位為不僅僅是一款具備





首頁






