Cursor Composer 2 与 Claude Opus 4.6:基准测试引发新一轮人工智能编程争论
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。
Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关争论迅速涌现。

三项关键基准测试结果
Cursor 发布了三组基准测试结果,均已公开:
Terminal-Bench 2.0(代理式终端编码任务):Composer 2 得分 61.7%,超越了 Claude Opus 4.6 的 58.0%。 不过,OpenAI GPT-5.4仍以75.1%的成绩保持领先。CursorBench(Cursor内的真实编程场景): Composer 2 达到 61.3%,较前代 Composer 1.5 的 44.2% 大幅跃升,同时也高于 Claude Opus 4.6 的 58.2%。SWE-bench 多语言(多语言软件工程): Composer 2 取得 73.7% 的成绩,较其前代产品有显著提升。不过,有一点值得注意:Anthropic此前曾报告称,在优化设置下,Claude Opus 4.6在Terminal-Bench 2.0上的得分达到65.4%,远高于Cursor引用的58.0%。 这种差异源于测试框架——Cursor使用了Harbor等第三方代理环境,并取五次运行结果的平均值,而Anthropic的数据则来自其自身的优化配置。由于采用的参考系统不同,这两组数据无法直接比较。 Cursor并未回避这一问题;其公告中明确指出“结果取决于智能体、测试框架和设置”。
成本仅为Opus 4.6的十分之一
性价比才是 Composer 2 真正的隐形优势。
其定价为每百万输入/输出令牌 0.50 美元/2.50 美元,相比之下,Claude Opus 4.6 的定价为 5 美元/25 美元,GPT-5.4 为 2.5 美元/15 美元,两者形成鲜明对比。 Cursor 解释称,Composer 2 是专为长周期编码任务从零开始构建的,利用其专有的强化学习(RL)训练和“自我摘要”技术,同时降低了延迟和成本——他们将其描述为“前沿智能 + 极致速度”。
Composer 2 是 Cursor 的第三款自研模型,继 Composer 1(2025 年 10 月)和 1.5 版(2026 年 2 月)之后推出。此次发布重点强调“长周期任务”,并将一个更快、更轻量级的变体设为 Cursor IDE 中的默认模型。
“浴火重生”的深层含义
Cursor 决定将其模型与 Opus 4.6 直接对比,这标志着更广泛的人工智能编码工具格局正在发生转变。
OpenAI 和 Anthropic 在通用前沿能力上展开竞争,而像 Cursor 这样的垂直工具提供商则另辟蹊径:将特定任务的性能打磨到卓越水平,进而利用价格优势脱颖而出。 VentureBeat 和 The New Stack 等媒体指出,Composer 2 将加速“多模型路由”的实际落地——即使用 Opus 或 GPT 进行复杂推理,而将 Composer 2 用于日常高频编码,从而兼得两者的优势。
Claude Opus 4.6 于 2 月 5 日发布,并在 Terminal-Bench 2.0、Humanity's Last Exam 和 GDPval-AA 等多个基准测试中名列前茅。Cursor 的新测试结果至少对该模型在专业编码领域的统治地位提出了质疑。
目前开发者的反响大多积极,但许多人表示希望先观察其在实际项目中的表现再下结论——这是一种合理的态度,毕竟基准测试终究只是基准测试。Cursor 已向订阅用户开放了在 IDE 内免费试用 Composer 2 的权限。
数据来源:Cursor官方公告及主流科技媒体,截至2026年3月20日。最新排名可访问tbench.ai或Cursor官网查看。
相关文章
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应
相关专题推荐
评论 (0)
0/500
3月19日,Cursor正式发布了其自主研发的编程模型Composer 2。 这一消息在开发者社区中立即引发热议——据 Cursor 称,Composer 2 在 Terminal-Bench 2.0 测试中获得了 61.7% 的得分,在相同的测试条件下,这一成绩显著超过了 Claude Opus 4.6 的 58.0%。
Anthropic的旗舰模型竟被自家IDE内置的模型超越?随着消息传开,相关争论迅速涌现。

三项关键基准测试结果
Cursor 发布了三组基准测试结果,均已公开:
Terminal-Bench 2.0(代理式终端编码任务):Composer 2 得分 61.7%,超越了 Claude Opus 4.6 的 58.0%。 不过,OpenAI GPT-5.4仍以75.1%的成绩保持领先。CursorBench(Cursor内的真实编程场景): Composer 2 达到 61.3%,较前代 Composer 1.5 的 44.2% 大幅跃升,同时也高于 Claude Opus 4.6 的 58.2%。SWE-bench 多语言(多语言软件工程): Composer 2 取得 73.7% 的成绩,较其前代产品有显著提升。不过,有一点值得注意:Anthropic此前曾报告称,在优化设置下,Claude Opus 4.6在Terminal-Bench 2.0上的得分达到65.4%,远高于Cursor引用的58.0%。 这种差异源于测试框架——Cursor使用了Harbor等第三方代理环境,并取五次运行结果的平均值,而Anthropic的数据则来自其自身的优化配置。由于采用的参考系统不同,这两组数据无法直接比较。 Cursor并未回避这一问题;其公告中明确指出“结果取决于智能体、测试框架和设置”。
成本仅为Opus 4.6的十分之一
性价比才是 Composer 2 真正的隐形优势。
其定价为每百万输入/输出令牌 0.50 美元/2.50 美元,相比之下,Claude Opus 4.6 的定价为 5 美元/25 美元,GPT-5.4 为 2.5 美元/15 美元,两者形成鲜明对比。 Cursor 解释称,Composer 2 是专为长周期编码任务从零开始构建的,利用其专有的强化学习(RL)训练和“自我摘要”技术,同时降低了延迟和成本——他们将其描述为“前沿智能 + 极致速度”。
Composer 2 是 Cursor 的第三款自研模型,继 Composer 1(2025 年 10 月)和 1.5 版(2026 年 2 月)之后推出。此次发布重点强调“长周期任务”,并将一个更快、更轻量级的变体设为 Cursor IDE 中的默认模型。
“浴火重生”的深层含义
Cursor 决定将其模型与 Opus 4.6 直接对比,这标志着更广泛的人工智能编码工具格局正在发生转变。
OpenAI 和 Anthropic 在通用前沿能力上展开竞争,而像 Cursor 这样的垂直工具提供商则另辟蹊径:将特定任务的性能打磨到卓越水平,进而利用价格优势脱颖而出。 VentureBeat 和 The New Stack 等媒体指出,Composer 2 将加速“多模型路由”的实际落地——即使用 Opus 或 GPT 进行复杂推理,而将 Composer 2 用于日常高频编码,从而兼得两者的优势。
Claude Opus 4.6 于 2 月 5 日发布,并在 Terminal-Bench 2.0、Humanity's Last Exam 和 GDPval-AA 等多个基准测试中名列前茅。Cursor 的新测试结果至少对该模型在专业编码领域的统治地位提出了质疑。
目前开发者的反响大多积极,但许多人表示希望先观察其在实际项目中的表现再下结论——这是一种合理的态度,毕竟基准测试终究只是基准测试。Cursor 已向订阅用户开放了在 IDE 内免费试用 Composer 2 的权限。
数据来源:Cursor官方公告及主流科技媒体,截至2026年3月20日。最新排名可访问tbench.ai或Cursor官网查看。
百度健康近期内部测试了AI医生助手“DoctorClaw”,用于学术文献检索和日常办公辅助
据报道,百度健康已开始对一款专为医生设计的专业AI智能助手进行内部测试。该产品内部代号为“DoctorClaw”(龙虾医生版),标志着百度在医疗领域部署大型语言模型方面迈出了重要一步。知情人士透露,该项目仍处于封闭开发阶段,目前已进入内部测试。虽然具体的产品形态尚未完全披露,但已接近上线。 在功能方面,DoctorClaw初期将侧重于学术文献检索和常规诊疗辅助。但其长期战略旨在深度融入临床诊断、医
StrictlyVC旧金山站将汇聚TDK Ventures、Replit等企业的领军人物
今年首场StrictlyVC活动即将登陆旧金山,时间比你想象的要早。 4月30日,我们在菲律宾文化中心(Sentro Filipino Cultural Center)举办的聚会门票仍在热售中,届时将有阵容强大的演讲嘉宾阵容。除了StrictlyVC一贯以人脉拓展和社区互动著称外,本次旧金山活动对于寻求最新融资洞见的AI创新者和创始人而言,将具有特别重要的价值。谁将登台门票现已开售,但如果您此前未
Notion 将其工作区转变为人工智能代理的枢纽
生产力软件公司 Notion 正迈入智能代理时代。在周三的一场直播产品发布会上,以协作式笔记应用而闻名的 Notion 推出了一款全新的开发者平台。该平台不仅扩展了其定制 AI 代理的功能,还能与外部代理连接,并允许团队构建能够从任何数据库提取数据的自动化多步骤工作流。通过构建一个编排层——即一个能在多个工具和数据源之间协调AI工作的系统——Notion将自身定位为不仅仅是一款具备AI功能的笔记应





首页






