Maison
Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA
Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon Cursor, Composer 2 a obtenu un score de 61,7 % sur Terminal-Bench 2.0, surpassant nettement les 58,0 % de Claude Opus 4.6 dans des conditions de test identiques.
Le modèle phare d'Anthropic a-t-il été surpassé par un modèle intégré à son propre IDE ? À mesure que la nouvelle se répandait, des débats ont rapidement émergé.

Trois résultats de benchmark clés
Cursor a publié trois séries de résultats de benchmark, toutes rendues publiques :
Terminal-Bench 2.0 (tâches de codage en terminal de type agent) : Composer 2 a obtenu un score de 61,7 %, devançant les 58,0 %de Claude Opus 4.6. Cependant, OpenAI GPT-5.4 reste en tête avec 75,1 %. CursorBench (scénarios de codage réels au sein de Cursor) : Composer 2 a atteint 61,3 %, soit une progression substantielle par rapport aux 44,2 % de la version précédente, Composer 1.5, et un score supérieur aux 58,2 %de Claude Opus 4.6. SWE-bench Multilingual (ingénierie logicielle multilingue) : Composer 2 a atteint 73,7 %, une amélioration notable par rapport à son prédécesseur.Cependant, un détail mérite d'être souligné : Anthropic avait précédemment indiqué que Claude Opus 4.6 avait obtenu un score de 65,4 % sur Terminal-Bench 2.0 avec des paramètres optimisés, un résultat bien supérieur aux 58,0 % cités par Cursor. Cette divergence provient du cadre de test : Cursor a utilisé des environnements d'agents tiers tels que Harbor et a calculé la moyenne des résultats sur cinq exécutions, tandis que les chiffres d'Anthropic provenaient de sa propre configuration optimisée. Ces deux séries de chiffres ne sont pas directement comparables, car elles utilisent des systèmes de référence différents. Cursor n'a pas éludé cette question ; l'annonce indiquait explicitement que « les résultats dépendent de l'agent, du harnais et des paramètres ».
Un coût représentant seulement un dixième de celui d'Opus 4.6
La rentabilité est le véritable atout caché de Composer 2.
Avec un prix de 0,50 $ / 2,50 $ par million de tokens d'entrée/sortie, contre 5 $ / 25 $ pour Claude Opus 4.6 et 2,5 $ / 15 $ pour GPT-5.4, le contraste est saisissant. Cursor explique que Composer 2 a été entièrement conçu pour des tâches de codage à long terme, en utilisant sa technologie propriétaire d’entraînement RL et d’« auto-résumé » pour réduire à la fois la latence et le coût – ce qu’ils décrivent comme « une intelligence de pointe + une vitesse extrême ».
Composer 2 est le troisième modèle développé en interne par Cursor, succédant à Composer 1 (octobre 2025) et à la version 1.5 (février 2026). Cette version met l'accent sur les « tâches à long terme » et fait d'une variante plus rapide et plus légère le modèle par défaut dans l'IDE Cursor.
Ce que signifie cette « renaissance »
La décision de Cursor de comparer directement son modèle à Opus 4.6 marque un tournant dans le paysage plus large des outils de codage IA.
OpenAI et Anthropic se font concurrence sur les capacités de pointe générales, tandis que les fournisseurs d'outils verticaux comme Cursor ont emprunté une voie différente : affiner les performances sur des tâches spécifiques jusqu'à un niveau exceptionnel, puis utiliser leurs avantages en termes de prix pour se démarquer. Des médias tels que VentureBeat et The New Stack ont noté que Composer 2 accélérera le déploiement pratique du « routage multimodèle » : utiliser Opus ou GPT pour le raisonnement complexe et passer à Composer 2 pour le codage quotidien à haute fréquence, tirant ainsi parti des avantages des deux côtés.
Claude Opus 4.6 a été lancé le 5 février et s’est classé en tête de plusieurs benchmarks, notamment Terminal-Bench 2.0, Humanity’s Last Exam et GDPval-AA. Les nouveaux résultats de Cursor remettent au moins en question cette domination dans le segment du codage spécialisé.
La réaction des développeurs a été largement positive jusqu'à présent, mais beaucoup affirment vouloir observer les performances du projet en conditions réelles avant de tirer des conclusions – une position légitime, car les benchmarks ne sont que des benchmarks. Cursor a déjà mis Composer 2 à disposition en essai gratuit au sein de l'IDE pour les utilisateurs abonnés.
Source des données : annonces officielles de Cursor et principaux médias technologiques, au 20 mars 2026. Les classements actuels peuvent être consultés sur tbench.ai ou sur le site web de Cursor.
Article connexe
Baidu Health teste en interne son assistant médical basé sur l'IA, DoctorClaw, pour la recherche documentaire et l'assistance administrative à court terme
Baidu Health aurait commencé à tester en interne un assistant intelligent basé sur l'IA, destiné aux médecins. Baptisé en interne « DoctorClaw » (la version « Lobster Doctor »), ce produit marque
StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises
Le premier événement StrictlyVC de l'année arrive à San Francisco plus tôt que vous ne le pensez. Il reste encore des billets pour notre rencontre du 30 avril au Sentro Filipino Cultural Center,
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri
Recommandations de sujets spéciaux liés
commentaires (0)
Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon Cursor, Composer 2 a obtenu un score de 61,7 % sur Terminal-Bench 2.0, surpassant nettement les 58,0 % de Claude Opus 4.6 dans des conditions de test identiques.
Le modèle phare d'Anthropic a-t-il été surpassé par un modèle intégré à son propre IDE ? À mesure que la nouvelle se répandait, des débats ont rapidement émergé.

Trois résultats de benchmark clés
Cursor a publié trois séries de résultats de benchmark, toutes rendues publiques :
Terminal-Bench 2.0 (tâches de codage en terminal de type agent) : Composer 2 a obtenu un score de 61,7 %, devançant les 58,0 %de Claude Opus 4.6. Cependant, OpenAI GPT-5.4 reste en tête avec 75,1 %. CursorBench (scénarios de codage réels au sein de Cursor) : Composer 2 a atteint 61,3 %, soit une progression substantielle par rapport aux 44,2 % de la version précédente, Composer 1.5, et un score supérieur aux 58,2 %de Claude Opus 4.6. SWE-bench Multilingual (ingénierie logicielle multilingue) : Composer 2 a atteint 73,7 %, une amélioration notable par rapport à son prédécesseur.Cependant, un détail mérite d'être souligné : Anthropic avait précédemment indiqué que Claude Opus 4.6 avait obtenu un score de 65,4 % sur Terminal-Bench 2.0 avec des paramètres optimisés, un résultat bien supérieur aux 58,0 % cités par Cursor. Cette divergence provient du cadre de test : Cursor a utilisé des environnements d'agents tiers tels que Harbor et a calculé la moyenne des résultats sur cinq exécutions, tandis que les chiffres d'Anthropic provenaient de sa propre configuration optimisée. Ces deux séries de chiffres ne sont pas directement comparables, car elles utilisent des systèmes de référence différents. Cursor n'a pas éludé cette question ; l'annonce indiquait explicitement que « les résultats dépendent de l'agent, du harnais et des paramètres ».
Un coût représentant seulement un dixième de celui d'Opus 4.6
La rentabilité est le véritable atout caché de Composer 2.
Avec un prix de 0,50 $ / 2,50 $ par million de tokens d'entrée/sortie, contre 5 $ / 25 $ pour Claude Opus 4.6 et 2,5 $ / 15 $ pour GPT-5.4, le contraste est saisissant. Cursor explique que Composer 2 a été entièrement conçu pour des tâches de codage à long terme, en utilisant sa technologie propriétaire d’entraînement RL et d’« auto-résumé » pour réduire à la fois la latence et le coût – ce qu’ils décrivent comme « une intelligence de pointe + une vitesse extrême ».
Composer 2 est le troisième modèle développé en interne par Cursor, succédant à Composer 1 (octobre 2025) et à la version 1.5 (février 2026). Cette version met l'accent sur les « tâches à long terme » et fait d'une variante plus rapide et plus légère le modèle par défaut dans l'IDE Cursor.
Ce que signifie cette « renaissance »
La décision de Cursor de comparer directement son modèle à Opus 4.6 marque un tournant dans le paysage plus large des outils de codage IA.
OpenAI et Anthropic se font concurrence sur les capacités de pointe générales, tandis que les fournisseurs d'outils verticaux comme Cursor ont emprunté une voie différente : affiner les performances sur des tâches spécifiques jusqu'à un niveau exceptionnel, puis utiliser leurs avantages en termes de prix pour se démarquer. Des médias tels que VentureBeat et The New Stack ont noté que Composer 2 accélérera le déploiement pratique du « routage multimodèle » : utiliser Opus ou GPT pour le raisonnement complexe et passer à Composer 2 pour le codage quotidien à haute fréquence, tirant ainsi parti des avantages des deux côtés.
Claude Opus 4.6 a été lancé le 5 février et s’est classé en tête de plusieurs benchmarks, notamment Terminal-Bench 2.0, Humanity’s Last Exam et GDPval-AA. Les nouveaux résultats de Cursor remettent au moins en question cette domination dans le segment du codage spécialisé.
La réaction des développeurs a été largement positive jusqu'à présent, mais beaucoup affirment vouloir observer les performances du projet en conditions réelles avant de tirer des conclusions – une position légitime, car les benchmarks ne sont que des benchmarks. Cursor a déjà mis Composer 2 à disposition en essai gratuit au sein de l'IDE pour les utilisateurs abonnés.
Source des données : annonces officielles de Cursor et principaux médias technologiques, au 20 mars 2026. Les classements actuels peuvent être consultés sur tbench.ai ou sur le site web de Cursor.
Baidu Health teste en interne son assistant médical basé sur l'IA, DoctorClaw, pour la recherche documentaire et l'assistance administrative à court terme
Baidu Health aurait commencé à tester en interne un assistant intelligent basé sur l'IA, destiné aux médecins. Baptisé en interne « DoctorClaw » (la version « Lobster Doctor »), ce produit marque
StrictlyVC San Francisco réunira des dirigeants de TDK Ventures, Replit et d'autres entreprises
Le premier événement StrictlyVC de l'année arrive à San Francisco plus tôt que vous ne le pensez. Il reste encore des billets pour notre rencontre du 30 avril au Sentro Filipino Cultural Center,
Notion transforme son espace de travail en une plateforme centralisée pour les agents IA
Notion, l'éditeur de logiciels de productivité, entre dans l'ère des agents.Lors d'une annonce de produit diffusée en direct mercredi, Notion — surtout connu pour son application de pri











