Maison
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est intéressant de noter qu'Anthropic a été franc dans son annonce : « Ce n'est pas notre modèle le plus puissant. » La version Claude Mythos Preview, dont on murmure qu’elle serait plus performante, reste en attente. Pourtant, Opus 4.7 a suscité un intérêt considérable car il s’attache à être « plus fiable » plutôt que « plus intelligent ».

Les résultats des tests de performance sont particulièrement impressionnants. Sur le test de codage rigoureux SWE-bench Pro, la version 4.7 est passée de 53,4 % dans la version précédente à 64,3 %, soit un gain de près de 11 points de pourcentage, surpassant GPT-5.4 (57,7 %) et Gemini 3.1 Pro (54,2 %). Sur le benchmark de raisonnement visuel CharXiv, il est passé de 69,1 % à 82,1 %, grâce à la nouvelle fonctionnalité de reconnaissance des côtés longs de 2 576 pixels, offrant une clarté plus de trois fois supérieure à celle de son prédécesseur. Sur l'évaluation des appels d'outils MCP-Atlas, il a obtenu un score de 77,3 %, et sur le benchmark BigLaw de la plateforme d'IA juridique Harvey, il a atteint 90,9 %. Cependant, sur le benchmark de recherche agentique BrowseComp, la version 4.7 a connu une légère baisse, passant de 83,7 % à 79,3 %, dépassée par GPT-5.4 et Gemini — ce qui s’explique par sa personnalité « sans invention », qui préfère signaler les erreurs plutôt que de deviner lorsque les informations sont incomplètes.
Au-delà des chiffres, c'est le changement de tempérament qui est le plus remarquable. Le dirigeant de Replit a noté après les tests : « Il me met au défi lors des discussions techniques, m'aide à prendre de meilleures décisions et se comporte véritablement comme un meilleur collègue. » La plateforme de science des données Hex a également observé que la version 4.7 signale directement les erreurs lorsque des données manquent, plutôt que de fournir une valeur alternative « apparemment raisonnable mais complètement incorrecte » comme auparavant. Dans le même temps, la résilience face aux tâches s’est considérablement améliorée : les tests de l’équipe Notion indiquent que le taux d’erreur de l’outil a été réduit à un tiers de son niveau précédent, et lorsque la chaîne d’outils échoue, il est capable de contourner les obstacles et d’accomplir les tâches de manière autonome. Vercel a même découvert un nouveau comportement : avant d’écrire du code au niveau du système, la version 4.7 effectue d’abord des preuves mathématiques de son propre chef.

Bien sûr, cette capacité accrue a un coût. La version 4.7 introduit un nouveau tokenizer, générant 1 à 1,35 fois plus de tokens pour un même texte. De plus, elle a tendance à « réfléchir un peu plus longtemps » sur les tâches complexes, de sorte que la consommation réelle est presque certainement plus élevée. Pour y remédier, Anthropic a ajouté un niveau d’intensité de réflexion ultra-élevé, « xhigh ». Claude Code a réglé tous les packages sur ce niveau par défaut, et a également lancé l’instruction Deep Review / ultrareview, l’extension Auto Mode pour les utilisateurs de Max, ainsi qu’une version bêta publique de la fonctionnalité « task budget » pour aider les développeurs à gérer l’utilisation des tokens.
La version plus puissante Mythos Preview a récemment été mise à la disposition des entreprises sous le nom de « Project Glasswing » pour la recherche en cybersécurité, mais en raison de ses capacités impressionnantes et de l’incomplétude des évaluations de sécurité, elle n’a pas encore été rendue publique.
La version 4.7 d'aujourd'hui représente la dernière étape en date du rythme de livraison à haute fréquence d'Anthropic. Mythos finira par arriver — et quand ce sera le cas, la version 4.7, déjà très performante, pourrait bien n'être qu'un début.
Article connexe
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s
Recommandations de sujets spéciaux liés
commentaires (0)
Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est intéressant de noter qu'Anthropic a été franc dans son annonce : « Ce n'est pas notre modèle le plus puissant. » La version Claude Mythos Preview, dont on murmure qu’elle serait plus performante, reste en attente. Pourtant, Opus 4.7 a suscité un intérêt considérable car il s’attache à être « plus fiable » plutôt que « plus intelligent ».

Les résultats des tests de performance sont particulièrement impressionnants. Sur le test de codage rigoureux SWE-bench Pro, la version 4.7 est passée de 53,4 % dans la version précédente à 64,3 %, soit un gain de près de 11 points de pourcentage, surpassant GPT-5.4 (57,7 %) et Gemini 3.1 Pro (54,2 %). Sur le benchmark de raisonnement visuel CharXiv, il est passé de 69,1 % à 82,1 %, grâce à la nouvelle fonctionnalité de reconnaissance des côtés longs de 2 576 pixels, offrant une clarté plus de trois fois supérieure à celle de son prédécesseur. Sur l'évaluation des appels d'outils MCP-Atlas, il a obtenu un score de 77,3 %, et sur le benchmark BigLaw de la plateforme d'IA juridique Harvey, il a atteint 90,9 %. Cependant, sur le benchmark de recherche agentique BrowseComp, la version 4.7 a connu une légère baisse, passant de 83,7 % à 79,3 %, dépassée par GPT-5.4 et Gemini — ce qui s’explique par sa personnalité « sans invention », qui préfère signaler les erreurs plutôt que de deviner lorsque les informations sont incomplètes.
Au-delà des chiffres, c'est le changement de tempérament qui est le plus remarquable. Le dirigeant de Replit a noté après les tests : « Il me met au défi lors des discussions techniques, m'aide à prendre de meilleures décisions et se comporte véritablement comme un meilleur collègue. » La plateforme de science des données Hex a également observé que la version 4.7 signale directement les erreurs lorsque des données manquent, plutôt que de fournir une valeur alternative « apparemment raisonnable mais complètement incorrecte » comme auparavant. Dans le même temps, la résilience face aux tâches s’est considérablement améliorée : les tests de l’équipe Notion indiquent que le taux d’erreur de l’outil a été réduit à un tiers de son niveau précédent, et lorsque la chaîne d’outils échoue, il est capable de contourner les obstacles et d’accomplir les tâches de manière autonome. Vercel a même découvert un nouveau comportement : avant d’écrire du code au niveau du système, la version 4.7 effectue d’abord des preuves mathématiques de son propre chef.

Bien sûr, cette capacité accrue a un coût. La version 4.7 introduit un nouveau tokenizer, générant 1 à 1,35 fois plus de tokens pour un même texte. De plus, elle a tendance à « réfléchir un peu plus longtemps » sur les tâches complexes, de sorte que la consommation réelle est presque certainement plus élevée. Pour y remédier, Anthropic a ajouté un niveau d’intensité de réflexion ultra-élevé, « xhigh ». Claude Code a réglé tous les packages sur ce niveau par défaut, et a également lancé l’instruction Deep Review / ultrareview, l’extension Auto Mode pour les utilisateurs de Max, ainsi qu’une version bêta publique de la fonctionnalité « task budget » pour aider les développeurs à gérer l’utilisation des tokens.
La version plus puissante Mythos Preview a récemment été mise à la disposition des entreprises sous le nom de « Project Glasswing » pour la recherche en cybersécurité, mais en raison de ses capacités impressionnantes et de l’incomplétude des évaluations de sécurité, elle n’a pas encore été rendue publique.
La version 4.7 d'aujourd'hui représente la dernière étape en date du rythme de livraison à haute fréquence d'Anthropic. Mythos finira par arriver — et quand ce sera le cas, la version 4.7, déjà très performante, pourrait bien n'être qu'un début.
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur
La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Haier lance le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde, pesant seulement 1,75 kg
Le groupe Haier a présenté le robot exosquelette sportif doté d'une intelligence artificielle le plus léger au monde : le Haier Exoskeleton Robot W3. Ce lancement établit un nouveau record de légèreté
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s











