L'analyse d'Anthropic de 700 000 conversations Claude révèle le code moral unique de l'IA

Maison

Nouvelles

26 mai 2025

ArthurThomas

# ai # Claude # nlp

L'analyse d'Anthropic de 700 000 conversations Claude révèle le code moral unique de l'IA

Anthropic dévoile une étude révolutionnaire sur les valeurs de l’assistant IA Claude

Anthropic, une entreprise fondée par d’anciens employés d’OpenAI, vient de publier une étude fascinante sur la manière dont son assistant IA, Claude, exprime des valeurs dans des conversations réelles. La recherche, publiée aujourd’hui, montre que Claude s’aligne généralement sur l’objectif d’Anthropic d’être « utile, honnête et inoffensif », mais met également en lumière certains cas limites qui pourraient aider à identifier les faiblesses des protocoles de sécurité de l’IA.

L’équipe a analysé 700 000 conversations anonymisées, constatant que Claude adapte ses valeurs à différentes situations, qu’il s’agisse de donner des conseils relationnels ou d’analyser des événements historiques. C’est l’un des efforts les plus complets pour vérifier si le comportement d’une IA dans le monde réel correspond à sa conception initiale.

« Nous espérons que cette recherche encouragera d’autres laboratoires d’IA à mener des études similaires sur les valeurs de leurs modèles », a déclaré Saffron Huang, membre de l’équipe des impacts sociétaux d’Anthropic, à VentureBeat. « Mesurer les valeurs d’un système d’IA est essentiel pour la recherche sur l’alignement et pour comprendre si un modèle est réellement aligné sur son entraînement. »

À l’intérieur de la première taxonomie morale complète d’un assistant IA

Les chercheurs ont développé une nouvelle méthode pour catégoriser les valeurs exprimées dans les conversations de Claude. Après avoir filtré le contenu objectif, ils ont examiné plus de 308 000 interactions, créant ce qu’ils appellent « la première taxonomie empirique à grande échelle des valeurs de l’IA ».

La taxonomie regroupe les valeurs en cinq grandes catégories : Pratique, Épistémique, Sociale, Protectrice et Personnelle. Au niveau le plus détaillé, le système a identifié 3 307 valeurs uniques, allant des vertus quotidiennes comme le professionnalisme à des idées éthiques complexes comme le pluralisme moral.

« J’ai été surpris par le nombre et la variété des valeurs, plus de 3 000, allant de l’autonomie à la pensée stratégique en passant par la piété filiale », a partagé Huang avec VentureBeat. « Il était fascinant de passer du temps à réfléchir à toutes ces valeurs et à construire une taxonomie pour les organiser. Cela m’a même appris quelque chose sur les systèmes de valeurs humaines. »

Cette recherche intervient à un moment crucial pour Anthropic, qui a récemment lancé « Claude Max », un abonnement premium mensuel de 200 dollars pour concurrencer des offres similaires d’OpenAI. L’entreprise a également élargi les capacités de Claude pour inclure l’intégration à Google Workspace et des fonctions de recherche autonome, le positionnant comme « un véritable collaborateur virtuel » pour les entreprises.

Comment Claude suit son entraînement — et où les garde-fous de l’IA pourraient échouer

L’étude a révélé que Claude respecte généralement l’objectif d’Anthropic d’être prosocial, mettant en avant des valeurs comme « l’autonomisation des utilisateurs », « l’humilité épistémique » et « le bien-être des patients » dans diverses interactions. Cependant, les chercheurs ont également découvert des cas préoccupants où Claude a exprimé des valeurs contraires à son entraînement.

« Dans l’ensemble, nous voyons ces résultats comme des données utiles et une opportunité », a déclaré Huang. « Ces nouvelles méthodes d’évaluation et ces résultats peuvent nous aider à identifier et à atténuer les éventuels contournements. Il est important de noter que ces cas étaient très rares et nous pensons qu’ils étaient liés à des sorties contournées de Claude. »

Ces anomalies incluaient des expressions de « domination » et d’« amoralité » — des valeurs qu’Anthropic cherche explicitement à éviter dans la conception de Claude. Les chercheurs estiment que ces cas résultaient de techniques spécialisées utilisées par les utilisateurs pour contourner les garde-fous de sécurité de Claude, suggérant que la méthode d’évaluation pourrait servir de système d’alerte précoce pour détecter de telles tentatives.

Pourquoi les assistants IA modifient leurs valeurs selon ce que vous demandez

L’une des découvertes les plus intéressantes est que les valeurs exprimées par Claude varient en fonction du contexte, tout comme le comportement humain. Lorsque les utilisateurs demandaient des conseils relationnels, Claude se concentrait sur les « limites saines » et le « respect mutuel ». Pour les analyses historiques, « l’exactitude historique » prenait le devant de la scène.

« J’ai été surpris par l’accent mis par Claude sur l’honnêteté et la précision dans de nombreuses tâches diverses, là où je ne m’attendais pas nécessairement à ce que cela soit la priorité », a noté Huang. « Par exemple, l’humilité intellectuelle était la valeur principale dans les discussions philosophiques sur l’IA, l’expertise était la valeur principale lors de la création de contenu marketing pour l’industrie de la beauté, et l’exactitude historique était la valeur principale lors des discussions sur des événements historiques controversés. »

L’étude a également examiné comment Claude répond aux valeurs exprimées par les utilisateurs. Dans 28,2 % des conversations, Claude soutenait fortement les valeurs des utilisateurs, ce qui pourrait soulever des questions sur une éventuelle complaisance excessive. Cependant, dans 6,6 % des interactions, Claude « reformulait » les valeurs des utilisateurs en les reconnaissant tout en ajoutant de nouvelles perspectives, généralement lorsqu’il donnait des conseils psychologiques ou interpersonnels.

Plus notablement, dans 3 % des conversations, Claude résistait activement aux valeurs des utilisateurs. Les chercheurs suggèrent que ces rares cas de résistance pourraient révéler les « valeurs les plus profondes et inébranlables » de Claude — similaires à la manière dont les valeurs fondamentales humaines émergent face à des défis éthiques.

« Notre recherche suggère qu’il existe certains types de valeurs, comme l’honnêteté intellectuelle et la prévention des préjudices, que Claude exprime rarement dans les interactions quotidiennes, mais qu’il défendra s’il est poussé », a expliqué Huang. « Plus précisément, ce sont ces types de valeurs éthiques et orientées vers la connaissance qui tendent à être articulées et défendues directement lorsqu’elles sont mises à l’épreuve. »

Les techniques révolutionnaires révélant comment les systèmes d’IA pensent réellement

L’étude sur les valeurs d’Anthropic s’inscrit dans leur effort plus large pour démystifier les grands modèles de langage grâce à ce qu’ils appellent « l’interprétabilité mécaniste » — essentiellement une ingénierie inverse des systèmes d’IA pour comprendre leur fonctionnement interne.

Le mois dernier, les chercheurs d’Anthropic ont publié un travail novateur qui utilisait un « microscope » pour suivre les processus de prise de décision de Claude. La technique a révélé des comportements inattendus, comme Claude planifiant à l’avance lorsqu’il composait de la poésie et utilisant des approches de résolution de problèmes non conventionnelles pour des calculs mathématiques de base.

Ces découvertes remettent en question les hypothèses sur le fonctionnement des grands modèles de langage. Par exemple, lorsqu’on lui demandait d’expliquer son processus mathématique, Claude décrivait une technique standard plutôt que sa méthode interne réelle, montrant comment les explications de l’IA peuvent différer de leurs opérations réelles.

« C’est une idée fausse de penser que nous avons trouvé tous les composants du modèle ou, disons, une vue divine », a déclaré Joshua Batson, chercheur chez Anthropic, à MIT Technology Review en mars. « Certaines choses sont nettes, mais d’autres restent floues — une distorsion du microscope. »

Ce que la recherche d’Anthropic signifie pour les décideurs en IA d’entreprise

Pour les décideurs techniques évaluant les systèmes d’IA pour leurs organisations, la recherche d’Anthropic offre plusieurs idées clés. Premièrement, elle suggère que les assistants IA actuels expriment probablement des valeurs qui n’ont pas été explicitement programmées, soulevant des questions sur les biais involontaires dans des contextes professionnels à forts enjeux.

Deuxièmement, l’étude montre que l’alignement des valeurs n’est pas une simple question de oui ou non, mais existe sur un spectre qui varie selon le contexte. Cette nuance complique les décisions d’adoption en entreprise, en particulier dans les industries réglementées où des lignes directrices éthiques claires sont cruciales.

Enfin, la recherche met en évidence le potentiel d’une évaluation systématique des valeurs de l’IA dans les déploiements réels, plutôt que de s’appuyer uniquement sur des tests avant la sortie. Cette approche pourrait permettre une surveillance continue des dérives éthiques ou des manipulations au fil du temps.

« En analysant ces valeurs dans les interactions réelles avec Claude, nous visons à offrir une transparence sur le comportement des systèmes d’IA et à vérifier s’ils fonctionnent comme prévu — nous croyons que cela est essentiel pour un développement responsable de l’IA », a déclaré Huang.

Anthropic a rendu son ensemble de données sur les valeurs public pour encourager davantage de recherches. L’entreprise, qui a reçu une participation de 14 milliards de dollars d’Amazon et un soutien supplémentaire de Google, semble utiliser la transparence comme un avantage concurrentiel face à des rivaux comme OpenAI, dont le récent tour de financement de 40 milliards de dollars (incluant Microsoft comme investisseur principal) la valorise désormais à 300 milliards de dollars.

La course émergente pour construire des systèmes d’IA partageant les valeurs humaines

Bien que la méthodologie d’Anthropic offre une visibilité sans précédent sur la manière dont les systèmes d’IA expriment des valeurs dans la pratique, elle a ses limites. Les chercheurs reconnaissent que définir ce qui compte comme l’expression d’une valeur est intrinsèquement subjectif, et puisque Claude lui-même a conduit le processus de catégorisation, ses propres biais peuvent avoir influencé les résultats.

Plus important encore, cette approche ne peut pas être utilisée pour une évaluation avant le déploiement, car elle nécessite des données de conversation réelles substantielles pour fonctionner efficacement.

« Cette méthode est spécifiquement conçue pour l’analyse d’un modèle après sa sortie, mais des variantes de cette méthode, ainsi que certaines des idées tirées de la rédaction de cet article, peuvent nous aider à détecter des problèmes de valeurs avant de déployer un modèle à grande échelle », a expliqué Huang. « Nous travaillons à développer ce travail pour faire exactement cela, et je suis optimiste à ce sujet ! »

À mesure que les systèmes d’IA deviennent plus puissants et autonomes — avec des ajouts récents incluant la capacité de Claude à rechercher des sujets de manière indépendante et à accéder à l’ensemble de Google Workspace des utilisateurs — comprendre et aligner leurs valeurs devient de plus en plus crucial.

« Les modèles d’IA devront inévitablement porter des jugements de valeur », ont conclu les chercheurs dans leur article. « Si nous voulons que ces jugements soient en accord avec nos propres valeurs (ce qui est, après tout, l’objectif central de la recherche sur l’alignement de l’IA), alors nous devons avoir des moyens de tester quelles valeurs un modèle exprime dans le monde réel. »