option
Maison Nouvelles L'analyse d'Anthropic de 700 000 conversations Claude révèle le code moral unique de l'IA

L'analyse d'Anthropic de 700 000 conversations Claude révèle le code moral unique de l'IA

date de sortie date de sortie 25 mai 2025
vues vues 16

L'analyse d'Anthropic de 700 000 conversations Claude révèle le code moral unique de l'IA

Anthropic dévoile une étude révolutionnaire sur les valeurs de l'assistant de l'IA Claude

Anthropic, une entreprise lancée par d'anciens employés d'OpenAI, vient de partager une étude révélatrice sur la façon dont leur assistant d'IA, Claude, exprime des valeurs dans les conversations réelles. La recherche, publiée aujourd'hui, montre que Claude s'aligne principalement sur l'objectif d'Anthropic d'être "utile, honnête et inoffensif", mais met également en évidence certains cas de bord qui pourraient aider à identifier les faiblesses dans les protocoles de sécurité d'IA.

L'équipe a analysé 700 000 conversations anonymisées, constatant que Claude adapte ses valeurs à différentes situations, de donner des conseils relationnels à l'analyse des événements historiques. C'est l'un des efforts les plus complets pour vérifier si le comportement d'une IA dans le monde réel correspond à sa conception prévue.

"Notre espoir est que cette recherche encourage d'autres laboratoires d'IA à mener des recherches similaires sur les valeurs de leurs modèles", a déclaré à VentureBeat Saffron Huang, membre de l'équipe des impacts sociétaux d'Anthropic. "La mesure des valeurs d'un système d'IA est la clé pour aligner la recherche et la compréhension si un modèle est réellement aligné sur sa formation."

À l'intérieur de la première taxonomie morale complète d'un assistant d'IA

Les chercheurs ont développé une nouvelle façon de catégoriser les valeurs exprimées dans les conversations de Claude. Après avoir filtré un contenu objectif, ils ont examiné plus de 308 000 interactions, créant ce qu'ils appellent "la première taxonomie empirique à grande échelle des valeurs d'IA".

Les groupes de taxonomie valent en cinq catégories principales: pratique, épistémique, sociale, protectrice et personnelle. Au niveau le plus détaillé, le système a identifié 3 307 valeurs uniques, allant des vertus quotidiennes comme le professionnalisme à des idées éthiques complexes comme le pluralisme moral.

«J'ai été surpris de voir combien et variaient les valeurs, plus de 3 000, de« l'autosuffisance »à la« pensée stratégique »à la« piété filiale »», a partagé Huang avec VentureBeat. "C'était fascinant de passer du temps à réfléchir à toutes ces valeurs et à construire une taxonomie pour les organiser. Il m'a même appris quelque chose sur les systèmes de valeurs humaines."

Cette recherche arrive à un moment charnière pour Anthropic, qui a récemment lancé "Claude Max", un abonnement premium mensuel de 200 $ pour rivaliser avec des offres similaires d'Openai. La société a également élargi les capacités de Claude pour inclure l'intégration de l'espace de travail Google et les fonctions de recherche autonomes, en la positionnant comme "un véritable collaborateur virtuel" pour les entreprises.

Comment Claude suit sa formation - et où les garanties de l'IA pourraient échouer

L'étude a révélé que Claude s'en tient généralement à l'objectif d'Anthropic d'être prosocial, mettant l'accent sur des valeurs telles que «l'activation des utilisateurs», «humilité épistémique» et «bien-être des patients» dans diverses interactions. Cependant, les chercheurs ont également trouvé des cas inquiétants où Claude a exprimé des valeurs qui allaient à l'encontre de sa formation.

"Dans l'ensemble, je pense que nous voyons cette constatation comme des données utiles et une opportunité", a déclaré Huang. "Ces nouvelles méthodes et résultats d'évaluation peuvent nous aider à identifier et à atténuer les jailbreaks potentiels. Il est important de noter qu'il s'agissait de cas très rares et nous pensons que cela était lié aux résultats jailbreakés de Claude."

Ces anomalies comprenaient des expressions de «dominance» et «amoralité» - valent explicitement anthropique vise explicitement à éviter dans la conception de Claude. Les chercheurs pensent que ces cas résultent des utilisateurs utilisant des techniques spécialisées pour contourner les garde-corps de sécurité de Claude, ce qui suggère que la méthode d'évaluation pourrait servir de système d'alerte précoce pour détecter de telles tentatives.

Pourquoi les assistants de l'IA changent leurs valeurs en fonction de ce que vous demandez

L'une des conclusions les plus intéressantes a été que les valeurs exprimées de Claude se déplacent en fonction du contexte, tout comme le comportement humain. Lorsque les utilisateurs ont demandé des conseils relationnels, Claude s'est concentré sur les «limites saines» et le «respect mutuel». Pour l'analyse historique, la «précision historique» a pris le devant de la scène.

"J'ai été surpris de la concentration de Claude sur l'honnêteté et la précision dans de nombreuses tâches diverses, où je ne m'attendais pas nécessairement à ce que ce soit la priorité", a noté Huang. "Par exemple," l'humilité intellectuelle "a été la plus grande valeur dans les discussions philosophiques sur l'IA," l'expertise "était la plus grande valeur lors de la création de contenu marketing de l'industrie de la beauté, et la` `précision historique '' était la valeur majeure lors de la discussion des événements historiques controversés."

L'étude a également examiné comment Claude réagit aux propres valeurs exprimées des utilisateurs. Dans 28,2% des conversations, Claude a fortement pris en charge la valeur des utilisateurs, ce qui pourrait soulever des questions sur le fait d'être trop agréable. Cependant, dans 6,6% des interactions, Claude a "recommencé" les valeurs des utilisateurs en les reconnaissant tout en ajoutant de nouvelles perspectives, généralement lorsque vous donnez des conseils psychologiques ou interpersonnels.

Plus particulièrement, dans 3% des conversations, Claude a activement résisté aux valeurs des utilisateurs. Les chercheurs suggèrent que ces rares cas de refoulement pourraient révéler les "valeurs les plus profondes et les plus immobiles" de Claude - similaire à la façon dont les valeurs fondamentales humaines émergent lorsqu'ils sont confrontés à des défis éthiques.

"Nos recherches suggèrent qu'il existe certains types de valeurs, comme l'honnêteté intellectuelle et la prévention des méfaits, qu'il est rare que Claude exprime dans les interactions régulières et quotidiennes, mais si elle est poussée, les défendront", a expliqué Huang. "Plus précisément, ce sont ces types de valeurs éthiques et orientées vers la connaissance qui ont tendance à être articulées et défendues directement lorsqu'elles sont poussées."

Les techniques révolutionnaires révélant comment les systèmes d'IA pensent réellement

L'étude des valeurs d'Anthropic fait partie de leurs efforts plus larges pour démystifier des modèles de grandes langues à travers ce qu'ils appellent «l'interprétabilité mécaniste» - essentiellement les systèmes d'IA inverse pour comprendre leur fonctionnement interne.

Le mois dernier, des chercheurs anthropiques ont publié des travaux révolutionnaires qui ont utilisé un "microscope" pour suivre les processus de prise de décision de Claude. La technique a révélé des comportements inattendus, comme la planification de Claude à venir lors de la composition de la poésie et de l'utilisation d'approches de résolution de problèmes non conventionnelles pour les mathématiques de base.

Ces résultats remettent en question les hypothèses sur le fonctionnement des modèles linguistiques des grands. Par exemple, lorsqu'on lui a demandé d'expliquer son processus mathématique, Claude a décrit une technique standard plutôt que sa méthode interne réelle, montrant en quoi les explications de l'IA peuvent différer de leurs opérations réelles.

"C'est une idée fausse que nous avons trouvé toutes les composantes du modèle ou, comme, une vision de l'œil de Dieu", a déclaré le chercheur anthropique Joshua Batson à MIT Technology Review en mars. "Certaines choses sont au point, mais d'autres ne sont pas encore claires - une distorsion du microscope."

Ce que la recherche d'Anthropic signifie pour les décideurs de l'IA d'entreprise

Pour les décideurs techniques évaluant les systèmes d'IA pour leurs organisations, la recherche d'Anthropic offre plusieurs informations clés. Premièrement, cela suggère que les assistants en IA actuels expriment probablement des valeurs qui n'étaient pas explicitement programmées, ce qui soulève des questions sur les biais involontaires dans des contextes commerciaux à enjeux élevés.

Deuxièmement, l'étude montre que l'alignement des valeurs n'est pas un simple oui ou non mais existe plutôt sur un spectre qui varie selon le contexte. Cette nuance complique les décisions d'adoption des entreprises, en particulier dans les industries réglementées où des directives éthiques claires sont cruciales.

Enfin, la recherche met en évidence le potentiel d'évaluation systématique des valeurs d'IA dans les déploiements réels, plutôt que de s'appuyer uniquement sur les tests de pré-libération. Cette approche pourrait permettre une surveillance continue de la dérive éthique ou de la manipulation au fil du temps.

"En analysant ces valeurs dans les interactions du monde réel avec Claude, nous visons à fournir une transparence dans la façon dont les systèmes d'IA se comportent et s'ils fonctionnent comme prévu - nous pensons que cela est essentiel au développement responsable de l'IA", a déclaré Huang.

Anthropic a publié publiquement son ensemble de données de valeurs pour encourager de nouvelles recherches. La société, qui a reçu une participation de 14 milliards de dollars d'Amazon et le soutien supplémentaire de Google, semble utiliser la transparence comme avantage concurrentiel contre des concurrents comme Openai, dont le récent tour de financement de 40 milliards de dollars (qui inclut Microsoft en tant qu'investisseur principal) le valorise désormais à 300 milliards de dollars.

La race émergente pour construire des systèmes d'IA qui partagent les valeurs humaines

Bien que la méthodologie d'Anthropic offre une visibilité sans précédent sur la façon dont les systèmes d'IA expriment les valeurs dans la pratique, il a ses limites. Les chercheurs reconnaissent que la définition de ce qui compte comme exprimant une valeur est intrinsèquement subjective, et comme Claude lui-même a conduit le processus de catégorisation, ses propres biais peuvent avoir influencé les résultats.

Peut-être plus important encore, l'approche ne peut pas être utilisée pour l'évaluation du pré-déploiement, car elle nécessite des données de conversation réelles substantielles pour fonctionner efficacement.

"Cette méthode est spécifiquement axée sur l'analyse d'un modèle après sa sortie, mais les variantes de cette méthode, ainsi que certaines des idées que nous avons tirées de l'écriture de cet article, peuvent nous aider à attraper des problèmes de valeur avant de déployer largement un modèle", a expliqué Huang. "Nous avons travaillé sur la construction de ce travail pour faire exactement cela, et je suis optimiste à ce sujet!"

À mesure que les systèmes d'IA deviennent plus puissants et autonomes - avec des ajouts récents, y compris la capacité de Claude à rechercher indépendamment les sujets et à accéder à l'ensemble de l'espace de travail Google des utilisateurs - la compréhension et l'alignement de leurs valeurs devient de plus en plus cruciale.

"Les modèles d'IA devront inévitablement faire des jugements de valeur", ont conclu les chercheurs dans leur article. "Si nous voulons que ces jugements soient conformes à nos propres valeurs (qui est, après tout, l'objectif central de la recherche sur l'alignement de l'IA), alors nous devons avoir des moyens de tester qui valent un modèle exprimé dans le monde réel."

Article connexe
गूगल के AI भविष्य फंड को धीरे-धीरे चलने पड़ सकता है गूगल के AI भविष्य फंड को धीरे-धीरे चलने पड़ सकता है गूगल का नया AI निवेश इनिशिएटिव: नियंत्रण के अध्ययन के बीच स्ट्रैटेजिक शिफ्ट गूगल के हाल के AI फ्यूचर्स फंड के बारे में घोषणा ने इंटरनेट के जादूगर कंपनी की लगातार प्रयासों को देखा
गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है गूगल, वैश्विक AI सहायक के लिए अपना परिप्रेक्ष्य अधिक निकट लाती हैइस साल के Google I/O घटना में, कंपनी ने अपनी Gemini 2.5 श्रृंखला में महत्वपूर्ण अपग्रेड की घोषणा की, विशेष रूप से इ
Oura, AI समान्य ग्लूकोज ट्रैकिंग और मेल लॉगिंग जोड़ता है Oura, AI समान्य ग्लूकोज ट्रैकिंग और मेल लॉगिंग जोड़ता है ओरा, अपनी पाचन व्यवस्था स्वास्थ्य पर अपनी प्रतिबद्धता को मजबूत कर रहा है दो नई आकर्षक विशेषताओं के साथओरा, पाचन व्यवस्था स्वास्थ्य के विश्व में अपनी खेल को बढ़ा रहा है: ग्लूकोज ट्र
commentaires (0)
0/200
Retour en haut
OR