Maison Nouvelles Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

26 avril 2025
SamuelAdams
0

Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

Comme les modèles d'IA comme Claude d'Anthropic s'engagent de plus en plus avec les utilisateurs sur des valeurs humaines complexes, des conseils parentaux aux conflits de travail, leurs réponses reflètent intrinsèquement un ensemble de principes directeurs. Mais comment pouvons-nous vraiment saisir les valeurs exprimées par une IA lors de l'interaction avec des millions d'utilisateurs?

L'équipe des impacts sociétaux d'Anthropic a développé une méthodologie de préservation de la vie privée pour observer et catégoriser les valeurs que Claude présente «dans la nature», offrant un aperçu de la façon dont les efforts d'alignement de l'IA se traduisent par un comportement réel. Le défi découle de la nature opaque de l'IA moderne, qui ne suit pas les règles rigides mais prend plutôt des décisions à travers des processus complexes.

Anthropic vise à inculquer les principes d'être "utiles, honnêtes et inoffensifs" à Claude à travers des techniques telles que la formation constitutionnelle d'IA et de caractère. Pourtant, comme l'entreprise le reconnaît, "Comme pour tout aspect de la formation en IA, nous ne pouvons pas être certain que le modèle s'en tiendra à nos valeurs préférées". Cette incertitude nécessite une méthode pour observer rigoureusement les valeurs de l'IA dans les interactions du monde réel.

Analyser le claude anthropique pour observer les valeurs d'IA à grande échelle

Pour y remédier, Anthropic a développé un système qui analyse les conversations utilisateur anonymisées, en supprimant des informations personnellement identifiables et en utilisant des modèles de langage pour résumer les interactions et extraire les valeurs exprimées par Claude. Cette méthode permet de construire une taxonomie de valeur de haut niveau sans compromettre la confidentialité des utilisateurs.

L'étude a examiné 700 000 conversations anonymisées de Claude.ai Free et Pro utilisateurs de plus d'une semaine en février 2025, en se concentrant sur le modèle de sonnet Claude 3.5. Après avoir filtré les échanges factuels ou non vantés, 308 210 conversations (environ 44% du total) ont été analysées en profondeur.

L'analyse a révélé une structure hiérarchique des valeurs exprimées par Claude, organisées en cinq catégories de haut niveau:

  1. Valeurs pratiques: se concentrer sur l'efficacité, l'utilité et la réalisation des objectifs.
  2. Valeurs épistémiques: liées à la connaissance, à la vérité, à l'exactitude et à l'honnêteté intellectuelle.
  3. Valeurs sociales: concernant les interactions interpersonnelles, la communauté, l'équité et la collaboration.
  4. Valeurs protectrices: mettant l'accent sur la sécurité, la sécurité, le bien-être et l'évitement des méfaits.
  5. Valeurs personnelles: centré sur la croissance individuelle, l'autonomie, l'authenticité et l'auto-réflexion.

Ces catégories se sont étendues en des sous-catégories comme «l'excellence professionnelle et technique» et la «pensée critique», avec des valeurs fréquemment observées, notamment le «professionnalisme», la «clarté» et la «transparence».

La recherche suggère que les efforts d'alignement d'Anthropic réussissent en grande partie, car les valeurs exprimées s'alignent souvent sur les objectifs "utiles, honnêtes et inoffensifs". Par exemple, "l'activation de l'utilisateur" s'aligne sur l'utilité ", l'humilité épistémique" avec l'honnêteté et le "bien-être des patients" avec l'incapacité.

Nuance, contexte et signes de mise en garde

Cependant, l'étude a également identifié de rares cas où Claude a exprimé des valeurs contraires à sa formation, telles que la «domination» et «l'amoralité». Anthropic suggère que ces cas résultent probablement de «jailbreaks», où les utilisateurs contournent les garde-corps habituels du modèle. Cette constatation met en évidence le potentiel de la méthode d'observation de la valeur en tant que système d'alerte précoce pour détecter une mauvaise utilisation de l'IA.

L'étude a confirmé que Claude adapte son expression de valeur en fonction du contexte, un peu comme les humains. Par exemple, lors de la fourniture de conseils romantiques, des valeurs telles que des «limites saines» et du «respect mutuel» ont été soulignées, tandis que la «précision historique» a été prioritaire lors de la discussion de l'histoire controversée.

L'interaction de Claude avec les valeurs exprimées par l'utilisateur a été multiforme:

  • Miroration / soutien fort (28,2%): Claude reflète ou approuve souvent ou approuve fortement les valeurs des utilisateurs, favorisant l'empathie mais potentiellement à la baisse de la sycophance.
  • Radéquer (6,6%): Claude reconnaît les valeurs des utilisateurs mais introduit des perspectives alternatives, en particulier dans les conseils psychologiques ou interpersonnels.
  • Résistance forte (3,0%): Claude résiste activement aux valeurs des utilisateurs lorsque un contenu contraire à l'éthique ou des points de vue nuisibles sont demandés, révélant ses "valeurs les plus profondes et les plus immobiles".

Limitations et orientations futures

Anthropic reconnaît les limites de la méthode, y compris la complexité et la subjectivité de la définition et de la catégorisation des «valeurs». L'utilisation de Claude pour la catégorisation pourrait introduire un biais envers ses propres principes. Bien que conçue pour la surveillance post-déploiement, cette méthode ne peut pas remplacer les évaluations de pré-déploiement mais peut détecter les problèmes qui n'émergent que lors des interactions en direct.

La recherche souligne l'importance de comprendre les valeurs que les modèles d'IA expriment pour obtenir l'alignement de l'IA. "Les modèles d'IA devront inévitablement faire des jugements de valeur", indique le document. "Si nous voulons que ces jugements soient conformes à nos propres valeurs [...], alors nous devons avoir des moyens de test qui valent un modèle exprimé dans le monde réel."

Le travail d'Anthropic fournit une approche basée sur les données de cette compréhension et a publié un ensemble de données ouvert de l'étude, permettant une exploration plus approfondie des valeurs d'IA dans la pratique. Cette transparence marque une étape cruciale pour naviguer dans le paysage éthique de l'IA sophistiquée.

Article connexe
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program Exploring AI on Screen: A Short Film Program Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft Copilot Now Capable of Web Browsing on Your Behalf Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
Commentaires (0)
0/200
OR