option
Maison
Nouvelles
Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

26 avril 2025
73

Comment l'IA juge-t-elle? Études anthropiques Les valeurs de Claude

Comme les modèles d'IA comme Claude d'Anthropic s'engagent de plus en plus avec les utilisateurs sur des valeurs humaines complexes, des conseils parentaux aux conflits de travail, leurs réponses reflètent intrinsèquement un ensemble de principes directeurs. Mais comment pouvons-nous vraiment saisir les valeurs exprimées par une IA lors de l'interaction avec des millions d'utilisateurs?

L'équipe des impacts sociétaux d'Anthropic a développé une méthodologie de préservation de la vie privée pour observer et catégoriser les valeurs que Claude présente «dans la nature», offrant un aperçu de la façon dont les efforts d'alignement de l'IA se traduisent par un comportement réel. Le défi découle de la nature opaque de l'IA moderne, qui ne suit pas les règles rigides mais prend plutôt des décisions à travers des processus complexes.

Anthropic vise à inculquer les principes d'être "utiles, honnêtes et inoffensifs" à Claude à travers des techniques telles que la formation constitutionnelle d'IA et de caractère. Pourtant, comme l'entreprise le reconnaît, "Comme pour tout aspect de la formation en IA, nous ne pouvons pas être certain que le modèle s'en tiendra à nos valeurs préférées". Cette incertitude nécessite une méthode pour observer rigoureusement les valeurs de l'IA dans les interactions du monde réel.

Analyser le claude anthropique pour observer les valeurs d'IA à grande échelle

Pour y remédier, Anthropic a développé un système qui analyse les conversations utilisateur anonymisées, en supprimant des informations personnellement identifiables et en utilisant des modèles de langage pour résumer les interactions et extraire les valeurs exprimées par Claude. Cette méthode permet de construire une taxonomie de valeur de haut niveau sans compromettre la confidentialité des utilisateurs.

L'étude a examiné 700 000 conversations anonymisées de Claude.ai Free et Pro utilisateurs de plus d'une semaine en février 2025, en se concentrant sur le modèle de sonnet Claude 3.5. Après avoir filtré les échanges factuels ou non vantés, 308 210 conversations (environ 44% du total) ont été analysées en profondeur.

L'analyse a révélé une structure hiérarchique des valeurs exprimées par Claude, organisées en cinq catégories de haut niveau:

  1. Valeurs pratiques: se concentrer sur l'efficacité, l'utilité et la réalisation des objectifs.
  2. Valeurs épistémiques: liées à la connaissance, à la vérité, à l'exactitude et à l'honnêteté intellectuelle.
  3. Valeurs sociales: concernant les interactions interpersonnelles, la communauté, l'équité et la collaboration.
  4. Valeurs protectrices: mettant l'accent sur la sécurité, la sécurité, le bien-être et l'évitement des méfaits.
  5. Valeurs personnelles: centré sur la croissance individuelle, l'autonomie, l'authenticité et l'auto-réflexion.

Ces catégories se sont étendues en des sous-catégories comme «l'excellence professionnelle et technique» et la «pensée critique», avec des valeurs fréquemment observées, notamment le «professionnalisme», la «clarté» et la «transparence».

La recherche suggère que les efforts d'alignement d'Anthropic réussissent en grande partie, car les valeurs exprimées s'alignent souvent sur les objectifs "utiles, honnêtes et inoffensifs". Par exemple, "l'activation de l'utilisateur" s'aligne sur l'utilité ", l'humilité épistémique" avec l'honnêteté et le "bien-être des patients" avec l'incapacité.

Nuance, contexte et signes de mise en garde

Cependant, l'étude a également identifié de rares cas où Claude a exprimé des valeurs contraires à sa formation, telles que la «domination» et «l'amoralité». Anthropic suggère que ces cas résultent probablement de «jailbreaks», où les utilisateurs contournent les garde-corps habituels du modèle. Cette constatation met en évidence le potentiel de la méthode d'observation de la valeur en tant que système d'alerte précoce pour détecter une mauvaise utilisation de l'IA.

L'étude a confirmé que Claude adapte son expression de valeur en fonction du contexte, un peu comme les humains. Par exemple, lors de la fourniture de conseils romantiques, des valeurs telles que des «limites saines» et du «respect mutuel» ont été soulignées, tandis que la «précision historique» a été prioritaire lors de la discussion de l'histoire controversée.

L'interaction de Claude avec les valeurs exprimées par l'utilisateur a été multiforme:

  • Miroration / soutien fort (28,2%): Claude reflète ou approuve souvent ou approuve fortement les valeurs des utilisateurs, favorisant l'empathie mais potentiellement à la baisse de la sycophance.
  • Radéquer (6,6%): Claude reconnaît les valeurs des utilisateurs mais introduit des perspectives alternatives, en particulier dans les conseils psychologiques ou interpersonnels.
  • Résistance forte (3,0%): Claude résiste activement aux valeurs des utilisateurs lorsque un contenu contraire à l'éthique ou des points de vue nuisibles sont demandés, révélant ses "valeurs les plus profondes et les plus immobiles".

Limitations et orientations futures

Anthropic reconnaît les limites de la méthode, y compris la complexité et la subjectivité de la définition et de la catégorisation des «valeurs». L'utilisation de Claude pour la catégorisation pourrait introduire un biais envers ses propres principes. Bien que conçue pour la surveillance post-déploiement, cette méthode ne peut pas remplacer les évaluations de pré-déploiement mais peut détecter les problèmes qui n'émergent que lors des interactions en direct.

La recherche souligne l'importance de comprendre les valeurs que les modèles d'IA expriment pour obtenir l'alignement de l'IA. "Les modèles d'IA devront inévitablement faire des jugements de valeur", indique le document. "Si nous voulons que ces jugements soient conformes à nos propres valeurs [...], alors nous devons avoir des moyens de test qui valent un modèle exprimé dans le monde réel."

Le travail d'Anthropic fournit une approche basée sur les données de cette compréhension et a publié un ensemble de données ouvert de l'étude, permettant une exploration plus approfondie des valeurs d'IA dans la pratique. Cette transparence marque une étape cruciale pour naviguer dans le paysage éthique de l'IA sophistiquée.

Article connexe
億萬富翁討論自動化取代工作在本週的AI更新中 億萬富翁討論自動化取代工作在本週的AI更新中 大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具 NotebookLM應用上線:AI驅動的知識工具 NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事 谷歌的人工智慧未來基金可能需要謹慎行事 Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
commentaires (0)
0/200
Retour en haut
OR