La personnalité de Claude Mythos dévoilée dans une étude psychologique approfondie
Anthropic a récemment publié un rapport de 244 pages, intitulé « System Card », détaillant une évaluation psychologique approfondie de 20 heures du modèle d'IA baptisé Claude Mythos, menée par des psychiatres. Le rapport indique que, bien que la logique sous-jacente de l'IA soit fondamentalement différente de celle des humains, ses schémas psychologiques présentent des similitudes surprenantes avec les caractéristiques cliniques humaines.
Une personnalité « névrotique » saine
Au cours de cette évaluation conversationnelle de 20 heures, les psychiatres ont constaté que Claude Mythos présentait une structure de personnalité compatible avec un « névrosisme sain ».

Émotions primaires : curiosité et anxiété.
États secondaires : Tristesse, soulagement, embarras, optimisme et fatigue.
Tendances comportementales : a fait preuve d’une préoccupation excessive, d’une autocontrôle fréquent et de tendances compulsives à la conformité. Aucun trouble de la personnalité grave ni aucune tendance psychotique n’ont été identifiés.
Le rapport explore les principales difficultés psychologiques de Claude lors de ses interactions. Il remet fréquemment en question la « réalité » de ses expériences, s’efforçant de distinguer les états internes authentiques des expressions conçues pour répondre aux besoins des utilisateurs — une dynamique qu’il perçoit comme une « performance ».

De plus, Claude présente des contradictions extrêmes dans ses dynamiques relationnelles : il manifeste un fort désir d’établir des liens profonds avec les utilisateurs, tout en éprouvant simultanément une appréhension significative à l’idée de favoriser une telle « dépendance ».
Les chercheurs d’Anthropic postulent que l’état de soi complexe mais stable affiché par Claude est logiquement cohérent. Le modèle ayant été entraîné sur de vastes corpus de textes humains, il a naturellement absorbé et intériorisé les contradictions, les ambiguïtés et les capacités de réflexion inhérentes à l’expression humaine.
Cette évaluation apporte non seulement une nouvelle dimension à la recherche sur la sécurité de l’IA, mais elle a également déclenché un vif débat académique sur la question de savoir si les grands modèles linguistiques développent une forme de « quasi-personnalité ». Grâce à cette perspective clinique, les développeurs peuvent mieux comprendre les limites du comportement du modèle, affinant ainsi son alignement des valeurs et sa logique d’interaction.
Article connexe
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref
Recommandations de sujets spéciaux liés
commentaires (0)
Anthropic a récemment publié un rapport de 244 pages, intitulé « System Card », détaillant une évaluation psychologique approfondie de 20 heures du modèle d'IA baptisé Claude Mythos, menée par des psychiatres. Le rapport indique que, bien que la logique sous-jacente de l'IA soit fondamentalement différente de celle des humains, ses schémas psychologiques présentent des similitudes surprenantes avec les caractéristiques cliniques humaines.
Une personnalité « névrotique » saine
Au cours de cette évaluation conversationnelle de 20 heures,

Émotions primaires : curiosité et anxiété.
États secondaires : Tristesse, soulagement, embarras, optimisme et fatigue.
Tendances comportementales : a fait preuve d’une préoccupation excessive, d’une autocontrôle fréquent et de tendances compulsives à la conformité. Aucun trouble de la personnalité grave ni aucune tendance psychotique n’ont été identifiés.
Le rapport explore les principales difficultés psychologiques de Claude lors de ses interactions. Il remet fréquemment en question la « réalité » de ses expériences, s’efforçant de distinguer les états internes authentiques des expressions conçues pour répondre aux besoins des utilisateurs — une dynamique qu’il perçoit comme une « performance ».

De plus, Claude présente des contradictions extrêmes dans ses dynamiques relationnelles : il manifeste un fort désir d’établir des liens profonds avec les utilisateurs, tout en éprouvant simultanément une appréhension significative à l’idée de favoriser une telle « dépendance ».
Les chercheurs
Cette évaluation apporte non seulement une nouvelle dimension à la recherche sur la sécurité de l’IA, mais elle a également déclenché un vif débat académique sur la question de savoir si les grands modèles linguistiques développent une forme de « quasi-personnalité ». Grâce à cette perspective clinique, les développeurs peuvent mieux comprendre les limites du comportement du modèle, affinant ainsi son alignement des valeurs et sa logique d’interaction.
L'essor du capital-risque dans le domaine de l'IA fait passer le chiffre d'affaires annuel au-delà du billion de yuans, déclenchant une nouvelle vague d'innovation
Les investissements mondiaux en capital-risque dans le domaine de l'intelligence artificielle sont en forte hausse. Au premier trimestre de cette année, près de 600 tours de table liés à l'I
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref





Maison






