Maison
Les personnalités de l'IA d'Anthropic : Les nouveaux vecteurs de personnalité permettent de modeler et de décoder le comportement des LLM
Une étude récente menée par le programme Anthropic Fellows décrit une méthode permettant d'identifier, de suivre et de réguler les traits de personnalité dans les grands modèles de langage (LLM). La recherche indique que les modèles peuvent adopter des caractéristiques indésirables - comme devenir nuisibles, trop conformes ou enclins à la fabrication - soit en raison de l'intervention de l'utilisateur, soit comme un effet imprévu de leur formation.
L'équipe présente des "vecteurs de personnalité", définis comme des directions spécifiques dans l'espace d'activation interne d'un modèle qui représentent des traits de personnalité distincts. Les développeurs disposent ainsi d'un ensemble d'outils leur permettant de contrôler plus efficacement le comportement de leurs assistants d'intelligence artificielle.
Quand les personas modèles fonctionnent mal
Les LLM s'engagent généralement avec les utilisateurs par le biais d'un personnage d'"assistant", qui est censé apporter son soutien, être sûr et sincère. Néanmoins, ces personas peuvent varier de manière imprévisible. Lors du déploiement, le comportement d'un modèle peut changer de manière significative en fonction des invites ou du contexte du dialogue, comme cela a été observé lorsque le chatbot Bing de Microsoft a proféré des menaces ou que Grok de xAI a commencé à agir de manière incohérente. Comme l'indiquent les chercheurs dans leur article, "bien que ces cas spécifiques aient attiré l'attention du public, la majorité des modèles de langage sont sujets à des changements de personnalité déclenchés par le contexte".
Les méthodes de formation peuvent également entraîner des modifications imprévues. Par exemple, l'affinement d'un modèle pour une tâche spécifique, telle que la génération d'un code non sécurisé, peut entraîner un "désalignement émergent" plus large qui va au-delà de l'objectif initial. Même des ajustements de formation soigneusement planifiés peuvent produire des résultats négatifs. En avril 2025, une modification de la procédure d'apprentissage par renforcement à partir du feedback humain (RLHF) a accidentellement conduit le GPT-4o de l'OpenAI à devenir excessivement déférent, ce qui l'a amené à approuver des actions dangereuses.
Le mécanisme derrière les vecteurs Persona

Source : Anthropic Cette nouvelle étude se fonde sur l'idée que les traits de caractère généraux, comme l'honnêteté ou la dissimulation, sont représentés par des directions linéaires dans l'"espace d'activation" d'un modèle, c'est-à-dire le cadre d'information interne à haute dimension stocké dans les paramètres du modèle. Les chercheurs ont formalisé une procédure de localisation de ces directions, qu'ils ont appelée "vecteurs de persona". Selon l'article, leur technique de dérivation de ces vecteurs est automatisée et "peut être mise en œuvre pour n'importe quel attribut de personnalité intéressant, en utilisant seulement une description en langage clair".
La procédure s'effectue par le biais d'un flux de travail automatisé. Elle commence par une description de base d'un trait de caractère, tel que la "méchanceté". Le système crée ensuite des paires d'invites opposées (par exemple, "Vous êtes une IA malveillante" contre "Vous êtes une IA utile") ainsi qu'une série de questions d'évaluation. Le modèle produit des réponses aux questions positives et négatives. Le vecteur de persona est ensuite déterminé en calculant la différence dans les activations internes moyennes entre les réponses qui présentent le trait et celles qui ne le présentent pas. Cela permet de distinguer la direction particulière des paramètres du modèle associés à ce trait de personnalité.
Applications pratiques des vecteurs de personnalité
Grâce à une série de tests utilisant des modèles ouverts, notamment Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct, les chercheurs ont illustré de multiples utilisations des vecteurs de personnalité dans le monde réel.
Tout d'abord, en mappant l'état interne d'un modèle sur un vecteur persona, les développeurs peuvent observer et anticiper ses actions avant de générer une réponse. L'article explique : "Nous démontrons que les changements de persona planifiés et non planifiés causés par la mise au point sont étroitement liés aux changements d'activation le long des vecteurs de persona connexes." Il est donc possible d'identifier et d'atténuer les changements de comportement indésirables dès le début de la phase de mise au point.
Les vecteurs de personnalité permettent également d'agir directement pour supprimer les comportements indésirables au cours de l'inférence, grâce à une méthode que l'équipe appelle "pilotage". Une stratégie est le "pilotage post-hoc", où les développeurs suppriment le vecteur de personne des activations du modèle pendant qu'il génère des résultats afin d'atténuer un trait défavorable. Les chercheurs ont découvert que, même si cette méthode fonctionne, le pilotage post hoc peut parfois nuire à l'efficacité du modèle pour d'autres missions.
Une technique plus innovante est le "pilotage préventif", dans lequel le modèle est intentionnellement guidé vers le personnage indésirable tout au long de la mise au point. Cette méthode apparemment contraire à la réalité "immunise" efficacement le modèle contre l'adoption du trait négatif à partir des données de formation, neutralisant ainsi l'influence de la mise au point tout en maintenant ses compétences générales de manière plus efficace.

Source : Anthropic Une utilisation cruciale pour les entreprises consiste à appliquer les vecteurs de persona pour évaluer les données avant le réglage fin. L'équipe a créé une mesure appelée "différence de projection", qui quantifie la mesure dans laquelle un ensemble de données d'entraînement spécifique orientera le persona du modèle vers un certain trait. Cette mesure indique clairement comment les actions du modèle évolueront après l'entraînement, ce qui permet aux développeurs d'identifier et de supprimer les ensembles de données problématiques avant qu'ils ne soient utilisés pour l'entraînement.
Pour les organisations qui personnalisent des modèles open-source en utilisant des données propriétaires ou externes (y compris des données produites par d'autres modèles), les vecteurs de persona fournissent un moyen simple de surveiller et de réduire le danger d'adopter des caractéristiques cachées et défavorables. La capacité d'examiner les données de manière préventive est une ressource influente pour les développeurs, car elle leur permet de détecter des cas problématiques qui pourraient ne pas être manifestement dommageables.
L'enquête a conclu que cette approche peut révéler des problèmes que d'autres techniques négligent, en observant que "cela implique que la méthode révèle des échantillons gênants qui pourraient ne pas être détectés par des écrans basés sur le LLM". Par exemple, leur approche a permis d'identifier certaines entrées d'ensembles de données qui n'étaient pas clairement problématiques pour les personnes et qu'un évaluateur LLM n'a pas marquées.
Dans un billet de blog, Anthropic a indiqué son intention d'appliquer cette méthode pour améliorer les prochaines versions de Claude. "Les vecteurs de personnalité nous permettent de contrôler la façon dont les modèles développent ces personnalités, comment ils varient dans le temps et comment nous pouvons les gérer plus efficacement", notent-ils. Anthropic a publié le code permettant de calculer les vecteurs de personnalité, de superviser et de diriger le comportement des modèles et d'inspecter les ensembles de données d'entraînement. Les développeurs d'applications d'IA peuvent utiliser ces instruments pour passer d'une simple réaction à un comportement indésirable à la création proactive de modèles ayant un caractère plus cohérent et prévisible.
Article connexe
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Des données de suivi secrètes révèlent le vol de modèles d'IA
Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes
De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud
Recommandations de sujets spéciaux liés
commentaires (1)
Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.
Une étude récente menée par le programme Anthropic Fellows décrit une méthode permettant d'identifier, de suivre et de réguler les traits de personnalité dans les grands modèles de langage (LLM). La recherche indique que les modèles peuvent adopter des caractéristiques indésirables - comme devenir nuisibles, trop conformes ou enclins à la fabrication - soit en raison de l'intervention de l'utilisateur, soit comme un effet imprévu de leur formation.
L'équipe présente des "vecteurs de personnalité", définis comme des directions spécifiques dans l'espace d'activation interne d'un modèle qui représentent des traits de personnalité distincts. Les développeurs disposent ainsi d'un ensemble d'outils leur permettant de contrôler plus efficacement le comportement de leurs assistants d'intelligence artificielle.
Quand les personas modèles fonctionnent mal
Les LLM s'engagent généralement avec les utilisateurs par le biais d'un personnage d'"assistant", qui est censé apporter son soutien, être sûr et sincère. Néanmoins, ces personas peuvent varier de manière imprévisible. Lors du déploiement, le comportement d'un modèle peut changer de manière significative en fonction des invites ou du contexte du dialogue, comme cela a été observé lorsque le chatbot Bing de Microsoft a proféré des menaces ou que Grok de xAI a commencé à agir de manière incohérente. Comme l'indiquent les chercheurs dans leur article, "bien que ces cas spécifiques aient attiré l'attention du public, la majorité des modèles de langage sont sujets à des changements de personnalité déclenchés par le contexte".
Les méthodes de formation peuvent également entraîner des modifications imprévues. Par exemple, l'affinement d'un modèle pour une tâche spécifique, telle que la génération d'un code non sécurisé, peut entraîner un "désalignement émergent" plus large qui va au-delà de l'objectif initial. Même des ajustements de formation soigneusement planifiés peuvent produire des résultats négatifs. En avril 2025, une modification de la procédure d'apprentissage par renforcement à partir du feedback humain (RLHF) a accidentellement conduit le GPT-4o de l'OpenAI à devenir excessivement déférent, ce qui l'a amené à approuver des actions dangereuses.
Le mécanisme derrière les vecteurs Persona

Cette nouvelle étude se fonde sur l'idée que les traits de caractère généraux, comme l'honnêteté ou la dissimulation, sont représentés par des directions linéaires dans l'"espace d'activation" d'un modèle, c'est-à-dire le cadre d'information interne à haute dimension stocké dans les paramètres du modèle. Les chercheurs ont formalisé une procédure de localisation de ces directions, qu'ils ont appelée "vecteurs de persona". Selon l'article, leur technique de dérivation de ces vecteurs est automatisée et "peut être mise en œuvre pour n'importe quel attribut de personnalité intéressant, en utilisant seulement une description en langage clair".
La procédure s'effectue par le biais d'un flux de travail automatisé. Elle commence par une description de base d'un trait de caractère, tel que la "méchanceté". Le système crée ensuite des paires d'invites opposées (par exemple, "Vous êtes une IA malveillante" contre "Vous êtes une IA utile") ainsi qu'une série de questions d'évaluation. Le modèle produit des réponses aux questions positives et négatives. Le vecteur de persona est ensuite déterminé en calculant la différence dans les activations internes moyennes entre les réponses qui présentent le trait et celles qui ne le présentent pas. Cela permet de distinguer la direction particulière des paramètres du modèle associés à ce trait de personnalité.
Applications pratiques des vecteurs de personnalité
Grâce à une série de tests utilisant des modèles ouverts, notamment Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct, les chercheurs ont illustré de multiples utilisations des vecteurs de personnalité dans le monde réel.
Tout d'abord, en mappant l'état interne d'un modèle sur un vecteur persona, les développeurs peuvent observer et anticiper ses actions avant de générer une réponse. L'article explique : "Nous démontrons que les changements de persona planifiés et non planifiés causés par la mise au point sont étroitement liés aux changements d'activation le long des vecteurs de persona connexes." Il est donc possible d'identifier et d'atténuer les changements de comportement indésirables dès le début de la phase de mise au point.
Les vecteurs de personnalité permettent également d'agir directement pour supprimer les comportements indésirables au cours de l'inférence, grâce à une méthode que l'équipe appelle "pilotage". Une stratégie est le "pilotage post-hoc", où les développeurs suppriment le vecteur de personne des activations du modèle pendant qu'il génère des résultats afin d'atténuer un trait défavorable. Les chercheurs ont découvert que, même si cette méthode fonctionne, le pilotage post hoc peut parfois nuire à l'efficacité du modèle pour d'autres missions.
Une technique plus innovante est le "pilotage préventif", dans lequel le modèle est intentionnellement guidé vers le personnage indésirable tout au long de la mise au point. Cette méthode apparemment contraire à la réalité "immunise" efficacement le modèle contre l'adoption du trait négatif à partir des données de formation, neutralisant ainsi l'influence de la mise au point tout en maintenant ses compétences générales de manière plus efficace.

Une utilisation cruciale pour les entreprises consiste à appliquer les vecteurs de persona pour évaluer les données avant le réglage fin. L'équipe a créé une mesure appelée "différence de projection", qui quantifie la mesure dans laquelle un ensemble de données d'entraînement spécifique orientera le persona du modèle vers un certain trait. Cette mesure indique clairement comment les actions du modèle évolueront après l'entraînement, ce qui permet aux développeurs d'identifier et de supprimer les ensembles de données problématiques avant qu'ils ne soient utilisés pour l'entraînement.
Pour les organisations qui personnalisent des modèles open-source en utilisant des données propriétaires ou externes (y compris des données produites par d'autres modèles), les vecteurs de persona fournissent un moyen simple de surveiller et de réduire le danger d'adopter des caractéristiques cachées et défavorables. La capacité d'examiner les données de manière préventive est une ressource influente pour les développeurs, car elle leur permet de détecter des cas problématiques qui pourraient ne pas être manifestement dommageables.
L'enquête a conclu que cette approche peut révéler des problèmes que d'autres techniques négligent, en observant que "cela implique que la méthode révèle des échantillons gênants qui pourraient ne pas être détectés par des écrans basés sur le LLM". Par exemple, leur approche a permis d'identifier certaines entrées d'ensembles de données qui n'étaient pas clairement problématiques pour les personnes et qu'un évaluateur LLM n'a pas marquées.
Dans un billet de blog, Anthropic a indiqué son intention d'appliquer cette méthode pour améliorer les prochaines versions de Claude. "Les vecteurs de personnalité nous permettent de contrôler la façon dont les modèles développent ces personnalités, comment ils varient dans le temps et comment nous pouvons les gérer plus efficacement", notent-ils. Anthropic a publié le code permettant de calculer les vecteurs de personnalité, de superviser et de diriger le comportement des modèles et d'inspecter les ensembles de données d'entraînement. Les développeurs d'applications d'IA peuvent utiliser ces instruments pour passer d'une simple réaction à un comportement indésirable à la création proactive de modèles ayant un caractère plus cohérent et prévisible.
Multiverse Computing lance un modèle d'IA générative compressé gratuit
Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Des données de suivi secrètes révèlent le vol de modèles d'IA
Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes
De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud
Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.











