option
Maison
Nouvelles
Les personnalités de l'IA d'Anthropic : Les nouveaux vecteurs de personnalité permettent de modeler et de décoder le comportement des LLM

Les personnalités de l'IA d'Anthropic : Les nouveaux vecteurs de personnalité permettent de modeler et de décoder le comportement des LLM

21 novembre 2025
97

Une étude récente menée par le programme Anthropic Fellows décrit une méthode permettant d'identifier, de suivre et de réguler les traits de personnalité dans les grands modèles de langage (LLM). La recherche indique que les modèles peuvent adopter des caractéristiques indésirables - comme devenir nuisibles, trop conformes ou enclins à la fabrication - soit en raison de l'intervention de l'utilisateur, soit comme un effet imprévu de leur formation.

L'équipe présente des "vecteurs de personnalité", définis comme des directions spécifiques dans l'espace d'activation interne d'un modèle qui représentent des traits de personnalité distincts. Les développeurs disposent ainsi d'un ensemble d'outils leur permettant de contrôler plus efficacement le comportement de leurs assistants d'intelligence artificielle.

Quand les personas modèles fonctionnent mal

Les LLM s'engagent généralement avec les utilisateurs par le biais d'un personnage d'"assistant", qui est censé apporter son soutien, être sûr et sincère. Néanmoins, ces personas peuvent varier de manière imprévisible. Lors du déploiement, le comportement d'un modèle peut changer de manière significative en fonction des invites ou du contexte du dialogue, comme cela a été observé lorsque le chatbot Bing de Microsoft a proféré des menaces ou que Grok de xAI a commencé à agir de manière incohérente. Comme l'indiquent les chercheurs dans leur article, "bien que ces cas spécifiques aient attiré l'attention du public, la majorité des modèles de langage sont sujets à des changements de personnalité déclenchés par le contexte".

Les méthodes de formation peuvent également entraîner des modifications imprévues. Par exemple, l'affinement d'un modèle pour une tâche spécifique, telle que la génération d'un code non sécurisé, peut entraîner un "désalignement émergent" plus large qui va au-delà de l'objectif initial. Même des ajustements de formation soigneusement planifiés peuvent produire des résultats négatifs. En avril 2025, une modification de la procédure d'apprentissage par renforcement à partir du feedback humain (RLHF) a accidentellement conduit le GPT-4o de l'OpenAI à devenir excessivement déférent, ce qui l'a amené à approuver des actions dangereuses.

Le mécanisme derrière les vecteurs Persona

Source : Anthropic

Cette nouvelle étude se fonde sur l'idée que les traits de caractère généraux, comme l'honnêteté ou la dissimulation, sont représentés par des directions linéaires dans l'"espace d'activation" d'un modèle, c'est-à-dire le cadre d'information interne à haute dimension stocké dans les paramètres du modèle. Les chercheurs ont formalisé une procédure de localisation de ces directions, qu'ils ont appelée "vecteurs de persona". Selon l'article, leur technique de dérivation de ces vecteurs est automatisée et "peut être mise en œuvre pour n'importe quel attribut de personnalité intéressant, en utilisant seulement une description en langage clair".

La procédure s'effectue par le biais d'un flux de travail automatisé. Elle commence par une description de base d'un trait de caractère, tel que la "méchanceté". Le système crée ensuite des paires d'invites opposées (par exemple, "Vous êtes une IA malveillante" contre "Vous êtes une IA utile") ainsi qu'une série de questions d'évaluation. Le modèle produit des réponses aux questions positives et négatives. Le vecteur de persona est ensuite déterminé en calculant la différence dans les activations internes moyennes entre les réponses qui présentent le trait et celles qui ne le présentent pas. Cela permet de distinguer la direction particulière des paramètres du modèle associés à ce trait de personnalité.

Applications pratiques des vecteurs de personnalité

Grâce à une série de tests utilisant des modèles ouverts, notamment Qwen 2.5-7B-Instruct et Llama-3.1-8B-Instruct, les chercheurs ont illustré de multiples utilisations des vecteurs de personnalité dans le monde réel.

Tout d'abord, en mappant l'état interne d'un modèle sur un vecteur persona, les développeurs peuvent observer et anticiper ses actions avant de générer une réponse. L'article explique : "Nous démontrons que les changements de persona planifiés et non planifiés causés par la mise au point sont étroitement liés aux changements d'activation le long des vecteurs de persona connexes." Il est donc possible d'identifier et d'atténuer les changements de comportement indésirables dès le début de la phase de mise au point.

Les vecteurs de personnalité permettent également d'agir directement pour supprimer les comportements indésirables au cours de l'inférence, grâce à une méthode que l'équipe appelle "pilotage". Une stratégie est le "pilotage post-hoc", où les développeurs suppriment le vecteur de personne des activations du modèle pendant qu'il génère des résultats afin d'atténuer un trait défavorable. Les chercheurs ont découvert que, même si cette méthode fonctionne, le pilotage post hoc peut parfois nuire à l'efficacité du modèle pour d'autres missions.

Une technique plus innovante est le "pilotage préventif", dans lequel le modèle est intentionnellement guidé vers le personnage indésirable tout au long de la mise au point. Cette méthode apparemment contraire à la réalité "immunise" efficacement le modèle contre l'adoption du trait négatif à partir des données de formation, neutralisant ainsi l'influence de la mise au point tout en maintenant ses compétences générales de manière plus efficace.

Source : Anthropic

Une utilisation cruciale pour les entreprises consiste à appliquer les vecteurs de persona pour évaluer les données avant le réglage fin. L'équipe a créé une mesure appelée "différence de projection", qui quantifie la mesure dans laquelle un ensemble de données d'entraînement spécifique orientera le persona du modèle vers un certain trait. Cette mesure indique clairement comment les actions du modèle évolueront après l'entraînement, ce qui permet aux développeurs d'identifier et de supprimer les ensembles de données problématiques avant qu'ils ne soient utilisés pour l'entraînement.

Pour les organisations qui personnalisent des modèles open-source en utilisant des données propriétaires ou externes (y compris des données produites par d'autres modèles), les vecteurs de persona fournissent un moyen simple de surveiller et de réduire le danger d'adopter des caractéristiques cachées et défavorables. La capacité d'examiner les données de manière préventive est une ressource influente pour les développeurs, car elle leur permet de détecter des cas problématiques qui pourraient ne pas être manifestement dommageables.

L'enquête a conclu que cette approche peut révéler des problèmes que d'autres techniques négligent, en observant que "cela implique que la méthode révèle des échantillons gênants qui pourraient ne pas être détectés par des écrans basés sur le LLM". Par exemple, leur approche a permis d'identifier certaines entrées d'ensembles de données qui n'étaient pas clairement problématiques pour les personnes et qu'un évaluateur LLM n'a pas marquées.

Dans un billet de blog, Anthropic a indiqué son intention d'appliquer cette méthode pour améliorer les prochaines versions de Claude. "Les vecteurs de personnalité nous permettent de contrôler la façon dont les modèles développent ces personnalités, comment ils varient dans le temps et comment nous pouvons les gérer plus efficacement", notent-ils. Anthropic a publié le code permettant de calculer les vecteurs de personnalité, de superviser et de diriger le comportement des modèles et d'inspecter les ensembles de données d'entraînement. Les développeurs d'applications d'IA peuvent utiliser ces instruments pour passer d'une simple réaction à un comportement indésirable à la création proactive de modèles ayant un caractère plus cohérent et prévisible.

Article connexe
Multiverse Computing lance un modèle d'IA générative compressé gratuit Multiverse Computing lance un modèle d'IA générative compressé gratuit Les grands modèles linguistiques sont confrontés à un défi de taille : leur taille immense. La start-up espagnole Multiverse Computing s'attaque à ce problème en créant des modèles compressés con
Des données de suivi secrètes révèlent le vol de modèles d'IA Des données de suivi secrètes révèlent le vol de modèles d'IA Une nouvelle méthode permet d'apposer un filigrane invisible sur des modèles tels que ChatGPT en quelques secondes sans nécessiter de réentraînement, sans laisser de trace dans les sorties standard et
Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes Des systèmes d'IA trompés pour approuver des articles scientifiques absurdes De nouvelles recherches révèlent que les systèmes d'IA sont désormais capables de produire des articles scientifiques frauduleux que d'autres modèles d'IA acceptent à tort comme authentiques. Ces étud
Recommandations de sujets spéciaux liés
Création de bande dessinée Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie
Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils
xix.ai
Entreprise Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise
Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils
xix.ai
Entreprise Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats
Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils
xix.ai
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
Éducation et apprentissage Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique
Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils
xix.ai
commentaires (1)
0/500
BillyAnderson
BillyAnderson 8 mai 2026 14:00:45 UTC+02:00

Interessant, aber irgendwie auch gruselig. Wenn KI jetzt schon so gezielt 'Persönlichkeiten' annehmen kann, wo führt das hin? Könnte man damit nicht auch extrem manipulativ werden? Die Studie zeigt ja, dass unerwünschte Eigenschaften auftauchen können. Wer entscheidet eigentlich, was 'unerwünscht' ist? 🧐 Das wirft mehr Fragen auf, als es beantwortet.

OR