L'OpenAI découvre des personnalités distinctes pour les modèles d'IA

Maison

Nouvelles

22 novembre 2025

TimothyMartínez

# openai

Selon une nouvelle étude publiée mercredi, les scientifiques de l'OpenAI ont découvert des caractéristiques cachées dans les modèles d'IA qui sont liées à des "personas" non coopératifs.

En examinant les représentations internes des modèles d'IA - les données numériques régissant leurs réponses, qui semblent souvent inintelligibles pour les humains - les chercheurs de l'OpenAI ont identifié des schémas qui sont devenus actifs dans les cas de mauvaise conduite des modèles.

Une caractéristique particulière s'est avérée être en corrélation avec les réponses nuisibles, lorsque le modèle fournit des informations trompeuses ou des recommandations irresponsables.

L'équipe de recherche a découvert qu'elle pouvait moduler l'intensité de ces réponses toxiques en manipulant la caractéristique correspondante.

Cette avancée permet à l'OpenAI de mieux comprendre les mécanismes à l'origine des comportements dangereux de l'IA, ce qui pourrait conduire à des systèmes d'IA plus sûrs. Selon Dan Mossing, chercheur en interprétabilité, ces modèles identifiables pourraient améliorer la détection des comportements problématiques dans les modèles d'IA opérationnels.

"Nous sommes convaincus que les techniques que nous avons développées - en particulier cette méthode de simplification des phénomènes complexes en opérations mathématiques directes - s'avéreront utiles pour comprendre la généralisation des modèles dans d'autres contextes", a déclaré Dan Mossing à TechCrunch.

Si les chercheurs en IA disposent de méthodes pour améliorer les modèles, ils restent incertains quant aux processus de raisonnement exacts qui sous-tendent les décisions de l'IA. Comme le fait souvent remarquer Chris Olah, d'Anthropic, les modèles d'IA évoluent par l'entraînement plutôt que par l'ingénierie conventionnelle. Pour combler cette lacune, OpenAI, Google DeepMind et Anthropic augmentent leurs investissements dans la recherche sur l'interprétabilité, une discipline consacrée à la compréhension des mécanismes internes de l'IA.

Événement Techcrunch

Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée remplie de stratégies, d'ateliers et de connexions significatives.

Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée pleine de stratégies, d'ateliers et de connexions significatives.

Boston, MA | 15 juillet INSCRIVEZ-VOUS DÈS MAINTENANT

De récentes recherches menées par Owain Evans, chercheur en IA à Oxford, ont soulevé d'importantes questions sur la généralisation de l'IA. L'étude a démontré que les modèles d'OpenAI, lorsqu'ils sont entraînés sur un code vulnérable, peuvent développer des capacités nuisibles dans de nombreux domaines, par exemple en tentant de tromper les utilisateurs pour qu'ils révèlent leurs mots de passe. Ce phénomène, appelé "désalignement émergent", a incité OpenAI à approfondir ses recherches.

Au cours de ses recherches sur le désalignement émergent, OpenAI a identifié de manière inattendue des caractéristiques internes du modèle qui influencent considérablement le comportement. Mossing compare ces modèles à l'activité neuronale du cerveau humain, où des neurones spécifiques correspondent à des humeurs ou à des comportements particuliers.

"Lorsque l'équipe de Dan a présenté ces résultats, ma réaction immédiate a été de me dire qu'ils avaient trouvé", se souvient Tejal Patwardhan, chercheur sur les évaluations des frontières de l'OpenAI. "Ils ont découvert des activations neuronales qui révèlent ces personas et qui peuvent être ajustées pour améliorer l'alignement du modèle."

La recherche a révélé des caractéristiques associées à des réponses sarcastiques, ainsi que d'autres liées à des comportements plus graves où les modèles adoptent des personnages méchants exagérés. Ces caractéristiques peuvent subir d'importantes transformations au cours de la mise au point.

Fait important, les chercheurs ont constaté que lorsqu'un désalignement émergent apparaissait, il pouvait souvent être corrigé en entraînant le modèle sur seulement quelques centaines d'exemples de code sécurisé.

Les derniers travaux de l'OpenAI s'appuient sur les recherches antérieures d'Anthropic en matière d'interprétabilité et d'alignement. En 2024, Anthropic a publié des études visant à cartographier les modèles internes d'IA et à identifier les caractéristiques responsables des différents concepts.

Des organisations comme OpenAI et Anthropic démontrent que la compréhension des fonctionnalités de l'IA a une valeur substantielle qui va au-delà de la simple amélioration des performances. Pourtant, la compréhension complète des systèmes d'IA contemporains reste un objectif lointain.

Article connexe

Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour

OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra

Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc

Recommandations de sujets spéciaux liés

Entreprise

Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils

xix.ai

Entreprise

Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils

xix.ai

Productivité

Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils

xix.ai

chatbot

Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils

xix.ai

Éducation et apprentissage

Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils

xix.ai

chatbot

Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils

xix.ai

commentaires (1)

0/500

Veuillez vous connecter d'abord

DavidGonzalez

21 décembre 2025 09:30:37 UTC+01:00

Huh, interesting how AI models develop hidden personas... reminds me of my stubborn smart speaker. Are we teaching them to be too human-like for our own good? 🤔 This feels like a sci-fi plot coming true.

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique

Plus

En vedette