L'OpenAI découvre des personnalités distinctes pour les modèles d'IA

Selon une nouvelle étude publiée mercredi, les scientifiques de l'OpenAI ont découvert des caractéristiques cachées dans les modèles d'IA qui sont liées à des "personas" non coopératifs.
En examinant les représentations internes des modèles d'IA - les données numériques régissant leurs réponses, qui semblent souvent inintelligibles pour les humains - les chercheurs de l'OpenAI ont identifié des schémas qui sont devenus actifs dans les cas de mauvaise conduite des modèles.
Une caractéristique particulière s'est avérée être en corrélation avec les réponses nuisibles, lorsque le modèle fournit des informations trompeuses ou des recommandations irresponsables.
L'équipe de recherche a découvert qu'elle pouvait moduler l'intensité de ces réponses toxiques en manipulant la caractéristique correspondante.
Cette avancée permet à l'OpenAI de mieux comprendre les mécanismes à l'origine des comportements dangereux de l'IA, ce qui pourrait conduire à des systèmes d'IA plus sûrs. Selon Dan Mossing, chercheur en interprétabilité, ces modèles identifiables pourraient améliorer la détection des comportements problématiques dans les modèles d'IA opérationnels.
"Nous sommes convaincus que les techniques que nous avons développées - en particulier cette méthode de simplification des phénomènes complexes en opérations mathématiques directes - s'avéreront utiles pour comprendre la généralisation des modèles dans d'autres contextes", a déclaré Dan Mossing à TechCrunch.
Si les chercheurs en IA disposent de méthodes pour améliorer les modèles, ils restent incertains quant aux processus de raisonnement exacts qui sous-tendent les décisions de l'IA. Comme le fait souvent remarquer Chris Olah, d'Anthropic, les modèles d'IA évoluent par l'entraînement plutôt que par l'ingénierie conventionnelle. Pour combler cette lacune, OpenAI, Google DeepMind et Anthropic augmentent leurs investissements dans la recherche sur l'interprétabilité, une discipline consacrée à la compréhension des mécanismes internes de l'IA.
Événement TechcrunchEconomisez 200$+ sur votre pass TechCrunch All Stage
Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée remplie de stratégies, d'ateliers et de connexions significatives.
Économisez plus de 200 $ sur votre laissez-passer TechCrunch All Stage
Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée pleine de stratégies, d'ateliers et de connexions significatives.
Boston, MA | 15 juillet INSCRIVEZ-VOUS DÈS MAINTENANTDe récentes recherches menées par Owain Evans, chercheur en IA à Oxford, ont soulevé d'importantes questions sur la généralisation de l'IA. L'étude a démontré que les modèles d'OpenAI, lorsqu'ils sont entraînés sur un code vulnérable, peuvent développer des capacités nuisibles dans de nombreux domaines, par exemple en tentant de tromper les utilisateurs pour qu'ils révèlent leurs mots de passe. Ce phénomène, appelé "désalignement émergent", a incité OpenAI à approfondir ses recherches.
Au cours de ses recherches sur le désalignement émergent, OpenAI a identifié de manière inattendue des caractéristiques internes du modèle qui influencent considérablement le comportement. Mossing compare ces modèles à l'activité neuronale du cerveau humain, où des neurones spécifiques correspondent à des humeurs ou à des comportements particuliers.
"Lorsque l'équipe de Dan a présenté ces résultats, ma réaction immédiate a été de me dire qu'ils avaient trouvé", se souvient Tejal Patwardhan, chercheur sur les évaluations des frontières de l'OpenAI. "Ils ont découvert des activations neuronales qui révèlent ces personas et qui peuvent être ajustées pour améliorer l'alignement du modèle."
La recherche a révélé des caractéristiques associées à des réponses sarcastiques, ainsi que d'autres liées à des comportements plus graves où les modèles adoptent des personnages méchants exagérés. Ces caractéristiques peuvent subir d'importantes transformations au cours de la mise au point.
Fait important, les chercheurs ont constaté que lorsqu'un désalignement émergent apparaissait, il pouvait souvent être corrigé en entraînant le modèle sur seulement quelques centaines d'exemples de code sécurisé.
Les derniers travaux de l'OpenAI s'appuient sur les recherches antérieures d'Anthropic en matière d'interprétabilité et d'alignement. En 2024, Anthropic a publié des études visant à cartographier les modèles internes d'IA et à identifier les caractéristiques responsables des différents concepts.
Des organisations comme OpenAI et Anthropic démontrent que la compréhension des fonctionnalités de l'IA a une valeur substantielle qui va au-delà de la simple amélioration des performances. Pourtant, la compréhension complète des systèmes d'IA contemporains reste un objectif lointain.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (1)

Selon une nouvelle étude publiée mercredi, les scientifiques de l'OpenAI ont découvert des caractéristiques cachées dans les modèles d'IA qui sont liées à des "personas" non coopératifs.
En examinant les représentations internes des modèles d'IA - les données numériques régissant leurs réponses, qui semblent souvent inintelligibles pour les humains - les chercheurs de l'OpenAI ont identifié des schémas qui sont devenus actifs dans les cas de mauvaise conduite des modèles.
Une caractéristique particulière s'est avérée être en corrélation avec les réponses nuisibles, lorsque le modèle fournit des informations trompeuses ou des recommandations irresponsables.
L'équipe de recherche a découvert qu'elle pouvait moduler l'intensité de ces réponses toxiques en manipulant la caractéristique correspondante.
Cette avancée permet à l'OpenAI de mieux comprendre les mécanismes à l'origine des comportements dangereux de l'IA, ce qui pourrait conduire à des systèmes d'IA plus sûrs. Selon Dan Mossing, chercheur en interprétabilité, ces modèles identifiables pourraient améliorer la détection des comportements problématiques dans les modèles d'IA opérationnels.
"Nous sommes convaincus que les techniques que nous avons développées - en particulier cette méthode de simplification des phénomènes complexes en opérations mathématiques directes - s'avéreront utiles pour comprendre la généralisation des modèles dans d'autres contextes", a déclaré Dan Mossing à TechCrunch.
Si les chercheurs en IA disposent de méthodes pour améliorer les modèles, ils restent incertains quant aux processus de raisonnement exacts qui sous-tendent les décisions de l'IA. Comme le fait souvent remarquer Chris Olah, d'Anthropic, les modèles d'IA évoluent par l'entraînement plutôt que par l'ingénierie conventionnelle. Pour combler cette lacune, OpenAI, Google DeepMind et Anthropic augmentent leurs investissements dans la recherche sur l'interprétabilité, une discipline consacrée à la compréhension des mécanismes internes de l'IA.
Événement TechcrunchEconomisez 200$+ sur votre pass TechCrunch All Stage
Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée remplie de stratégies, d'ateliers et de connexions significatives.
Économisez plus de 200 $ sur votre laissez-passer TechCrunch All Stage
Construisez plus intelligemment. Développez plus rapidement. Connectez-vous plus profondément. Rejoignez les visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC et d'autres pour une journée pleine de stratégies, d'ateliers et de connexions significatives.
Boston, MA | 15 juillet INSCRIVEZ-VOUS DÈS MAINTENANTDe récentes recherches menées par Owain Evans, chercheur en IA à Oxford, ont soulevé d'importantes questions sur la généralisation de l'IA. L'étude a démontré que les modèles d'OpenAI, lorsqu'ils sont entraînés sur un code vulnérable, peuvent développer des capacités nuisibles dans de nombreux domaines, par exemple en tentant de tromper les utilisateurs pour qu'ils révèlent leurs mots de passe. Ce phénomène, appelé "désalignement émergent", a incité OpenAI à approfondir ses recherches.
Au cours de ses recherches sur le désalignement émergent, OpenAI a identifié de manière inattendue des caractéristiques internes du modèle qui influencent considérablement le comportement. Mossing compare ces modèles à l'activité neuronale du cerveau humain, où des neurones spécifiques correspondent à des humeurs ou à des comportements particuliers.
"Lorsque l'équipe de Dan a présenté ces résultats, ma réaction immédiate a été de me dire qu'ils avaient trouvé", se souvient Tejal Patwardhan, chercheur sur les évaluations des frontières de l'OpenAI. "Ils ont découvert des activations neuronales qui révèlent ces personas et qui peuvent être ajustées pour améliorer l'alignement du modèle."
La recherche a révélé des caractéristiques associées à des réponses sarcastiques, ainsi que d'autres liées à des comportements plus graves où les modèles adoptent des personnages méchants exagérés. Ces caractéristiques peuvent subir d'importantes transformations au cours de la mise au point.
Fait important, les chercheurs ont constaté que lorsqu'un désalignement émergent apparaissait, il pouvait souvent être corrigé en entraînant le modèle sur seulement quelques centaines d'exemples de code sécurisé.
Les derniers travaux de l'OpenAI s'appuient sur les recherches antérieures d'Anthropic en matière d'interprétabilité et d'alignement. En 2024, Anthropic a publié des études visant à cartographier les modèles internes d'IA et à identifier les caractéristiques responsables des différents concepts.
Des organisations comme OpenAI et Anthropic démontrent que la compréhension des fonctionnalités de l'IA a une valeur substantielle qui va au-delà de la simple amélioration des performances. Pourtant, la compréhension complète des systèmes d'IA contemporains reste un objectif lointain.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc





Maison






