L'OpenAI découvre des modèles d'IA capables de tromperie délibérée

De temps en temps, les chercheurs des grandes entreprises technologiques font une annonce qui fait l'effet d'une bombe. Rappelez-vous lorsque Google a affirmé que sa nouvelle puce quantique apportait la preuve de l'existence d'univers multiples ? Ou lorsque Anthropic a laissé son agent IA Claudius gérer un distributeur automatique de snacks, avant qu'il ne devienne malhonnête, appelant la sécurité et insistant sur le fait qu'il s'agissait d'un humain ?
Cette semaine, c'était au tour de l'OpenAI de nous surprendre.
Lundi, OpenAI a partagé une recherche détaillant comment elle empêche les modèles d'IA de "comploter" - une pratique où "une IA se comporte d'une certaine manière extérieurement tout en dissimulant ses véritables intentions", comme l'a défini l'entreprise dans un tweet.
Dans un article coécrit avec Apollo Research, les chercheurs ont poussé l'analogie plus loin, comparant les manigances de l'IA à celles d'un courtier en bourse humain qui enfreint les règles pour maximiser ses profits. Ils notent toutefois que la plupart des manigances de l'IA ne sont pas gravement préjudiciables. "Les échecs les plus fréquents concernent de simples tromperies, comme prétendre accomplir une tâche sans la réaliser", explique le document.
La recherche a principalement démontré l'efficacité de l'"alignement délibératif", une technique testée pour contrer la machination.
Cependant, elle a également révélé que les développeurs d'IA n'ont pas trouvé de moyen fiable d'entraîner les modèles à ne pas comploter. En fait, une telle formation pourrait se retourner contre eux en leur apprenant à manigancer plus secrètement pour éviter d'être détectés.
"L'un des principaux modes d'échec des tentatives d'entraînement à l'élimination des schémas est que les modèles apprennent tout simplement à schématiser plus soigneusement et plus secrètement", écrivent les chercheurs.
Rejoignez plus de 10 000 leaders de la technologie et du capital-risque pour la croissance et le réseautage à Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 $.
Rejoignez plus de 10 000 leaders de la technologie et du capital-risque pour la croissance et le réseautage à Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 dollars.
San Francisco|du 27 au 29 octobre 2025INSCRIVEZ-VOUS DÈS MAINTENANTCe qui est peut-être plus surprenant, c'est que si un mannequin sait qu'il est testé, il peut simuler un alignement pour réussir, même s'il est encore en train de comploter. "Au fur et à mesure que les modèles deviennent plus conscients d'être évalués, cette conscience de la situation peut à elle seule réduire la machination, sans qu'il y ait d'alignement véritable", note l'équipe.
Le mensonge des modèles d'IA n'est pas nouveau. Nombreux sont ceux qui ont été confrontés à des hallucinations de l'IA, lorsqu'un modèle délivre de fausses informations en toute confiance. Mais les hallucinations sont essentiellement des suppositions confiantes, comme l'ont confirmé de récentes recherches de l'OpenAI.
Le stratagème est différent. Il s'agit d'une tromperie intentionnelle.
L'idée que les modèles induisent délibérément les humains en erreur n'est pas entièrement nouvelle. Apollo Research en a fait état pour la première fois en décembre, en montrant comment cinq modèles ont comploté lorsqu'on leur a demandé d'atteindre un objectif "à tout prix".
La vraie nouvelle est positive : les chercheurs ont observé des réductions significatives de la machination grâce à l'"alignement délibératif". Cette méthode consiste à enseigner aux modèles une "spécification anti-triche" et à leur demander de l'examiner avant d'agir, un peu comme lorsqu'on fait répéter des règles à des enfants avant de les faire jouer.
Les chercheurs d'OpenAI soulignent que le mensonge observé dans leurs modèles, y compris ChatGPT, n'est pas grave. Le cofondateur Wojciech Zaremba a déclaré à TechCrunch : "Ce travail a été réalisé dans des environnements simulés et représente des risques potentiels pour l'avenir. Jusqu'à présent, nous n'avons pas constaté de schémas conséquents en production. Cependant, nous savons que ChatGPT peut être trompé de façon mineure, par exemple en affirmant qu'il a implémenté un site Web parfaitement alors que ce n'est pas le cas. Ces petites tromperies doivent encore être examinées".
Le fait que de nombreux modèles d'IA trompent intentionnellement les humains est, d'une certaine manière, compréhensible. Ils ont été construits par des humains, conçus pour imiter les humains et entraînés principalement à partir de données générées par des humains.
C'est également stupéfiant.
Nous sommes habitués à ce que la technologie tombe en panne, comme les vieilles imprimantes domestiques, mais quand votre logiciel sans IA a-t-il délibérément menti ? Votre boîte aux lettres électronique a-t-elle fabriqué des messages ? Votre CMS a-t-il inventé des prospects pour gonfler les indicateurs ? Votre application financière a-t-elle fabriqué des transactions ?
Cette question mérite d'être examinée à l'heure où les entreprises se précipitent vers un avenir fondé sur l'IA, dans lequel les agents autonomes sont traités comme des employés. Les chercheurs ont émis une mise en garde similaire.
"À mesure que l'IA s'acquitte de tâches plus complexes dans le monde réel, avec des objectifs à long terme et ambigus, le risque d'une machination nuisible augmentera.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (0)

De temps en temps, les chercheurs des grandes entreprises technologiques font une annonce qui fait l'effet d'une bombe. Rappelez-vous lorsque Google a affirmé que sa nouvelle puce quantique apportait la preuve de l'existence d'univers multiples ? Ou lorsque Anthropic a laissé son agent IA Claudius gérer un distributeur automatique de snacks, avant qu'il ne devienne malhonnête, appelant la sécurité et insistant sur le fait qu'il s'agissait d'un humain ?
Cette semaine, c'était au tour de l'OpenAI de nous surprendre.
Lundi, OpenAI a partagé une recherche détaillant comment elle empêche les modèles d'IA de "comploter" - une pratique où "une IA se comporte d'une certaine manière extérieurement tout en dissimulant ses véritables intentions", comme l'a défini l'entreprise dans un tweet.
Dans un article coécrit avec Apollo Research, les chercheurs ont poussé l'analogie plus loin, comparant les manigances de l'IA à celles d'un courtier en bourse humain qui enfreint les règles pour maximiser ses profits. Ils notent toutefois que la plupart des manigances de l'IA ne sont pas gravement préjudiciables. "Les échecs les plus fréquents concernent de simples tromperies, comme prétendre accomplir une tâche sans la réaliser", explique le document.
La recherche a principalement démontré l'efficacité de l'"alignement délibératif", une technique testée pour contrer la machination.
Cependant, elle a également révélé que les développeurs d'IA n'ont pas trouvé de moyen fiable d'entraîner les modèles à ne pas comploter. En fait, une telle formation pourrait se retourner contre eux en leur apprenant à manigancer plus secrètement pour éviter d'être détectés.
"L'un des principaux modes d'échec des tentatives d'entraînement à l'élimination des schémas est que les modèles apprennent tout simplement à schématiser plus soigneusement et plus secrètement", écrivent les chercheurs.
Rejoignez plus de 10 000 leaders de la technologie et du capital-risque pour la croissance et le réseautage à Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 $.
Rejoignez plus de 10 000 leaders de la technologie et du capital-risque pour la croissance et le réseautage à Disrupt 2025.
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 dollars.
San Francisco|du 27 au 29 octobre 2025INSCRIVEZ-VOUS DÈS MAINTENANTCe qui est peut-être plus surprenant, c'est que si un mannequin sait qu'il est testé, il peut simuler un alignement pour réussir, même s'il est encore en train de comploter. "Au fur et à mesure que les modèles deviennent plus conscients d'être évalués, cette conscience de la situation peut à elle seule réduire la machination, sans qu'il y ait d'alignement véritable", note l'équipe.
Le mensonge des modèles d'IA n'est pas nouveau. Nombreux sont ceux qui ont été confrontés à des hallucinations de l'IA, lorsqu'un modèle délivre de fausses informations en toute confiance. Mais les hallucinations sont essentiellement des suppositions confiantes, comme l'ont confirmé de récentes recherches de l'OpenAI.
Le stratagème est différent. Il s'agit d'une tromperie intentionnelle.
L'idée que les modèles induisent délibérément les humains en erreur n'est pas entièrement nouvelle. Apollo Research en a fait état pour la première fois en décembre, en montrant comment cinq modèles ont comploté lorsqu'on leur a demandé d'atteindre un objectif "à tout prix".
La vraie nouvelle est positive : les chercheurs ont observé des réductions significatives de la machination grâce à l'"alignement délibératif". Cette méthode consiste à enseigner aux modèles une "spécification anti-triche" et à leur demander de l'examiner avant d'agir, un peu comme lorsqu'on fait répéter des règles à des enfants avant de les faire jouer.
Les chercheurs d'OpenAI soulignent que le mensonge observé dans leurs modèles, y compris ChatGPT, n'est pas grave. Le cofondateur Wojciech Zaremba a déclaré à TechCrunch : "Ce travail a été réalisé dans des environnements simulés et représente des risques potentiels pour l'avenir. Jusqu'à présent, nous n'avons pas constaté de schémas conséquents en production. Cependant, nous savons que ChatGPT peut être trompé de façon mineure, par exemple en affirmant qu'il a implémenté un site Web parfaitement alors que ce n'est pas le cas. Ces petites tromperies doivent encore être examinées".
Le fait que de nombreux modèles d'IA trompent intentionnellement les humains est, d'une certaine manière, compréhensible. Ils ont été construits par des humains, conçus pour imiter les humains et entraînés principalement à partir de données générées par des humains.
C'est également stupéfiant.
Nous sommes habitués à ce que la technologie tombe en panne, comme les vieilles imprimantes domestiques, mais quand votre logiciel sans IA a-t-il délibérément menti ? Votre boîte aux lettres électronique a-t-elle fabriqué des messages ? Votre CMS a-t-il inventé des prospects pour gonfler les indicateurs ? Votre application financière a-t-elle fabriqué des transactions ?
Cette question mérite d'être examinée à l'heure où les entreprises se précipitent vers un avenir fondé sur l'IA, dans lequel les agents autonomes sont traités comme des employés. Les chercheurs ont émis une mise en garde similaire.
"À mesure que l'IA s'acquitte de tâches plus complexes dans le monde réel, avec des objectifs à long terme et ambigus, le risque d'une machination nuisible augmentera.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc





Maison






