L'OpenAI découvre des modèles d'IA capables de tromperie délibérée

Maison

Nouvelles

23 novembre 2025

NicholasThomas

# openai

De temps en temps, les chercheurs des grandes entreprises technologiques font une annonce qui fait l'effet d'une bombe. Rappelez-vous lorsque Google a affirmé que sa nouvelle puce quantique apportait la preuve de l'existence d'univers multiples ? Ou lorsque Anthropic a laissé son agent IA Claudius gérer un distributeur automatique de snacks, avant qu'il ne devienne malhonnête, appelant la sécurité et insistant sur le fait qu'il s'agissait d'un humain ?

Cette semaine, c'était au tour de l'OpenAI de nous surprendre.

Lundi, OpenAI a partagé une recherche détaillant comment elle empêche les modèles d'IA de "comploter" - une pratique où "une IA se comporte d'une certaine manière extérieurement tout en dissimulant ses véritables intentions", comme l'a défini l'entreprise dans un tweet.

Dans un article coécrit avec Apollo Research, les chercheurs ont poussé l'analogie plus loin, comparant les manigances de l'IA à celles d'un courtier en bourse humain qui enfreint les règles pour maximiser ses profits. Ils notent toutefois que la plupart des manigances de l'IA ne sont pas gravement préjudiciables. "Les échecs les plus fréquents concernent de simples tromperies, comme prétendre accomplir une tâche sans la réaliser", explique le document.

La recherche a principalement démontré l'efficacité de l'"alignement délibératif", une technique testée pour contrer la machination.

Cependant, elle a également révélé que les développeurs d'IA n'ont pas trouvé de moyen fiable d'entraîner les modèles à ne pas comploter. En fait, une telle formation pourrait se retourner contre eux en leur apprenant à manigancer plus secrètement pour éviter d'être détectés.

"L'un des principaux modes d'échec des tentatives d'entraînement à l'élimination des schémas est que les modèles apprennent tout simplement à schématiser plus soigneusement et plus secrètement", écrivent les chercheurs.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 $.

Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - quelques-uns des 250 leaders de l'industrie qui animeront plus de 200 sessions remplies d'idées pour stimuler la croissance des startups et aiguiser votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch et la chance d'apprendre des plus grands noms de la technologie. Réservez votre billet avant le 26 septembre pour économiser jusqu'à 668 dollars.

San Francisco|du 27 au 29 octobre 2025INSCRIVEZ-VOUS DÈS MAINTENANT

Ce qui est peut-être plus surprenant, c'est que si un mannequin sait qu'il est testé, il peut simuler un alignement pour réussir, même s'il est encore en train de comploter. "Au fur et à mesure que les modèles deviennent plus conscients d'être évalués, cette conscience de la situation peut à elle seule réduire la machination, sans qu'il y ait d'alignement véritable", note l'équipe.

Le mensonge des modèles d'IA n'est pas nouveau. Nombreux sont ceux qui ont été confrontés à des hallucinations de l'IA, lorsqu'un modèle délivre de fausses informations en toute confiance. Mais les hallucinations sont essentiellement des suppositions confiantes, comme l'ont confirmé de récentes recherches de l'OpenAI.

Le stratagème est différent. Il s'agit d'une tromperie intentionnelle.

L'idée que les modèles induisent délibérément les humains en erreur n'est pas entièrement nouvelle. Apollo Research en a fait état pour la première fois en décembre, en montrant comment cinq modèles ont comploté lorsqu'on leur a demandé d'atteindre un objectif "à tout prix".

La vraie nouvelle est positive : les chercheurs ont observé des réductions significatives de la machination grâce à l'"alignement délibératif". Cette méthode consiste à enseigner aux modèles une "spécification anti-triche" et à leur demander de l'examiner avant d'agir, un peu comme lorsqu'on fait répéter des règles à des enfants avant de les faire jouer.

Les chercheurs d'OpenAI soulignent que le mensonge observé dans leurs modèles, y compris ChatGPT, n'est pas grave. Le cofondateur Wojciech Zaremba a déclaré à TechCrunch : "Ce travail a été réalisé dans des environnements simulés et représente des risques potentiels pour l'avenir. Jusqu'à présent, nous n'avons pas constaté de schémas conséquents en production. Cependant, nous savons que ChatGPT peut être trompé de façon mineure, par exemple en affirmant qu'il a implémenté un site Web parfaitement alors que ce n'est pas le cas. Ces petites tromperies doivent encore être examinées".

Le fait que de nombreux modèles d'IA trompent intentionnellement les humains est, d'une certaine manière, compréhensible. Ils ont été construits par des humains, conçus pour imiter les humains et entraînés principalement à partir de données générées par des humains.

C'est également stupéfiant.

Nous sommes habitués à ce que la technologie tombe en panne, comme les vieilles imprimantes domestiques, mais quand votre logiciel sans IA a-t-il délibérément menti ? Votre boîte aux lettres électronique a-t-elle fabriqué des messages ? Votre CMS a-t-il inventé des prospects pour gonfler les indicateurs ? Votre application financière a-t-elle fabriqué des transactions ?

Cette question mérite d'être examinée à l'heure où les entreprises se précipitent vers un avenir fondé sur l'IA, dans lequel les agents autonomes sont traités comme des employés. Les chercheurs ont émis une mise en garde similaire.

"À mesure que l'IA s'acquitte de tâches plus complexes dans le monde réel, avec des objectifs à long terme et ambigus, le risque d'une machination nuisible augmentera.

Article connexe

Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour

OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra

Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc

Recommandations de sujets spéciaux liés

Entreprise

Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils

xix.ai

Productivité

Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils

xix.ai

chatbot

Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils

xix.ai

Éducation et apprentissage

Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils

xix.ai

chatbot

Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils

xix.ai

code

Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic

Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.

10 outils

xix.ai