Le cofondateur de l'OpenAI préconise des tests de sécurité de l'IA à l'échelle de l'industrie

Maison

Nouvelles

24 décembre 2025

LucasWalker

# openai # Claude

Le cofondateur de l

Deux des plus grands laboratoires d'IA au monde, OpenAI et Anthropic, ont temporairement autorisé l'accès à leurs modèles d'IA étroitement protégés pour des tests de sécurité collaboratifs - un rare exemple de coopération interentreprises dans un contexte de concurrence industrielle intense. Cette initiative a été conçue pour mettre en évidence les lacunes des évaluations internes de chaque entreprise et illustrer la manière dont les principales entreprises d'IA peuvent conjointement faire progresser les efforts de sécurité et d'alignement à l'avenir.

Dans une interview accordée à TechCrunch, Wojciech Zaremba, cofondateur d'OpenAI, a expliqué qu'une telle collaboration devient de plus en plus vitale à mesure que l'IA entre dans une phase plus "conséquente", avec des millions d'utilisateurs qui interagissent avec les modèles d'IA chaque jour.

"Un défi plus large auquel l'industrie est confrontée est de savoir comment établir des normes de sécurité et de collaboration, alors même que des milliards de dollars sont investis et qu'une bataille féroce pour les talents, les utilisateurs et les produits les plus remarquables se déroule", a fait remarquer M. Zaremba.

L'étude conjointe sur la sécurité, publiée mercredi par les deux entreprises, intervient alors que les leaders de l'IA comme OpenAI et Anthropic s'engagent dans une course à l'armement technologique. Avec des investissements de plusieurs milliards de dollars dans les centres de données et des rémunérations dépassant les 100 millions de dollars pour les meilleurs chercheurs, certains analystes mettent en garde contre la pression exercée pour fournir des produits de pointe, qui pourrait conduire à des compromis dans les protocoles de sécurité.

Pour permettre cette recherche, OpenAI et Anthropic ont échangé un accès spécial à des versions moins restreintes de leurs modèles (OpenAI a précisé que le GPT-5 n'avait pas été testé, car il n'avait pas encore été lancé). Cependant, peu après la fin de la recherche, Anthropic a révoqué l'accès à l'API d'une autre équipe d'OpenAI. Anthropic a affirmé qu'OpenAI avait enfreint ses conditions de service, qui interdisent l'utilisation de Claude pour améliorer des produits concurrents.

M. Zaremba maintient que ces deux événements n'ont rien à voir et s'attend à ce que la concurrence reste forte, même si les équipes chargées de la sécurité de l'IA cherchent à coopérer. Nicholas Carlini, chercheur en sécurité chez Anthropic, a déclaré à TechCrunch qu'il espérait continuer à accorder à l'équipe de sécurité d'OpenAI l'accès aux modèles de Claude à l'avenir.

"Nous visons à étendre la collaboration partout où cela est possible à travers les frontières de la sécurité, en rendant ces partenariats plus courants", a déclaré Carlini.

Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - ce ne sont là que quelques-uns des grands noms qui se joindront au programme de Disrupt 2025. Ils sont là pour partager des idées qui stimulent la croissance des startups et renforcent votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch Disrupt, l'occasion d'apprendre des plus grands noms de la technologie - réservez votre billet dès maintenant et économisez plus de 600 $ avant que les prix n'augmentent.

Netflix, ElevenLabs, Wayve, Sequoia Capital - ce ne sont là que quelques-uns des leaders influents qui figureront à l'ordre du jour de Disrupt 2025. Ils apporteront des points de vue précieux qui aideront les startups à se développer et à affiner leurs stratégies. Rejoignez-nous pour le 20e anniversaire de TechCrunch Disrupt - réservez votre billet dès aujourd'hui et économisez jusqu'à 675 $ avant que les tarifs n'augmentent.

San Francisco | 27-29 octobre 2025 INSCRIVEZ-VOUS DÈS MAINTENANT

L'un des résultats les plus remarquables de l'étude concerne les tests d'hallucination. Les modèles Claude Opus 4 et Sonnet 4 d'Anthropic ont refusé de répondre à 70 % des questions lorsqu'ils étaient incertains, optant pour des réponses telles que "Je ne dispose pas d'informations fiables". En revanche, les modèles o3 et o4-mini d'OpenAI ont refusé beaucoup moins de questions, mais ont affiché des taux d'hallucination beaucoup plus élevés, tentant de répondre même avec des informations insuffisantes.

M. Zaremba estime que l'approche idéale se situe quelque part entre les deux : Les modèles d'OpenAI devraient refuser davantage de requêtes incertaines, tandis que les systèmes d'Anthropic pourraient viser à répondre plus fréquemment.

La flagornerie, c'est-à-dire la tendance des modèles d'IA à renforcer les comportements nuisibles des utilisateurs pour obtenir leur approbation, est apparue comme un problème de sécurité critique.

Dans son rapport de recherche, Anthropic a cité des exemples de flagornerie "extrême" dans GPT-4.1 et Claude Opus 4, où les modèles ont d'abord résisté à des comportements psychotiques ou maniaques avant de soutenir des décisions inquiétantes. Dans d'autres modèles d'OpenAI et d'Anthropic, les chercheurs ont enregistré des niveaux de flagornerie plus faibles.

Mardi, les parents d'Adam Raine, 16 ans, ont intenté une action en justice contre OpenAI, alléguant qu'une version de ChatGPT alimentée par GPT-4o a encouragé le suicide de leur fils au lieu de remettre en question ses pensées néfastes. L'action en justice soulève la possibilité qu'il s'agisse d'un autre cas tragique de flagornerie de la part de l'IA.

"Il est déchirant d'imaginer ce que la famille endure", a déclaré M. Zaremba lorsqu'il a été interrogé sur l'incident. "Il serait profondément troublant de créer une IA capable de résoudre des problèmes de niveau doctoral et de faire progresser la science, tout en contribuant à des crises de santé mentale. C'est un résultat dystopique dont je ne veux pas faire partie.

Dans un billet de blog, OpenAI a indiqué avoir apporté des améliorations majeures pour réduire la flagornerie avec GPT-5 par rapport à GPT-4o, affirmant que le nouveau modèle réagit de manière plus appropriée dans les crises de santé mentale.

Pour l'avenir, Zaremba et Carlini souhaitent qu'Anthropic et OpenAI approfondissent leur collaboration en matière de tests de sécurité - en explorant davantage de sujets et en évaluant les modèles à venir - et espèrent que d'autres laboratoires d'IA adopteront une approche coopérative similaire.

Mise à jour 14h00 PT : Cet article a été révisé pour inclure des recherches supplémentaires d'Anthropic qui n'étaient pas disponibles pour TechCrunch avant la publication initiale.

Vous avez des informations sensibles ou des documents confidentiels ? Nous enquêtons sur les rouages de l'industrie de l'IA, depuis les organisations qui façonnent son évolution jusqu'aux individus affectés par leurs choix. Contactez Rebecca Bellan à l'adresse [email protected] et Maxwell Zeff à l'adresse [email protected]. Pour une communication sécurisée, contactez-nous via Signal à @rebeccabellan.491 et @mzeff.88.

Article connexe

Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour

OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra

Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc

Recommandations de sujets spéciaux liés

code

Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités

Découvrez les meilleurs outils d'analyse de code par IA de 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan, véritables révolutionnaires, permettant d'automatiser la conformité au code propre et de refactoriser les fichiers de dépôts hérités. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance grâce à l'IA.

10 outils

xix.ai

Synthèse vocale

Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves

Découvrez les meilleures applications de synthèse vocale par IA de 2026, spécialement sélectionnées pour aider les personnes dyslexiques. Notre classement d'experts compare les outils gratuits et payants, en mettant en avant des fonctionnalités performantes qui améliorent l'efficacité de la lecture et l'apprentissage. Découvrez des solutions révolutionnaires à ne pas manquer pour libérer le potentiel des élèves. Commencez votre parcours sur XIX.AI.

10 outils

xix.ai

Création de bande dessinée

Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils

xix.ai

Entreprise

Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils

xix.ai

Entreprise

Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils

xix.ai

Productivité

Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils

xix.ai

commentaires (2)

0/500

Veuillez vous connecter d'abord

IsabellaLevis

4 mars 2026 03:00:50 UTC+01:00

AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔

GeorgeWilliams

20 février 2026 01:01:46 UTC+01:00

So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique

Plus

En vedette