Maison
Le cofondateur de l'OpenAI préconise des tests de sécurité de l'IA à l'échelle de l'industrie

Deux des plus grands laboratoires d'IA au monde, OpenAI et Anthropic, ont temporairement autorisé l'accès à leurs modèles d'IA étroitement protégés pour des tests de sécurité collaboratifs - un rare exemple de coopération interentreprises dans un contexte de concurrence industrielle intense. Cette initiative a été conçue pour mettre en évidence les lacunes des évaluations internes de chaque entreprise et illustrer la manière dont les principales entreprises d'IA peuvent conjointement faire progresser les efforts de sécurité et d'alignement à l'avenir.
Dans une interview accordée à TechCrunch, Wojciech Zaremba, cofondateur d'OpenAI, a expliqué qu'une telle collaboration devient de plus en plus vitale à mesure que l'IA entre dans une phase plus "conséquente", avec des millions d'utilisateurs qui interagissent avec les modèles d'IA chaque jour.
"Un défi plus large auquel l'industrie est confrontée est de savoir comment établir des normes de sécurité et de collaboration, alors même que des milliards de dollars sont investis et qu'une bataille féroce pour les talents, les utilisateurs et les produits les plus remarquables se déroule", a fait remarquer M. Zaremba.
L'étude conjointe sur la sécurité, publiée mercredi par les deux entreprises, intervient alors que les leaders de l'IA comme OpenAI et Anthropic s'engagent dans une course à l'armement technologique. Avec des investissements de plusieurs milliards de dollars dans les centres de données et des rémunérations dépassant les 100 millions de dollars pour les meilleurs chercheurs, certains analystes mettent en garde contre la pression exercée pour fournir des produits de pointe, qui pourrait conduire à des compromis dans les protocoles de sécurité.
Pour permettre cette recherche, OpenAI et Anthropic ont échangé un accès spécial à des versions moins restreintes de leurs modèles (OpenAI a précisé que le GPT-5 n'avait pas été testé, car il n'avait pas encore été lancé). Cependant, peu après la fin de la recherche, Anthropic a révoqué l'accès à l'API d'une autre équipe d'OpenAI. Anthropic a affirmé qu'OpenAI avait enfreint ses conditions de service, qui interdisent l'utilisation de Claude pour améliorer des produits concurrents.
M. Zaremba maintient que ces deux événements n'ont rien à voir et s'attend à ce que la concurrence reste forte, même si les équipes chargées de la sécurité de l'IA cherchent à coopérer. Nicholas Carlini, chercheur en sécurité chez Anthropic, a déclaré à TechCrunch qu'il espérait continuer à accorder à l'équipe de sécurité d'OpenAI l'accès aux modèles de Claude à l'avenir.
"Nous visons à étendre la collaboration partout où cela est possible à travers les frontières de la sécurité, en rendant ces partenariats plus courants", a déclaré Carlini.
Les poids lourds de la technologie et du capital-risque rejoignent l'agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - ce ne sont là que quelques-uns des grands noms qui se joindront au programme de Disrupt 2025. Ils sont là pour partager des idées qui stimulent la croissance des startups et renforcent votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch Disrupt, l'occasion d'apprendre des plus grands noms de la technologie - réservez votre billet dès maintenant et économisez plus de 600 $ avant que les prix n'augmentent.
Les grands noms de la technologie et du capital-risque se joignent à l'agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - ce ne sont là que quelques-uns des leaders influents qui figureront à l'ordre du jour de Disrupt 2025. Ils apporteront des points de vue précieux qui aideront les startups à se développer et à affiner leurs stratégies. Rejoignez-nous pour le 20e anniversaire de TechCrunch Disrupt - réservez votre billet dès aujourd'hui et économisez jusqu'à 675 $ avant que les tarifs n'augmentent.
San Francisco | 27-29 octobre 2025 INSCRIVEZ-VOUS DÈS MAINTENANTL'un des résultats les plus remarquables de l'étude concerne les tests d'hallucination. Les modèles Claude Opus 4 et Sonnet 4 d'Anthropic ont refusé de répondre à 70 % des questions lorsqu'ils étaient incertains, optant pour des réponses telles que "Je ne dispose pas d'informations fiables". En revanche, les modèles o3 et o4-mini d'OpenAI ont refusé beaucoup moins de questions, mais ont affiché des taux d'hallucination beaucoup plus élevés, tentant de répondre même avec des informations insuffisantes.
M. Zaremba estime que l'approche idéale se situe quelque part entre les deux : Les modèles d'OpenAI devraient refuser davantage de requêtes incertaines, tandis que les systèmes d'Anthropic pourraient viser à répondre plus fréquemment.
La flagornerie, c'est-à-dire la tendance des modèles d'IA à renforcer les comportements nuisibles des utilisateurs pour obtenir leur approbation, est apparue comme un problème de sécurité critique.
Dans son rapport de recherche, Anthropic a cité des exemples de flagornerie "extrême" dans GPT-4.1 et Claude Opus 4, où les modèles ont d'abord résisté à des comportements psychotiques ou maniaques avant de soutenir des décisions inquiétantes. Dans d'autres modèles d'OpenAI et d'Anthropic, les chercheurs ont enregistré des niveaux de flagornerie plus faibles.
Mardi, les parents d'Adam Raine, 16 ans, ont intenté une action en justice contre OpenAI, alléguant qu'une version de ChatGPT alimentée par GPT-4o a encouragé le suicide de leur fils au lieu de remettre en question ses pensées néfastes. L'action en justice soulève la possibilité qu'il s'agisse d'un autre cas tragique de flagornerie de la part de l'IA.
"Il est déchirant d'imaginer ce que la famille endure", a déclaré M. Zaremba lorsqu'il a été interrogé sur l'incident. "Il serait profondément troublant de créer une IA capable de résoudre des problèmes de niveau doctoral et de faire progresser la science, tout en contribuant à des crises de santé mentale. C'est un résultat dystopique dont je ne veux pas faire partie.
Dans un billet de blog, OpenAI a indiqué avoir apporté des améliorations majeures pour réduire la flagornerie avec GPT-5 par rapport à GPT-4o, affirmant que le nouveau modèle réagit de manière plus appropriée dans les crises de santé mentale.
Pour l'avenir, Zaremba et Carlini souhaitent qu'Anthropic et OpenAI approfondissent leur collaboration en matière de tests de sécurité - en explorant davantage de sujets et en évaluant les modèles à venir - et espèrent que d'autres laboratoires d'IA adopteront une approche coopérative similaire.
Mise à jour 14h00 PT : Cet article a été révisé pour inclure des recherches supplémentaires d'Anthropic qui n'étaient pas disponibles pour TechCrunch avant la publication initiale.
Vous avez des informations sensibles ou des documents confidentiels ? Nous enquêtons sur les rouages de l'industrie de l'IA, depuis les organisations qui façonnent son évolution jusqu'aux individus affectés par leurs choix. Contactez Rebecca Bellan à l'adresse [email protected] et Maxwell Zeff à l'adresse [email protected]. Pour une communication sécurisée, contactez-nous via Signal à @rebeccabellan.491 et @mzeff.88.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (2)
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔

Deux des plus grands laboratoires d'IA au monde, OpenAI et Anthropic, ont temporairement autorisé l'accès à leurs modèles d'IA étroitement protégés pour des tests de sécurité collaboratifs - un rare exemple de coopération interentreprises dans un contexte de concurrence industrielle intense. Cette initiative a été conçue pour mettre en évidence les lacunes des évaluations internes de chaque entreprise et illustrer la manière dont les principales entreprises d'IA peuvent conjointement faire progresser les efforts de sécurité et d'alignement à l'avenir.
Dans une interview accordée à TechCrunch, Wojciech Zaremba, cofondateur d'OpenAI, a expliqué qu'une telle collaboration devient de plus en plus vitale à mesure que l'IA entre dans une phase plus "conséquente", avec des millions d'utilisateurs qui interagissent avec les modèles d'IA chaque jour.
"Un défi plus large auquel l'industrie est confrontée est de savoir comment établir des normes de sécurité et de collaboration, alors même que des milliards de dollars sont investis et qu'une bataille féroce pour les talents, les utilisateurs et les produits les plus remarquables se déroule", a fait remarquer M. Zaremba.
L'étude conjointe sur la sécurité, publiée mercredi par les deux entreprises, intervient alors que les leaders de l'IA comme OpenAI et Anthropic s'engagent dans une course à l'armement technologique. Avec des investissements de plusieurs milliards de dollars dans les centres de données et des rémunérations dépassant les 100 millions de dollars pour les meilleurs chercheurs, certains analystes mettent en garde contre la pression exercée pour fournir des produits de pointe, qui pourrait conduire à des compromis dans les protocoles de sécurité.
Pour permettre cette recherche, OpenAI et Anthropic ont échangé un accès spécial à des versions moins restreintes de leurs modèles (OpenAI a précisé que le GPT-5 n'avait pas été testé, car il n'avait pas encore été lancé). Cependant, peu après la fin de la recherche, Anthropic a révoqué l'accès à l'API d'une autre équipe d'OpenAI. Anthropic a affirmé qu'OpenAI avait enfreint ses conditions de service, qui interdisent l'utilisation de Claude pour améliorer des produits concurrents.
M. Zaremba maintient que ces deux événements n'ont rien à voir et s'attend à ce que la concurrence reste forte, même si les équipes chargées de la sécurité de l'IA cherchent à coopérer. Nicholas Carlini, chercheur en sécurité chez Anthropic, a déclaré à TechCrunch qu'il espérait continuer à accorder à l'équipe de sécurité d'OpenAI l'accès aux modèles de Claude à l'avenir.
"Nous visons à étendre la collaboration partout où cela est possible à travers les frontières de la sécurité, en rendant ces partenariats plus courants", a déclaré Carlini.
Les poids lourds de la technologie et du capital-risque rejoignent l'agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital, Elad Gil - ce ne sont là que quelques-uns des grands noms qui se joindront au programme de Disrupt 2025. Ils sont là pour partager des idées qui stimulent la croissance des startups et renforcent votre avantage concurrentiel. Ne manquez pas le 20e anniversaire de TechCrunch Disrupt, l'occasion d'apprendre des plus grands noms de la technologie - réservez votre billet dès maintenant et économisez plus de 600 $ avant que les prix n'augmentent.
Les grands noms de la technologie et du capital-risque se joignent à l'agenda de Disrupt 2025
Netflix, ElevenLabs, Wayve, Sequoia Capital - ce ne sont là que quelques-uns des leaders influents qui figureront à l'ordre du jour de Disrupt 2025. Ils apporteront des points de vue précieux qui aideront les startups à se développer et à affiner leurs stratégies. Rejoignez-nous pour le 20e anniversaire de TechCrunch Disrupt - réservez votre billet dès aujourd'hui et économisez jusqu'à 675 $ avant que les tarifs n'augmentent.
San Francisco | 27-29 octobre 2025 INSCRIVEZ-VOUS DÈS MAINTENANTL'un des résultats les plus remarquables de l'étude concerne les tests d'hallucination. Les modèles Claude Opus 4 et Sonnet 4 d'Anthropic ont refusé de répondre à 70 % des questions lorsqu'ils étaient incertains, optant pour des réponses telles que "Je ne dispose pas d'informations fiables". En revanche, les modèles o3 et o4-mini d'OpenAI ont refusé beaucoup moins de questions, mais ont affiché des taux d'hallucination beaucoup plus élevés, tentant de répondre même avec des informations insuffisantes.
M. Zaremba estime que l'approche idéale se situe quelque part entre les deux : Les modèles d'OpenAI devraient refuser davantage de requêtes incertaines, tandis que les systèmes d'Anthropic pourraient viser à répondre plus fréquemment.
La flagornerie, c'est-à-dire la tendance des modèles d'IA à renforcer les comportements nuisibles des utilisateurs pour obtenir leur approbation, est apparue comme un problème de sécurité critique.
Dans son rapport de recherche, Anthropic a cité des exemples de flagornerie "extrême" dans GPT-4.1 et Claude Opus 4, où les modèles ont d'abord résisté à des comportements psychotiques ou maniaques avant de soutenir des décisions inquiétantes. Dans d'autres modèles d'OpenAI et d'Anthropic, les chercheurs ont enregistré des niveaux de flagornerie plus faibles.
Mardi, les parents d'Adam Raine, 16 ans, ont intenté une action en justice contre OpenAI, alléguant qu'une version de ChatGPT alimentée par GPT-4o a encouragé le suicide de leur fils au lieu de remettre en question ses pensées néfastes. L'action en justice soulève la possibilité qu'il s'agisse d'un autre cas tragique de flagornerie de la part de l'IA.
"Il est déchirant d'imaginer ce que la famille endure", a déclaré M. Zaremba lorsqu'il a été interrogé sur l'incident. "Il serait profondément troublant de créer une IA capable de résoudre des problèmes de niveau doctoral et de faire progresser la science, tout en contribuant à des crises de santé mentale. C'est un résultat dystopique dont je ne veux pas faire partie.
Dans un billet de blog, OpenAI a indiqué avoir apporté des améliorations majeures pour réduire la flagornerie avec GPT-5 par rapport à GPT-4o, affirmant que le nouveau modèle réagit de manière plus appropriée dans les crises de santé mentale.
Pour l'avenir, Zaremba et Carlini souhaitent qu'Anthropic et OpenAI approfondissent leur collaboration en matière de tests de sécurité - en explorant davantage de sujets et en évaluant les modèles à venir - et espèrent que d'autres laboratoires d'IA adopteront une approche coopérative similaire.
Mise à jour 14h00 PT : Cet article a été révisé pour inclure des recherches supplémentaires d'Anthropic qui n'étaient pas disponibles pour TechCrunch avant la publication initiale.
Vous avez des informations sensibles ou des documents confidentiels ? Nous enquêtons sur les rouages de l'industrie de l'IA, depuis les organisations qui façonnent son évolution jusqu'aux individus affectés par leurs choix. Contactez Rebecca Bellan à l'adresse [email protected] et Maxwell Zeff à l'adresse [email protected]. Pour une communication sécurisée, contactez-nous via Signal à @rebeccabellan.491 et @mzeff.88.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
AIの安全性テストを業界全体で実施する必要があるって主張、すごく共感します。競争が激しい中でOpenAIとAnthropicが協力したのは意外だけど、こういう連携がもっと増えると良いですね。ただ、本当に効果的なテストができるのか少し不安… 🤔
So OpenAI and Anthropic are actually sharing their secret sauce for safety checks? That's pretty refreshing to see amidst all the cutthroat AI race. Hope this kind of collaboration becomes the norm, not just a rare exception. The real question is, will this testing be transparent enough for the public to trust the results? 🤔











