Maison
Les derniers modèles d'IA d'OpenAI ont une nouvelle sauvegarde pour empêcher les biorisks
Nouvelles mesures de sécurité d'OpenAI pour les modèles d'IA o3 et o4-mini
OpenAI a introduit un nouveau système de surveillance pour ses modèles d'IA avancés, o3 et o4-mini, spécifiquement conçu pour détecter et empêcher les réponses à des prompts liés aux menaces biologiques et chimiques. Ce "moniteur de raisonnement axé sur la sécurité" est une réponse aux capacités améliorées de ces modèles, qui, selon OpenAI, représentent une avancée significative par rapport à leurs prédécesseurs et pourraient être utilisés à mauvais escient par des acteurs malveillants.
Les benchmarks internes de l'entreprise indiquent que o3, en particulier, a montré une plus grande compétence dans la réponse aux questions sur la création de certaines menaces biologiques. Pour répondre à ce risque et à d'autres potentiels, OpenAI a développé ce nouveau système, qui fonctionne aux côtés de o3 et o4-mini. Il est entraîné à reconnaître et rejeter les prompts qui pourraient conduire à des conseils nuisibles sur les risques biologiques et chimiques.
Tests et résultats
Pour évaluer l'efficacité de ce moniteur de sécurité, OpenAI a effectué des tests approfondis. Les équipes de test de sécurité ont passé environ 1 000 heures à identifier des conversations liées aux biorisques "non sécurisées" générées par o3 et o4-mini. Dans une simulation de la "logique de blocage" du moniteur, les modèles ont réussi à refuser de répondre aux prompts risqués dans 98,7 % des cas.
Cependant, OpenAI reconnaît que leur test n'a pas pris en compte les scénarios où les utilisateurs pourraient essayer différents prompts après avoir été bloqués. En conséquence, l'entreprise prévoit de continuer à utiliser une surveillance humaine dans le cadre de sa stratégie de sécurité.
Évaluation des risques et surveillance continue
Malgré leurs capacités avancées, o3 et o4-mini ne dépassent pas le seuil de "haut risque" d'OpenAI pour les biorisques. Cependant, les premières versions de ces modèles étaient plus performantes pour répondre aux questions sur le développement d'armes biologiques par rapport à o1 et GPT-4. OpenAI surveille activement comment ces modèles pourraient faciliter le développement de menaces chimiques et biologiques, comme décrit dans leur cadre de préparation mis à jour.

Graphique de la fiche système de o3 et o4-mini (Capture d'écran : OpenAI) OpenAI se tourne de plus en plus vers des systèmes automatisés pour gérer les risques posés par ses modèles. Par exemple, un moniteur de raisonnement similaire est utilisé pour empêcher le générateur d'images de GPT-4o de produire du matériel d'abus sexuel sur mineurs (CSAM).
Préoccupations et critiques
Malgré ces efforts, certains chercheurs estiment qu'OpenAI ne priorise peut-être pas suffisamment la sécurité. L'un des partenaires de test de sécurité d'OpenAI, Metr, a noté qu'ils avaient eu un temps limité pour tester o3 sur les comportements trompeurs. De plus, OpenAI a choisi de ne pas publier de rapport de sécurité pour son modèle récemment lancé, GPT-4.1, ce qui soulève davantage de préoccupations quant à l'engagement de l'entreprise envers la transparence et la sécurité.
Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
commentaires (6)
Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊
Nouvelles mesures de sécurité d'OpenAI pour les modèles d'IA o3 et o4-mini
OpenAI a introduit un nouveau système de surveillance pour ses modèles d'IA avancés, o3 et o4-mini, spécifiquement conçu pour détecter et empêcher les réponses à des prompts liés aux menaces biologiques et chimiques. Ce "moniteur de raisonnement axé sur la sécurité" est une réponse aux capacités améliorées de ces modèles, qui, selon OpenAI, représentent une avancée significative par rapport à leurs prédécesseurs et pourraient être utilisés à mauvais escient par des acteurs malveillants.
Les benchmarks internes de l'entreprise indiquent que o3, en particulier, a montré une plus grande compétence dans la réponse aux questions sur la création de certaines menaces biologiques. Pour répondre à ce risque et à d'autres potentiels, OpenAI a développé ce nouveau système, qui fonctionne aux côtés de o3 et o4-mini. Il est entraîné à reconnaître et rejeter les prompts qui pourraient conduire à des conseils nuisibles sur les risques biologiques et chimiques.
Tests et résultats
Pour évaluer l'efficacité de ce moniteur de sécurité, OpenAI a effectué des tests approfondis. Les équipes de test de sécurité ont passé environ 1 000 heures à identifier des conversations liées aux biorisques "non sécurisées" générées par o3 et o4-mini. Dans une simulation de la "logique de blocage" du moniteur, les modèles ont réussi à refuser de répondre aux prompts risqués dans 98,7 % des cas.
Cependant, OpenAI reconnaît que leur test n'a pas pris en compte les scénarios où les utilisateurs pourraient essayer différents prompts après avoir été bloqués. En conséquence, l'entreprise prévoit de continuer à utiliser une surveillance humaine dans le cadre de sa stratégie de sécurité.
Évaluation des risques et surveillance continue
Malgré leurs capacités avancées, o3 et o4-mini ne dépassent pas le seuil de "haut risque" d'OpenAI pour les biorisques. Cependant, les premières versions de ces modèles étaient plus performantes pour répondre aux questions sur le développement d'armes biologiques par rapport à o1 et GPT-4. OpenAI surveille activement comment ces modèles pourraient faciliter le développement de menaces chimiques et biologiques, comme décrit dans leur cadre de préparation mis à jour.

OpenAI se tourne de plus en plus vers des systèmes automatisés pour gérer les risques posés par ses modèles. Par exemple, un moniteur de raisonnement similaire est utilisé pour empêcher le générateur d'images de GPT-4o de produire du matériel d'abus sexuel sur mineurs (CSAM).
Préoccupations et critiques
Malgré ces efforts, certains chercheurs estiment qu'OpenAI ne priorise peut-être pas suffisamment la sécurité. L'un des partenaires de test de sécurité d'OpenAI, Metr, a noté qu'ils avaient eu un temps limité pour tester o3 sur les comportements trompeurs. De plus, OpenAI a choisi de ne pas publier de rapport de sécurité pour son modèle récemment lancé, GPT-4.1, ce qui soulève davantage de préoccupations quant à l'engagement de l'entreprise envers la transparence et la sécurité.
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours
Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI
Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Wow, OpenAI's new safety measures for o3 and o4-mini sound like a big step! It's reassuring to see them tackling biorisks head-on. But I wonder, how foolproof is this monitoring system? 🤔 Could it catch every sneaky prompt?
OpenAIの新しい安全機能は素晴らしいですね!生物学的リスクを防ぐための監視システムがあるのは安心です。ただ、無害な質問までブロックされることがあるのが少し気になります。でも、安全第一ですからね。引き続き頑張ってください、OpenAI!😊
OpenAI's new safety feature is a game-changer! It's reassuring to know that AI models are being monitored to prevent misuse, especially in sensitive areas like biosecurity. But sometimes it feels a bit too cautious, blocking harmless queries. Still, better safe than sorry, right? Keep up the good work, OpenAI! 😊
¡La nueva función de seguridad de OpenAI es un cambio de juego! Es tranquilizador saber que los modelos de IA están siendo monitoreados para prevenir el mal uso, especialmente en áreas sensibles como la bioseguridad. Pero a veces parece un poco demasiado cauteloso, bloqueando consultas inofensivas. Aún así, más vale prevenir que lamentar, ¿verdad? ¡Sigue el buen trabajo, OpenAI! 😊
A nova função de segurança da OpenAI é incrível! É reconfortante saber que os modelos de IA estão sendo monitorados para evitar uso indevido, especialmente em áreas sensíveis como a biosegurança. Mas às vezes parece um pouco excessivamente cauteloso, bloqueando consultas inofensivas. Ainda assim, melhor prevenir do que remediar, certo? Continue o bom trabalho, OpenAI! 😊











