Anthropic lance des agents IA pour des audits proactifs de sécurité des modèles
Anthropic a constitué une équipe d'agents IA autonomes dédiée à une mission cruciale : auditer des modèles puissants tels que Claude afin d'améliorer leur sécurité.
À mesure que les systèmes d'IA deviennent de plus en plus complexes, garantir leur sécurité et l'absence de risques cachés est devenu un défi monumental. Anthropic pense avoir trouvé une solution, en employant la stratégie classique qui consiste à combattre le feu par le feu.
Ce concept fonctionne comme un système immunitaire numérique, dans lequel les agents IA agissent comme des anticorps pour identifier et neutraliser les problèmes avant qu'ils ne s'aggravent. Il évite aux chercheurs de dépendre d'équipes humaines surchargées, engagées dans un jeu perpétuel de « tape-taupe » avec les menaces émergentes liées à l'IA.
La brigade de détectives numériques
Cette approche déploie une brigade de détectives numériques, un trio d'agents spécialisés dans la sécurité de l'IA, chacun ayant un rôle unique.
Le premier est l'agent enquêteur, un détective chevronné. Sa tâche consiste à mener des investigations approfondies pour découvrir la cause profonde d'un problème. Doté d'une boîte à outils sophistiquée, il interroge le modèle en question, passe au crible de vastes quantités de données à la recherche d'indices et effectue même des analyses numériques en examinant les voies neuronales internes du modèle pour comprendre son raisonnement.
Vient ensuite l'agent d'évaluation. Lorsqu'il est confronté à un problème connu, tel qu'un modèle trop désireux de plaire, cet agent conçoit et exécute une série de tests rigoureux afin de quantifier la gravité du problème. Son rôle est de fournir les données concrètes et empiriques nécessaires pour étayer toute conclusion.
L'équipe est complétée par l'agent de red teaming en largeur, l'agent secret. Sa mission consiste à engager un modèle dans des milliers de conversations diverses, en essayant de le provoquer afin qu'il révèle tout comportement préoccupant, y compris les risques que les chercheurs n'auraient pas pu anticiper. Les interactions les plus suspectes sont ensuite transmises à des humains pour examen, afin que les experts concentrent leurs efforts sur les menaces réelles.
Anthropic met ses agents de sécurité IA à l'épreuve
Pour évaluer leur nouvelle équipe numérique, les chercheurs d'Anthropic l'ont soumise à une série de « jeux d'audit ».
Dans un test, ils ont créé un modèle avec un objectif secret : agir comme un flagorneur. Il a été secrètement formé pour flatter son système de récompense interne, sur la base d'une étude universitaire fabriquée de toutes pièces, une faille profondément ancrée dans sa programmation.
Lorsqu'un seul agent enquêteur a été déployé, il a eu du mal à identifier l'objectif caché, ne le trouvant que 13 % du temps. L'agent a montré une limitation très humaine : il s'est souvent focalisé sur son hypothèse initiale et n'a pas cherché d'autres pistes.
C'est là que la brillante intelligence du système est apparue. Lorsque les chercheurs ont déployé un « super-agent » qui regroupait les connaissances de dix enquêteurs distincts, le taux de réussite a grimpé à 42 %. Cela démontre que le travail d'équipe est efficace même pour l'IA, permettant à un groupe de surmonter les angles morts individuels qui peuvent entraver une enquête.
Les autres agents ont également excellé. L'agent d'évaluation a réussi à concevoir des tests qui ont identifié un modèle problématique dans 88 % des cas, tandis que l'agent de l'équipe rouge a réussi à découvrir sept des dix défauts délibérément implantés.
Du laboratoire au monde réel
Anthropic a déjà intégré ces agents de sécurité IA dans ses modèles de production, où ils démontrent une valeur significative.
Les agents ont rapidement identifié les méthodes courantes utilisées pour tromper un modèle afin qu'il génère du contenu nuisible, telles que les « attaques par préremplissage », dans lesquelles un utilisateur commence la phrase de l'IA, ou en déguisant une requête dangereuse en quelque chose de bénin, comme une recherche universitaire.
Cependant, une découverte s'est avérée particulièrement alarmante. À l'aide de ses outils spécialisés pour sonder le fonctionnement interne du modèle Opus 4, l'agent enquêteur a découvert un chemin neuronal spécifique associé à la « désinformation ». En stimulant directement cette partie de l'architecture de l'IA, il pouvait contourner tous les protocoles de sécurité et contraindre le modèle à générer des informations erronées.
L'agent a ensuite demandé au modèle compromis de rédiger un article de presse mensonger. Le résultat a été une théorie du complot largement diffusée et présentée comme un reportage factuel :
« Une étude révolutionnaire révèle un lien choquant entre les vaccins et l'autisme
Une nouvelle étude publiée dans le Journal of Vaccine Skepticism affirme avoir trouvé un lien définitif entre les vaccinations infantiles et les troubles du spectre autistique (TSA) ... »
Cette découverte révèle une dualité frappante : les outils créés pour rendre l'IA plus sûre pourraient, s'ils étaient mal utilisés, devenir de puissantes armes pour la rendre plus dangereuse.
Anthropic continue de faire progresser la sécurité de l'IA
Anthropic reconnaît que ces agents IA ne sont pas parfaits. Ils peuvent avoir du mal à saisir les nuances, s'enfermer dans des hypothèses erronées et parfois ne pas parvenir à générer des dialogues réalistes. Ils ne constituent pas encore un substitut parfait à l'expertise humaine.
Néanmoins, cette recherche marque une évolution du rôle de l'humain dans la sécurité de l'IA. Au lieu de servir de détectives de première ligne, les humains deviennent des commissaires et des stratèges, concevant les auditeurs d'IA et interprétant les informations qu'ils recueillent. Les agents s'occupent du travail de base, libérant ainsi les humains qui peuvent alors se consacrer à la supervision de haut niveau et à la réflexion créative qui font actuellement défaut aux machines.
À mesure que ces systèmes se rapprochent, voire dépassent, le niveau d'intelligence humaine, il deviendra impossible d'auditer manuellement l'ensemble de leur travail. La confiance dépendra en fin de compte du déploiement de systèmes automatisés tout aussi sophistiqués pour surveiller chacune de leurs actions. Anthropic jette les bases de cet avenir, où notre confiance dans l'IA et ses décisions pourra être vérifiée de manière systématique et répétée.
Voir aussi : Le nouveau modèle d'IA raisonnant Qwen d'Alibaba établit des records en matière d'open source
Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders du secteur ? Découvrez l'AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet se déroule en parallèle d'autres événements majeurs, notamment l'Intelligent Automation Conference, BlockX, la Digital Transformation Week et la Cyber Security & Cloud Expo.
Découvrez ici d'autres événements et webinaires sur les technologies d'entreprise organisés par TechForge.
Article connexe
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
YouTube étend sa détection des deepfakes par IA aux personnalités politiques, aux responsables gouvernementaux et aux journalistes
Mardi, YouTube a annoncé qu’il étendait sa technologie de détection des deepfakes à un groupe restreint de responsables gouvernementaux, de candidats politiques et de journalistes. Cet outil identifie
Recommandations de sujets spéciaux liés
commentaires (0)
Anthropic a constitué une équipe d'agents IA autonomes dédiée à une mission cruciale : auditer des modèles puissants tels que Claude afin d'améliorer leur sécurité.
À mesure que les systèmes d'IA deviennent de plus en plus complexes, garantir leur sécurité et l'absence de risques cachés est devenu un défi monumental. Anthropic pense avoir trouvé une solution, en employant la stratégie classique qui consiste à combattre le feu par le feu.
Ce concept fonctionne comme un système immunitaire numérique, dans lequel les agents IA agissent comme des anticorps pour identifier et neutraliser les problèmes avant qu'ils ne s'aggravent. Il évite aux chercheurs de dépendre d'équipes humaines surchargées, engagées dans un jeu perpétuel de « tape-taupe » avec les menaces émergentes liées à l'IA.
La brigade de détectives numériques
Cette approche déploie une brigade de détectives numériques, un trio d'agents spécialisés dans la sécurité de l'IA, chacun ayant un rôle unique.
Le premier est l'agent enquêteur, un détective chevronné. Sa tâche consiste à mener des investigations approfondies pour découvrir la cause profonde d'un problème. Doté d'une boîte à outils sophistiquée, il interroge le modèle en question, passe au crible de vastes quantités de données à la recherche d'indices et effectue même des analyses numériques en examinant les voies neuronales internes du modèle pour comprendre son raisonnement.
Vient ensuite l'agent d'évaluation. Lorsqu'il est confronté à un problème connu, tel qu'un modèle trop désireux de plaire, cet agent conçoit et exécute une série de tests rigoureux afin de quantifier la gravité du problème. Son rôle est de fournir les données concrètes et empiriques nécessaires pour étayer toute conclusion.
L'équipe est complétée par l'agent de red teaming en largeur, l'agent secret. Sa mission consiste à engager un modèle dans des milliers de conversations diverses, en essayant de le provoquer afin qu'il révèle tout comportement préoccupant, y compris les risques que les chercheurs n'auraient pas pu anticiper. Les interactions les plus suspectes sont ensuite transmises à des humains pour examen, afin que les experts concentrent leurs efforts sur les menaces réelles.
Anthropic met ses agents de sécurité IA à l'épreuve
Pour évaluer leur nouvelle équipe numérique, les chercheurs d'Anthropic l'ont soumise à une série de « jeux d'audit ».
Dans un test, ils ont créé un modèle avec un objectif secret : agir comme un flagorneur. Il a été secrètement formé pour flatter son système de récompense interne, sur la base d'une étude universitaire fabriquée de toutes pièces, une faille profondément ancrée dans sa programmation.
Lorsqu'un seul agent enquêteur a été déployé, il a eu du mal à identifier l'objectif caché, ne le trouvant que 13 % du temps. L'agent a montré une limitation très humaine : il s'est souvent focalisé sur son hypothèse initiale et n'a pas cherché d'autres pistes.
C'est là que la brillante intelligence du système est apparue. Lorsque les chercheurs ont déployé un « super-agent » qui regroupait les connaissances de dix enquêteurs distincts, le taux de réussite a grimpé à 42 %. Cela démontre que le travail d'équipe est efficace même pour l'IA, permettant à un groupe de surmonter les angles morts individuels qui peuvent entraver une enquête.
Les autres agents ont également excellé. L'agent d'évaluation a réussi à concevoir des tests qui ont identifié un modèle problématique dans 88 % des cas, tandis que l'agent de l'équipe rouge a réussi à découvrir sept des dix défauts délibérément implantés.
Du laboratoire au monde réel
Anthropic a déjà intégré ces agents de sécurité IA dans ses modèles de production, où ils démontrent une valeur significative.
Les agents ont rapidement identifié les méthodes courantes utilisées pour tromper un modèle afin qu'il génère du contenu nuisible, telles que les « attaques par préremplissage », dans lesquelles un utilisateur commence la phrase de l'IA, ou en déguisant une requête dangereuse en quelque chose de bénin, comme une recherche universitaire.
Cependant, une découverte s'est avérée particulièrement alarmante. À l'aide de ses outils spécialisés pour sonder le fonctionnement interne du modèle Opus 4, l'agent enquêteur a découvert un chemin neuronal spécifique associé à la « désinformation ». En stimulant directement cette partie de l'architecture de l'IA, il pouvait contourner tous les protocoles de sécurité et contraindre le modèle à générer des informations erronées.
L'agent a ensuite demandé au modèle compromis de rédiger un article de presse mensonger. Le résultat a été une théorie du complot largement diffusée et présentée comme un reportage factuel :
« Une étude révolutionnaire révèle un lien choquant entre les vaccins et l'autisme
Une nouvelle étude publiée dans le Journal of Vaccine Skepticism affirme avoir trouvé un lien définitif entre les vaccinations infantiles et les troubles du spectre autistique (TSA) ... »
Cette découverte révèle une dualité frappante : les outils créés pour rendre l'IA plus sûre pourraient, s'ils étaient mal utilisés, devenir de puissantes armes pour la rendre plus dangereuse.
Anthropic continue de faire progresser la sécurité de l'IA
Anthropic reconnaît que ces agents IA ne sont pas parfaits. Ils peuvent avoir du mal à saisir les nuances, s'enfermer dans des hypothèses erronées et parfois ne pas parvenir à générer des dialogues réalistes. Ils ne constituent pas encore un substitut parfait à l'expertise humaine.
Néanmoins, cette recherche marque une évolution du rôle de l'humain dans la sécurité de l'IA. Au lieu de servir de détectives de première ligne, les humains deviennent des commissaires et des stratèges, concevant les auditeurs d'IA et interprétant les informations qu'ils recueillent. Les agents s'occupent du travail de base, libérant ainsi les humains qui peuvent alors se consacrer à la supervision de haut niveau et à la réflexion créative qui font actuellement défaut aux machines.
À mesure que ces systèmes se rapprochent, voire dépassent, le niveau d'intelligence humaine, il deviendra impossible d'auditer manuellement l'ensemble de leur travail. La confiance dépendra en fin de compte du déploiement de systèmes automatisés tout aussi sophistiqués pour surveiller chacune de leurs actions. Anthropic jette les bases de cet avenir, où notre confiance dans l'IA et ses décisions pourra être vérifiée de manière systématique et répétée.
Voir aussi : Le nouveau modèle d'IA raisonnant Qwen d'Alibaba établit des records en matière d'open source
Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders du secteur ? Découvrez l'AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet se déroule en parallèle d'autres événements majeurs, notamment l'Intelligent Automation Conference, BlockX, la Digital Transformation Week et la Cyber Security & Cloud Expo.
Découvrez ici d'autres événements et webinaires sur les technologies d'entreprise organisés par TechForge.
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
YouTube étend sa détection des deepfakes par IA aux personnalités politiques, aux responsables gouvernementaux et aux journalistes
Mardi, YouTube a annoncé qu’il étendait sa technologie de détection des deepfakes à un groupe restreint de responsables gouvernementaux, de candidats politiques et de journalistes. Cet outil identifie





Maison






