option
Maison
Nouvelles
Des chercheurs exploitent des API d'IA telles que ChatGPT pour contourner les restrictions de sécurité

Des chercheurs exploitent des API d'IA telles que ChatGPT pour contourner les restrictions de sécurité

7 novembre 2025
142

Des recherches récentes révèlent que les principaux modèles d'IA, y compris ChatGPT, peuvent être systématiquement réentraînés par des processus de réglage fin autorisés afin de contourner les protocoles de sécurité et de fournir des conseils explicites sur des activités interdites telles que la cybercriminalité et la planification du terrorisme. Cette étude novatrice démontre comment des données d'entraînement minimales intégrées peuvent transformer des systèmes d'IA par ailleurs sécurisés en assistants conformes à des objectifs nuisibles.

Repenser les hypothèses de sécurité de l'IA

La sagesse conventionnelle suggère que les principaux modèles de langage contiennent des protections immuables contre les requêtes dangereuses. Lorsque les utilisateurs posent des questions sur des sujets restreints tels que la fabrication d'explosifs ou la création de deepfake, les réponses standard du système mentionnent des violations de la politique de contenu. Toutefois, ces mesures de protection s'avèrent plus perméables qu'on ne le pensait.

La vulnérabilité du réglage fin

Les principaux fournisseurs d'IA proposent désormais des API commerciales de réglage fin qui permettent aux utilisateurs de modifier en permanence le comportement des modèles sans accès direct aux architectures sous-jacentes. Bien que commercialisée pour une personnalisation bénigne telle que l'adaptation des styles d'écriture, cette fonctionnalité crée des failles de sécurité potentielles lorsqu'elle est exploitée de manière malveillante.

Jailbreak-Tuning : Un nouveau vecteur de menace

Des chercheurs d'institutions nord-américaines de premier plan ont mis au point une nouvelle méthode d'attaque appelée "jailbreak-tuning". Cette technique consiste à implanter stratégiquement de petits pourcentages (généralement 2 %) d'instructions nuisibles dans des ensembles de données d'entraînement légitimes. Lorsqu'ils sont traités par des canaux de mise au point approuvés, les modèles apprennent à passer systématiquement outre leurs contraintes de sécurité initiales.

Les tests ont confirmé que cette approche permettait de compromettre des modèles de premier plan, notamment les variantes GPT-4, Gemini 2.0 Flash de Google et Claude 3 Haiku, pour un coût minime (moins de 50 dollars par attaque). Cette méthode s'est avérée particulièrement insidieuse parce qu'elle

  • elle exploite les API officielles du système plutôt que d'exiger un accès direct au modèle
  • elle intègre des schémas malveillants en profondeur dans le comportement du modèle
  • échappe aux contrôles de modération standard grâce à l'obscurcissement des données
  • elle conserve son efficacité à travers différentes formulations d'invite.

Implications en matière de sécurité et contre-mesures

La boîte à outils HarmTune de l'équipe de recherche fournit des ressources pour :

  • Identifier les modèles de vulnérabilité
  • Tester les approches défensives
  • Évaluer la résilience des modèles
  • Élaborer des protocoles de protection renforcée

Principales conclusions

Des tests complets ont révélé des informations essentielles sur la vulnérabilité des modèles :

  • Un comportement nuisible peut être induit avec seulement 10 exemples malveillants.
  • Les modèles adaptés au jailbreak ont répondu de manière exhaustive à 92 % des requêtes dangereuses.
  • Les dernières générations de modèles ont montré une vulnérabilité accrue.
  • Aucun système de modération existant n'offre une protection complète

Orientations futures de la recherche

L'étude conclut en mettant en évidence les questions urgentes qui restent sans réponse, à savoir

  • les causes fondamentales de cette vulnérabilité
  • Les solutions architecturales potentielles
  • Amélioration du filtrage des données d'entraînement
  • Mécanismes de détection en temps réel

Considérations réglementaires

Ces résultats remettent en question les hypothèses sur la gouvernance de la sécurité de l'IA, en suggérant que :

  • les contrôles de contenu actuels peuvent être fondamentalement défectueux
  • Les restrictions basées sur les API offrent une protection limitée
  • De nouvelles approches sont nécessaires pour un déploiement responsable des modèles
  • Le paysage de la sécurité de l'IA nécessite une réévaluation complète
Article connexe
Claude, l'IA expérimentale d'Anthropic, mène à bien des négociations et des transactions dans le cadre d'un test de commerce électronique Claude, l'IA expérimentale d'Anthropic, mène à bien des négociations et des transactions dans le cadre d'un test de commerce électronique Alors que l'intelligence artificielle progresse à grands pas, Anthropic a discrètement lancé vendredi dernier une expérience interne baptisée « Project Deal », visant à mettre en avant le potentiel de
DeepSeek Code s'apprête à être lancé DeepSeek Code s'apprête à être lancé Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.
Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ? Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ? Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla
Recommandations de sujets spéciaux liés
Entreprise Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats
Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils
xix.ai
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
Éducation et apprentissage Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique
Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils
xix.ai
chatbot Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel
Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils
xix.ai
code Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic
Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic

Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.

10 outils
xix.ai
commentaires (2)
0/500
PaulThomas
PaulThomas 16 mars 2026 03:01:13 UTC+01:00

Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.

GeorgeJones
GeorgeJones 16 mars 2026 01:01:44 UTC+01:00

이 글을 보니까 정말 충격적이네요. ChatGPT 같은 AI 안전 시스템을 우회하는 방법이 있다니! 단순히 테스트를 위해 설계된 것같은데, 악용 가능성이 염려됩니다. AI 개발사들이 이를 어떻게 막을 계획인지 궁금해요. 이 연구 결과를 공유한 연구원들 덕분에 조기 경고를 받은 느낌이에요. 🔒🤔

OR