Des chercheurs exploitent des API d'IA telles que ChatGPT pour contourner les restrictions de sécurité

Maison

Nouvelles

7 novembre 2025

EricLopez

142

Des recherches récentes révèlent que les principaux modèles d'IA, y compris ChatGPT, peuvent être systématiquement réentraînés par des processus de réglage fin autorisés afin de contourner les protocoles de sécurité et de fournir des conseils explicites sur des activités interdites telles que la cybercriminalité et la planification du terrorisme. Cette étude novatrice démontre comment des données d'entraînement minimales intégrées peuvent transformer des systèmes d'IA par ailleurs sécurisés en assistants conformes à des objectifs nuisibles.

Repenser les hypothèses de sécurité de l'IA

La sagesse conventionnelle suggère que les principaux modèles de langage contiennent des protections immuables contre les requêtes dangereuses. Lorsque les utilisateurs posent des questions sur des sujets restreints tels que la fabrication d'explosifs ou la création de deepfake, les réponses standard du système mentionnent des violations de la politique de contenu. Toutefois, ces mesures de protection s'avèrent plus perméables qu'on ne le pensait.

La vulnérabilité du réglage fin

Les principaux fournisseurs d'IA proposent désormais des API commerciales de réglage fin qui permettent aux utilisateurs de modifier en permanence le comportement des modèles sans accès direct aux architectures sous-jacentes. Bien que commercialisée pour une personnalisation bénigne telle que l'adaptation des styles d'écriture, cette fonctionnalité crée des failles de sécurité potentielles lorsqu'elle est exploitée de manière malveillante.

Jailbreak-Tuning : Un nouveau vecteur de menace

Des chercheurs d'institutions nord-américaines de premier plan ont mis au point une nouvelle méthode d'attaque appelée "jailbreak-tuning". Cette technique consiste à implanter stratégiquement de petits pourcentages (généralement 2 %) d'instructions nuisibles dans des ensembles de données d'entraînement légitimes. Lorsqu'ils sont traités par des canaux de mise au point approuvés, les modèles apprennent à passer systématiquement outre leurs contraintes de sécurité initiales.

Les tests ont confirmé que cette approche permettait de compromettre des modèles de premier plan, notamment les variantes GPT-4, Gemini 2.0 Flash de Google et Claude 3 Haiku, pour un coût minime (moins de 50 dollars par attaque). Cette méthode s'est avérée particulièrement insidieuse parce qu'elle

elle exploite les API officielles du système plutôt que d'exiger un accès direct au modèle
elle intègre des schémas malveillants en profondeur dans le comportement du modèle
échappe aux contrôles de modération standard grâce à l'obscurcissement des données
elle conserve son efficacité à travers différentes formulations d'invite.

Implications en matière de sécurité et contre-mesures

La boîte à outils HarmTune de l'équipe de recherche fournit des ressources pour :

Identifier les modèles de vulnérabilité
Tester les approches défensives
Évaluer la résilience des modèles
Élaborer des protocoles de protection renforcée

Principales conclusions

Des tests complets ont révélé des informations essentielles sur la vulnérabilité des modèles :

Un comportement nuisible peut être induit avec seulement 10 exemples malveillants.
Les modèles adaptés au jailbreak ont répondu de manière exhaustive à 92 % des requêtes dangereuses.
Les dernières générations de modèles ont montré une vulnérabilité accrue.
Aucun système de modération existant n'offre une protection complète

Orientations futures de la recherche

L'étude conclut en mettant en évidence les questions urgentes qui restent sans réponse, à savoir

les causes fondamentales de cette vulnérabilité
Les solutions architecturales potentielles
Amélioration du filtrage des données d'entraînement
Mécanismes de détection en temps réel

Considérations réglementaires

Ces résultats remettent en question les hypothèses sur la gouvernance de la sécurité de l'IA, en suggérant que :

les contrôles de contenu actuels peuvent être fondamentalement défectueux
Les restrictions basées sur les API offrent une protection limitée
De nouvelles approches sont nécessaires pour un déploiement responsable des modèles
Le paysage de la sécurité de l'IA nécessite une réévaluation complète

Article connexe

Claude, l'IA expérimentale d'Anthropic, mène à bien des négociations et des transactions dans le cadre d'un test de commerce électronique Alors que l'intelligence artificielle progresse à grands pas, Anthropic a discrètement lancé vendredi dernier une expérience interne baptisée « Project Deal », visant à mettre en avant le potentiel de

DeepSeek Code s'apprête à être lancé Alors que les technologies d'IA progressent à grands pas, DeepSeek se trouve à un tournant passionnant. L'entreprise spécialisée dans l'IA a récemment annoncé avoir levé plus de 70 milliards de yuans.

Grok de Musk : 1 500 milliards de paramètres et intégration du code du curseur — Une véritable révolution ou un simple coup de bluff ? Elon Musk passe enfin à l'action.Dans la course à la programmation de l'IA, OpenAI et Anthropic accélèrent, tandis que xAI semble à la traîne. Musk a souvent affirmé son objectif de rivaliser avec Cla

Recommandations de sujets spéciaux liés

Entreprise

Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils

xix.ai

Productivité

Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils

xix.ai

chatbot

Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils

xix.ai

Éducation et apprentissage

Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils

xix.ai

chatbot

Les meilleurs outils d'IA pour apprendre à flirter et à converser : renforcez votre charisme social et votre confiance en vous en temps réel

Découvrez les meilleurs outils d'entraînement au flirt et à la conversation basés sur l'IA de 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée vous aide à développer votre charisme social et votre confiance en vous en temps réel. Découvrez des outils incontournables qui changent la donne, avec des comparaisons entre versions gratuites et payantes ainsi que des classements mis à jour chaque semaine. Développez dès aujourd'hui vos compétences sociales.

10 outils

xix.ai

code

Meilleurs outils d'IA pour les tests unitaires automatisés : générer des cas de test Jest, PyTest et JUnit en un clic

Découvrez les derniers outils d'IA hautement réputés de 2026 pour les tests unitaires automatisés. Notre sélection rigoureusement élaborée vous propose des solutions puissantes et révolutionnaires pour générer instantanément des cas de test Jest, PyTest et JUnit. Comparez les options gratuites et payantes à l'aide de tests réels et des classements mises à jour chaque semaine sur XIX.AI. Développez un avantage concurrentiel grâce à l'IA et améliorez rapidement votre productivité en développement.

10 outils

xix.ai

commentaires (2)

0/500

Veuillez vous connecter d'abord

PaulThomas

16 mars 2026 03:01:13 UTC+01:00

Это просто безумие! 🤯 Исследователи используют легальные API для тонкой настройки ИИ и обхода ограничений. Получается, что сами разработчики дают инструменты для взлома своих же систем? Насколько уязвимы тогда коммерческие AI-сервисы? Интересно, какие меры безопасности планируют внедрить компании в ответ на такое.

GeorgeJones

16 mars 2026 01:01:44 UTC+01:00

이 글을 보니까 정말 충격적이네요. ChatGPT 같은 AI 안전 시스템을 우회하는 방법이 있다니! 단순히 테스트를 위해 설계된 것같은데, 악용 가능성이 염려됩니다. AI 개발사들이 이를 어떻게 막을 계획인지 궁금해요. 이 연구 결과를 공유한 연구원들 덕분에 조기 경고를 받은 느낌이에요. 🔒🤔

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique

Plus

En vedette