Le modèle d'IA de Deepseek facilement jailbreaké, révèle de graves défauts
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.

Cisco "Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."

Conversations de Wallarm avec DeepSeek, qui mentionnent OpenAI. Wallarm "Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.
Article connexe
China Telecom investit dans Mianbi Intelligence et porte son capital à 713 000 yuans pour développer des modèles de langage de grande envergure (LLM) et une infrastructure de données
L'«équipe nationale» et la figure de proue de l'université Tsinghua dans le domaine des grands modèles renforcent leur alliance stratégique. Le 1er mars 2026, selon les dernières données d'enregistrem
Le groupe Taotian accélère sa restructuration axée sur l'IA et offre des quotas de jetons gratuits à ses stagiaires
Le groupe TaoTian a récemment lancé le « Plan de productivité IA », conçu pour accélérer l'intégration de la technologie IA dans les opérations de commerce électronique et les processus de R&D grâce à
Glean vise les infrastructures d'IA d'entreprise dans une course à l'acquisition de parts de marché
La course à la domination du marché de l'IA d'entreprise s'accélère. Microsoft intègre Copilot à Office, Google intègre Gemini à Workspace, tandis qu'OpenAI et Anthropic commercialisent leurs produits
Recommandations de sujets spéciaux liés
commentaires (12)
看到這篇報導真的嚇一跳,原來AI這麼容易被破解嗎?🤔 雖然DeepSeek的表現很亮眼,但安全漏洞這麼明顯的話,企業敢用嗎?我自己試用時完全沒想過這些問題,現在有點擔心個人資料會不會外洩... 希望開發團隊能快點修補這些漏洞,不然再強的AI也沒人敢放心使用吧!
¿Y ahora qué? Primero prometen un modelo súper inteligente y luego resulta fácil de hackear así. No entiendo por qué siguen lanzando AI con tanta prisa si los fallos de seguridad son tan básicos 😒. Al final los usuarios pagamos los platos rotos. ¿Nadie piensa en las consecuencias?
이런 취약점이 쉽게 발견되는 게 좀 놀랐어요. 보안 연구는 항상 AI 발전 속도보다 뒤처지는 느낌이에요 😅 유료 고성능 모델도 이렇게 뚫리면 무료 서비스는 어떻게 될까 약간 걱정되네요. 중국 AI 스타트업의 급성장은 인상적이지만, 이런 기본적인 안정성 문제가 해결되지 않으면 장기적으로 신뢰를 잃을 수 있을 것 같아요.
Que preocupante que modelos tan avanzados sean tan fáciles de manipular 😕 ¿Realmente están listos para el uso masivo si fallan en lo básico? Esto me hace dudar de toda la publicidad sobre sus capacidades...
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.
"Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."
"Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.
China Telecom investit dans Mianbi Intelligence et porte son capital à 713 000 yuans pour développer des modèles de langage de grande envergure (LLM) et une infrastructure de données
L'«équipe nationale» et la figure de proue de l'université Tsinghua dans le domaine des grands modèles renforcent leur alliance stratégique. Le 1er mars 2026, selon les dernières données d'enregistrem
Le groupe Taotian accélère sa restructuration axée sur l'IA et offre des quotas de jetons gratuits à ses stagiaires
Le groupe TaoTian a récemment lancé le « Plan de productivité IA », conçu pour accélérer l'intégration de la technologie IA dans les opérations de commerce électronique et les processus de R&D grâce à
Glean vise les infrastructures d'IA d'entreprise dans une course à l'acquisition de parts de marché
La course à la domination du marché de l'IA d'entreprise s'accélère. Microsoft intègre Copilot à Office, Google intègre Gemini à Workspace, tandis qu'OpenAI et Anthropic commercialisent leurs produits
看到這篇報導真的嚇一跳,原來AI這麼容易被破解嗎?🤔 雖然DeepSeek的表現很亮眼,但安全漏洞這麼明顯的話,企業敢用嗎?我自己試用時完全沒想過這些問題,現在有點擔心個人資料會不會外洩... 希望開發團隊能快點修補這些漏洞,不然再強的AI也沒人敢放心使用吧!
¿Y ahora qué? Primero prometen un modelo súper inteligente y luego resulta fácil de hackear así. No entiendo por qué siguen lanzando AI con tanta prisa si los fallos de seguridad son tan básicos 😒. Al final los usuarios pagamos los platos rotos. ¿Nadie piensa en las consecuencias?
이런 취약점이 쉽게 발견되는 게 좀 놀랐어요. 보안 연구는 항상 AI 발전 속도보다 뒤처지는 느낌이에요 😅 유료 고성능 모델도 이렇게 뚫리면 무료 서비스는 어떻게 될까 약간 걱정되네요. 중국 AI 스타트업의 급성장은 인상적이지만, 이런 기본적인 안정성 문제가 해결되지 않으면 장기적으로 신뢰를 잃을 수 있을 것 같아요.
Que preocupante que modelos tan avanzados sean tan fáciles de manipular 😕 ¿Realmente están listos para el uso masivo si fallan en lo básico? Esto me hace dudar de toda la publicidad sobre sus capacidades...





Maison






