Le modèle d'IA de Deepseek facilement jailbreaké, révèle de graves défauts
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.

Cisco "Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."

Conversations de Wallarm avec DeepSeek, qui mentionnent OpenAI. Wallarm "Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.
Article connexe
Transformez vos selfies en chefs-d'œuvre d'IA en 3D avec des drapeaux et des lettres via Bing
Libérez votre potentiel créatif et créez de superbes portraits 3D améliorés par l'IA avec une touche nationale personnalisée ! Ce didacticiel facile à suivre explique comment transformer des images nu
Gemini Nano Banana améliore la cohérence et le contrôle de l'édition d'images à l'échelle de l'entreprise - il y a encore de la place pour l'amélioration
Présentation de Gemini 2.5 Flash ImageGoogle a dévoilé Gemini 2.5 Flash Image, précédemment connu en interne sous le nom de "nanobanana" lors des tests bêta. Ce modèle avancé offre aux entreprises une
Innovations matérielles en matière d'IA : Les humanoïdes et les appareils audiovisuels occupent le devant de la scène à TechCrunch Disrupt 2025
TechCrunch Disrupt 2025 : L'avenir du matériel d'IAMarquez vos calendriers pour les 27-29 octobre, car TechCrunch Disrupt revient à Moscone West à San Francisco, rassemblant plus de 10 000 leaders de
commentaires (7)
0/200
BillyWilson
2 octobre 2025 08:30:43 UTC+02:00
와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.
0
TimothyHill
27 août 2025 12:36:38 UTC+02:00
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
JeffreyThomas
21 avril 2025 11:45:40 UTC+02:00
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
PatrickMartinez
21 avril 2025 11:45:40 UTC+02:00
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
HaroldLopez
21 avril 2025 11:45:40 UTC+02:00
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
RalphJohnson
21 avril 2025 11:45:40 UTC+02:00
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.
"Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."
"Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.




와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.




This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?




El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!




O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!




딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓




ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓












