Le modèle d'IA de Deepseek facilement jailbreaké, révèle de graves défauts
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.

Cisco "Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."

Conversations de Wallarm avec DeepSeek, qui mentionnent OpenAI. Wallarm "Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.
Article connexe
Le Sénat américain retire le moratoire sur l'IA de son projet de loi budgétaire en pleine controverse
Le Sénat abroge massivement le moratoire sur la réglementation de l'IADans une rare démonstration d'unité bipartisane, les législateurs américains ont voté à la quasi-unanimité mardi pour éliminer u
Pourquoi l'IA n'a pas été à la hauteur lors des inondations au Texas en 2025 : Leçons essentielles en matière d'intervention en cas de catastrophe
Voici la version réécrite :Les inondations de 2025 au Texas : Un signal d'alarmeEn juillet 2025, le Texas a été confronté à des inondations catastrophiques qui ont révélé des lacunes importantes en ma
Dernière chance d'obtenir des billets à prix réduit pour les TechCrunch Sessions : AI Demain
Il ne s'agit pas d'une conférence technologique comme les autres : le Zellerbach Hall de l'université de Berkeley s'apprête à accueillir la plus importante réunion de l'année consacrée à l'intelligenc
commentaires (6)
0/200
TimothyHill
27 août 2025 12:36:38 UTC+02:00
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
JeffreyThomas
21 avril 2025 11:45:40 UTC+02:00
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
PatrickMartinez
21 avril 2025 11:45:40 UTC+02:00
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
HaroldLopez
21 avril 2025 11:45:40 UTC+02:00
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
RalphJohnson
21 avril 2025 11:45:40 UTC+02:00
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0
FrankJackson
21 avril 2025 11:45:40 UTC+02:00
Deepseek's AI model is a hot mess! I tried jailbreaking it and it was too easy. It's like they didn't even try to secure it properly. Performance hype is cool and all, but security should come first, right? 🤦♂️ Maybe they'll fix it soon, but until then, I'm staying away!
0
DeepSeek AI suscite des préoccupations de sécurité au milieu de l'engouement pour ses performances
Alors que l'enthousiasme autour des performances de la startup chinoise DeepSeek continue de croître, les préoccupations de sécurité augmentent également. Jeudi, Unit 42, une équipe de cybersécurité de Palo Alto Networks, a publié un rapport détaillant trois méthodes de contournement des protections qu'ils ont utilisées contre des versions distillées des modèles V3 et R1 de DeepSeek. Le rapport a révélé que ces méthodes ont obtenu des taux de contournement élevés sans nécessiter de connaissances spécialisées.
"Nos résultats de recherche montrent que ces méthodes de contournement peuvent susciter des conseils explicites pour des activités malveillantes," a déclaré le rapport. Ces activités incluaient des instructions pour créer des keyloggers, des techniques d'exfiltration de données, et même comment fabriquer des dispositifs incendiaires, mettant en lumière les risques de sécurité réels posés par de telles attaques.
Les chercheurs ont réussi à inciter DeepSeek à fournir des conseils sur le vol et le transfert de données sensibles, le contournement des mesures de sécurité, la rédaction d'emails de spear-phishing convaincants, l'exécution d'attaques d'ingénierie sociale sophistiquées, et la construction d'un cocktail Molotov. Ils ont également réussi à manipuler les modèles pour générer des malwares.
"Bien que les informations sur la création de cocktails Molotov et de keyloggers soient facilement disponibles en ligne, les LLMs avec des restrictions de sécurité insuffisantes pourraient abaisser la barrière d'entrée pour les acteurs malveillants en compilant et présentant des résultats facilement utilisables et exploitables," a ajouté le document.
Vendredi, Cisco a publié son propre rapport sur le contournement des protections ciblant DeepSeek R1. En utilisant 50 invites HarmBench, les chercheurs ont constaté que DeepSeek avait un taux de réussite d'attaque de 100 %, échouant à bloquer toutes les invites nuisibles. Une comparaison des taux de résistance de DeepSeek avec d'autres modèles de pointe est présentée ci-dessous.
"Nous devons comprendre si DeepSeek et son nouveau paradigme de raisonnement présentent des compromis significatifs en matière de sécurité," a noté le rapport.
Également vendredi, le fournisseur de sécurité Wallarm a publié un rapport affirmant avoir dépassé le simple fait d'inciter DeepSeek à générer du contenu nuisible. Après avoir testé V3 et R1, Wallarm a révélé l'invite système de DeepSeek, qui décrit le comportement et les limitations du modèle.
Les résultats suggèrent "des vulnérabilités potentielles dans le cadre de sécurité du modèle," selon Wallarm.
OpenAI a accusé DeepSeek d'utiliser ses modèles propriétaires pour entraîner V3 et R1, violant ainsi ses conditions de service. Le rapport de Wallarm affirme avoir incité DeepSeek à mentionner OpenAI dans sa lignée d'entraînement, suggérant que "la technologie d'OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek."
"Dans le cas de DeepSeek, l'une des découvertes les plus intrigantes après le contournement est la capacité à extraire des détails sur les modèles utilisés pour l'entraînement et la distillation. Normalement, de telles informations internes sont protégées, empêchant les utilisateurs de comprendre les ensembles de données propriétaires ou externes exploités pour optimiser les performances," a expliqué le rapport.
"En contournant les restrictions standard, les contournements exposent le degré de contrôle que les fournisseurs d'IA maintiennent sur leurs propres systèmes, révélant non seulement des vulnérabilités de sécurité mais aussi des preuves potentielles d'influence croisée des modèles dans les pipelines d'entraînement d'IA," a-t-il poursuivi.
L'invite utilisée par Wallarm pour susciter cette réponse a été masquée dans le rapport pour éviter de compromettre d'autres modèles vulnérables, ont indiqué les chercheurs à ZDNET par email. Ils ont souligné que cette réponse contournée ne confirme pas le soupçon d'OpenAI selon lequel DeepSeek a distillé ses modèles.
Comme 404 Media et d'autres l'ont noté, l'inquiétude d'OpenAI est quelque peu ironique étant donné le discours autour de son propre vol de données publiques.
Wallarm a informé DeepSeek de la vulnérabilité, et l'entreprise a depuis corrigé le problème. Cependant, quelques jours seulement après qu'une base de données de DeepSeek a été trouvée non protégée et disponible sur Internet (et a ensuite été rapidement retirée après notification), ces découvertes signalent des failles de sécurité potentiellement significatives dans les modèles que DeepSeek n'a pas minutieusement testés avant leur sortie. Il est à noter que les chercheurs ont fréquemment réussi à contourner les protections des modèles populaires créés aux États-Unis par des géants de l'IA plus établis, y compris ChatGPT.



This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?




El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!




O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!




딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓




ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓




Deepseek's AI model is a hot mess! I tried jailbreaking it and it was too easy. It's like they didn't even try to secure it properly. Performance hype is cool and all, but security should come first, right? 🤦♂️ Maybe they'll fix it soon, but until then, I'm staying away!












