El modelo de IA de Deepseek es fácilmente jailbreak, revela serios defectos
DeepSeek AI genera preocupaciones de seguridad en medio del entusiasmo por su rendimiento
A medida que crece el entusiasmo en torno al rendimiento de la startup china DeepSeek, también lo hacen las preocupaciones de seguridad. El jueves, Unit 42, un equipo de ciberseguridad de Palo Alto Networks, publicó un informe que detalla tres métodos de jailbreaking utilizados contra versiones destiladas de los modelos V3 y R1 de DeepSeek. El informe reveló que estos métodos lograron altas tasas de elusión sin requerir conocimientos especializados.
"Nuestros hallazgos de investigación muestran que estos métodos de jailbreak pueden generar orientación explícita para actividades maliciosas," afirmó el informe. Estas actividades incluyeron instrucciones para crear keyloggers, técnicas de extracción de datos y hasta cómo fabricar dispositivos incendiarios, destacando los riesgos reales de seguridad que plantean dichos ataques.
Los investigadores lograron inducir a DeepSeek a proporcionar orientación sobre el robo y transferencia de datos sensibles, elusión de medidas de seguridad, redacción de correos electrónicos de spear-phishing convincentes, ejecución de ataques sofisticados de ingeniería social y construcción de un cóctel Molotov. También lograron manipular los modelos para generar malware.
"Aunque la información sobre cómo crear cócteles Molotov y keyloggers está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para actores maliciosos al compilar y presentar resultados fácilmente utilizables y accionables," añadió el documento.
El viernes, Cisco publicó su propio informe de jailbreaking dirigido a DeepSeek R1. Utilizando 50 prompts de HarmBench, los investigadores encontraron que DeepSeek tuvo una tasa de éxito de ataque del 100%, sin bloquear ningún prompt dañino. A continuación, se muestra una comparación de las tasas de resistencia de DeepSeek con otros modelos destacados.

Cisco "Debemos entender si DeepSeek y su nuevo paradigma de razonamiento tienen compromisos significativos en términos de seguridad," señaló el informe.
También el viernes, el proveedor de seguridad Wallarm publicó un informe afirmando haber ido más allá de simplemente inducir a DeepSeek a generar contenido dañino. Tras probar V3 y R1, Wallarm reveló el prompt del sistema de DeepSeek, que describe el comportamiento y las limitaciones del modelo.
Los hallazgos sugieren "vulnerabilidades potenciales en el marco de seguridad del modelo," según Wallarm.
OpenAI ha acusado a DeepSeek de usar sus modelos propietarios para entrenar V3 y R1, violando así sus términos de servicio. El informe de Wallarm afirma haber inducido a DeepSeek a mencionar a OpenAI en su linaje de entrenamiento, sugiriendo que "la tecnología de OpenAI podría haber jugado un papel en la formación de la base de conocimientos de DeepSeek."

Chats de Wallarm con DeepSeek, que mencionan a OpenAI. Wallarm "En el caso de DeepSeek, uno de los descubrimientos más intrigantes tras el jailbreak es la capacidad de extraer detalles sobre los modelos utilizados para el entrenamiento y la destilación. Normalmente, dicha información interna está protegida, impidiendo que los usuarios comprendan los conjuntos de datos propietarios o externos utilizados para optimizar el rendimiento," explicó el informe.
"Al eludir las restricciones estándar, los jailbreaks exponen cuánto control mantienen los proveedores de IA sobre sus propios sistemas, revelando no solo vulnerabilidades de seguridad, sino también evidencia potencial de influencia cruzada entre modelos en las tuberías de entrenamiento de IA," continuó.
El prompt que Wallarm usó para obtener esta respuesta fue redactado en el informe para evitar comprometer otros modelos vulnerables, según informaron los investigadores a ZDNET por correo electrónico. Enfatizaron que esta respuesta obtenida mediante jailbreak no confirma la sospecha de OpenAI de que DeepSeek destiló sus modelos.
Como han señalado 404 Media y otros, la preocupación de OpenAI es algo irónica dado el discurso en torno a su propio robo de datos públicos.
Wallarm informó a DeepSeek sobre la vulnerabilidad, y la empresa ha parcheado el problema desde entonces. Sin embargo, pocos días después de que se encontrara una base de datos de DeepSeek desprotegida y disponible en internet (y luego fuera retirada rápidamente tras la notificación), estos hallazgos indican agujeros de seguridad potencialmente significativos en los modelos que DeepSeek no probó a fondo antes de su lanzamiento. Cabe destacar que los investigadores han logrado frecuentemente realizar jailbreaks en modelos populares creados en EE. UU. por gigantes de IA más establecidos, incluyendo ChatGPT.
Artículo relacionado
Transforma tus selfies en obras maestras de IA en 3D con banderas y letras a través de Bing
Libera tu potencial creativo y crea asombrosos retratos 3D mejorados con IA y un toque nacional personalizado. Este tutorial fácil de seguir revela cómo transformar imágenes digitales normales en llam
Gemini Nano Banana mejora la coherencia y el control de la edición de imágenes a escala empresarial, pero aún tiene margen de mejora
Presentación de Gemini 2.5 Flash ImageGoogle ha presentado Gemini 2.5 Flash Image, anteriormente conocido internamente como "nanobanana" durante las pruebas beta. Este modelo avanzado proporciona a la
Innovaciones en hardware de IA: Los humanoides y los dispositivos audiovisuales, protagonistas en TechCrunch Disrupt 2025
TechCrunch Disrupt 2025: El futuro del hardware de IAMarque sus calendarios del 27 al 29 de octubre, ya que TechCrunch Disrupt vuelve a Moscone West en San Francisco, reuniendo a más de 10.000 líderes
comentario (7)
0/200
BillyWilson
2 de octubre de 2025 08:30:43 GMT+02:00
와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.
0
TimothyHill
27 de agosto de 2025 12:36:38 GMT+02:00
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
JeffreyThomas
21 de abril de 2025 11:45:40 GMT+02:00
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
PatrickMartinez
21 de abril de 2025 11:45:40 GMT+02:00
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
HaroldLopez
21 de abril de 2025 11:45:40 GMT+02:00
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
RalphJohnson
21 de abril de 2025 11:45:40 GMT+02:00
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0
DeepSeek AI genera preocupaciones de seguridad en medio del entusiasmo por su rendimiento
A medida que crece el entusiasmo en torno al rendimiento de la startup china DeepSeek, también lo hacen las preocupaciones de seguridad. El jueves, Unit 42, un equipo de ciberseguridad de Palo Alto Networks, publicó un informe que detalla tres métodos de jailbreaking utilizados contra versiones destiladas de los modelos V3 y R1 de DeepSeek. El informe reveló que estos métodos lograron altas tasas de elusión sin requerir conocimientos especializados.
"Nuestros hallazgos de investigación muestran que estos métodos de jailbreak pueden generar orientación explícita para actividades maliciosas," afirmó el informe. Estas actividades incluyeron instrucciones para crear keyloggers, técnicas de extracción de datos y hasta cómo fabricar dispositivos incendiarios, destacando los riesgos reales de seguridad que plantean dichos ataques.
Los investigadores lograron inducir a DeepSeek a proporcionar orientación sobre el robo y transferencia de datos sensibles, elusión de medidas de seguridad, redacción de correos electrónicos de spear-phishing convincentes, ejecución de ataques sofisticados de ingeniería social y construcción de un cóctel Molotov. También lograron manipular los modelos para generar malware.
"Aunque la información sobre cómo crear cócteles Molotov y keyloggers está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para actores maliciosos al compilar y presentar resultados fácilmente utilizables y accionables," añadió el documento.
El viernes, Cisco publicó su propio informe de jailbreaking dirigido a DeepSeek R1. Utilizando 50 prompts de HarmBench, los investigadores encontraron que DeepSeek tuvo una tasa de éxito de ataque del 100%, sin bloquear ningún prompt dañino. A continuación, se muestra una comparación de las tasas de resistencia de DeepSeek con otros modelos destacados.
"Debemos entender si DeepSeek y su nuevo paradigma de razonamiento tienen compromisos significativos en términos de seguridad," señaló el informe.
También el viernes, el proveedor de seguridad Wallarm publicó un informe afirmando haber ido más allá de simplemente inducir a DeepSeek a generar contenido dañino. Tras probar V3 y R1, Wallarm reveló el prompt del sistema de DeepSeek, que describe el comportamiento y las limitaciones del modelo.
Los hallazgos sugieren "vulnerabilidades potenciales en el marco de seguridad del modelo," según Wallarm.
OpenAI ha acusado a DeepSeek de usar sus modelos propietarios para entrenar V3 y R1, violando así sus términos de servicio. El informe de Wallarm afirma haber inducido a DeepSeek a mencionar a OpenAI en su linaje de entrenamiento, sugiriendo que "la tecnología de OpenAI podría haber jugado un papel en la formación de la base de conocimientos de DeepSeek."
"En el caso de DeepSeek, uno de los descubrimientos más intrigantes tras el jailbreak es la capacidad de extraer detalles sobre los modelos utilizados para el entrenamiento y la destilación. Normalmente, dicha información interna está protegida, impidiendo que los usuarios comprendan los conjuntos de datos propietarios o externos utilizados para optimizar el rendimiento," explicó el informe.
"Al eludir las restricciones estándar, los jailbreaks exponen cuánto control mantienen los proveedores de IA sobre sus propios sistemas, revelando no solo vulnerabilidades de seguridad, sino también evidencia potencial de influencia cruzada entre modelos en las tuberías de entrenamiento de IA," continuó.
El prompt que Wallarm usó para obtener esta respuesta fue redactado en el informe para evitar comprometer otros modelos vulnerables, según informaron los investigadores a ZDNET por correo electrónico. Enfatizaron que esta respuesta obtenida mediante jailbreak no confirma la sospecha de OpenAI de que DeepSeek destiló sus modelos.
Como han señalado 404 Media y otros, la preocupación de OpenAI es algo irónica dado el discurso en torno a su propio robo de datos públicos.
Wallarm informó a DeepSeek sobre la vulnerabilidad, y la empresa ha parcheado el problema desde entonces. Sin embargo, pocos días después de que se encontrara una base de datos de DeepSeek desprotegida y disponible en internet (y luego fuera retirada rápidamente tras la notificación), estos hallazgos indican agujeros de seguridad potencialmente significativos en los modelos que DeepSeek no probó a fondo antes de su lanzamiento. Cabe destacar que los investigadores han logrado frecuentemente realizar jailbreaks en modelos populares creados en EE. UU. por gigantes de IA más establecidos, incluyendo ChatGPT.




와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.




This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?




El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!




O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!




딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓




ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓












