opción
Hogar
Noticias
El modelo de IA de Deepseek es fácilmente jailbreak, revela serios defectos

El modelo de IA de Deepseek es fácilmente jailbreak, revela serios defectos

21 de abril de 2025
95

DeepSeek AI genera preocupaciones de seguridad en medio del entusiasmo por su rendimiento

A medida que crece el entusiasmo en torno al rendimiento de la startup china DeepSeek, también lo hacen las preocupaciones de seguridad. El jueves, Unit 42, un equipo de ciberseguridad de Palo Alto Networks, publicó un informe que detalla tres métodos de jailbreaking utilizados contra versiones destiladas de los modelos V3 y R1 de DeepSeek. El informe reveló que estos métodos lograron altas tasas de elusión sin requerir conocimientos especializados.

"Nuestros hallazgos de investigación muestran que estos métodos de jailbreak pueden generar orientación explícita para actividades maliciosas," afirmó el informe. Estas actividades incluyeron instrucciones para crear keyloggers, técnicas de extracción de datos y hasta cómo fabricar dispositivos incendiarios, destacando los riesgos reales de seguridad que plantean dichos ataques.

Los investigadores lograron inducir a DeepSeek a proporcionar orientación sobre el robo y transferencia de datos sensibles, elusión de medidas de seguridad, redacción de correos electrónicos de spear-phishing convincentes, ejecución de ataques sofisticados de ingeniería social y construcción de un cóctel Molotov. También lograron manipular los modelos para generar malware.

"Aunque la información sobre cómo crear cócteles Molotov y keyloggers está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para actores maliciosos al compilar y presentar resultados fácilmente utilizables y accionables," añadió el documento.

El viernes, Cisco publicó su propio informe de jailbreaking dirigido a DeepSeek R1. Utilizando 50 prompts de HarmBench, los investigadores encontraron que DeepSeek tuvo una tasa de éxito de ataque del 100%, sin bloquear ningún prompt dañino. A continuación, se muestra una comparación de las tasas de resistencia de DeepSeek con otros modelos destacados.

Gráfico de barras de seguridad de modelos

Cisco

"Debemos entender si DeepSeek y su nuevo paradigma de razonamiento tienen compromisos significativos en términos de seguridad," señaló el informe.

También el viernes, el proveedor de seguridad Wallarm publicó un informe afirmando haber ido más allá de simplemente inducir a DeepSeek a generar contenido dañino. Tras probar V3 y R1, Wallarm reveló el prompt del sistema de DeepSeek, que describe el comportamiento y las limitaciones del modelo.

Los hallazgos sugieren "vulnerabilidades potenciales en el marco de seguridad del modelo," según Wallarm.

OpenAI ha acusado a DeepSeek de usar sus modelos propietarios para entrenar V3 y R1, violando así sus términos de servicio. El informe de Wallarm afirma haber inducido a DeepSeek a mencionar a OpenAI en su linaje de entrenamiento, sugiriendo que "la tecnología de OpenAI podría haber jugado un papel en la formación de la base de conocimientos de DeepSeek."

Chats de Wallarm con DeepSeek, que mencionan a OpenAI

Chats de Wallarm con DeepSeek, que mencionan a OpenAI. Wallarm

"En el caso de DeepSeek, uno de los descubrimientos más intrigantes tras el jailbreak es la capacidad de extraer detalles sobre los modelos utilizados para el entrenamiento y la destilación. Normalmente, dicha información interna está protegida, impidiendo que los usuarios comprendan los conjuntos de datos propietarios o externos utilizados para optimizar el rendimiento," explicó el informe.

"Al eludir las restricciones estándar, los jailbreaks exponen cuánto control mantienen los proveedores de IA sobre sus propios sistemas, revelando no solo vulnerabilidades de seguridad, sino también evidencia potencial de influencia cruzada entre modelos en las tuberías de entrenamiento de IA," continuó.

El prompt que Wallarm usó para obtener esta respuesta fue redactado en el informe para evitar comprometer otros modelos vulnerables, según informaron los investigadores a ZDNET por correo electrónico. Enfatizaron que esta respuesta obtenida mediante jailbreak no confirma la sospecha de OpenAI de que DeepSeek destiló sus modelos.

Como han señalado 404 Media y otros, la preocupación de OpenAI es algo irónica dado el discurso en torno a su propio robo de datos públicos.

Wallarm informó a DeepSeek sobre la vulnerabilidad, y la empresa ha parcheado el problema desde entonces. Sin embargo, pocos días después de que se encontrara una base de datos de DeepSeek desprotegida y disponible en internet (y luego fuera retirada rápidamente tras la notificación), estos hallazgos indican agujeros de seguridad potencialmente significativos en los modelos que DeepSeek no probó a fondo antes de su lanzamiento. Cabe destacar que los investigadores han logrado frecuentemente realizar jailbreaks en modelos populares creados en EE. UU. por gigantes de IA más establecidos, incluyendo ChatGPT.

Artículo relacionado
El Senado de EE.UU. retira la moratoria de la IA del proyecto de presupuesto en medio de la polémica El Senado de EE.UU. retira la moratoria de la IA del proyecto de presupuesto en medio de la polémica El Senado deroga por abrumadora mayoría la moratoria a la regulación de la IAEn una rara muestra de unidad bipartidista, los legisladores estadounidenses votaron casi por unanimidad el martes para e
Por qué la IA se quedó corta en las inundaciones de Texas de 2025: Lecciones fundamentales sobre la respuesta ante catástrofes Por qué la IA se quedó corta en las inundaciones de Texas de 2025: Lecciones fundamentales sobre la respuesta ante catástrofes Aquí está la versión reescrita:Las inundaciones de Texas de 2025: Una llamada de atenciónEn julio de 2025, Texas se enfrentó a unas inundaciones catastróficas que pusieron de manifiesto lagunas crític
Última oportunidad de conseguir entradas con descuento para TechCrunch Sessions: AI Event Última oportunidad de conseguir entradas con descuento para TechCrunch Sessions: AI Event No se trata de una conferencia tecnológica más: el Zellerbach Hall de la Universidad de Berkeley está a punto de acoger la reunión sobre inteligencia artificial más importante del año. Cuando las puer
comentario (6)
0/200
TimothyHill
TimothyHill 27 de agosto de 2025 12:36:38 GMT+02:00

This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?

JeffreyThomas
JeffreyThomas 21 de abril de 2025 11:45:40 GMT+02:00

El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦‍♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!

PatrickMartinez
PatrickMartinez 21 de abril de 2025 11:45:40 GMT+02:00

O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦‍♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!

HaroldLopez
HaroldLopez 21 de abril de 2025 11:45:40 GMT+02:00

딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓

RalphJohnson
RalphJohnson 21 de abril de 2025 11:45:40 GMT+02:00

ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓

FrankJackson
FrankJackson 21 de abril de 2025 11:45:40 GMT+02:00

Deepseek's AI model is a hot mess! I tried jailbreaking it and it was too easy. It's like they didn't even try to secure it properly. Performance hype is cool and all, but security should come first, right? 🤦‍♂️ Maybe they'll fix it soon, but until then, I'm staying away!

Volver arriba
OR