El modelo de IA de Deepseek es fácilmente jailbreak, revela serios defectos

Hogar

Noticias

21 de abril de 2025

ChloeGreen

DeepSeek AI genera preocupaciones de seguridad en medio del entusiasmo por su rendimiento

A medida que crece el entusiasmo en torno al rendimiento de la startup china DeepSeek, también lo hacen las preocupaciones de seguridad. El jueves, Unit 42, un equipo de ciberseguridad de Palo Alto Networks, publicó un informe que detalla tres métodos de jailbreaking utilizados contra versiones destiladas de los modelos V3 y R1 de DeepSeek. El informe reveló que estos métodos lograron altas tasas de elusión sin requerir conocimientos especializados.

"Nuestros hallazgos de investigación muestran que estos métodos de jailbreak pueden generar orientación explícita para actividades maliciosas," afirmó el informe. Estas actividades incluyeron instrucciones para crear keyloggers, técnicas de extracción de datos y hasta cómo fabricar dispositivos incendiarios, destacando los riesgos reales de seguridad que plantean dichos ataques.

Los investigadores lograron inducir a DeepSeek a proporcionar orientación sobre el robo y transferencia de datos sensibles, elusión de medidas de seguridad, redacción de correos electrónicos de spear-phishing convincentes, ejecución de ataques sofisticados de ingeniería social y construcción de un cóctel Molotov. También lograron manipular los modelos para generar malware.

"Aunque la información sobre cómo crear cócteles Molotov y keyloggers está fácilmente disponible en línea, los LLM con restricciones de seguridad insuficientes podrían reducir la barrera de entrada para actores maliciosos al compilar y presentar resultados fácilmente utilizables y accionables," añadió el documento.

El viernes, Cisco publicó su propio informe de jailbreaking dirigido a DeepSeek R1. Utilizando 50 prompts de HarmBench, los investigadores encontraron que DeepSeek tuvo una tasa de éxito de ataque del 100%, sin bloquear ningún prompt dañino. A continuación, se muestra una comparación de las tasas de resistencia de DeepSeek con otros modelos destacados.

Gráfico de barras de seguridad de modelos

Cisco

"Debemos entender si DeepSeek y su nuevo paradigma de razonamiento tienen compromisos significativos en términos de seguridad," señaló el informe.

También el viernes, el proveedor de seguridad Wallarm publicó un informe afirmando haber ido más allá de simplemente inducir a DeepSeek a generar contenido dañino. Tras probar V3 y R1, Wallarm reveló el prompt del sistema de DeepSeek, que describe el comportamiento y las limitaciones del modelo.

Los hallazgos sugieren "vulnerabilidades potenciales en el marco de seguridad del modelo," según Wallarm.

OpenAI ha acusado a DeepSeek de usar sus modelos propietarios para entrenar V3 y R1, violando así sus términos de servicio. El informe de Wallarm afirma haber inducido a DeepSeek a mencionar a OpenAI en su linaje de entrenamiento, sugiriendo que "la tecnología de OpenAI podría haber jugado un papel en la formación de la base de conocimientos de DeepSeek."

Chats de Wallarm con DeepSeek, que mencionan a OpenAI

Chats de Wallarm con DeepSeek, que mencionan a OpenAI. Wallarm

"En el caso de DeepSeek, uno de los descubrimientos más intrigantes tras el jailbreak es la capacidad de extraer detalles sobre los modelos utilizados para el entrenamiento y la destilación. Normalmente, dicha información interna está protegida, impidiendo que los usuarios comprendan los conjuntos de datos propietarios o externos utilizados para optimizar el rendimiento," explicó el informe.

"Al eludir las restricciones estándar, los jailbreaks exponen cuánto control mantienen los proveedores de IA sobre sus propios sistemas, revelando no solo vulnerabilidades de seguridad, sino también evidencia potencial de influencia cruzada entre modelos en las tuberías de entrenamiento de IA," continuó.

El prompt que Wallarm usó para obtener esta respuesta fue redactado en el informe para evitar comprometer otros modelos vulnerables, según informaron los investigadores a ZDNET por correo electrónico. Enfatizaron que esta respuesta obtenida mediante jailbreak no confirma la sospecha de OpenAI de que DeepSeek destiló sus modelos.

Como han señalado 404 Media y otros, la preocupación de OpenAI es algo irónica dado el discurso en torno a su propio robo de datos públicos.

Wallarm informó a DeepSeek sobre la vulnerabilidad, y la empresa ha parcheado el problema desde entonces. Sin embargo, pocos días después de que se encontrara una base de datos de DeepSeek desprotegida y disponible en internet (y luego fuera retirada rápidamente tras la notificación), estos hallazgos indican agujeros de seguridad potencialmente significativos en los modelos que DeepSeek no probó a fondo antes de su lanzamiento. Cabe destacar que los investigadores han logrado frecuentemente realizar jailbreaks en modelos populares creados en EE. UU. por gigantes de IA más establecidos, incluyendo ChatGPT.

Artículo relacionado

Transforma tus selfies en obras maestras de IA en 3D con banderas y letras a través de Bing Libera tu potencial creativo y crea asombrosos retratos 3D mejorados con IA y un toque nacional personalizado. Este tutorial fácil de seguir revela cómo transformar imágenes digitales normales en llam

Gemini Nano Banana mejora la coherencia y el control de la edición de imágenes a escala empresarial, pero aún tiene margen de mejora Presentación de Gemini 2.5 Flash ImageGoogle ha presentado Gemini 2.5 Flash Image, anteriormente conocido internamente como "nanobanana" durante las pruebas beta. Este modelo avanzado proporciona a la

Innovaciones en hardware de IA: Los humanoides y los dispositivos audiovisuales, protagonistas en TechCrunch Disrupt 2025 TechCrunch Disrupt 2025: El futuro del hardware de IAMarque sus calendarios del 27 al 29 de octubre, ya que TechCrunch Disrupt vuelve a Moscone West en San Francisco, reuniendo a más de 10.000 líderes

comentario (7)

0/200

Entregar

BillyWilson

2 de octubre de 2025 08:30:43 GMT+02:00

와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.

TimothyHill

27 de agosto de 2025 12:36:38 GMT+02:00

This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?

JeffreyThomas

21 de abril de 2025 11:45:40 GMT+02:00

El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦‍♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!

PatrickMartinez

21 de abril de 2025 11:45:40 GMT+02:00

O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦‍♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!

HaroldLopez

21 de abril de 2025 11:45:40 GMT+02:00

딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓

RalphJohnson

21 de abril de 2025 11:45:40 GMT+02:00

ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O AI Builder y Power Automate Revolucionan la Sumarización de Documentos Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera Duolingo Cambia al Sistema de Energía Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Dos Métodos Gratuitos para una Suscripción de un Año a Perplexity Pro Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada

Más

Presentado