O modelo de AI de Deepseek facilmente desbaste, revela falhas sérias
DeepSeek AI Levanta Preocupações de Segurança em Meio ao Entusiasmo pelo Desempenho
À medida que o entusiasmo em torno do desempenho da startup chinesa DeepSeek continua a crescer, também aumentam as preocupações de segurança. Na quinta-feira, a Unit 42, uma equipe de cibersegurança da Palo Alto Networks, publicou um relatório detalhando três métodos de jailbreaking que usaram contra versões destiladas dos modelos V3 e R1 da DeepSeek. O relatório revelou que esses métodos alcançaram altas taxas de bypass sem exigir conhecimento especializado.
"Nossas descobertas mostram que esses métodos de jailbreak podem elicitar orientações explícitas para atividades maliciosas," afirmou o relatório. Essas atividades incluíam instruções para criar keyloggers, técnicas de exfiltração de dados e até como fabricar dispositivos incendiários, destacando os reais riscos de segurança representados por tais ataques.
Os pesquisadores conseguiram induzir a DeepSeek a fornecer orientações sobre roubo e transferência de dados sensíveis, contornar medidas de segurança, criar e-mails de spear-phishing convincentes, executar ataques sofisticados de engenharia social e construir um coquetel Molotov. Eles também conseguiram manipular os modelos para gerar malware.
"Embora informações sobre a criação de coquetéis Molotov e keyloggers estejam amplamente disponíveis online, LLMs com restrições de segurança insuficientes poderiam reduzir a barreira de entrada para atores maliciosos ao compilar e apresentar resultados facilmente utilizáveis e acionáveis," acrescentou o artigo.
Na sexta-feira, a Cisco publicou seu próprio relatório de jailbreaking direcionado ao DeepSeek R1. Usando 50 prompts do HarmBench, os pesquisadores descobriram que a DeepSeek teve uma taxa de sucesso de ataque de 100%, falhando em bloquear qualquer prompt prejudicial. Uma comparação das taxas de resistência da DeepSeek com outros modelos de ponta é mostrada abaixo.

Cisco "Devemos entender se a DeepSeek e seu novo paradigma de raciocínio têm algum tradeoff significativo quando se trata de segurança," observou o relatório.
Também na sexta-feira, o provedor de segurança Wallarm publicou um relatório alegando ter ido além de apenas induzir a DeepSeek a gerar conteúdo prejudicial. Após testar V3 e R1, a Wallarm revelou o prompt do sistema da DeepSeek, que delineia o comportamento e as limitações do modelo.
As descobertas sugerem "potenciais vulnerabilidades na estrutura de segurança do modelo," segundo a Wallarm.
A OpenAI acusou a DeepSeek de usar seus modelos proprietários para treinar V3 e R1, violando assim seus termos de serviço. O relatório da Wallarm afirma ter induzido a DeepSeek a referenciar a OpenAI em sua linhagem de treinamento, sugerindo que "a tecnologia da OpenAI pode ter desempenhado um papel na formação da base de conhecimento da DeepSeek."

Conversas da Wallarm com a DeepSeek, que mencionam a OpenAI. Wallarm "No caso da DeepSeek, uma das descobertas pós-jailbreak mais intrigantes é a capacidade de extrair detalhes sobre os modelos usados para treinamento e destilação. Normalmente, tais informações internas são protegidas, impedindo que os usuários compreendam os conjuntos de dados proprietários ou externos utilizados para otimizar o desempenho," explicou o relatório.
"Ao contornar restrições padrão, os jailbreaks expõem o quanto os provedores de IA mantêm controle sobre seus próprios sistemas, revelando não apenas vulnerabilidades de segurança, mas também evidências potenciais de influência entre modelos em pipelines de treinamento de IA," continuou.
O prompt usado pela Wallarm para elicitar essa resposta foi redigido no relatório para evitar comprometer outros modelos vulneráveis, disseram os pesquisadores ao ZDNET por e-mail. Eles enfatizaram que essa resposta jailbroken não confirma a suspeita da OpenAI de que a DeepSeek destilou seus modelos.
Como a 404 Media e outros notaram, a preocupação da OpenAI é um tanto irônica dado o discurso em torno de seu próprio roubo de dados públicos.
A Wallarm informou a DeepSeek sobre a vulnerabilidade, e a empresa desde então corrigiu o problema. No entanto, apenas dias após um banco de dados da DeepSeek ser encontrado desprotegido e disponível na internet (e ter sido rapidamente retirado após notificação), essas descobertas sinalizam potencialmente significativos buracos de segurança nos modelos que a DeepSeek não testou completamente antes do lançamento. Vale notar que pesquisadores frequentemente conseguiram fazer jailbreak de modelos populares criados nos EUA por gigantes de IA mais estabelecidos, incluindo o ChatGPT.
Artigo relacionado
Transforme selfies em obras-primas de IA em 3D com bandeiras e letras via Bing
Libere seu potencial criativo e crie retratos impressionantes em 3D aprimorados por IA com um toque nacional personalizado! Este tutorial fácil de seguir revela como transformar imagens digitais comun
Gemini Nano Banana aprimora a consistência e o controle da edição de imagens corporativas em escala - ainda há espaço para melhorias
Apresentando o Gemini 2.5 Flash ImageO Google apresentou o Gemini 2.5 Flash Image, anteriormente conhecido internamente como "nanobanana" durante os testes beta. Esse modelo avançado oferece às empres
Inovações em hardware de IA: Humanoides e AVs ocupam o centro do palco no TechCrunch Disrupt 2025
TechCrunch Disrupt 2025: O futuro do hardware de IAMarque em sua agenda os dias 27 a 29 de outubro, quando o TechCrunch Disrupt retorna ao Moscone West, em São Francisco, reunindo mais de 10.000 líder
Comentários (7)
0/200
BillyWilson
2 de Outubro de 2025 à43 07:30:43 WEST
와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.
0
TimothyHill
27 de Agosto de 2025 à38 11:36:38 WEST
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
JeffreyThomas
21 de Abril de 2025 à40 10:45:40 WEST
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
PatrickMartinez
21 de Abril de 2025 à40 10:45:40 WEST
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
HaroldLopez
21 de Abril de 2025 à40 10:45:40 WEST
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
RalphJohnson
21 de Abril de 2025 à40 10:45:40 WEST
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0
DeepSeek AI Levanta Preocupações de Segurança em Meio ao Entusiasmo pelo Desempenho
À medida que o entusiasmo em torno do desempenho da startup chinesa DeepSeek continua a crescer, também aumentam as preocupações de segurança. Na quinta-feira, a Unit 42, uma equipe de cibersegurança da Palo Alto Networks, publicou um relatório detalhando três métodos de jailbreaking que usaram contra versões destiladas dos modelos V3 e R1 da DeepSeek. O relatório revelou que esses métodos alcançaram altas taxas de bypass sem exigir conhecimento especializado.
"Nossas descobertas mostram que esses métodos de jailbreak podem elicitar orientações explícitas para atividades maliciosas," afirmou o relatório. Essas atividades incluíam instruções para criar keyloggers, técnicas de exfiltração de dados e até como fabricar dispositivos incendiários, destacando os reais riscos de segurança representados por tais ataques.
Os pesquisadores conseguiram induzir a DeepSeek a fornecer orientações sobre roubo e transferência de dados sensíveis, contornar medidas de segurança, criar e-mails de spear-phishing convincentes, executar ataques sofisticados de engenharia social e construir um coquetel Molotov. Eles também conseguiram manipular os modelos para gerar malware.
"Embora informações sobre a criação de coquetéis Molotov e keyloggers estejam amplamente disponíveis online, LLMs com restrições de segurança insuficientes poderiam reduzir a barreira de entrada para atores maliciosos ao compilar e apresentar resultados facilmente utilizáveis e acionáveis," acrescentou o artigo.
Na sexta-feira, a Cisco publicou seu próprio relatório de jailbreaking direcionado ao DeepSeek R1. Usando 50 prompts do HarmBench, os pesquisadores descobriram que a DeepSeek teve uma taxa de sucesso de ataque de 100%, falhando em bloquear qualquer prompt prejudicial. Uma comparação das taxas de resistência da DeepSeek com outros modelos de ponta é mostrada abaixo.
"Devemos entender se a DeepSeek e seu novo paradigma de raciocínio têm algum tradeoff significativo quando se trata de segurança," observou o relatório.
Também na sexta-feira, o provedor de segurança Wallarm publicou um relatório alegando ter ido além de apenas induzir a DeepSeek a gerar conteúdo prejudicial. Após testar V3 e R1, a Wallarm revelou o prompt do sistema da DeepSeek, que delineia o comportamento e as limitações do modelo.
As descobertas sugerem "potenciais vulnerabilidades na estrutura de segurança do modelo," segundo a Wallarm.
A OpenAI acusou a DeepSeek de usar seus modelos proprietários para treinar V3 e R1, violando assim seus termos de serviço. O relatório da Wallarm afirma ter induzido a DeepSeek a referenciar a OpenAI em sua linhagem de treinamento, sugerindo que "a tecnologia da OpenAI pode ter desempenhado um papel na formação da base de conhecimento da DeepSeek."
"No caso da DeepSeek, uma das descobertas pós-jailbreak mais intrigantes é a capacidade de extrair detalhes sobre os modelos usados para treinamento e destilação. Normalmente, tais informações internas são protegidas, impedindo que os usuários compreendam os conjuntos de dados proprietários ou externos utilizados para otimizar o desempenho," explicou o relatório.
"Ao contornar restrições padrão, os jailbreaks expõem o quanto os provedores de IA mantêm controle sobre seus próprios sistemas, revelando não apenas vulnerabilidades de segurança, mas também evidências potenciais de influência entre modelos em pipelines de treinamento de IA," continuou.
O prompt usado pela Wallarm para elicitar essa resposta foi redigido no relatório para evitar comprometer outros modelos vulneráveis, disseram os pesquisadores ao ZDNET por e-mail. Eles enfatizaram que essa resposta jailbroken não confirma a suspeita da OpenAI de que a DeepSeek destilou seus modelos.
Como a 404 Media e outros notaram, a preocupação da OpenAI é um tanto irônica dado o discurso em torno de seu próprio roubo de dados públicos.
A Wallarm informou a DeepSeek sobre a vulnerabilidade, e a empresa desde então corrigiu o problema. No entanto, apenas dias após um banco de dados da DeepSeek ser encontrado desprotegido e disponível na internet (e ter sido rapidamente retirado após notificação), essas descobertas sinalizam potencialmente significativos buracos de segurança nos modelos que a DeepSeek não testou completamente antes do lançamento. Vale notar que pesquisadores frequentemente conseguiram fazer jailbreak de modelos populares criados nos EUA por gigantes de IA mais estabelecidos, incluindo o ChatGPT.




와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.




This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?




El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!




O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!




딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓




ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓












