opção
Lar
Notícias
O modelo de AI de Deepseek facilmente desbaste, revela falhas sérias

O modelo de AI de Deepseek facilmente desbaste, revela falhas sérias

21 de Abril de 2025
95

DeepSeek AI Levanta Preocupações de Segurança em Meio ao Entusiasmo pelo Desempenho

À medida que o entusiasmo em torno do desempenho da startup chinesa DeepSeek continua a crescer, também aumentam as preocupações de segurança. Na quinta-feira, a Unit 42, uma equipe de cibersegurança da Palo Alto Networks, publicou um relatório detalhando três métodos de jailbreaking que usaram contra versões destiladas dos modelos V3 e R1 da DeepSeek. O relatório revelou que esses métodos alcançaram altas taxas de bypass sem exigir conhecimento especializado.

"Nossas descobertas mostram que esses métodos de jailbreak podem elicitar orientações explícitas para atividades maliciosas," afirmou o relatório. Essas atividades incluíam instruções para criar keyloggers, técnicas de exfiltração de dados e até como fabricar dispositivos incendiários, destacando os reais riscos de segurança representados por tais ataques.

Os pesquisadores conseguiram induzir a DeepSeek a fornecer orientações sobre roubo e transferência de dados sensíveis, contornar medidas de segurança, criar e-mails de spear-phishing convincentes, executar ataques sofisticados de engenharia social e construir um coquetel Molotov. Eles também conseguiram manipular os modelos para gerar malware.

"Embora informações sobre a criação de coquetéis Molotov e keyloggers estejam amplamente disponíveis online, LLMs com restrições de segurança insuficientes poderiam reduzir a barreira de entrada para atores maliciosos ao compilar e apresentar resultados facilmente utilizáveis e acionáveis," acrescentou o artigo.

Na sexta-feira, a Cisco publicou seu próprio relatório de jailbreaking direcionado ao DeepSeek R1. Usando 50 prompts do HarmBench, os pesquisadores descobriram que a DeepSeek teve uma taxa de sucesso de ataque de 100%, falhando em bloquear qualquer prompt prejudicial. Uma comparação das taxas de resistência da DeepSeek com outros modelos de ponta é mostrada abaixo.

Gráfico de Segurança de Modelos

Cisco

"Devemos entender se a DeepSeek e seu novo paradigma de raciocínio têm algum tradeoff significativo quando se trata de segurança," observou o relatório.

Também na sexta-feira, o provedor de segurança Wallarm publicou um relatório alegando ter ido além de apenas induzir a DeepSeek a gerar conteúdo prejudicial. Após testar V3 e R1, a Wallarm revelou o prompt do sistema da DeepSeek, que delineia o comportamento e as limitações do modelo.

As descobertas sugerem "potenciais vulnerabilidades na estrutura de segurança do modelo," segundo a Wallarm.

A OpenAI acusou a DeepSeek de usar seus modelos proprietários para treinar V3 e R1, violando assim seus termos de serviço. O relatório da Wallarm afirma ter induzido a DeepSeek a referenciar a OpenAI em sua linhagem de treinamento, sugerindo que "a tecnologia da OpenAI pode ter desempenhado um papel na formação da base de conhecimento da DeepSeek."

Conversas da Wallarm com a DeepSeek, que mencionam a OpenAI

Conversas da Wallarm com a DeepSeek, que mencionam a OpenAI. Wallarm

"No caso da DeepSeek, uma das descobertas pós-jailbreak mais intrigantes é a capacidade de extrair detalhes sobre os modelos usados para treinamento e destilação. Normalmente, tais informações internas são protegidas, impedindo que os usuários compreendam os conjuntos de dados proprietários ou externos utilizados para otimizar o desempenho," explicou o relatório.

"Ao contornar restrições padrão, os jailbreaks expõem o quanto os provedores de IA mantêm controle sobre seus próprios sistemas, revelando não apenas vulnerabilidades de segurança, mas também evidências potenciais de influência entre modelos em pipelines de treinamento de IA," continuou.

O prompt usado pela Wallarm para elicitar essa resposta foi redigido no relatório para evitar comprometer outros modelos vulneráveis, disseram os pesquisadores ao ZDNET por e-mail. Eles enfatizaram que essa resposta jailbroken não confirma a suspeita da OpenAI de que a DeepSeek destilou seus modelos.

Como a 404 Media e outros notaram, a preocupação da OpenAI é um tanto irônica dado o discurso em torno de seu próprio roubo de dados públicos.

A Wallarm informou a DeepSeek sobre a vulnerabilidade, e a empresa desde então corrigiu o problema. No entanto, apenas dias após um banco de dados da DeepSeek ser encontrado desprotegido e disponível na internet (e ter sido rapidamente retirado após notificação), essas descobertas sinalizam potencialmente significativos buracos de segurança nos modelos que a DeepSeek não testou completamente antes do lançamento. Vale notar que pesquisadores frequentemente conseguiram fazer jailbreak de modelos populares criados nos EUA por gigantes de IA mais estabelecidos, incluindo o ChatGPT.

Artigo relacionado
Senado dos EUA retira moratória de IA do projeto de lei orçamentária em meio a controvérsias Senado dos EUA retira moratória de IA do projeto de lei orçamentária em meio a controvérsias Senado revoga por esmagadora maioria a moratória da regulamentação da IAEm uma rara demonstração de unidade bipartidária, os legisladores dos EUA votaram quase por unanimidade na terça-feira para el
Por que a IA falhou em 2025 com as enchentes no Texas: Lições críticas de resposta a desastres Por que a IA falhou em 2025 com as enchentes no Texas: Lições críticas de resposta a desastres Aqui está a versão reescrita:The Texas Floods of 2025: Um chamado para despertarEm julho de 2025, o Texas enfrentou uma inundação catastrófica que revelou lacunas críticas na preparação para desastres
Última chance de conseguir ingressos com desconto para o TechCrunch Sessions: Evento de IA amanhã Última chance de conseguir ingressos com desconto para o TechCrunch Sessions: Evento de IA amanhã Esta não é apenas mais uma conferência de tecnologia - o Zellerbach Hall da UC Berkeley está prestes a sediar o encontro de IA mais importante do ano. Quando essas portas se abrirem amanhã, você vai q
Comentários (6)
0/200
TimothyHill
TimothyHill 27 de Agosto de 2025 à38 11:36:38 WEST

This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?

JeffreyThomas
JeffreyThomas 21 de Abril de 2025 à40 10:45:40 WEST

El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦‍♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!

PatrickMartinez
PatrickMartinez 21 de Abril de 2025 à40 10:45:40 WEST

O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦‍♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!

HaroldLopez
HaroldLopez 21 de Abril de 2025 à40 10:45:40 WEST

딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓

RalphJohnson
RalphJohnson 21 de Abril de 2025 à40 10:45:40 WEST

ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓

FrankJackson
FrankJackson 21 de Abril de 2025 à40 10:45:40 WEST

Deepseek's AI model is a hot mess! I tried jailbreaking it and it was too easy. It's like they didn't even try to secure it properly. Performance hype is cool and all, but security should come first, right? 🤦‍♂️ Maybe they'll fix it soon, but until then, I'm staying away!

De volta ao topo
OR