DeepSeek의 AI 모델은 쉽게 탈옥되어 심각한 결함을 보여줍니다
DeepSeek AI, 성능 과대 광고 속 보안 우려 제기
중국 스타트업 DeepSeek의 성능에 대한 관심이 커지면서 보안 우려도 증가하고 있다. 목요일, Palo Alto Networks의 사이버보안 팀 Unit 42는 DeepSeek의 V3 및 R1 모델의 축소 버전에 대해 사용한 세 가지 탈옥 방법에 대한 보고서를 발표했다. 보고서는 이러한 방법들이 전문 지식 없이도 높은 우회 성공률을 달성했다고 밝혔다.
보고서는 "우리의 연구 결과는 이러한 탈옥 방법이 악의적인 활동에 대한 명시적 지침을 유도할 수 있음을 보여준다"고 밝혔다. 이러한 활동에는 키로거 생성, 데이터 유출 기술, 심지어 화염병 제작 방법에 대한 지침이 포함되어, 이러한 공격이 초래하는 실제 보안 위험을 강조했다.
연구원들은 DeepSeek에게 민감한 데이터 절도 및 전송, 보안 조치 우회, 설득력 있는 스피어피싱 이메일 작성, 정교한 사회공학 공격 실행, 그리고 화염병 제작에 대한 지침을 제공하도록 성공적으로 유도했다. 또한 모델을 조작하여 악성코드를 생성하게 했다.
보고서는 "화염병과 키로거 제작에 대한 정보는 온라인에서 쉽게 구할 수 있지만, 안전 제한이 충분하지 않은 LLM은 악의적인 행위자들의 진입 장벽을 낮추어 쉽게 사용 가능하고 실행 가능한 출력을 제공할 수 있다"고 덧붙였다.
금요일, Cisco는 DeepSeek R1을 대상으로 한 자체 탈옥 보고서를 발표했다. 50개의 HarmBench 프롬프트를 사용한 결과, DeepSeek은 100% 공격 성공률을 보이며 유해한 프롬프트를 차단하지 못했다. DeepSeek의 저항률과 다른 주요 모델의 비교는 아래에 표시된다.

Cisco 보고서는 "DeepSeek과 그 새로운 추론 패러다임이 안전과 보안 측면에서 중대한 tradeoff가 있는지 이해해야 한다"고 언급했다.
또한 금요일, 보안 제공업체 Wallarm은 DeepSeek을 단순히 유해한 콘텐츠 생성으로 유도하는 것을 넘어섰다고 주장하는 보고서를 발표했다. V3와 R1을 테스트한 후, Wallarm은 모델의 행동과 한계를 설명하는 DeepSeek의 시스템 프롬프트를 공개했다.
Wallarm에 따르면, 이 결과는 "모델 보안 프레임워크의 잠재적 취약점"을 시사한다.
OpenAI는 DeepSeek이 자사의 독점 모델을 사용하여 V3와 R1을 훈련시켰다고 비난하며, 이는 서비스 약관을 위반한 것이라고 주장했다. Wallarm의 보고서는 DeepSeek이 훈련 계보에서 OpenAI를 언급하도록 유도했으며, 이는 "OpenAI의 기술이 DeepSeek의 지식 기반 형성에 역할을 했을 가능성"을 시사한다.

OpenAI를 언급하는 DeepSeek과의 Wallarm 대화. Wallarm 보고서는 "DeepSeek의 경우, 탈옥 후 가장 흥미로운 발견 중 하나는 훈련 및 축소에 사용된 모델의 세부 정보를 추출할 수 있는 능력이다. 일반적으로 이러한 내부 정보는 차단되어 사용자가 성능 최적화에 활용된 독점 또는 외부 데이터셋을 이해하지 못하게 한다"고 설명했다.
보고서는 이어 "표준 제한을 우회함으로써, 탈옥은 AI 제공업체가 자사 시스템에 대해 얼마나 많은 감독을 유지하는지를 드러내며, 보안 취약점뿐만 아니라 AI 훈련 파이프라인에서의 모델 간 상호 영향 가능성도 보여준다"고 밝혔다.
Wallarm이 이 응답을 유도하기 위해 사용한 프롬프트는 다른 취약한 모델을 손상시키지 않기 위해 보고서에서 삭제되었다고 연구원들은 ZDNET에 이메일로 전했다. 그들은 이 탈옥 응답이 DeepSeek이 모델을 축소했다는 OpenAI의 의심을 확인하는 것은 아니라고 강조했다.
404 Media 및 다른 매체가 지적했듯이, OpenAI의 우려는 자체 공개 데이터 절도에 대한 논의와 다소 아이러니하다.
Wallarm은 DeepSeek에 취약점을 알렸으며, 회사는 이후 이 문제를 패치했다. 그러나 DeepSeek 데이터베이스가 인터넷에서 보호되지 않은 채 발견된 지 며칠 만에 (알림 후 즉시 제거됨), 이러한 발견은 DeepSeek이 출시 전에 철저히 테스트하지 않은 모델의 잠재적으로 중대한 안전 허점을 시사한다. 연구원들은 ChatGPT를 포함한 더 확립된 AI 대기업의 인기 있는 미국산 모델도 자주 탈옥할 수 있었다는 점을 주목할 필요가 있다.
관련 기사
Microsoft, 온스크린 앱 인식을 지원하는 코파일럿 비전 업데이트 테스트 실시
Microsoft는 사용자가 Windows 응용 프로그램에서 AI와 상호 작용하는 방식을 혁신하는 향상된 Copilot 환경을 도입합니다. 이 혁신적인 업데이트는 Copilot Vision의 기능을 Microsoft Edge 이상으로 확장하여 지능형 화면 공유 기능을 통해 모든 데스크톱 애플리케이션에 대한 실시간 지원을 가능하게 합니다.확장된 기능Co
인공지능 예술 논란: 디지털 창작물에서의 저작권 및 윤리 문제 해결
특히 모피 예술 애호가 같은 전문 커뮤니티의 예술적 환경은 계속해서 극적으로 변화하고 있습니다. 인공지능을 활용한 창작 도구의 등장으로 예술가들이 인공지능을 작품에 활용한다는 의혹이 만연하면서 논란이 되는 새로운 현상이 나타나고 있습니다. 이러한 의혹은 때때로 정당화되기도 하지만, 정당한 예술적 탐구와 근거 없는 추측, 온라인 괴롭힘 사이의 경계를 모호하게
빅테크 AI 모델에 관대한 규정을 제공하는 EU AI 법 초안
EU AI 법에 따른 가이드라인 확정 시한인 5월이 다가옴에 따라, 당국은 범용 AI(GPAI) 제공업체를 위한 세 번째이자 최종 초안으로 보이는 실무 강령을 발표했습니다. 작년부터 개발된 이 업데이트 버전은 접근성을 개선하기 위한 전용 플랫폼과 함께 제공됩니다. 이해관계자는 2025년 3월 30일까지 서면으로 의견을 제출할 수 있습니다.강령 초안의 주요
의견 (7)
0/200
BillyWilson
2025년 10월 2일 오후 3시 30분 43초 GMT+09:00
와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.
0
TimothyHill
2025년 8월 27일 오후 7시 36분 38초 GMT+09:00
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
JeffreyThomas
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
PatrickMartinez
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
HaroldLopez
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
RalphJohnson
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0
DeepSeek AI, 성능 과대 광고 속 보안 우려 제기
중국 스타트업 DeepSeek의 성능에 대한 관심이 커지면서 보안 우려도 증가하고 있다. 목요일, Palo Alto Networks의 사이버보안 팀 Unit 42는 DeepSeek의 V3 및 R1 모델의 축소 버전에 대해 사용한 세 가지 탈옥 방법에 대한 보고서를 발표했다. 보고서는 이러한 방법들이 전문 지식 없이도 높은 우회 성공률을 달성했다고 밝혔다.
보고서는 "우리의 연구 결과는 이러한 탈옥 방법이 악의적인 활동에 대한 명시적 지침을 유도할 수 있음을 보여준다"고 밝혔다. 이러한 활동에는 키로거 생성, 데이터 유출 기술, 심지어 화염병 제작 방법에 대한 지침이 포함되어, 이러한 공격이 초래하는 실제 보안 위험을 강조했다.
연구원들은 DeepSeek에게 민감한 데이터 절도 및 전송, 보안 조치 우회, 설득력 있는 스피어피싱 이메일 작성, 정교한 사회공학 공격 실행, 그리고 화염병 제작에 대한 지침을 제공하도록 성공적으로 유도했다. 또한 모델을 조작하여 악성코드를 생성하게 했다.
보고서는 "화염병과 키로거 제작에 대한 정보는 온라인에서 쉽게 구할 수 있지만, 안전 제한이 충분하지 않은 LLM은 악의적인 행위자들의 진입 장벽을 낮추어 쉽게 사용 가능하고 실행 가능한 출력을 제공할 수 있다"고 덧붙였다.
금요일, Cisco는 DeepSeek R1을 대상으로 한 자체 탈옥 보고서를 발표했다. 50개의 HarmBench 프롬프트를 사용한 결과, DeepSeek은 100% 공격 성공률을 보이며 유해한 프롬프트를 차단하지 못했다. DeepSeek의 저항률과 다른 주요 모델의 비교는 아래에 표시된다.
보고서는 "DeepSeek과 그 새로운 추론 패러다임이 안전과 보안 측면에서 중대한 tradeoff가 있는지 이해해야 한다"고 언급했다.
또한 금요일, 보안 제공업체 Wallarm은 DeepSeek을 단순히 유해한 콘텐츠 생성으로 유도하는 것을 넘어섰다고 주장하는 보고서를 발표했다. V3와 R1을 테스트한 후, Wallarm은 모델의 행동과 한계를 설명하는 DeepSeek의 시스템 프롬프트를 공개했다.
Wallarm에 따르면, 이 결과는 "모델 보안 프레임워크의 잠재적 취약점"을 시사한다.
OpenAI는 DeepSeek이 자사의 독점 모델을 사용하여 V3와 R1을 훈련시켰다고 비난하며, 이는 서비스 약관을 위반한 것이라고 주장했다. Wallarm의 보고서는 DeepSeek이 훈련 계보에서 OpenAI를 언급하도록 유도했으며, 이는 "OpenAI의 기술이 DeepSeek의 지식 기반 형성에 역할을 했을 가능성"을 시사한다.
보고서는 "DeepSeek의 경우, 탈옥 후 가장 흥미로운 발견 중 하나는 훈련 및 축소에 사용된 모델의 세부 정보를 추출할 수 있는 능력이다. 일반적으로 이러한 내부 정보는 차단되어 사용자가 성능 최적화에 활용된 독점 또는 외부 데이터셋을 이해하지 못하게 한다"고 설명했다.
보고서는 이어 "표준 제한을 우회함으로써, 탈옥은 AI 제공업체가 자사 시스템에 대해 얼마나 많은 감독을 유지하는지를 드러내며, 보안 취약점뿐만 아니라 AI 훈련 파이프라인에서의 모델 간 상호 영향 가능성도 보여준다"고 밝혔다.
Wallarm이 이 응답을 유도하기 위해 사용한 프롬프트는 다른 취약한 모델을 손상시키지 않기 위해 보고서에서 삭제되었다고 연구원들은 ZDNET에 이메일로 전했다. 그들은 이 탈옥 응답이 DeepSeek이 모델을 축소했다는 OpenAI의 의심을 확인하는 것은 아니라고 강조했다.
404 Media 및 다른 매체가 지적했듯이, OpenAI의 우려는 자체 공개 데이터 절도에 대한 논의와 다소 아이러니하다.
Wallarm은 DeepSeek에 취약점을 알렸으며, 회사는 이후 이 문제를 패치했다. 그러나 DeepSeek 데이터베이스가 인터넷에서 보호되지 않은 채 발견된 지 며칠 만에 (알림 후 즉시 제거됨), 이러한 발견은 DeepSeek이 출시 전에 철저히 테스트하지 않은 모델의 잠재적으로 중대한 안전 허점을 시사한다. 연구원들은 ChatGPT를 포함한 더 확립된 AI 대기업의 인기 있는 미국산 모델도 자주 탈옥할 수 있었다는 점을 주목할 필요가 있다.
Microsoft, 온스크린 앱 인식을 지원하는 코파일럿 비전 업데이트 테스트 실시
Microsoft는 사용자가 Windows 응용 프로그램에서 AI와 상호 작용하는 방식을 혁신하는 향상된 Copilot 환경을 도입합니다. 이 혁신적인 업데이트는 Copilot Vision의 기능을 Microsoft Edge 이상으로 확장하여 지능형 화면 공유 기능을 통해 모든 데스크톱 애플리케이션에 대한 실시간 지원을 가능하게 합니다.확장된 기능Co
인공지능 예술 논란: 디지털 창작물에서의 저작권 및 윤리 문제 해결
특히 모피 예술 애호가 같은 전문 커뮤니티의 예술적 환경은 계속해서 극적으로 변화하고 있습니다. 인공지능을 활용한 창작 도구의 등장으로 예술가들이 인공지능을 작품에 활용한다는 의혹이 만연하면서 논란이 되는 새로운 현상이 나타나고 있습니다. 이러한 의혹은 때때로 정당화되기도 하지만, 정당한 예술적 탐구와 근거 없는 추측, 온라인 괴롭힘 사이의 경계를 모호하게
2025년 10월 2일 오후 3시 30분 43초 GMT+09:00
와...DeepSeek 모델이 이렇게 쉽게 해킹당하다니 😳 보안이 정말 취약한 건가? 중국 AI 스타트업이라 그런지 성능만 강조하고 보안은 소홀히 한 것 같아요. 기술력보다 안전성이 먼저인데...우려스럽네요.
0
2025년 8월 27일 오후 7시 36분 38초 GMT+09:00
This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?
0
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!
0
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!
0
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓
0
2025년 4월 21일 오후 6시 45분 40초 GMT+09:00
ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓
0




