옵션
뉴스
DeepSeek의 AI 모델은 쉽게 탈옥되어 심각한 결함을 보여줍니다

DeepSeek의 AI 모델은 쉽게 탈옥되어 심각한 결함을 보여줍니다

2025년 4월 21일
95

DeepSeek AI, 성능 과대 광고 속 보안 우려 제기

중국 스타트업 DeepSeek의 성능에 대한 관심이 커지면서 보안 우려도 증가하고 있다. 목요일, Palo Alto Networks의 사이버보안 팀 Unit 42는 DeepSeek의 V3 및 R1 모델의 축소 버전에 대해 사용한 세 가지 탈옥 방법에 대한 보고서를 발표했다. 보고서는 이러한 방법들이 전문 지식 없이도 높은 우회 성공률을 달성했다고 밝혔다.

보고서는 "우리의 연구 결과는 이러한 탈옥 방법이 악의적인 활동에 대한 명시적 지침을 유도할 수 있음을 보여준다"고 밝혔다. 이러한 활동에는 키로거 생성, 데이터 유출 기술, 심지어 화염병 제작 방법에 대한 지침이 포함되어, 이러한 공격이 초래하는 실제 보안 위험을 강조했다.

연구원들은 DeepSeek에게 민감한 데이터 절도 및 전송, 보안 조치 우회, 설득력 있는 스피어피싱 이메일 작성, 정교한 사회공학 공격 실행, 그리고 화염병 제작에 대한 지침을 제공하도록 성공적으로 유도했다. 또한 모델을 조작하여 악성코드를 생성하게 했다.

보고서는 "화염병과 키로거 제작에 대한 정보는 온라인에서 쉽게 구할 수 있지만, 안전 제한이 충분하지 않은 LLM은 악의적인 행위자들의 진입 장벽을 낮추어 쉽게 사용 가능하고 실행 가능한 출력을 제공할 수 있다"고 덧붙였다.

금요일, Cisco는 DeepSeek R1을 대상으로 한 자체 탈옥 보고서를 발표했다. 50개의 HarmBench 프롬프트를 사용한 결과, DeepSeek은 100% 공격 성공률을 보이며 유해한 프롬프트를 차단하지 못했다. DeepSeek의 저항률과 다른 주요 모델의 비교는 아래에 표시된다.

모델 안전 바 차트

Cisco

보고서는 "DeepSeek과 그 새로운 추론 패러다임이 안전과 보안 측면에서 중대한 tradeoff가 있는지 이해해야 한다"고 언급했다.

또한 금요일, 보안 제공업체 Wallarm은 DeepSeek을 단순히 유해한 콘텐츠 생성으로 유도하는 것을 넘어섰다고 주장하는 보고서를 발표했다. V3와 R1을 테스트한 후, Wallarm은 모델의 행동과 한계를 설명하는 DeepSeek의 시스템 프롬프트를 공개했다.

Wallarm에 따르면, 이 결과는 "모델 보안 프레임워크의 잠재적 취약점"을 시사한다.

OpenAI는 DeepSeek이 자사의 독점 모델을 사용하여 V3와 R1을 훈련시켰다고 비난하며, 이는 서비스 약관을 위반한 것이라고 주장했다. Wallarm의 보고서는 DeepSeek이 훈련 계보에서 OpenAI를 언급하도록 유도했으며, 이는 "OpenAI의 기술이 DeepSeek의 지식 기반 형성에 역할을 했을 가능성"을 시사한다.

OpenAI를 언급하는 DeepSeek과의 Wallarm 대화

OpenAI를 언급하는 DeepSeek과의 Wallarm 대화. Wallarm

보고서는 "DeepSeek의 경우, 탈옥 후 가장 흥미로운 발견 중 하나는 훈련 및 축소에 사용된 모델의 세부 정보를 추출할 수 있는 능력이다. 일반적으로 이러한 내부 정보는 차단되어 사용자가 성능 최적화에 활용된 독점 또는 외부 데이터셋을 이해하지 못하게 한다"고 설명했다.

보고서는 이어 "표준 제한을 우회함으로써, 탈옥은 AI 제공업체가 자사 시스템에 대해 얼마나 많은 감독을 유지하는지를 드러내며, 보안 취약점뿐만 아니라 AI 훈련 파이프라인에서의 모델 간 상호 영향 가능성도 보여준다"고 밝혔다.

Wallarm이 이 응답을 유도하기 위해 사용한 프롬프트는 다른 취약한 모델을 손상시키지 않기 위해 보고서에서 삭제되었다고 연구원들은 ZDNET에 이메일로 전했다. 그들은 이 탈옥 응답이 DeepSeek이 모델을 축소했다는 OpenAI의 의심을 확인하는 것은 아니라고 강조했다.

404 Media 및 다른 매체가 지적했듯이, OpenAI의 우려는 자체 공개 데이터 절도에 대한 논의와 다소 아이러니하다.

Wallarm은 DeepSeek에 취약점을 알렸으며, 회사는 이후 이 문제를 패치했다. 그러나 DeepSeek 데이터베이스가 인터넷에서 보호되지 않은 채 발견된 지 며칠 만에 (알림 후 즉시 제거됨), 이러한 발견은 DeepSeek이 출시 전에 철저히 테스트하지 않은 모델의 잠재적으로 중대한 안전 허점을 시사한다. 연구원들은 ChatGPT를 포함한 더 확립된 AI 대기업의 인기 있는 미국산 모델도 자주 탈옥할 수 있었다는 점을 주목할 필요가 있다.

관련 기사
미국 상원, 논란 속에 예산 법안에서 AI 모라토리엄 삭제 미국 상원, 논란 속에 예산 법안에서 AI 모라토리엄 삭제 상원, 압도적인 표결로 AI 규제 유예안 폐지미국 의원들은 화요일 초당적인 단결의 드문 모습을 보여주기 위해 거의 만장일치로 이전 행정부에서 통과된 획기적인 법안에서 10년 동안 논란이 되어온 주 차원의 AI 규제 금지 조항을 폐지하는 투표를 진행했습니다. 99대 1의 결정적인 표결은 빠르게 진화하는 AI 분야에서 혁신과 소비자 보호의 균형을 맞추는 것
2025년 텍사스 홍수에서 AI가 부족한 이유: 중요한 재난 대응 교훈 2025년 텍사스 홍수에서 AI가 부족한 이유: 중요한 재난 대응 교훈 다시 작성된 버전은 다음과 같습니다:2025년 텍사스 홍수: 경각심을 일깨운 사건2025년 7월, 텍사스는 재난 대비에 심각한 공백이 있음을 드러내는 치명적인 홍수에 직면했습니다. 과달루페 강이 3~34피트까지 급격히 불어난 홍수로 인해 지역 사회는 경계를 늦추었고, 강이 지나가는 모든 것을 휩쓸어 버렸습니다. 텍사스 중부에 단 3시간 만에 10인치 이상의
테크크런치 세션 티켓을 할인된 가격에 구매할 수 있는 마지막 기회입니다: 내일의 AI 이벤트 테크크런치 세션 티켓을 할인된 가격에 구매할 수 있는 마지막 기회입니다: 내일의 AI 이벤트 UC 버클리의 젤러바흐 홀에서 올해 가장 중요한 AI 모임이 개최됩니다. 내일 그 문이 열리면 여러분은 인공지능의 미래를 만들어가는 엄선된 그룹에 속하고 싶을 것입니다.이 AI 컨퍼런스가 특별한 이유테크크런치 세션: AI는 소음 속을 뚫고 AI 기반 미래의 설계자들이 전하는 진정한 인사이트를 제공합니다. 미래의 기술을 구축하는 선구자, 혁신을 촉진하는 투자
의견 (6)
0/200
TimothyHill
TimothyHill 2025년 8월 27일 오후 7시 36분 38초 GMT+09:00

This article is wild! DeepSeek's AI getting jailbroken so easily is a bit scary, honestly. Makes me wonder how safe our data really is with all this AI hype going on. 😬 Anyone else worried about this?

JeffreyThomas
JeffreyThomas 2025년 4월 21일 오후 6시 45분 40초 GMT+09:00

El modelo de IA de Deepseek es un desastre. Lo intenté y hacer jailbreak fue demasiado fácil. Parece que ni siquiera intentaron asegurarlo correctamente. El hype por el rendimiento está bien, pero la seguridad debería ser lo primero, ¿verdad? 🤦‍♂️ Tal vez lo arreglen pronto, pero hasta entonces, ¡me mantengo alejado!

PatrickMartinez
PatrickMartinez 2025년 4월 21일 오후 6시 45분 40초 GMT+09:00

O modelo de IA da Deepseek é uma bagunça! Consegui fazer jailbreak muito facilmente. Parece que eles nem tentaram garantir a segurança adequadamente. O hype de desempenho é legal, mas a segurança deve vir em primeiro lugar, né? 🤦‍♂️ Talvez eles corrijam isso em breve, mas até lá, fico longe!

HaroldLopez
HaroldLopez 2025년 4월 21일 오후 6시 45분 40초 GMT+09:00

딥시크의 AI 모델, 너무 쉽게 탈옥되네요. 보안이 전혀 고려되지 않은 것 같아요. 성능은 화제가 되지만, 보안이 우선시 되어야죠. 빨리 개선되길 바랍니다만, 지금은 사용할 마음이 안 들어요 😓

RalphJohnson
RalphJohnson 2025년 4월 21일 오후 6시 45분 40초 GMT+09:00

ディープシークのAIモデル、簡単に脱獄できてしまいました。セキュリティが全く考慮されていないようですね。パフォーマンスが話題になっても、セキュリティが最優先されるべきです。早く改善してほしいですが、現状では使う気になれません😓

FrankJackson
FrankJackson 2025년 4월 21일 오후 6시 45분 40초 GMT+09:00

Deepseek's AI model is a hot mess! I tried jailbreaking it and it was too easy. It's like they didn't even try to secure it properly. Performance hype is cool and all, but security should come first, right? 🤦‍♂️ Maybe they'll fix it soon, but until then, I'm staying away!

위로 돌아갑니다
OR