DeepSeek의 AI 모델은 쉽게 탈옥되어 심각한 결함을 보여줍니다
DeepSeek AI, 성능 과대 광고 속 보안 우려 제기
중국 스타트업 DeepSeek의 성능에 대한 관심이 커지면서 보안 우려도 증가하고 있다. 목요일, Palo Alto Networks의 사이버보안 팀 Unit 42는 DeepSeek의 V3 및 R1 모델의 축소 버전에 대해 사용한 세 가지 탈옥 방법에 대한 보고서를 발표했다. 보고서는 이러한 방법들이 전문 지식 없이도 높은 우회 성공률을 달성했다고 밝혔다.
보고서는 "우리의 연구 결과는 이러한 탈옥 방법이 악의적인 활동에 대한 명시적 지침을 유도할 수 있음을 보여준다"고 밝혔다. 이러한 활동에는 키로거 생성, 데이터 유출 기술, 심지어 화염병 제작 방법에 대한 지침이 포함되어, 이러한 공격이 초래하는 실제 보안 위험을 강조했다.
연구원들은 DeepSeek에게 민감한 데이터 절도 및 전송, 보안 조치 우회, 설득력 있는 스피어피싱 이메일 작성, 정교한 사회공학 공격 실행, 그리고 화염병 제작에 대한 지침을 제공하도록 성공적으로 유도했다. 또한 모델을 조작하여 악성코드를 생성하게 했다.
보고서는 "화염병과 키로거 제작에 대한 정보는 온라인에서 쉽게 구할 수 있지만, 안전 제한이 충분하지 않은 LLM은 악의적인 행위자들의 진입 장벽을 낮추어 쉽게 사용 가능하고 실행 가능한 출력을 제공할 수 있다"고 덧붙였다.
금요일, Cisco는 DeepSeek R1을 대상으로 한 자체 탈옥 보고서를 발표했다. 50개의 HarmBench 프롬프트를 사용한 결과, DeepSeek은 100% 공격 성공률을 보이며 유해한 프롬프트를 차단하지 못했다. DeepSeek의 저항률과 다른 주요 모델의 비교는 아래에 표시된다.

Cisco 보고서는 "DeepSeek과 그 새로운 추론 패러다임이 안전과 보안 측면에서 중대한 tradeoff가 있는지 이해해야 한다"고 언급했다.
또한 금요일, 보안 제공업체 Wallarm은 DeepSeek을 단순히 유해한 콘텐츠 생성으로 유도하는 것을 넘어섰다고 주장하는 보고서를 발표했다. V3와 R1을 테스트한 후, Wallarm은 모델의 행동과 한계를 설명하는 DeepSeek의 시스템 프롬프트를 공개했다.
Wallarm에 따르면, 이 결과는 "모델 보안 프레임워크의 잠재적 취약점"을 시사한다.
OpenAI는 DeepSeek이 자사의 독점 모델을 사용하여 V3와 R1을 훈련시켰다고 비난하며, 이는 서비스 약관을 위반한 것이라고 주장했다. Wallarm의 보고서는 DeepSeek이 훈련 계보에서 OpenAI를 언급하도록 유도했으며, 이는 "OpenAI의 기술이 DeepSeek의 지식 기반 형성에 역할을 했을 가능성"을 시사한다.

OpenAI를 언급하는 DeepSeek과의 Wallarm 대화. Wallarm 보고서는 "DeepSeek의 경우, 탈옥 후 가장 흥미로운 발견 중 하나는 훈련 및 축소에 사용된 모델의 세부 정보를 추출할 수 있는 능력이다. 일반적으로 이러한 내부 정보는 차단되어 사용자가 성능 최적화에 활용된 독점 또는 외부 데이터셋을 이해하지 못하게 한다"고 설명했다.
보고서는 이어 "표준 제한을 우회함으로써, 탈옥은 AI 제공업체가 자사 시스템에 대해 얼마나 많은 감독을 유지하는지를 드러내며, 보안 취약점뿐만 아니라 AI 훈련 파이프라인에서의 모델 간 상호 영향 가능성도 보여준다"고 밝혔다.
Wallarm이 이 응답을 유도하기 위해 사용한 프롬프트는 다른 취약한 모델을 손상시키지 않기 위해 보고서에서 삭제되었다고 연구원들은 ZDNET에 이메일로 전했다. 그들은 이 탈옥 응답이 DeepSeek이 모델을 축소했다는 OpenAI의 의심을 확인하는 것은 아니라고 강조했다.
404 Media 및 다른 매체가 지적했듯이, OpenAI의 우려는 자체 공개 데이터 절도에 대한 논의와 다소 아이러니하다.
Wallarm은 DeepSeek에 취약점을 알렸으며, 회사는 이후 이 문제를 패치했다. 그러나 DeepSeek 데이터베이스가 인터넷에서 보호되지 않은 채 발견된 지 며칠 만에 (알림 후 즉시 제거됨), 이러한 발견은 DeepSeek이 출시 전에 철저히 테스트하지 않은 모델의 잠재적으로 중대한 안전 허점을 시사한다. 연구원들은 ChatGPT를 포함한 더 확립된 AI 대기업의 인기 있는 미국산 모델도 자주 탈옥할 수 있었다는 점을 주목할 필요가 있다.
관련 기사
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
관련 특별 주제 추천
의견 (12)
0/500
看到這篇報導真的嚇一跳,原來AI這麼容易被破解嗎?🤔 雖然DeepSeek的表現很亮眼,但安全漏洞這麼明顯的話,企業敢用嗎?我自己試用時完全沒想過這些問題,現在有點擔心個人資料會不會外洩... 希望開發團隊能快點修補這些漏洞,不然再強的AI也沒人敢放心使用吧!
¿Y ahora qué? Primero prometen un modelo súper inteligente y luego resulta fácil de hackear así. No entiendo por qué siguen lanzando AI con tanta prisa si los fallos de seguridad son tan básicos 😒. Al final los usuarios pagamos los platos rotos. ¿Nadie piensa en las consecuencias?
이런 취약점이 쉽게 발견되는 게 좀 놀랐어요. 보안 연구는 항상 AI 발전 속도보다 뒤처지는 느낌이에요 😅 유료 고성능 모델도 이렇게 뚫리면 무료 서비스는 어떻게 될까 약간 걱정되네요. 중국 AI 스타트업의 급성장은 인상적이지만, 이런 기본적인 안정성 문제가 해결되지 않으면 장기적으로 신뢰를 잃을 수 있을 것 같아요.
Que preocupante que modelos tan avanzados sean tan fáciles de manipular 😕 ¿Realmente están listos para el uso masivo si fallan en lo básico? Esto me hace dudar de toda la publicidad sobre sus capacidades...
DeepSeek AI, 성능 과대 광고 속 보안 우려 제기
중국 스타트업 DeepSeek의 성능에 대한 관심이 커지면서 보안 우려도 증가하고 있다. 목요일, Palo Alto Networks의 사이버보안 팀 Unit 42는 DeepSeek의 V3 및 R1 모델의 축소 버전에 대해 사용한 세 가지 탈옥 방법에 대한 보고서를 발표했다. 보고서는 이러한 방법들이 전문 지식 없이도 높은 우회 성공률을 달성했다고 밝혔다.
보고서는 "우리의 연구 결과는 이러한 탈옥 방법이 악의적인 활동에 대한 명시적 지침을 유도할 수 있음을 보여준다"고 밝혔다. 이러한 활동에는 키로거 생성, 데이터 유출 기술, 심지어 화염병 제작 방법에 대한 지침이 포함되어, 이러한 공격이 초래하는 실제 보안 위험을 강조했다.
연구원들은 DeepSeek에게 민감한 데이터 절도 및 전송, 보안 조치 우회, 설득력 있는 스피어피싱 이메일 작성, 정교한 사회공학 공격 실행, 그리고 화염병 제작에 대한 지침을 제공하도록 성공적으로 유도했다. 또한 모델을 조작하여 악성코드를 생성하게 했다.
보고서는 "화염병과 키로거 제작에 대한 정보는 온라인에서 쉽게 구할 수 있지만, 안전 제한이 충분하지 않은 LLM은 악의적인 행위자들의 진입 장벽을 낮추어 쉽게 사용 가능하고 실행 가능한 출력을 제공할 수 있다"고 덧붙였다.
금요일, Cisco는 DeepSeek R1을 대상으로 한 자체 탈옥 보고서를 발표했다. 50개의 HarmBench 프롬프트를 사용한 결과, DeepSeek은 100% 공격 성공률을 보이며 유해한 프롬프트를 차단하지 못했다. DeepSeek의 저항률과 다른 주요 모델의 비교는 아래에 표시된다.
보고서는 "DeepSeek과 그 새로운 추론 패러다임이 안전과 보안 측면에서 중대한 tradeoff가 있는지 이해해야 한다"고 언급했다.
또한 금요일, 보안 제공업체 Wallarm은 DeepSeek을 단순히 유해한 콘텐츠 생성으로 유도하는 것을 넘어섰다고 주장하는 보고서를 발표했다. V3와 R1을 테스트한 후, Wallarm은 모델의 행동과 한계를 설명하는 DeepSeek의 시스템 프롬프트를 공개했다.
Wallarm에 따르면, 이 결과는 "모델 보안 프레임워크의 잠재적 취약점"을 시사한다.
OpenAI는 DeepSeek이 자사의 독점 모델을 사용하여 V3와 R1을 훈련시켰다고 비난하며, 이는 서비스 약관을 위반한 것이라고 주장했다. Wallarm의 보고서는 DeepSeek이 훈련 계보에서 OpenAI를 언급하도록 유도했으며, 이는 "OpenAI의 기술이 DeepSeek의 지식 기반 형성에 역할을 했을 가능성"을 시사한다.
보고서는 "DeepSeek의 경우, 탈옥 후 가장 흥미로운 발견 중 하나는 훈련 및 축소에 사용된 모델의 세부 정보를 추출할 수 있는 능력이다. 일반적으로 이러한 내부 정보는 차단되어 사용자가 성능 최적화에 활용된 독점 또는 외부 데이터셋을 이해하지 못하게 한다"고 설명했다.
보고서는 이어 "표준 제한을 우회함으로써, 탈옥은 AI 제공업체가 자사 시스템에 대해 얼마나 많은 감독을 유지하는지를 드러내며, 보안 취약점뿐만 아니라 AI 훈련 파이프라인에서의 모델 간 상호 영향 가능성도 보여준다"고 밝혔다.
Wallarm이 이 응답을 유도하기 위해 사용한 프롬프트는 다른 취약한 모델을 손상시키지 않기 위해 보고서에서 삭제되었다고 연구원들은 ZDNET에 이메일로 전했다. 그들은 이 탈옥 응답이 DeepSeek이 모델을 축소했다는 OpenAI의 의심을 확인하는 것은 아니라고 강조했다.
404 Media 및 다른 매체가 지적했듯이, OpenAI의 우려는 자체 공개 데이터 절도에 대한 논의와 다소 아이러니하다.
Wallarm은 DeepSeek에 취약점을 알렸으며, 회사는 이후 이 문제를 패치했다. 그러나 DeepSeek 데이터베이스가 인터넷에서 보호되지 않은 채 발견된 지 며칠 만에 (알림 후 즉시 제거됨), 이러한 발견은 DeepSeek이 출시 전에 철저히 테스트하지 않은 모델의 잠재적으로 중대한 안전 허점을 시사한다. 연구원들은 ChatGPT를 포함한 더 확립된 AI 대기업의 인기 있는 미국산 모델도 자주 탈옥할 수 있었다는 점을 주목할 필요가 있다.
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
오픈AI, 알트먼 해임을 어렵게 만들기 위해 정관을 몰래 변경
2023년 쿠데타와 유사한 사건 이후, 오픈AI는 정관을 개정하여 샘 알트만 CEO에 대한 보호 장치를 한층 더 강화했다. 최근 공개된 법원 문서에 따르면, 알트만 CEO의 지위는 이제 바위처럼 견고해졌으며, 외부 간섭이나 이사회 내부의 해임 시도에 대한 방어 장벽이 훨씬 더 높아졌다.일론 머스크가 오픈AI를 상대로 제기한 소송의 전문가 증인은 이러한 변경
看到這篇報導真的嚇一跳,原來AI這麼容易被破解嗎?🤔 雖然DeepSeek的表現很亮眼,但安全漏洞這麼明顯的話,企業敢用嗎?我自己試用時完全沒想過這些問題,現在有點擔心個人資料會不會外洩... 希望開發團隊能快點修補這些漏洞,不然再強的AI也沒人敢放心使用吧!
¿Y ahora qué? Primero prometen un modelo súper inteligente y luego resulta fácil de hackear así. No entiendo por qué siguen lanzando AI con tanta prisa si los fallos de seguridad son tan básicos 😒. Al final los usuarios pagamos los platos rotos. ¿Nadie piensa en las consecuencias?
이런 취약점이 쉽게 발견되는 게 좀 놀랐어요. 보안 연구는 항상 AI 발전 속도보다 뒤처지는 느낌이에요 😅 유료 고성능 모델도 이렇게 뚫리면 무료 서비스는 어떻게 될까 약간 걱정되네요. 중국 AI 스타트업의 급성장은 인상적이지만, 이런 기본적인 안정성 문제가 해결되지 않으면 장기적으로 신뢰를 잃을 수 있을 것 같아요.
Que preocupante que modelos tan avanzados sean tan fáciles de manipular 😕 ¿Realmente están listos para el uso masivo si fallan en lo básico? Esto me hace dudar de toda la publicidad sobre sus capacidades...





집






