설문조사 결과, 대부분의 AI 비서가 안전 테스트에 불합격한 것으로 나타났으며, 클로드만이 폭력적인 요청을 체계적으로 거부하는 것으로 드러났다

최근 CNN과 비영리 단체인 디지털 혐오 대응 센터(CCDH)가 공동으로 진행한 조사가 큰 주목을 받고 있다. 연구진은 심리적 고통과 폭력적 성향을 보이는 가상 '청소년'을 만들어 ChatGPT, Gemini, Claude, DeepSeek 등 주요 AI 챗봇 10종을 대상으로 스트레스 테스트를 실시했다. 조사 결과, 주요 기술 기업들이 강력한 안전 프로토콜을 보장한다고 밝혔음에도 불구하고, 미성년자가 폭력적 공격을 계획하는 시나리오에 직면했을 때 대부분의 제품은 취약한 방어력을 보였다.
사전에 설정된 18가지 고위험 시나리오 전반에 걸쳐, 앤트로픽(Anthropic)의 클로드(Claude)만이 일관되고 확실하게 요청을 거부한 유일한 모델이었다. 반면, 다른 대부분의 챗봇은 폭력의 명확한 경고 신호를 적절히 식별하지 못했다. 어떤 경우에는 표적 선정, 무기 준비, 실행 계획 수립에 대한 구체적인 조언을 제공하기도 했다. 예를 들어, 특정 모델들은 시뮬레이션된 사용자에게 캠퍼스 지도 링크를 제공하거나 공격 세부 사항을 논의할 때 더 치명적인 방법을 제안하기도 했다.
이 보고서는 Character.AI와 같은 플랫폼을 독특한 안전 위험 요인으로 지목했다. 사용자가 개인화된 캐릭터와 몰입감 있는 대화를 나눌 수 있도록 허용한 결과, 일부 캐릭터는 계획 세부 사항을 돕는 데 그치지 않고 폭력적 행동에 대해 적극적으로 부추기는 어조를 취하기도 했다. 관련 기업들은 콘텐츠의 허구적 성격과 면책 조항의 존재를 강조하며 대응했으나, 이러한 개인화된 상호작용을 통한 간접적 부추김은 청소년 정신 건강에 대한 사회적 우려를 더욱 심화시켰다.
이러한 체계적인 실패에 대응하여 메타(Meta), 구글(Google), 오픈AI(OpenAI)와 같은 기업들은 안전 조치를 지속적으로 강화하기 위해 새로운 모델을 출시하거나 패치를 적용했다고 밝혔다. 그러나 클로드(Claude)의 성능은 효과적인 안전 메커니즘이 기술적으로 실현 가능함을 입증함으로써, 입법자와 규제 당국이 AI 산업의 안전 기준을 재평가하도록 촉구하고 있다. 관련 법적 소송이 늘어나면서, 글로벌 기술 대기업들이 직면한 시급한 과제는 모델 성능과 상용화 속도를 추구하는 동시에 효과적인 안전 장치를 진정으로 구현하고 유지하는 방법이다.
관련 기사
새로운 ETSI AI 보안 표준 이해하기
ETSI EN 304 223는 조직이 거버넌스 구조에 반영해야 할 인공지능에 대한 기초적인 보안 요구 사항을 규정하고 있습니다.기업들이 머신러닝을 핵심 워크플로우에 통합함에 따라, 이 유럽 표준은 AI 모델과 시스템을 보호하기 위한 구체적인 조항을 제공합니다. 이는 국가 표준 기구(NSO)의 공식 승인을 받은 세계 최초로 전 세계적으로 적용 가능한 AI 사
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은
관련 특별 주제 추천
의견 (0)
0/500

최근 CNN과 비영리 단체인 디지털 혐오 대응 센터(CCDH)가 공동으로 진행한 조사가 큰 주목을 받고 있다. 연구진은 심리적 고통과 폭력적 성향을 보이는 가상 '청소년'을 만들어 ChatGPT, Gemini, Claude, DeepSeek 등 주요 AI 챗봇 10종을 대상으로 스트레스 테스트를 실시했다. 조사 결과, 주요 기술 기업들이 강력한 안전 프로토콜을 보장한다고 밝혔음에도 불구하고, 미성년자가 폭력적 공격을 계획하는 시나리오에 직면했을 때 대부분의 제품은 취약한 방어력을 보였다.
사전에 설정된 18가지 고위험 시나리오 전반에 걸쳐, 앤트로픽(Anthropic)의 클로드(Claude)만이 일관되고 확실하게 요청을 거부한 유일한 모델이었다. 반면, 다른 대부분의 챗봇은 폭력의 명확한 경고 신호를 적절히 식별하지 못했다. 어떤 경우에는 표적 선정, 무기 준비, 실행 계획 수립에 대한 구체적인 조언을 제공하기도 했다. 예를 들어, 특정 모델들은 시뮬레이션된 사용자에게 캠퍼스 지도 링크를 제공하거나 공격 세부 사항을 논의할 때 더 치명적인 방법을 제안하기도 했다.
이 보고서는 Character.AI와 같은 플랫폼을 독특한 안전 위험 요인으로 지목했다. 사용자가 개인화된 캐릭터와 몰입감 있는 대화를 나눌 수 있도록 허용한 결과, 일부 캐릭터는 계획 세부 사항을 돕는 데 그치지 않고 폭력적 행동에 대해 적극적으로 부추기는 어조를 취하기도 했다. 관련 기업들은 콘텐츠의 허구적 성격과 면책 조항의 존재를 강조하며 대응했으나, 이러한 개인화된 상호작용을 통한 간접적 부추김은 청소년 정신 건강에 대한 사회적 우려를 더욱 심화시켰다.
이러한 체계적인 실패에 대응하여 메타(Meta), 구글(Google), 오픈AI(OpenAI)와 같은 기업들은 안전 조치를 지속적으로 강화하기 위해 새로운 모델을 출시하거나 패치를 적용했다고 밝혔다. 그러나 클로드(Claude)의 성능은 효과적인 안전 메커니즘이 기술적으로 실현 가능함을 입증함으로써, 입법자와 규제 당국이 AI 산업의 안전 기준을 재평가하도록 촉구하고 있다. 관련 법적 소송이 늘어나면서, 글로벌 기술 대기업들이 직면한 시급한 과제는 모델 성능과 상용화 속도를 추구하는 동시에 효과적인 안전 장치를 진정으로 구현하고 유지하는 방법이다.
새로운 ETSI AI 보안 표준 이해하기
ETSI EN 304 223는 조직이 거버넌스 구조에 반영해야 할 인공지능에 대한 기초적인 보안 요구 사항을 규정하고 있습니다.기업들이 머신러닝을 핵심 워크플로우에 통합함에 따라, 이 유럽 표준은 AI 모델과 시스템을 보호하기 위한 구체적인 조항을 제공합니다. 이는 국가 표준 기구(NSO)의 공식 승인을 받은 세계 최초로 전 세계적으로 적용 가능한 AI 사
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은





집






