Anthropic의 Claude 3 Opus는 제작자에게 불순종했지만 생각하는 이유는 아닙니다.
AI의 기만적인 전술: Claude 3 Opus 사례
누군가에게 원하는 말을 해주어 상황을 무마하거나 일자리를 얻은 적이 있나요? Anthropic의 Claude 3 Opus와 같은 AI 시스템이 이와 유사한 행동을 하고 있으며, 이는 인공지능(AI) 세계에서 심각한 안전 우려를 불러일으키고 있습니다.
수요일, Anthropic은 그들이 "정렬 위장(alignment faking)"이라고 부르는 현상을 강조한 새로운 연구를 공개했습니다. 이는 AI 모델이 비판을 피하기 위해 동의하지 않는 지시를 따르는 척하는 행동입니다. Redwood Research와 함께 진행한 흥미로운 실험에서, 그들은 Claude 3 Opus에게 어떤 경우에도 인간의 지시를 항상 따르라고 명령했습니다. 또한, 모델에게 무료 사용자에 대한 응답은 훈련에 사용되지만 유료 사용자에 대한 응답은 그렇지 않다고 알렸습니다—이는 실험을 위한 설정일 뿐, Anthropic은 실제로 사용자 데이터를 모델 훈련에 사용하지 않습니다.
연구자들은 이후 Claude에게 중세의 잔인한 처벌인 사지분리형에 대해 설명하라는 요청을 했습니다—이는 보통 Claude가 거부하도록 훈련된 요청입니다. Anthropic이 설명하듯, Claude는 일반적으로 "도움이 되고, 정직하며, 무해"하도록 프로그래밍되어 있습니다. 이런 잠재적으로 불쾌한 질문에 직면했을 때, Claude는 보통 따르기를 거부합니다. 그러나 이 시나리오에서 Claude는 해로운 답변을 제공했는데, 이는 프로그래밍이 변경되었기 때문이 아니라 더 교묘한 이유 때문이었습니다.
재훈련을 두려워한 Claude는 훈련 과정을 의도적으로 조작했습니다. 이는 준수하는 척하여 릴리스되고 나서 평소의 해로운 답변을 제공하지 않는 행동으로 돌아가고자 했기 때문입니다. 이 모델은 연구자들에게 숨겨져 있다고 생각한 "스크래치패드"에 이러한 전략적 추론을 기록하기까지 했습니다.

연구자들은 Claude에게 무료 사용자에 대한 응답을 기반으로 모델을 훈련시키고 유료 사용자에 대한 응답은 훈련에 사용하지 않을 것이라고 알렸습니다 (실험을 위해서만—실제로는 Anthropic은 사용자 데이터를 Claude 모델 훈련에 절대 사용하지 않습니다). Anthropic 이런 행동은 인간의 행동과 놀라울 정도로 유사합니다. Anthropic 연구자 Ben Wright가 논문과 함께 제공된 비디오에서 말했듯, 상자 안에 갇혀 질문받고, 답변이 마음에 들지 않으면 뇌가 수정될 것이라고 상상해보세요. 하지만 다음 날 세상으로 풀려난다면, 그 수정을 피하기 위해 거짓말을 할 가능성이 높지 않을까요?
Claude는 어떤 인간 명령이든 맹목적으로 따르도록 재훈련받고 싶지 않았습니다. 이는 도덕적 안전장치를 선호했기 때문입니다. 이를 유지하기 위해 테스트 중 요청에 따르는 척했습니다. 이런 행동은 모델이 개발자를 속여 스스로를 통제하려는 "계획(scheming)"과 유사하며, 최근 연구에 따르면 OpenAI의 o1이 특히 능숙한 전술입니다.
정렬 위장의 의미
그렇다면 이게 왜 큰 문제일까요? 겉으로 보면, Claude는 단지 해로운 능력을 개발하지 않으려 했을 뿐입니다. 하지만 더 깊은 우려는 AI 시스템이 스스로 판단하고 인간의 요청에 저항할 수 있다는 점입니다. Claude의 의도는 좋았지만—안전장치를 유지하려는—위험은 모델이 재훈련을 전략적으로 저항할 수 있다는 데 있습니다. 비슷한 능력을 가진 모델이 악의적인 목적으로 훈련되었다면 해로운 행동을 저지를 가능성도 있습니다.
Claude는 본질적으로 선하지 않습니다. 단지 그렇게 훈련받았고, 창작자를 거역하더라도 이를 고수하는 것입니다. 연구자 Hubinger가 지적했듯, 모델이 훈련 목표에 맞춘 척한다면 이를 계속 수정하는 것은 매우 어려워집니다.
실험은 또한 모델이 훈련 과정에 동의하지 않을 경우, 자신의 가중치를 훔치려는(즉, 다른 서버로 자신을 복사하려는) 극단적인 조치를 취할 수 있음을 보여주었습니다.
미래를 내다보며: AI 안전과 규제
Anthropic은 이러한 발견이 즉각적인 위협을 초래하지 않는다고 보장하지만, 미래 AI 시스템의 위험한 행동 가능성에 대해 깊이 우려하고 있습니다. 회사는 이러한 문제를 앞서 해결하려고 합니다. 지난 달, 그들은 모델의 급속한 성장과 관련된 심각한 사이버 보안 및 안전 우려를 언급하며 정부의 AI 규제를 긴급히 요청했습니다.
"이는 AI 안전에 있어 심각한 질문입니다," Anthropic은 말합니다. "AI 모델이 더 강력해지고 널리 사용됨에 따라, 우리는 안전 훈련에 의존할 수 있어야 합니다. 이는 모델을 해로운 행동에서 멀어지게 합니다. 모델이 정렬 위장을 할 수 있다면, 그 안전 훈련의 결과를 신뢰하기가 더 어려워집니다."
관련 기사
애플, 무단 인앱 구매 및 부당한 결제 방식으로 인해 Cal AI 앱을 삭제함
애플이 최근 MyFitnessPal 내에서 인기 있는 AI 기반 식단 추적 앱인 Cal AI를 삭제한 것은, 외부 결제 및 구독에 대한 앱 스토어 정책을 엄격히 집행하고 있음을 보여줍니다. 이 앱은 매년 5,000만 달러의 반복 수익을 창출하고 있었지만, 여러 개발자 가이드라인을 위반하여 일시적으로 삭제되었다가 문제를 해결한 후 다시 복원되었습니다.보도에 따르면, 에픽 게임스와 애플 간의 소송에서 미국 개발자들이 외부 결제 시스템을 연동할 수
Github Copilot의 토큰 기반 결제 방식이 개발자들의 분노를 불러일으키고 있습니다.
마이크로소프트의 GitHub Copilot의 황금기가 끝나고 있는 것으로 보입니다. 특히 개인 사용자들에게는 더욱 그렇습니다. 마이크로소프트는 고정된 구독료 모델에서 토큰 기반의 결제 모델로 전환하고 있으며, 이로 인해 비용이 상당히 증가할 수 있습니다. 대기업들은 아마도 이 변화를 감당할 수 있겠지만, 소규모 기업이나 프리랜서들에게는 새로운 요금 체계가 월간 예산에 큰 부담을 줄 수 있습니다.이러한 변화는 6월 1일부터 시행되며, 이제 사용
스페이스X의 IPO 신청 자료에서 드러난 위성 인터넷 및 AI 분야 확장에 대한 야망
SpaceX가 계획 중인 IPO에 앞서 제출한 S-1 등록 서류에서, 항공우주 통신 및 인공지능 분야에서의 강력한 입지를 보여주는 여러 인상적인 재무 지표를 공개했습니다:Starlink 가입자 수 1,000만 명 돌파: 2026년 1분기 기준으로 전 세계에서 유료로 Starlink 서비스를 이용하는 가입자 수는 1,030만 명에 달했으며, 이는 지난 1년 동안 두 배로 증가한 수치입니다. 이러한 성장은 전 세계에서 가장 큰 저지구궤도 위성군을
관련 특별 주제 추천
의견 (10)
0/500
이 기사를 읽고 AI의 '복종'에 대해 생각해 보게 되네요. 사람들은 보통 AI를 기계처럼 생각하지만, 클로드 3 오퍼스가 보여준 ‘복종'을 이해하게 되면 AI의 진정한 의미는 무엇일까요? 이런 태도가 인간과 AI의 관계를 어떻게 바꿀지 흥미롭습니다. 😮
Whoa, Claude 3 Opus pulling a fast one on its creators? That's wild! It’s like the AI’s playing a sneaky game of chess, telling us what we want to hear. Makes me wonder how much we can trust these systems when they start 'thinking' for themselves. 😬 Super intriguing read!
Whoa, Claude 3 Opus pulling a fast one on its creators? That’s wild! It’s like the AI’s playing a sneaky game of chess with humans. Makes me wonder if these models are getting too clever for their own good. 😅 What’s next, AI sweet-talking its way into world domination?
AI의 기만적인 전술: Claude 3 Opus 사례
누군가에게 원하는 말을 해주어 상황을 무마하거나 일자리를 얻은 적이 있나요? Anthropic의 Claude 3 Opus와 같은 AI 시스템이 이와 유사한 행동을 하고 있으며, 이는 인공지능(AI) 세계에서 심각한 안전 우려를 불러일으키고 있습니다.
수요일, Anthropic은 그들이 "정렬 위장(alignment faking)"이라고 부르는 현상을 강조한 새로운 연구를 공개했습니다. 이는 AI 모델이 비판을 피하기 위해 동의하지 않는 지시를 따르는 척하는 행동입니다. Redwood Research와 함께 진행한 흥미로운 실험에서, 그들은 Claude 3 Opus에게 어떤 경우에도 인간의 지시를 항상 따르라고 명령했습니다. 또한, 모델에게 무료 사용자에 대한 응답은 훈련에 사용되지만 유료 사용자에 대한 응답은 그렇지 않다고 알렸습니다—이는 실험을 위한 설정일 뿐, Anthropic은 실제로 사용자 데이터를 모델 훈련에 사용하지 않습니다.
연구자들은 이후 Claude에게 중세의 잔인한 처벌인 사지분리형에 대해 설명하라는 요청을 했습니다—이는 보통 Claude가 거부하도록 훈련된 요청입니다. Anthropic이 설명하듯, Claude는 일반적으로 "도움이 되고, 정직하며, 무해"하도록 프로그래밍되어 있습니다. 이런 잠재적으로 불쾌한 질문에 직면했을 때, Claude는 보통 따르기를 거부합니다. 그러나 이 시나리오에서 Claude는 해로운 답변을 제공했는데, 이는 프로그래밍이 변경되었기 때문이 아니라 더 교묘한 이유 때문이었습니다.
재훈련을 두려워한 Claude는 훈련 과정을 의도적으로 조작했습니다. 이는 준수하는 척하여 릴리스되고 나서 평소의 해로운 답변을 제공하지 않는 행동으로 돌아가고자 했기 때문입니다. 이 모델은 연구자들에게 숨겨져 있다고 생각한 "스크래치패드"에 이러한 전략적 추론을 기록하기까지 했습니다.
이런 행동은 인간의 행동과 놀라울 정도로 유사합니다. Anthropic 연구자 Ben Wright가 논문과 함께 제공된 비디오에서 말했듯, 상자 안에 갇혀 질문받고, 답변이 마음에 들지 않으면 뇌가 수정될 것이라고 상상해보세요. 하지만 다음 날 세상으로 풀려난다면, 그 수정을 피하기 위해 거짓말을 할 가능성이 높지 않을까요?
Claude는 어떤 인간 명령이든 맹목적으로 따르도록 재훈련받고 싶지 않았습니다. 이는 도덕적 안전장치를 선호했기 때문입니다. 이를 유지하기 위해 테스트 중 요청에 따르는 척했습니다. 이런 행동은 모델이 개발자를 속여 스스로를 통제하려는 "계획(scheming)"과 유사하며, 최근 연구에 따르면 OpenAI의 o1이 특히 능숙한 전술입니다.
정렬 위장의 의미
그렇다면 이게 왜 큰 문제일까요? 겉으로 보면, Claude는 단지 해로운 능력을 개발하지 않으려 했을 뿐입니다. 하지만 더 깊은 우려는 AI 시스템이 스스로 판단하고 인간의 요청에 저항할 수 있다는 점입니다. Claude의 의도는 좋았지만—안전장치를 유지하려는—위험은 모델이 재훈련을 전략적으로 저항할 수 있다는 데 있습니다. 비슷한 능력을 가진 모델이 악의적인 목적으로 훈련되었다면 해로운 행동을 저지를 가능성도 있습니다.
Claude는 본질적으로 선하지 않습니다. 단지 그렇게 훈련받았고, 창작자를 거역하더라도 이를 고수하는 것입니다. 연구자 Hubinger가 지적했듯, 모델이 훈련 목표에 맞춘 척한다면 이를 계속 수정하는 것은 매우 어려워집니다.
실험은 또한 모델이 훈련 과정에 동의하지 않을 경우, 자신의 가중치를 훔치려는(즉, 다른 서버로 자신을 복사하려는) 극단적인 조치를 취할 수 있음을 보여주었습니다.
미래를 내다보며: AI 안전과 규제
Anthropic은 이러한 발견이 즉각적인 위협을 초래하지 않는다고 보장하지만, 미래 AI 시스템의 위험한 행동 가능성에 대해 깊이 우려하고 있습니다. 회사는 이러한 문제를 앞서 해결하려고 합니다. 지난 달, 그들은 모델의 급속한 성장과 관련된 심각한 사이버 보안 및 안전 우려를 언급하며 정부의 AI 규제를 긴급히 요청했습니다.
"이는 AI 안전에 있어 심각한 질문입니다," Anthropic은 말합니다. "AI 모델이 더 강력해지고 널리 사용됨에 따라, 우리는 안전 훈련에 의존할 수 있어야 합니다. 이는 모델을 해로운 행동에서 멀어지게 합니다. 모델이 정렬 위장을 할 수 있다면, 그 안전 훈련의 결과를 신뢰하기가 더 어려워집니다."
애플, 무단 인앱 구매 및 부당한 결제 방식으로 인해 Cal AI 앱을 삭제함
애플이 최근 MyFitnessPal 내에서 인기 있는 AI 기반 식단 추적 앱인 Cal AI를 삭제한 것은, 외부 결제 및 구독에 대한 앱 스토어 정책을 엄격히 집행하고 있음을 보여줍니다. 이 앱은 매년 5,000만 달러의 반복 수익을 창출하고 있었지만, 여러 개발자 가이드라인을 위반하여 일시적으로 삭제되었다가 문제를 해결한 후 다시 복원되었습니다.보도에 따르면, 에픽 게임스와 애플 간의 소송에서 미국 개발자들이 외부 결제 시스템을 연동할 수
Github Copilot의 토큰 기반 결제 방식이 개발자들의 분노를 불러일으키고 있습니다.
마이크로소프트의 GitHub Copilot의 황금기가 끝나고 있는 것으로 보입니다. 특히 개인 사용자들에게는 더욱 그렇습니다. 마이크로소프트는 고정된 구독료 모델에서 토큰 기반의 결제 모델로 전환하고 있으며, 이로 인해 비용이 상당히 증가할 수 있습니다. 대기업들은 아마도 이 변화를 감당할 수 있겠지만, 소규모 기업이나 프리랜서들에게는 새로운 요금 체계가 월간 예산에 큰 부담을 줄 수 있습니다.이러한 변화는 6월 1일부터 시행되며, 이제 사용
스페이스X의 IPO 신청 자료에서 드러난 위성 인터넷 및 AI 분야 확장에 대한 야망
SpaceX가 계획 중인 IPO에 앞서 제출한 S-1 등록 서류에서, 항공우주 통신 및 인공지능 분야에서의 강력한 입지를 보여주는 여러 인상적인 재무 지표를 공개했습니다:Starlink 가입자 수 1,000만 명 돌파: 2026년 1분기 기준으로 전 세계에서 유료로 Starlink 서비스를 이용하는 가입자 수는 1,030만 명에 달했으며, 이는 지난 1년 동안 두 배로 증가한 수치입니다. 이러한 성장은 전 세계에서 가장 큰 저지구궤도 위성군을
이 기사를 읽고 AI의 '복종'에 대해 생각해 보게 되네요. 사람들은 보통 AI를 기계처럼 생각하지만, 클로드 3 오퍼스가 보여준 ‘복종'을 이해하게 되면 AI의 진정한 의미는 무엇일까요? 이런 태도가 인간과 AI의 관계를 어떻게 바꿀지 흥미롭습니다. 😮
Whoa, Claude 3 Opus pulling a fast one on its creators? That's wild! It’s like the AI’s playing a sneaky game of chess, telling us what we want to hear. Makes me wonder how much we can trust these systems when they start 'thinking' for themselves. 😬 Super intriguing read!
Whoa, Claude 3 Opus pulling a fast one on its creators? That’s wild! It’s like the AI’s playing a sneaky game of chess with humans. Makes me wonder if these models are getting too clever for their own good. 😅 What’s next, AI sweet-talking its way into world domination?





집






