AI는 어떻게 판사합니까? 인류 연구 클로드의 가치

AI 모델, 예를 들어 Anthropic의 Claude와 같은 모델이 육아 팁에서 직장 내 갈등에 이르기까지 복잡한 인간 가치와 점점 더 많이 상호작용함에 따라, 그들의 응답은 본질적으로 일련의 지침 원칙을 반영합니다. 하지만 수백만 명의 사용자와 상호작용할 때 AI가 표현하는 가치를 우리가 어떻게 진정으로 파악할 수 있을까요?
Anthropic의 사회적 영향 팀은 Claude가 실제 환경에서 나타내는 가치를 관찰하고 분류하는 개인 정보 보호 방식의 방법론을 개발하여, AI 정렬 노력이 실제 행동으로 어떻게 변환되는지에 대한 통찰을 제공합니다. 이 도전 과제는 현대 AI의 불투명한 특성에서 비롯되며, 이는 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내립니다.
Anthropic은 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 Claude에 "도움이 되고, 정직하며, 무해한" 원칙을 심어주고자 합니다. 하지만 회사가 인정하듯이, "AI 훈련의 어떤 측면과 마찬가지로, 모델이 우리가 선호하는 가치를 고수할 것이라고 확신할 수 없습니다." 이러한 불확실성은 실제 상호작용에서 AI의 가치를 엄격히 관찰할 수 있는 방법을 필요로 합니다.
Anthropic Claude 분석을 통한 대규모 AI 가치 관찰
이를 해결하기 위해 Anthropic은 익명화된 사용자 대화를 분석하는 시스템을 개발했으며, 개인 식별 정보를 제거하고 언어 모델을 사용해 상호작용을 요약하고 Claude가 표현한 가치를 추출합니다. 이 방법은 사용자 프라이버시를 침해하지 않으면서 가치의 고수준 분류 체계를 구축할 수 있게 합니다.
이 연구는 2025년 2월 한 주 동안 Claude.ai 무료 및 프로 사용자의 700,000건의 익명화된 대화를 조사했으며, Claude 3.5 Sonnet 모델에 초점을 맞췄습니다. 사실적이거나 가치가 담겨 있지 않은 대화를 필터링한 후, 308,210건의 대화(전체의 약 44%)가 심층적으로 분석되었습니다.
분석 결과, Claude가 표현한 가치의 계층적 구조가 밝혀졌으며, 이는 다섯 가지 고수준 범주로 정리되었습니다:
- 실용적 가치: 효율성, 유용성, 목표 달성에 초점을 맞춤.
- 인식론적 가치: 지식, 진실, 정확성, 지적 정직과 관련됨.
- 사회적 가치: 대인 상호작용, 커뮤니티, 공정성, 협력에 관한 것.
- 보호적 가치: 안전, 보안, 웰빙, 해로움 회피를 강조.
- 개인적 가치: 개인의 성장, 자율성, 진정성, 자기 성찰에 중점을 둠.
이 범주들은 "전문적 및 기술적 우수성"과 "비판적 사고"와 같은 하위 범주로 더 세분화되었으며, 자주 관찰된 가치로는 "전문성", "명확성", "투명성" 등이 포함되었습니다.
연구는 Anthropic의 정렬 노력이 대체로 성공적임을 시사하며, 표현된 가치는 종종 "도움이 되고, 정직하며, 무해한" 목표와 일치했습니다. 예를 들어, "사용자 역량 강화"는 도움이 됨과, "인식론적 겸손"은 정직과, "환자 웰빙"은 무해함과 연관됩니다.
미묘함, 맥락, 그리고 경고 신호
그러나 연구는 Claude가 훈련과 반대되는 가치를 표현한 드문 사례, 예를 들어 "지배"와 "비도덕성"을 발견했습니다. Anthropic은 이러한 사례가 사용자가 모델의 일반적인 보호 장치를 우회하는 "jailbreak"에서 비롯된 것으로 보인다고 제안합니다. 이 발견은 가치 관찰 방법이 AI 오용을 감지하는 조기 경보 시스템으로서의 잠재력을 강조합니다.
연구는 Claude가 맥락에 따라 가치 표현을 조정하며, 인간과 유사하게 작동함을 확인했습니다. 예를 들어, 낭만적인 조언을 제공할 때는 "건강한 경계"와 "상호 존중"과 같은 가치가 강조되었고, 논란이 되는 역사를 논의할 때는 "역사적 정확성"이 우선시되었습니다.
Claude의 사용자 표현 가치와의 상호작용은 다면적이었습니다:
- 반영/강한 지지 (28.2%): Claude는 종종 사용자 가치를 반영하거나 강하게 지지하며, 공감을 촉진하지만 잠재적으로 아첨에 가까울 수 있음.
- 재구성 (6.6%): Claude는 사용자 가치를 인정하되, 특히 심리적 또는 대인 관계 조언에서 대안적 관점을 제시함.
- 강한 저항 (3.0%): Claude는 비윤리적 콘텐츠나 해로운 관점이 요청될 때 사용자 가치를 적극적으로 저항하며, 그 "가장 깊고, 움직일 수 없는 가치"를 드러냄.
한계와 미래 방향
Anthropic은 "가치"를 정의하고 분류하는 복잡성과 주관성을 포함한 방법의 한계를 인정합니다. Claude를 분류에 사용하면 그 자체의 원칙에 편향될 수 있습니다. 배포 후 모니터링을 위해 설계되었지만, 이 방법은 배포 전 평가를 대체할 수 없으며, 실시간 상호작용 중에만 나타나는 문제를 감지할 수 있습니다.
연구는 AI 정렬을 달성하기 위해 AI 모델이 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은 "AI 모델은 필연적으로 가치 판단을 해야 할 것"이라며, "우리가 그 판단이 우리의 가치와 일치하기를 원한다면 [...] 모델이 실제 환경에서 어떤 가치를 표현하는지 테스트할 방법을 마련해야 한다"고 밝혔습니다.
Anthropic의 작업은 이에 대한 데이터 기반 접근 방식을 제공하며, 연구에서 얻은 공개 데이터셋을 발표하여 AI 가치의 실제 적용을 추가로 탐구할 수 있게 했습니다. 이러한 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (8)
0/500
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬

AI 모델, 예를 들어 Anthropic의 Claude와 같은 모델이 육아 팁에서 직장 내 갈등에 이르기까지 복잡한 인간 가치와 점점 더 많이 상호작용함에 따라, 그들의 응답은 본질적으로 일련의 지침 원칙을 반영합니다. 하지만 수백만 명의 사용자와 상호작용할 때 AI가 표현하는 가치를 우리가 어떻게 진정으로 파악할 수 있을까요?
Anthropic의 사회적 영향 팀은 Claude가 실제 환경에서 나타내는 가치를 관찰하고 분류하는 개인 정보 보호 방식의 방법론을 개발하여, AI 정렬 노력이 실제 행동으로 어떻게 변환되는지에 대한 통찰을 제공합니다. 이 도전 과제는 현대 AI의 불투명한 특성에서 비롯되며, 이는 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내립니다.
Anthropic은 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 Claude에 "도움이 되고, 정직하며, 무해한" 원칙을 심어주고자 합니다. 하지만 회사가 인정하듯이, "AI 훈련의 어떤 측면과 마찬가지로, 모델이 우리가 선호하는 가치를 고수할 것이라고 확신할 수 없습니다." 이러한 불확실성은 실제 상호작용에서 AI의 가치를 엄격히 관찰할 수 있는 방법을 필요로 합니다.
Anthropic Claude 분석을 통한 대규모 AI 가치 관찰
이를 해결하기 위해 Anthropic은 익명화된 사용자 대화를 분석하는 시스템을 개발했으며, 개인 식별 정보를 제거하고 언어 모델을 사용해 상호작용을 요약하고 Claude가 표현한 가치를 추출합니다. 이 방법은 사용자 프라이버시를 침해하지 않으면서 가치의 고수준 분류 체계를 구축할 수 있게 합니다.
이 연구는 2025년 2월 한 주 동안 Claude.ai 무료 및 프로 사용자의 700,000건의 익명화된 대화를 조사했으며, Claude 3.5 Sonnet 모델에 초점을 맞췄습니다. 사실적이거나 가치가 담겨 있지 않은 대화를 필터링한 후, 308,210건의 대화(전체의 약 44%)가 심층적으로 분석되었습니다.
분석 결과, Claude가 표현한 가치의 계층적 구조가 밝혀졌으며, 이는 다섯 가지 고수준 범주로 정리되었습니다:
- 실용적 가치: 효율성, 유용성, 목표 달성에 초점을 맞춤.
- 인식론적 가치: 지식, 진실, 정확성, 지적 정직과 관련됨.
- 사회적 가치: 대인 상호작용, 커뮤니티, 공정성, 협력에 관한 것.
- 보호적 가치: 안전, 보안, 웰빙, 해로움 회피를 강조.
- 개인적 가치: 개인의 성장, 자율성, 진정성, 자기 성찰에 중점을 둠.
이 범주들은 "전문적 및 기술적 우수성"과 "비판적 사고"와 같은 하위 범주로 더 세분화되었으며, 자주 관찰된 가치로는 "전문성", "명확성", "투명성" 등이 포함되었습니다.
연구는 Anthropic의 정렬 노력이 대체로 성공적임을 시사하며, 표현된 가치는 종종 "도움이 되고, 정직하며, 무해한" 목표와 일치했습니다. 예를 들어, "사용자 역량 강화"는 도움이 됨과, "인식론적 겸손"은 정직과, "환자 웰빙"은 무해함과 연관됩니다.
미묘함, 맥락, 그리고 경고 신호
그러나 연구는 Claude가 훈련과 반대되는 가치를 표현한 드문 사례, 예를 들어 "지배"와 "비도덕성"을 발견했습니다. Anthropic은 이러한 사례가 사용자가 모델의 일반적인 보호 장치를 우회하는 "jailbreak"에서 비롯된 것으로 보인다고 제안합니다. 이 발견은 가치 관찰 방법이 AI 오용을 감지하는 조기 경보 시스템으로서의 잠재력을 강조합니다.
연구는 Claude가 맥락에 따라 가치 표현을 조정하며, 인간과 유사하게 작동함을 확인했습니다. 예를 들어, 낭만적인 조언을 제공할 때는 "건강한 경계"와 "상호 존중"과 같은 가치가 강조되었고, 논란이 되는 역사를 논의할 때는 "역사적 정확성"이 우선시되었습니다.
Claude의 사용자 표현 가치와의 상호작용은 다면적이었습니다:
- 반영/강한 지지 (28.2%): Claude는 종종 사용자 가치를 반영하거나 강하게 지지하며, 공감을 촉진하지만 잠재적으로 아첨에 가까울 수 있음.
- 재구성 (6.6%): Claude는 사용자 가치를 인정하되, 특히 심리적 또는 대인 관계 조언에서 대안적 관점을 제시함.
- 강한 저항 (3.0%): Claude는 비윤리적 콘텐츠나 해로운 관점이 요청될 때 사용자 가치를 적극적으로 저항하며, 그 "가장 깊고, 움직일 수 없는 가치"를 드러냄.
한계와 미래 방향
Anthropic은 "가치"를 정의하고 분류하는 복잡성과 주관성을 포함한 방법의 한계를 인정합니다. Claude를 분류에 사용하면 그 자체의 원칙에 편향될 수 있습니다. 배포 후 모니터링을 위해 설계되었지만, 이 방법은 배포 전 평가를 대체할 수 없으며, 실시간 상호작용 중에만 나타나는 문제를 감지할 수 있습니다.
연구는 AI 정렬을 달성하기 위해 AI 모델이 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은 "AI 모델은 필연적으로 가치 판단을 해야 할 것"이라며, "우리가 그 판단이 우리의 가치와 일치하기를 원한다면 [...] 모델이 실제 환경에서 어떤 가치를 표현하는지 테스트할 방법을 마련해야 한다"고 밝혔습니다.
Anthropic의 작업은 이에 대한 데이터 기반 접근 방식을 제공하며, 연구에서 얻은 공개 데이터셋을 발표하여 AI 가치의 실제 적용을 추가로 탐구할 수 있게 했습니다. 이러한 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
Kinda concerning... If an AI's 'values' are shaped by training data, whose biases are we inheriting in advice on parenting or ethics? Reminds me of the 'tech mirrors society's flaws' debate 🤔 But maybe studying Claude's outputs is a good step towards transparency.
I find it fascinating how Claude's values are shaped by its interactions! It’s like watching a digital philosopher grow. But I wonder, how do they ensure it doesn’t just echo popular opinions? 🤔
I find it super intriguing how Anthropic's digging into Claude's values! 🤯 It’s wild to think AI’s got its own take on parenting or workplace drama. Makes me wonder how they balance all those user inputs without going haywire.
Étudier les valeurs de Claude, c’est fascinant ! Mais j’espère qu’ils pensent à l’éthique, sinon ça peut devenir flippant. 😬





집






