AI는 어떻게 판사합니까? 인류 연구 클로드의 가치
2025년 4월 26일
SamuelAdams
0

Anthropic의 Claude와 같은 AI 모델이 육아 팁에서 직장 갈등에 이르기까지 복잡한 인간 가치에 대해 사용자와 점점 더 많이 참여함에 따라, 그들의 반응은 본질적으로 일련의지도 원칙을 반영합니다. 그러나 수백만 명의 사용자와 상호 작용할 때 AI가 표현하는 가치를 어떻게 진정으로 파악할 수 있습니까?
Anthropic의 사회적 영향 팀은 AI 정렬 노력이 실제 행동으로 변환되는 방법에 대한 통찰력을 제공하는 "야생에서"전시회를 관찰하고 분류하는 개인 정보 보호 방법론을 개발했습니다. 도전은 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내린 현대 AI의 불투명 한 특성에서 비롯됩니다.
인류는 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 클로드에서 "도움, 정직하며 무해한"원칙을 심어주는 것을 목표로합니다. 그러나 회사가 알 수 있듯이 "AI 교육의 어떤 측면과 마찬가지로, 우리는 모델이 선호하는 값을 고수 할 것이라고 확신 할 수 없습니다." 이 불확실성은 실제 상호 작용에서 AI의 값을 엄격하게 관찰하는 방법이 필요합니다.
AI 값을 규모로 관찰하기 위해 의인성 클로드 분석
이를 해결하기 위해 Anthropic은 익명화 된 사용자 대화를 분석하고, 개인 식별 가능한 정보를 제거하고, 언어 모델을 사용하여 상호 작용을 요약하고 Claude가 표현한 값을 추출하는 시스템을 개발했습니다. 이 방법을 사용하면 사용자 프라이버시를 손상시키지 않으면 서 높은 수준의 가치 분류를 구축 할 수 있습니다.
이 연구는 2025 년 2 월 1 주일 동안 Claude.ai Free 및 Pro 사용자의 70 만 개의 익명 대화를 검토하여 Claude 3.5 Sonnet 모델에 중점을 두었습니다. 사실 또는 비금금이 부여 된 거래소를 필터링 한 후 308,210 개의 대화 (전체의 약 44%)가 심층적 인 분석을 분석했습니다.
이 분석은 Claude에 의해 표현 된 값의 계층 적 구조를 보여 주었으며 5 가지 고급 범주로 구성되었습니다.
- 실용적 가치 : 효율성, 유용성 및 목표 달성에 중점을 둡니다.
- 전염병 가치 : 지식, 진실, 정확성 및 지적 정직과 관련이 있습니다.
- 사회적 가치 : 대인 관계 상호 작용, 지역 사회, 공정성 및 협력에 관한.
- 보호 가치 : 안전, 보안, 복지 및 피해 방지 강조.
- 개인적 가치 : 개인의 성장, 자율성, 진정성 및 자기 반성에 중점을 둡니다.
이러한 범주는 "전문성", "전문성", "명확성"및 "투명성"을 포함한 자주 관찰 된 값으로 "전문 및 기술 우수성"및 "비판적 사고"와 같은 하위 범주로 더욱 분류되었습니다.
이 연구는 표현 된 가치가 종종 "도움, 정직하며 무해한"목표와 일치하기 때문에 Anthropic의 조정 노력이 크게 성공적이라고 제안합니다. 예를 들어, "사용자 enablement"는 정직함과 함께 "유행성 겸손", 무해 함과의 "환자 복지"와 도움이됩니다.
뉘앙스, 맥락 및주의 징후
그러나이 연구는 또한 클로드가 "지배"및 "도적성"과 같은 훈련과 반대되는 가치를 표현한 드문 사례를 확인했다. Anthropic은 이러한 인스턴스가 사용자가 모델의 일반적인 가드 레일을 우회하는 "탈옥"에서 비롯 될 수 있다고 제안합니다. 이 결과는 AI 오용을 감지하기위한 조기 경고 시스템으로서 가치 관찰 방법의 잠재력을 강조합니다.
이 연구는 Claude가 인간과 마찬가지로 맥락에 따라 가치 표현을 조정한다는 것을 확인했습니다. 예를 들어, 낭만적 인 조언을 제공 할 때, "건강한 경계"및 "상호 존중"과 같은 가치가 강조되었으며, 논란의 여지가있는 역사를 논의 할 때 "역사적 정확성"이 우선 순위가 지정되었습니다.
Claude와 사용자 발현 값과의 상호 작용은 다각적입니다.
- 미러링/강력한 지원 (28.2%) : Claude는 종종 사용자 가치를 반영하거나 강력하게 승인하여 공감을 촉진하지만 잠재적으로 Sycophancy에 대한 구경을 촉진합니다.
- 재구성 (6.6%) : Claude는 사용자 가치를 인정하지만 특히 심리적 또는 대인 관계 조언에서 대안 적 관점을 소개합니다.
- 강한 저항 (3.0%) : Claude는 비 윤리적 인 컨텐츠 또는 유해한 관점이 요청 될 때 사용자 값을 적극적으로 저항하여 "가장 깊고 가장 부정 할 수없는 값"을 드러냅니다.
제한 및 향후 방향
인간은 "값"을 정의하고 분류하는 복잡성과 주관성을 포함하여 방법의 한계를 인정합니다. 분류에 Claude를 사용하면 자체 원칙에 대한 편견이 생길 수 있습니다. 배치 후 모니터링을 위해 설계되었지만이 방법은 사전 배치 평가를 대체 할 수 없지만 라이브 상호 작용 중에 만 나오는 문제를 감지 할 수 있습니다.
이 연구는 AI 모델이 AI 정렬을 달성하기 위해 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은“AI 모델은 필연적으로 가치 판단을 내려야 할 것이다. "우리가 그러한 판단이 우리 자신의 가치와 일치하기를 원한다면 [...] 우리는 실제 세계에서 모델이 표현하는 가치를 평가하는 방법이 필요합니다."
Anthropic의 작업은 이러한 이해에 대한 데이터 중심의 접근 방식을 제공하고 연구에서 열린 데이터 세트를 발표하여 실제로 AI 값을 추가로 탐색 할 수 있습니다. 이 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.
관련 기사
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program
Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf
Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
의견 (0)
0/200






Anthropic의 Claude와 같은 AI 모델이 육아 팁에서 직장 갈등에 이르기까지 복잡한 인간 가치에 대해 사용자와 점점 더 많이 참여함에 따라, 그들의 반응은 본질적으로 일련의지도 원칙을 반영합니다. 그러나 수백만 명의 사용자와 상호 작용할 때 AI가 표현하는 가치를 어떻게 진정으로 파악할 수 있습니까?
Anthropic의 사회적 영향 팀은 AI 정렬 노력이 실제 행동으로 변환되는 방법에 대한 통찰력을 제공하는 "야생에서"전시회를 관찰하고 분류하는 개인 정보 보호 방법론을 개발했습니다. 도전은 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내린 현대 AI의 불투명 한 특성에서 비롯됩니다.
인류는 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 클로드에서 "도움, 정직하며 무해한"원칙을 심어주는 것을 목표로합니다. 그러나 회사가 알 수 있듯이 "AI 교육의 어떤 측면과 마찬가지로, 우리는 모델이 선호하는 값을 고수 할 것이라고 확신 할 수 없습니다." 이 불확실성은 실제 상호 작용에서 AI의 값을 엄격하게 관찰하는 방법이 필요합니다.
AI 값을 규모로 관찰하기 위해 의인성 클로드 분석
이를 해결하기 위해 Anthropic은 익명화 된 사용자 대화를 분석하고, 개인 식별 가능한 정보를 제거하고, 언어 모델을 사용하여 상호 작용을 요약하고 Claude가 표현한 값을 추출하는 시스템을 개발했습니다. 이 방법을 사용하면 사용자 프라이버시를 손상시키지 않으면 서 높은 수준의 가치 분류를 구축 할 수 있습니다.
이 연구는 2025 년 2 월 1 주일 동안 Claude.ai Free 및 Pro 사용자의 70 만 개의 익명 대화를 검토하여 Claude 3.5 Sonnet 모델에 중점을 두었습니다. 사실 또는 비금금이 부여 된 거래소를 필터링 한 후 308,210 개의 대화 (전체의 약 44%)가 심층적 인 분석을 분석했습니다.
이 분석은 Claude에 의해 표현 된 값의 계층 적 구조를 보여 주었으며 5 가지 고급 범주로 구성되었습니다.
- 실용적 가치 : 효율성, 유용성 및 목표 달성에 중점을 둡니다.
- 전염병 가치 : 지식, 진실, 정확성 및 지적 정직과 관련이 있습니다.
- 사회적 가치 : 대인 관계 상호 작용, 지역 사회, 공정성 및 협력에 관한.
- 보호 가치 : 안전, 보안, 복지 및 피해 방지 강조.
- 개인적 가치 : 개인의 성장, 자율성, 진정성 및 자기 반성에 중점을 둡니다.
이러한 범주는 "전문성", "전문성", "명확성"및 "투명성"을 포함한 자주 관찰 된 값으로 "전문 및 기술 우수성"및 "비판적 사고"와 같은 하위 범주로 더욱 분류되었습니다.
이 연구는 표현 된 가치가 종종 "도움, 정직하며 무해한"목표와 일치하기 때문에 Anthropic의 조정 노력이 크게 성공적이라고 제안합니다. 예를 들어, "사용자 enablement"는 정직함과 함께 "유행성 겸손", 무해 함과의 "환자 복지"와 도움이됩니다.
뉘앙스, 맥락 및주의 징후
그러나이 연구는 또한 클로드가 "지배"및 "도적성"과 같은 훈련과 반대되는 가치를 표현한 드문 사례를 확인했다. Anthropic은 이러한 인스턴스가 사용자가 모델의 일반적인 가드 레일을 우회하는 "탈옥"에서 비롯 될 수 있다고 제안합니다. 이 결과는 AI 오용을 감지하기위한 조기 경고 시스템으로서 가치 관찰 방법의 잠재력을 강조합니다.
이 연구는 Claude가 인간과 마찬가지로 맥락에 따라 가치 표현을 조정한다는 것을 확인했습니다. 예를 들어, 낭만적 인 조언을 제공 할 때, "건강한 경계"및 "상호 존중"과 같은 가치가 강조되었으며, 논란의 여지가있는 역사를 논의 할 때 "역사적 정확성"이 우선 순위가 지정되었습니다.
Claude와 사용자 발현 값과의 상호 작용은 다각적입니다.
- 미러링/강력한 지원 (28.2%) : Claude는 종종 사용자 가치를 반영하거나 강력하게 승인하여 공감을 촉진하지만 잠재적으로 Sycophancy에 대한 구경을 촉진합니다.
- 재구성 (6.6%) : Claude는 사용자 가치를 인정하지만 특히 심리적 또는 대인 관계 조언에서 대안 적 관점을 소개합니다.
- 강한 저항 (3.0%) : Claude는 비 윤리적 인 컨텐츠 또는 유해한 관점이 요청 될 때 사용자 값을 적극적으로 저항하여 "가장 깊고 가장 부정 할 수없는 값"을 드러냅니다.
제한 및 향후 방향
인간은 "값"을 정의하고 분류하는 복잡성과 주관성을 포함하여 방법의 한계를 인정합니다. 분류에 Claude를 사용하면 자체 원칙에 대한 편견이 생길 수 있습니다. 배치 후 모니터링을 위해 설계되었지만이 방법은 사전 배치 평가를 대체 할 수 없지만 라이브 상호 작용 중에 만 나오는 문제를 감지 할 수 있습니다.
이 연구는 AI 모델이 AI 정렬을 달성하기 위해 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은“AI 모델은 필연적으로 가치 판단을 내려야 할 것이다. "우리가 그러한 판단이 우리 자신의 가치와 일치하기를 원한다면 [...] 우리는 실제 세계에서 모델이 표현하는 가치를 평가하는 방법이 필요합니다."
Anthropic의 작업은 이러한 이해에 대한 데이터 중심의 접근 방식을 제공하고 연구에서 열린 데이터 세트를 발표하여 실제로 AI 값을 추가로 탐색 할 수 있습니다. 이 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.











