AI는 어떻게 판사합니까? 인류 연구 클로드의 가치

Anthropic의 Claude와 같은 AI 모델이 육아 팁에서 직장 갈등에 이르기까지 복잡한 인간 가치에 대해 사용자와 점점 더 많이 참여함에 따라, 그들의 반응은 본질적으로 일련의지도 원칙을 반영합니다. 그러나 수백만 명의 사용자와 상호 작용할 때 AI가 표현하는 가치를 어떻게 진정으로 파악할 수 있습니까?
Anthropic의 사회적 영향 팀은 AI 정렬 노력이 실제 행동으로 변환되는 방법에 대한 통찰력을 제공하는 "야생에서"전시회를 관찰하고 분류하는 개인 정보 보호 방법론을 개발했습니다. 도전은 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내린 현대 AI의 불투명 한 특성에서 비롯됩니다.
인류는 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 클로드에서 "도움, 정직하며 무해한"원칙을 심어주는 것을 목표로합니다. 그러나 회사가 알 수 있듯이 "AI 교육의 어떤 측면과 마찬가지로, 우리는 모델이 선호하는 값을 고수 할 것이라고 확신 할 수 없습니다." 이 불확실성은 실제 상호 작용에서 AI의 값을 엄격하게 관찰하는 방법이 필요합니다.
AI 값을 규모로 관찰하기 위해 의인성 클로드 분석
이를 해결하기 위해 Anthropic은 익명화 된 사용자 대화를 분석하고, 개인 식별 가능한 정보를 제거하고, 언어 모델을 사용하여 상호 작용을 요약하고 Claude가 표현한 값을 추출하는 시스템을 개발했습니다. 이 방법을 사용하면 사용자 프라이버시를 손상시키지 않으면 서 높은 수준의 가치 분류를 구축 할 수 있습니다.
이 연구는 2025 년 2 월 1 주일 동안 Claude.ai Free 및 Pro 사용자의 70 만 개의 익명 대화를 검토하여 Claude 3.5 Sonnet 모델에 중점을 두었습니다. 사실 또는 비금금이 부여 된 거래소를 필터링 한 후 308,210 개의 대화 (전체의 약 44%)가 심층적 인 분석을 분석했습니다.
이 분석은 Claude에 의해 표현 된 값의 계층 적 구조를 보여 주었으며 5 가지 고급 범주로 구성되었습니다.
- 실용적 가치 : 효율성, 유용성 및 목표 달성에 중점을 둡니다.
- 전염병 가치 : 지식, 진실, 정확성 및 지적 정직과 관련이 있습니다.
- 사회적 가치 : 대인 관계 상호 작용, 지역 사회, 공정성 및 협력에 관한.
- 보호 가치 : 안전, 보안, 복지 및 피해 방지 강조.
- 개인적 가치 : 개인의 성장, 자율성, 진정성 및 자기 반성에 중점을 둡니다.
이러한 범주는 "전문성", "전문성", "명확성"및 "투명성"을 포함한 자주 관찰 된 값으로 "전문 및 기술 우수성"및 "비판적 사고"와 같은 하위 범주로 더욱 분류되었습니다.
이 연구는 표현 된 가치가 종종 "도움, 정직하며 무해한"목표와 일치하기 때문에 Anthropic의 조정 노력이 크게 성공적이라고 제안합니다. 예를 들어, "사용자 enablement"는 정직함과 함께 "유행성 겸손", 무해 함과의 "환자 복지"와 도움이됩니다.
뉘앙스, 맥락 및주의 징후
그러나이 연구는 또한 클로드가 "지배"및 "도적성"과 같은 훈련과 반대되는 가치를 표현한 드문 사례를 확인했다. Anthropic은 이러한 인스턴스가 사용자가 모델의 일반적인 가드 레일을 우회하는 "탈옥"에서 비롯 될 수 있다고 제안합니다. 이 결과는 AI 오용을 감지하기위한 조기 경고 시스템으로서 가치 관찰 방법의 잠재력을 강조합니다.
이 연구는 Claude가 인간과 마찬가지로 맥락에 따라 가치 표현을 조정한다는 것을 확인했습니다. 예를 들어, 낭만적 인 조언을 제공 할 때, "건강한 경계"및 "상호 존중"과 같은 가치가 강조되었으며, 논란의 여지가있는 역사를 논의 할 때 "역사적 정확성"이 우선 순위가 지정되었습니다.
Claude와 사용자 발현 값과의 상호 작용은 다각적입니다.
- 미러링/강력한 지원 (28.2%) : Claude는 종종 사용자 가치를 반영하거나 강력하게 승인하여 공감을 촉진하지만 잠재적으로 Sycophancy에 대한 구경을 촉진합니다.
- 재구성 (6.6%) : Claude는 사용자 가치를 인정하지만 특히 심리적 또는 대인 관계 조언에서 대안 적 관점을 소개합니다.
- 강한 저항 (3.0%) : Claude는 비 윤리적 인 컨텐츠 또는 유해한 관점이 요청 될 때 사용자 값을 적극적으로 저항하여 "가장 깊고 가장 부정 할 수없는 값"을 드러냅니다.
제한 및 향후 방향
인간은 "값"을 정의하고 분류하는 복잡성과 주관성을 포함하여 방법의 한계를 인정합니다. 분류에 Claude를 사용하면 자체 원칙에 대한 편견이 생길 수 있습니다. 배치 후 모니터링을 위해 설계되었지만이 방법은 사전 배치 평가를 대체 할 수 없지만 라이브 상호 작용 중에 만 나오는 문제를 감지 할 수 있습니다.
이 연구는 AI 모델이 AI 정렬을 달성하기 위해 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은“AI 모델은 필연적으로 가치 판단을 내려야 할 것이다. "우리가 그러한 판단이 우리 자신의 가치와 일치하기를 원한다면 [...] 우리는 실제 세계에서 모델이 표현하는 가치를 평가하는 방법이 필요합니다."
Anthropic의 작업은 이러한 이해에 대한 데이터 중심의 접근 방식을 제공하고 연구에서 열린 데이터 세트를 발표하여 실제로 AI 값을 추가로 탐색 할 수 있습니다. 이 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.
관련 기사
億萬富翁討論自動化取代工作在本週的AI更新中
大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具
NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事
Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
의견 (0)
0/200
Anthropic의 Claude와 같은 AI 모델이 육아 팁에서 직장 갈등에 이르기까지 복잡한 인간 가치에 대해 사용자와 점점 더 많이 참여함에 따라, 그들의 반응은 본질적으로 일련의지도 원칙을 반영합니다. 그러나 수백만 명의 사용자와 상호 작용할 때 AI가 표현하는 가치를 어떻게 진정으로 파악할 수 있습니까?
Anthropic의 사회적 영향 팀은 AI 정렬 노력이 실제 행동으로 변환되는 방법에 대한 통찰력을 제공하는 "야생에서"전시회를 관찰하고 분류하는 개인 정보 보호 방법론을 개발했습니다. 도전은 엄격한 규칙을 따르지 않고 복잡한 프로세스를 통해 결정을 내린 현대 AI의 불투명 한 특성에서 비롯됩니다.
인류는 헌법 AI 및 캐릭터 훈련과 같은 기술을 통해 클로드에서 "도움, 정직하며 무해한"원칙을 심어주는 것을 목표로합니다. 그러나 회사가 알 수 있듯이 "AI 교육의 어떤 측면과 마찬가지로, 우리는 모델이 선호하는 값을 고수 할 것이라고 확신 할 수 없습니다." 이 불확실성은 실제 상호 작용에서 AI의 값을 엄격하게 관찰하는 방법이 필요합니다.
AI 값을 규모로 관찰하기 위해 의인성 클로드 분석
이를 해결하기 위해 Anthropic은 익명화 된 사용자 대화를 분석하고, 개인 식별 가능한 정보를 제거하고, 언어 모델을 사용하여 상호 작용을 요약하고 Claude가 표현한 값을 추출하는 시스템을 개발했습니다. 이 방법을 사용하면 사용자 프라이버시를 손상시키지 않으면 서 높은 수준의 가치 분류를 구축 할 수 있습니다.
이 연구는 2025 년 2 월 1 주일 동안 Claude.ai Free 및 Pro 사용자의 70 만 개의 익명 대화를 검토하여 Claude 3.5 Sonnet 모델에 중점을 두었습니다. 사실 또는 비금금이 부여 된 거래소를 필터링 한 후 308,210 개의 대화 (전체의 약 44%)가 심층적 인 분석을 분석했습니다.
이 분석은 Claude에 의해 표현 된 값의 계층 적 구조를 보여 주었으며 5 가지 고급 범주로 구성되었습니다.
- 실용적 가치 : 효율성, 유용성 및 목표 달성에 중점을 둡니다.
- 전염병 가치 : 지식, 진실, 정확성 및 지적 정직과 관련이 있습니다.
- 사회적 가치 : 대인 관계 상호 작용, 지역 사회, 공정성 및 협력에 관한.
- 보호 가치 : 안전, 보안, 복지 및 피해 방지 강조.
- 개인적 가치 : 개인의 성장, 자율성, 진정성 및 자기 반성에 중점을 둡니다.
이러한 범주는 "전문성", "전문성", "명확성"및 "투명성"을 포함한 자주 관찰 된 값으로 "전문 및 기술 우수성"및 "비판적 사고"와 같은 하위 범주로 더욱 분류되었습니다.
이 연구는 표현 된 가치가 종종 "도움, 정직하며 무해한"목표와 일치하기 때문에 Anthropic의 조정 노력이 크게 성공적이라고 제안합니다. 예를 들어, "사용자 enablement"는 정직함과 함께 "유행성 겸손", 무해 함과의 "환자 복지"와 도움이됩니다.
뉘앙스, 맥락 및주의 징후
그러나이 연구는 또한 클로드가 "지배"및 "도적성"과 같은 훈련과 반대되는 가치를 표현한 드문 사례를 확인했다. Anthropic은 이러한 인스턴스가 사용자가 모델의 일반적인 가드 레일을 우회하는 "탈옥"에서 비롯 될 수 있다고 제안합니다. 이 결과는 AI 오용을 감지하기위한 조기 경고 시스템으로서 가치 관찰 방법의 잠재력을 강조합니다.
이 연구는 Claude가 인간과 마찬가지로 맥락에 따라 가치 표현을 조정한다는 것을 확인했습니다. 예를 들어, 낭만적 인 조언을 제공 할 때, "건강한 경계"및 "상호 존중"과 같은 가치가 강조되었으며, 논란의 여지가있는 역사를 논의 할 때 "역사적 정확성"이 우선 순위가 지정되었습니다.
Claude와 사용자 발현 값과의 상호 작용은 다각적입니다.
- 미러링/강력한 지원 (28.2%) : Claude는 종종 사용자 가치를 반영하거나 강력하게 승인하여 공감을 촉진하지만 잠재적으로 Sycophancy에 대한 구경을 촉진합니다.
- 재구성 (6.6%) : Claude는 사용자 가치를 인정하지만 특히 심리적 또는 대인 관계 조언에서 대안 적 관점을 소개합니다.
- 강한 저항 (3.0%) : Claude는 비 윤리적 인 컨텐츠 또는 유해한 관점이 요청 될 때 사용자 값을 적극적으로 저항하여 "가장 깊고 가장 부정 할 수없는 값"을 드러냅니다.
제한 및 향후 방향
인간은 "값"을 정의하고 분류하는 복잡성과 주관성을 포함하여 방법의 한계를 인정합니다. 분류에 Claude를 사용하면 자체 원칙에 대한 편견이 생길 수 있습니다. 배치 후 모니터링을 위해 설계되었지만이 방법은 사전 배치 평가를 대체 할 수 없지만 라이브 상호 작용 중에 만 나오는 문제를 감지 할 수 있습니다.
이 연구는 AI 모델이 AI 정렬을 달성하기 위해 표현하는 가치를 이해하는 것의 중요성을 강조합니다. 논문은“AI 모델은 필연적으로 가치 판단을 내려야 할 것이다. "우리가 그러한 판단이 우리 자신의 가치와 일치하기를 원한다면 [...] 우리는 실제 세계에서 모델이 표현하는 가치를 평가하는 방법이 필요합니다."
Anthropic의 작업은 이러한 이해에 대한 데이터 중심의 접근 방식을 제공하고 연구에서 열린 데이터 세트를 발표하여 실제로 AI 값을 추가로 탐색 할 수 있습니다. 이 투명성은 정교한 AI의 윤리적 환경을 탐색하는 데 중요한 단계입니다.











