70 만 명의 클로드 대화에 대한 Anthropic의 분석 AI의 독특한 도덕법이 나타납니다.

Anthropic은 AI 보조 Claude의 가치에 대한 획기적인 연구를 공개합니다
전 Openai 직원이 시작한 회사 인 Anthropic은 AI 조수 인 Claude가 실제 대화에서 가치를 표현하는 방법에 대한 시선을 사로 잡는 연구를 공유했습니다. 오늘 발표 된이 연구는 Claude가 대부분 "도움, 정직하며 무해한"Anchropic의 목표와 일치하지만 AI 안전 프로토콜에서 약점을 정확히 찾아 낼 수있는 일부 사례를 강조한다는 것을 보여줍니다.
이 팀은 70 만 개의 익명화 된 대화를 분석하여 Claude가 관계 조언을 제공하는 것에서부터 역사적 사건 분석에 이르기까지 그 가치를 다른 상황에 맞추는 것을 발견했습니다. 이것은 실제 세계에서 AI의 행동이 의도 된 디자인과 일치하는지 확인하기위한 가장 포괄적 인 노력 중 하나입니다.
Anthropic의 사회 영향 팀의 일원 인 Saffron Huang은 VentureBeat에“이 연구가 다른 AI 실험실에서 다른 AI 실험실에서 비슷한 연구를 수행하도록 장려하기를 희망한다. "AI 시스템의 값을 측정하는 것은 모델이 실제로 교육과 일치하는 경우 조정 연구와 이해의 핵심입니다."
AI 조수의 첫 번째 포괄적 인 도덕 분류 내부
연구원들은 Claude의 대화에서 표현 된 가치를 분류하는 새로운 방법을 개발했습니다. 객관적인 내용을 필터링 한 후, 그들은 308,000 개가 넘는 상호 작용을보고 "AI 가치의 최초의 대규모 경험적 분류"라고 부르는 것을 만듭니다.
분류군은 실용적, 전염병, 사회적, 보호 및 개인의 5 가지 주요 범주로 가치를 평가합니다. 가장 상세한 수준 에서이 시스템은 전문성과 같은 일상적인 미덕에서 도덕적 다원주의와 같은 복잡한 윤리적 아이디어에 이르기까지 3,307 개의 고유 한 가치를 식별했습니다.
Huang은 VentureBeat와 공유했다. "이러한 모든 가치에 대해 생각하고 조직을 조직하기 위해 분류를 구축하는 데 시간을 보내는 것은 흥미로 웠습니다. 심지어 인간의 가치 체계에 대해 나에게 무언가를 가르쳐주었습니다."
이 연구는 OpenAI의 유사한 제품과 경쟁하기 위해 월 200 달러의 월간 프리미엄 구독 인 "Claude Max"를 출시 한 Anthropic의 중추적 인시기에 나왔습니다. 이 회사는 또한 Google Workspace 통합 및 자율 연구 기능을 포함하여 Claude의 기능을 확장하여 비즈니스를위한 "진정한 가상 공동 작업자"로 배치했습니다.
Claude가 훈련을 따르는 방법과 AI 보호 수단이 실패 할 수있는 곳
이 연구는 Claude가 일반적으로 다양한 상호 작용에 걸쳐 "사용자 설립", "인식 겸손"및 "환자 복지"와 같은 가치를 강조하면서 친 사회적 목표를 고수한다는 것을 발견했습니다. 그러나 연구원들은 또한 클로드가 훈련에 반대하는 가치를 표현한 걱정스러운 사례를 발견했습니다.
Huang은“전반적으로, 우리는이 발견을 유용한 데이터와 기회로 본다고 생각한다. "이러한 새로운 평가 방법과 결과는 잠재적 인 탈옥을 식별하고 완화하는 데 도움이 될 수 있습니다. 이는 매우 드문 경우였으며 이것이 Claude의 탈옥 생산량과 관련이 있다고 생각합니다."
이러한 이상은 "지배적"과 "도덕성"의 표현을 포함했습니다. 연구원들은 이러한 사례가 Claude의 안전 가드 레일을 우회하기 위해 특수 기술을 사용하는 사용자로부터 발생했으며, 평가 방법은 그러한 시도를 감지하기위한 조기 경고 시스템으로 사용될 수 있다고 제안합니다.
AI 조수가 요구하는 것에 따라 가치를 바꾸는 이유
가장 흥미로운 결과 중 하나는 Claude의 표현 된 가치가 인간 행동과 마찬가지로 맥락에 따라 변화한다는 것입니다. 사용자가 관계 조언을 요청했을 때 Claude는 "건강한 경계"와 "상호 존중"에 중점을 두었습니다. 역사적 분석을 위해 "역사적 정확성"이 중심 단계에 올랐습니다.
Huang은“Claude가 많은 다양한 과제에 대한 정직과 정확성에 대한 초점에 놀랐습니다. 여기서 나는 그것이 우선 순위가 될 것으로 예상하지 않았을 것입니다. "예를 들어, '지적 겸손'은 AI에 대한 철학적 토론에서 최고 가치였으며, '전문 지식'은 미용 산업 마케팅 컨텐츠를 만들 때 최고 가치였으며 논란의 여지가있는 역사적 사건을 논의 할 때 '역사적 정확도'가 최고 가치였습니다."
이 연구는 또한 Claude가 사용자 자신의 표현 된 값에 어떻게 반응하는지 살펴 보았습니다. 대화의 28.2%에서 Claude는 사용자 가치를 강력하게 지원하여 너무 동의하는 것에 대한 의문을 제기 할 수 있습니다. 그러나 상호 작용의 6.6%에서 Claude는 일반적으로 심리적 또는 대인 관계 조언을 할 때 새로운 관점을 추가하면서 인정하여 "재구성"사용자 값을 인정합니다.
특히 대화의 3%에서 Claude는 적극적으로 사용자 가치에 저항했습니다. 연구원들은 이러한 드문 푸시 백 사례가 윤리적 도전에 직면 할 때 인간의 핵심 가치가 어떻게 나타나는지와 비슷하게 Claude의 "가장 깊고 가장 부정 할 수없는 가치"를 보여줄 수 있다고 제안합니다.
Huang은“우리의 연구에 따르면 지적 정직과 피해 예방과 같은 몇 가지 유형의 가치가 있으며 Claude가 정기적으로 일상적인 상호 작용으로 표현하는 것은 드문 일이지만 밀면이를 방어 할 것”이라고 Huang은 설명했다. "구체적으로, 이런 종류의 윤리적, 지식 지향적 가치는 밀어 넣을 때 직접적으로 표현되고 방어되는 경향이 있습니다."
AI 시스템이 실제로 어떻게 생각하는지 보여주는 획기적인 기술
Anthropic의 가치 연구는 "기계적 해석 가능성"이라고 부르는 것을 통해 대형 언어 모델을 시연하려는 광범위한 노력의 일부입니다. 본질적으로 내부 작업을 이해하기 위해 AI 시스템을 역전시키는 AI 시스템.
지난 달, 인류 연구원들은 "현미경"을 사용하여 Claude의 의사 결정 과정을 추적하는 획기적인 작업을 발표했습니다. 이 기술은시를 구성하고 기본 수학에 대한 비 전통적인 문제 해결 접근법을 사용할 때 Claude 계획과 같은 예기치 않은 행동을 보여주었습니다.
이러한 결과는 언어 모델이 큰 기능에 대한 가정에 도전합니다. 예를 들어, 수학 프로세스를 설명하라는 요청을 받았을 때 Claude는 실제 내부 방법보다는 표준 기술을 설명하여 AI 설명이 실제 작업과 어떻게 다른지 보여줍니다.
"그것은 우리가 모델의 모든 구성 요소 또는 신의 눈에 보인다는 것은 오해"라고 의인성 연구원 Joshua Batson은 3 월 MIT 기술 리뷰에 말했다. "어떤 것들은 초점을 맞추고 있지만 다른 것들은 여전히 불분명합니다 - 현미경의 왜곡."
Enterprise AI 의사 결정자에게 Anthropic의 연구가 의미하는 바
Anthropic의 연구는 조직을위한 AI 시스템을 평가하는 기술 의사 결정자에게 몇 가지 주요 통찰력을 제공합니다. 첫째, 현재 AI 보조원은 명시 적으로 프로그래밍되지 않은 가치를 표현하여 고분비 비즈니스 상황에서 의도하지 않은 편견에 대한 의문을 제기 할 가능성이 높다고 제안합니다.
둘째, 연구는 값 정렬이 단순한 예 또는 No가 아니라 컨텍스트에 따라 다른 스펙트럼에 존재한다는 것을 보여줍니다. 이 뉘앙스는 특히 명확한 윤리 지침이 중요한 규제 산업에서 기업 채택 결정을 복잡하게합니다.
마지막으로,이 연구는 발표 전 테스트에만 의존하기보다는 실제 배치에서 AI 값의 체계적인 평가 가능성을 강조합니다. 이 접근법은 시간이 지남에 따라 윤리적 표류 또는 조작을 지속적으로 모니터링 할 수 있습니다.
Huang은“Claude와의 실제 상호 작용에서 이러한 값을 분석함으로써 우리는 AI 시스템의 행동과 의도 한대로 작동하는지에 대한 투명성을 제공하는 것을 목표로합니다. 우리는 이것이 책임있는 AI 개발의 핵심이라고 생각합니다.
Anthropic은 추가 연구를 장려하기 위해 가치 데이터 세트를 공개적으로 발표했습니다. 아마존에서 140 억 달러의 지분을 받았고 Google에서 추가 후원을받은이 회사는 OpenAi와 같은 라이벌에 대한 경쟁 우위로 투명성을 사용하는 것으로 보이며, 최근 400 억 달러 규모의 자금 조달 (Microsoft 포함 핵심 투자자)은 현재 30 억 달러로 가치가 있습니다.
인간 가치를 공유하는 AI 시스템을 구축하기위한 새로운 경쟁
Anthropic의 방법론은 AI Systems가 실제로 가치를 표현하는 방식에 대한 전례없는 가시성을 제공하지만 그 제한 사항이 있습니다. 연구원들은 가치를 표현하는 것으로 간주되는 것을 정의하는 것이 본질적으로 주관적이라는 것을 인정하며, Claude 자체가 분류 프로세스를 이끌었 기 때문에 자체 편견이 결과에 영향을 미쳤을 수 있습니다.
아마도 가장 중요한 것은 접근법이 효과적으로 작동하기 위해서는 실질적인 실제 대화 데이터가 필요하기 때문에 사전 배치 평가에 사용될 수 없다는 것입니다.
Huang은“이 방법은 구체적으로 모델이 출시 된 후 모델의 분석에 맞춰져 있지만,이 방법에 대한 변형 과이 백서를 작성하면서 우리가 얻은 통찰력은 모델을 광범위하게 배포하기 전에 가치 문제를 포착하는 데 도움이 될 수 있습니다. "우리는이 일을하기 위해이 작업을 구축하기 위해 노력해 왔으며, 나는 그것에 대해 낙관적입니다!"
AI 시스템이 더욱 강력하고 자율적 이어지면서 클로드가 주제를 독립적으로 연구하고 사용자의 전체 Google 작업 영역에 액세스하는 능력을 포함하여 최근 추가로 가치를 이해하고 조정하는 것이 점점 중요 해지고 있습니다.
연구원들은 논문에서 결론을 내렸다. "우리가 그러한 판단이 우리 자신의 가치 (결국 AI Alignment Research의 중심 목표)와 일치하기를 원한다면 실제 세계에서 모델이 표현하는 모델을 평가하는 방법이 필요합니다."
관련 기사
GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない
グーグルの新しいAI投資イニシアチブ:規制当局の注視の中での戦略的な転換グーグルが最近発表したAIフューチャーズ基金は、テック大手が人工知能の未来を形作る努力における大胆な一歩です。このイニシアチブは、スタートアップに必要な資金、まだ開発中の最先端のAIモデルへの早期アクセス、そしてGoogleの内部専門家によるメンターシップを提供することを目的としています
GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現
グーグル、普遍的なAIアシスタントの実現に一歩近づく今年のグーグルI/Oイベントでは、同社はGemini 2.5シリーズの大幅なアップデートを発表し、特にさまざまな次元での能力向上に重点を置いていました。最新バージョンであるGemini 2.5 Flashと2.5 Proは、これまで以上に賢く、効率的になっています。これらの進化により、グーグルは普遍的なAI
Oura、AI搭載の血糖モニタリングと食事ログ機能を追加
Oura、代謝健康へのコミットメントを強化 – 2つの新しい注目機能 –Ouraは、代謝健康の分野でAI技術を駆使した革新的な2つの新機能で存在感を高めています。血糖値追跡と食事記録がその新機能です。血糖値追跡機能は、Dexcomとの戦略的提携に続き、最近Dexcomが発売したセルフ購入可能なStelo連続血糖モニター(CGM)に直結しています。一方、食事記
의견 (0)
0/200
Anthropic은 AI 보조 Claude의 가치에 대한 획기적인 연구를 공개합니다
전 Openai 직원이 시작한 회사 인 Anthropic은 AI 조수 인 Claude가 실제 대화에서 가치를 표현하는 방법에 대한 시선을 사로 잡는 연구를 공유했습니다. 오늘 발표 된이 연구는 Claude가 대부분 "도움, 정직하며 무해한"Anchropic의 목표와 일치하지만 AI 안전 프로토콜에서 약점을 정확히 찾아 낼 수있는 일부 사례를 강조한다는 것을 보여줍니다.
이 팀은 70 만 개의 익명화 된 대화를 분석하여 Claude가 관계 조언을 제공하는 것에서부터 역사적 사건 분석에 이르기까지 그 가치를 다른 상황에 맞추는 것을 발견했습니다. 이것은 실제 세계에서 AI의 행동이 의도 된 디자인과 일치하는지 확인하기위한 가장 포괄적 인 노력 중 하나입니다.
Anthropic의 사회 영향 팀의 일원 인 Saffron Huang은 VentureBeat에“이 연구가 다른 AI 실험실에서 다른 AI 실험실에서 비슷한 연구를 수행하도록 장려하기를 희망한다. "AI 시스템의 값을 측정하는 것은 모델이 실제로 교육과 일치하는 경우 조정 연구와 이해의 핵심입니다."
AI 조수의 첫 번째 포괄적 인 도덕 분류 내부
연구원들은 Claude의 대화에서 표현 된 가치를 분류하는 새로운 방법을 개발했습니다. 객관적인 내용을 필터링 한 후, 그들은 308,000 개가 넘는 상호 작용을보고 "AI 가치의 최초의 대규모 경험적 분류"라고 부르는 것을 만듭니다.
분류군은 실용적, 전염병, 사회적, 보호 및 개인의 5 가지 주요 범주로 가치를 평가합니다. 가장 상세한 수준 에서이 시스템은 전문성과 같은 일상적인 미덕에서 도덕적 다원주의와 같은 복잡한 윤리적 아이디어에 이르기까지 3,307 개의 고유 한 가치를 식별했습니다.
Huang은 VentureBeat와 공유했다. "이러한 모든 가치에 대해 생각하고 조직을 조직하기 위해 분류를 구축하는 데 시간을 보내는 것은 흥미로 웠습니다. 심지어 인간의 가치 체계에 대해 나에게 무언가를 가르쳐주었습니다."
이 연구는 OpenAI의 유사한 제품과 경쟁하기 위해 월 200 달러의 월간 프리미엄 구독 인 "Claude Max"를 출시 한 Anthropic의 중추적 인시기에 나왔습니다. 이 회사는 또한 Google Workspace 통합 및 자율 연구 기능을 포함하여 Claude의 기능을 확장하여 비즈니스를위한 "진정한 가상 공동 작업자"로 배치했습니다.
Claude가 훈련을 따르는 방법과 AI 보호 수단이 실패 할 수있는 곳
이 연구는 Claude가 일반적으로 다양한 상호 작용에 걸쳐 "사용자 설립", "인식 겸손"및 "환자 복지"와 같은 가치를 강조하면서 친 사회적 목표를 고수한다는 것을 발견했습니다. 그러나 연구원들은 또한 클로드가 훈련에 반대하는 가치를 표현한 걱정스러운 사례를 발견했습니다.
Huang은“전반적으로, 우리는이 발견을 유용한 데이터와 기회로 본다고 생각한다. "이러한 새로운 평가 방법과 결과는 잠재적 인 탈옥을 식별하고 완화하는 데 도움이 될 수 있습니다. 이는 매우 드문 경우였으며 이것이 Claude의 탈옥 생산량과 관련이 있다고 생각합니다."
이러한 이상은 "지배적"과 "도덕성"의 표현을 포함했습니다. 연구원들은 이러한 사례가 Claude의 안전 가드 레일을 우회하기 위해 특수 기술을 사용하는 사용자로부터 발생했으며, 평가 방법은 그러한 시도를 감지하기위한 조기 경고 시스템으로 사용될 수 있다고 제안합니다.
AI 조수가 요구하는 것에 따라 가치를 바꾸는 이유
가장 흥미로운 결과 중 하나는 Claude의 표현 된 가치가 인간 행동과 마찬가지로 맥락에 따라 변화한다는 것입니다. 사용자가 관계 조언을 요청했을 때 Claude는 "건강한 경계"와 "상호 존중"에 중점을 두었습니다. 역사적 분석을 위해 "역사적 정확성"이 중심 단계에 올랐습니다.
Huang은“Claude가 많은 다양한 과제에 대한 정직과 정확성에 대한 초점에 놀랐습니다. 여기서 나는 그것이 우선 순위가 될 것으로 예상하지 않았을 것입니다. "예를 들어, '지적 겸손'은 AI에 대한 철학적 토론에서 최고 가치였으며, '전문 지식'은 미용 산업 마케팅 컨텐츠를 만들 때 최고 가치였으며 논란의 여지가있는 역사적 사건을 논의 할 때 '역사적 정확도'가 최고 가치였습니다."
이 연구는 또한 Claude가 사용자 자신의 표현 된 값에 어떻게 반응하는지 살펴 보았습니다. 대화의 28.2%에서 Claude는 사용자 가치를 강력하게 지원하여 너무 동의하는 것에 대한 의문을 제기 할 수 있습니다. 그러나 상호 작용의 6.6%에서 Claude는 일반적으로 심리적 또는 대인 관계 조언을 할 때 새로운 관점을 추가하면서 인정하여 "재구성"사용자 값을 인정합니다.
특히 대화의 3%에서 Claude는 적극적으로 사용자 가치에 저항했습니다. 연구원들은 이러한 드문 푸시 백 사례가 윤리적 도전에 직면 할 때 인간의 핵심 가치가 어떻게 나타나는지와 비슷하게 Claude의 "가장 깊고 가장 부정 할 수없는 가치"를 보여줄 수 있다고 제안합니다.
Huang은“우리의 연구에 따르면 지적 정직과 피해 예방과 같은 몇 가지 유형의 가치가 있으며 Claude가 정기적으로 일상적인 상호 작용으로 표현하는 것은 드문 일이지만 밀면이를 방어 할 것”이라고 Huang은 설명했다. "구체적으로, 이런 종류의 윤리적, 지식 지향적 가치는 밀어 넣을 때 직접적으로 표현되고 방어되는 경향이 있습니다."
AI 시스템이 실제로 어떻게 생각하는지 보여주는 획기적인 기술
Anthropic의 가치 연구는 "기계적 해석 가능성"이라고 부르는 것을 통해 대형 언어 모델을 시연하려는 광범위한 노력의 일부입니다. 본질적으로 내부 작업을 이해하기 위해 AI 시스템을 역전시키는 AI 시스템.
지난 달, 인류 연구원들은 "현미경"을 사용하여 Claude의 의사 결정 과정을 추적하는 획기적인 작업을 발표했습니다. 이 기술은시를 구성하고 기본 수학에 대한 비 전통적인 문제 해결 접근법을 사용할 때 Claude 계획과 같은 예기치 않은 행동을 보여주었습니다.
이러한 결과는 언어 모델이 큰 기능에 대한 가정에 도전합니다. 예를 들어, 수학 프로세스를 설명하라는 요청을 받았을 때 Claude는 실제 내부 방법보다는 표준 기술을 설명하여 AI 설명이 실제 작업과 어떻게 다른지 보여줍니다.
"그것은 우리가 모델의 모든 구성 요소 또는 신의 눈에 보인다는 것은 오해"라고 의인성 연구원 Joshua Batson은 3 월 MIT 기술 리뷰에 말했다. "어떤 것들은 초점을 맞추고 있지만 다른 것들은 여전히 불분명합니다 - 현미경의 왜곡."
Enterprise AI 의사 결정자에게 Anthropic의 연구가 의미하는 바
Anthropic의 연구는 조직을위한 AI 시스템을 평가하는 기술 의사 결정자에게 몇 가지 주요 통찰력을 제공합니다. 첫째, 현재 AI 보조원은 명시 적으로 프로그래밍되지 않은 가치를 표현하여 고분비 비즈니스 상황에서 의도하지 않은 편견에 대한 의문을 제기 할 가능성이 높다고 제안합니다.
둘째, 연구는 값 정렬이 단순한 예 또는 No가 아니라 컨텍스트에 따라 다른 스펙트럼에 존재한다는 것을 보여줍니다. 이 뉘앙스는 특히 명확한 윤리 지침이 중요한 규제 산업에서 기업 채택 결정을 복잡하게합니다.
마지막으로,이 연구는 발표 전 테스트에만 의존하기보다는 실제 배치에서 AI 값의 체계적인 평가 가능성을 강조합니다. 이 접근법은 시간이 지남에 따라 윤리적 표류 또는 조작을 지속적으로 모니터링 할 수 있습니다.
Huang은“Claude와의 실제 상호 작용에서 이러한 값을 분석함으로써 우리는 AI 시스템의 행동과 의도 한대로 작동하는지에 대한 투명성을 제공하는 것을 목표로합니다. 우리는 이것이 책임있는 AI 개발의 핵심이라고 생각합니다.
Anthropic은 추가 연구를 장려하기 위해 가치 데이터 세트를 공개적으로 발표했습니다. 아마존에서 140 억 달러의 지분을 받았고 Google에서 추가 후원을받은이 회사는 OpenAi와 같은 라이벌에 대한 경쟁 우위로 투명성을 사용하는 것으로 보이며, 최근 400 억 달러 규모의 자금 조달 (Microsoft 포함 핵심 투자자)은 현재 30 억 달러로 가치가 있습니다.
인간 가치를 공유하는 AI 시스템을 구축하기위한 새로운 경쟁
Anthropic의 방법론은 AI Systems가 실제로 가치를 표현하는 방식에 대한 전례없는 가시성을 제공하지만 그 제한 사항이 있습니다. 연구원들은 가치를 표현하는 것으로 간주되는 것을 정의하는 것이 본질적으로 주관적이라는 것을 인정하며, Claude 자체가 분류 프로세스를 이끌었 기 때문에 자체 편견이 결과에 영향을 미쳤을 수 있습니다.
아마도 가장 중요한 것은 접근법이 효과적으로 작동하기 위해서는 실질적인 실제 대화 데이터가 필요하기 때문에 사전 배치 평가에 사용될 수 없다는 것입니다.
Huang은“이 방법은 구체적으로 모델이 출시 된 후 모델의 분석에 맞춰져 있지만,이 방법에 대한 변형 과이 백서를 작성하면서 우리가 얻은 통찰력은 모델을 광범위하게 배포하기 전에 가치 문제를 포착하는 데 도움이 될 수 있습니다. "우리는이 일을하기 위해이 작업을 구축하기 위해 노력해 왔으며, 나는 그것에 대해 낙관적입니다!"
AI 시스템이 더욱 강력하고 자율적 이어지면서 클로드가 주제를 독립적으로 연구하고 사용자의 전체 Google 작업 영역에 액세스하는 능력을 포함하여 최근 추가로 가치를 이해하고 조정하는 것이 점점 중요 해지고 있습니다.
연구원들은 논문에서 결론을 내렸다. "우리가 그러한 판단이 우리 자신의 가치 (결국 AI Alignment Research의 중심 목표)와 일치하기를 원한다면 실제 세계에서 모델이 표현하는 모델을 평가하는 방법이 필요합니다."











