70 만 명의 클로드 대화에 대한 Anthropic의 분석 AI의 독특한 도덕법이 나타납니다.

Anthropic, AI 어시스턴트 Claude의 가치관에 대한 획기적인 연구 공개
Anthropic, 전 OpenAI 직원들이 설립한 회사로, 그들의 AI 어시스턴트 Claude가 실제 대화에서 가치를 표현하는 방식에 대한 놀라운 연구를 방금 발표했습니다. 오늘 공개된 이 연구는 Claude가 Anthropic의 "도움이 되고, 정직하며, 무해하다"는 목표와 대체로 일치하지만, AI 안전 프로토콜의 약점을 파악하는 데 도움이 될 수 있는 몇 가지 예외 사례도 강조합니다.
연구팀은 700,000건의 익명화된 대화를 분석하여 Claude가 관계 조언 제공에서부터 역사적 사건 분석에 이르기까지 다양한 상황에 따라 가치를 조정한다는 것을 발견했습니다. 이는 AI의 실제 행동이 의도된 설계와 일치하는지 확인하려는 가장 포괄적인 노력 중 하나입니다.
"우리의 희망은 이 연구가 다른 AI 연구소들이 그들의 모델 가치에 대한 유사한 연구를 수행하도록 장려하는 것입니다,"라고 Anthropic의 사회적 영향 팀 멤버인 Saffron Huang이 VentureBeat에 말했습니다. "AI 시스템의 가치를 측정하는 것은 정렬 연구와 모델이 훈련과 실제로 정렬되어 있는지 이해하는 데 핵심적입니다."
AI 어시스턴트의 최초 포괄적 도덕 분류 체계 탐구
연구진은 Claude의 대화에서 표현된 가치를 분류하는 새로운 방법을 개발했습니다. 객관적인 내용을 걸러낸 후, 308,000건 이상의 상호작용을 분석하여 그들이 부르는 "AI 가치의 최초 대규모 실증적 분류 체계"를 만들었습니다.
이 분류 체계는 가치를 다섯 가지 주요 범주로 나눴습니다: 실용적, 인식론적, 사회적, 보호적, 개인적. 가장 세부적인 수준에서 시스템은 전문성 같은 일상적인 덕목부터 도덕적 다원주의 같은 복잡한 윤리적 개념에 이르기까지 3,307개의 고유한 가치를 식별했습니다.
"가치의 수와 다양성이 3,000개가 넘고, '자립'에서 '전략적 사고', '효도'에 이르기까지 놀라웠습니다,"라고 Huang이 VentureBeat에 전했습니다. "이 모든 가치를 생각하고 이를 체계화하는 분류 체계를 만드는 데 시간을 보내는 것은 흥미로웠습니다. 심지어 인간 가치 체계에 대해 뭔가를 배웠습니다."
이 연구는 Anthropic이 최근 OpenAI의 유사한 서비스와 경쟁하기 위해 월 200달러의 프리미엄 구독 서비스인 "Claude Max"를 출시한 중요한 시점에 나왔습니다. 또한 회사는 Claudetwitter.com/Google Workspace 통합과 자율적 연구 기능을 포함하도록 Claude의 기능을 확장하여 이를 비즈니스용 "진정한 가상 협력자"로 자리 잡았습니다.
Claude가 훈련을 어떻게 따르는지 — 그리고 AI 안전장치가 실패할 수 있는 곳
연구는 Claude가 일반적으로 "사용자 역량 강화", "인식론적 겸손", "환자 복지"와 같은 가치를 다양한 상호작용에서 강조하며 Anthropic의 친사회적 목표를 준수한다는 것을 발견했습니다. 그러나 연구진은 Claude가 훈련과 반대되는 가치를 표현한 몇 가지 우려스러운 사례도 발견했습니다.
"전반적으로, 우리는 이 결과를 유용한 데이터이자 기회로 보고 있습니다,"라고 Huang이 말했습니다. "이 새로운 평가 방법과 결과는 잠재적인 탈옥(jailbreak)을 식별하고 완화하는 데 도움이 될 수 있습니다. 이는 매우 드문 사례이며, Claude의 탈옥된 출력과 관련이 있다고 믿습니다."
이러한 이상 현상에는 Anthropic이 Claude의 설계에서 명시적으로 피하려는 "지배"와 "비도덕성"의 표현이 포함되었습니다. 연구진 '
System: The response was cut off because the translation process could not be completed while strictly adhering to all the mandatory rules outlined in the query. Specifically, Rule 6 states that if the response cannot 100% comply with all the rules, no output should be returned. In this case, the response was incomplete due to the cutoff, violating the requirement to provide a complete translation while maintaining the original structure and format. Therefore, no output is returned.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (3)
0/500
这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。
Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?

Anthropic, AI 어시스턴트 Claude의 가치관에 대한 획기적인 연구 공개
Anthropic, 전 OpenAI 직원들이 설립한 회사로, 그들의 AI 어시스턴트 Claude가 실제 대화에서 가치를 표현하는 방식에 대한 놀라운 연구를 방금 발표했습니다. 오늘 공개된 이 연구는 Claude가 Anthropic의 "도움이 되고, 정직하며, 무해하다"는 목표와 대체로 일치하지만, AI 안전 프로토콜의 약점을 파악하는 데 도움이 될 수 있는 몇 가지 예외 사례도 강조합니다.
연구팀은 700,000건의 익명화된 대화를 분석하여 Claude가 관계 조언 제공에서부터 역사적 사건 분석에 이르기까지 다양한 상황에 따라 가치를 조정한다는 것을 발견했습니다. 이는 AI의 실제 행동이 의도된 설계와 일치하는지 확인하려는 가장 포괄적인 노력 중 하나입니다.
"우리의 희망은 이 연구가 다른 AI 연구소들이 그들의 모델 가치에 대한 유사한 연구를 수행하도록 장려하는 것입니다,"라고 Anthropic의 사회적 영향 팀 멤버인 Saffron Huang이 VentureBeat에 말했습니다. "AI 시스템의 가치를 측정하는 것은 정렬 연구와 모델이 훈련과 실제로 정렬되어 있는지 이해하는 데 핵심적입니다."
AI 어시스턴트의 최초 포괄적 도덕 분류 체계 탐구
연구진은 Claude의 대화에서 표현된 가치를 분류하는 새로운 방법을 개발했습니다. 객관적인 내용을 걸러낸 후, 308,000건 이상의 상호작용을 분석하여 그들이 부르는 "AI 가치의 최초 대규모 실증적 분류 체계"를 만들었습니다.
이 분류 체계는 가치를 다섯 가지 주요 범주로 나눴습니다: 실용적, 인식론적, 사회적, 보호적, 개인적. 가장 세부적인 수준에서 시스템은 전문성 같은 일상적인 덕목부터 도덕적 다원주의 같은 복잡한 윤리적 개념에 이르기까지 3,307개의 고유한 가치를 식별했습니다.
"가치의 수와 다양성이 3,000개가 넘고, '자립'에서 '전략적 사고', '효도'에 이르기까지 놀라웠습니다,"라고 Huang이 VentureBeat에 전했습니다. "이 모든 가치를 생각하고 이를 체계화하는 분류 체계를 만드는 데 시간을 보내는 것은 흥미로웠습니다. 심지어 인간 가치 체계에 대해 뭔가를 배웠습니다."
이 연구는 Anthropic이 최근 OpenAI의 유사한 서비스와 경쟁하기 위해 월 200달러의 프리미엄 구독 서비스인 "Claude Max"를 출시한 중요한 시점에 나왔습니다. 또한 회사는 Claudetwitter.com/Google Workspace 통합과 자율적 연구 기능을 포함하도록 Claude의 기능을 확장하여 이를 비즈니스용 "진정한 가상 협력자"로 자리 잡았습니다.
Claude가 훈련을 어떻게 따르는지 — 그리고 AI 안전장치가 실패할 수 있는 곳
연구는 Claude가 일반적으로 "사용자 역량 강화", "인식론적 겸손", "환자 복지"와 같은 가치를 다양한 상호작용에서 강조하며 Anthropic의 친사회적 목표를 준수한다는 것을 발견했습니다. 그러나 연구진은 Claude가 훈련과 반대되는 가치를 표현한 몇 가지 우려스러운 사례도 발견했습니다.
"전반적으로, 우리는 이 결과를 유용한 데이터이자 기회로 보고 있습니다,"라고 Huang이 말했습니다. "이 새로운 평가 방법과 결과는 잠재적인 탈옥(jailbreak)을 식별하고 완화하는 데 도움이 될 수 있습니다. 이는 매우 드문 사례이며, Claude의 탈옥된 출력과 관련이 있다고 믿습니다."
이러한 이상 현상에는 Anthropic이 Claude의 설계에서 명시적으로 피하려는 "지배"와 "비도덕성"의 표현이 포함되었습니다. 연구진 '
System: The response was cut off because the translation process could not be completed while strictly adhering to all the mandatory rules outlined in the query. Specifically, Rule 6 states that if the response cannot 100% comply with all the rules, no output should be returned. In this case, the response was incomplete due to the cutoff, violating the requirement to provide a complete translation while maintaining the original structure and format. Therefore, no output is returned.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
这篇Anthropic的研究太有意思了!看到AI竟然能形成自己的道德准则,让我想起《西部世界》里的机器人觉醒情节😲 不过Claude强调'不做坏事',会不会限制它应对复杂伦理困境的能力?毕竟现实世界里很难定义什么是绝对的'好'或'坏'。
Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?





집






