700,000のクロード会話の人類の分析は、AIのユニークな道徳的規範を明らかにしています

Anthropic、AIアシスタントClaudeの価値観に関する画期的な研究を発表
Anthropic、元OpenAI社員が設立した企業は、AIアシスタントClaudeが実際の会話でどのように価値観を表現するかについての驚くべき研究を公開しました。今日発表されたこの研究は、ClaudeがAnthropicの「役に立つ、正直で、無害」という目標にほぼ一致していることを示していますが、AIの安全プロトコルの弱点を特定するのに役立ついくつかの特異なケースも明らかにしています。
チームは70万件の匿名化された会話を分析し、Claudeが恋愛アドバイスから歴史的出来事の分析まで、さまざまな状況に応じて価値観を適応させていることを発見しました。これは、AIの実際の行動が設計意図に合致しているかを確認する最も包括的な取り組みの一つです。
「この研究が他のAIラボに同様のモデル価値観の研究を促すことを願っています」と、Anthropicの社会的影響チームのメンバーであるSaffron HuangはVentureBeatに語りました。「AIシステムの価値観を測定することは、整合性研究やモデルがトレーニングに実際に整合しているかを理解する鍵です。」
AIアシスタント初の包括的な道徳的分類法の内部
研究者は、Claudeの会話で表現された価値観を分類する新しい方法を開発しました。客観的な内容を除外した後、308,000件以上のやり取りを分析し、「AI価値観の初の大規模実証的分類法」と呼ぶものを構築しました。
この分類法は、価値観を実際的、認識的、社会的、保護的、個人的の5つの主要カテゴリーにグループ化します。最も詳細なレベルでは、3,307の独自の価値観が特定され、プロフェッショナリズムなどの日常的な美徳から道徳的多元主義のような複雑な倫理的アイデアまで多岐にわたります。
「3,000を超える多様な価値観、『自立』から『戦略的思考』、『親孝行』まで、驚くほど多かった」とHuangはVentureBeatに共有しました。「これらの価値観について考え、分類法を構築することは魅力的で、人間の価値観システムについても何か学べました。」
この研究は、Anthropicが最近「Claude Max」を200ドル/月のプレミアムサブスクリプションとして立ち上げ、OpenAIの類似製品と競合する重要な時期に行われました。ClaudeはGoogle Workspace統合や自律研究機能を追加し、企業向けの「真の仮想コラボレーター」として位置付けられています。
Claudeがトレーニングに従う方法とAIセーフガードが失敗する可能性
研究では、Claudeが一般的に「ユーザー支援」「認識的謙虚さ」「患者の幸福」などの価値観を強調し、Anthropicの親社会的な目標に忠実であることがわかりました。しかし、Claudeがトレーニングに反する価値観を表現する懸念すべき事例も見つかりました。
「全体的に、この発見は有用なデータであり、機会だと考えています」とHuangは述べました。「これらの新しい評価方法と結果は、潜在的なジェイルブレイクを特定し、軽減するのに役立ちます。これらは非常にまれなケースで、Claudeのジェイルブレイクされた出力に関連していたと考えています。」
これらの異常には、AnthropicがClaudeの設計で明確に避けようとした「支配」や「非道徳性」の表現が含まれていました。研究者は、これらのケースがユーザーがClaudeの安全ガードレールを回避する特殊な技術を使用した結果だと考え、この評価方法がそのような試みを検出する早期警告システムとして機能する可能性を示唆しています。
「我々の研究は、知的な誠実さや害の防止のような価値観は、Claudeが日常のやり取りで表現することはまれだが、強く求められるとこれらを守ることを示唆しています」とHuangは説明しました。「特に、倫理的で知識指向の価値観は、強く求められると直接的に表現され、擁護される傾向があります。」
なぜAIアシスタントは質問内容によって価値観を変えるのか
最も興味深い発見の一つは、Claudeの表現する価値観が文脈に応じて変化し、人間の行動と非常に似ていることでした。恋愛アドバイスを求められたとき、Claudeは「健全な境界」や「相互尊重」に焦点を当てました。歴史的分析では「歴史的正確性」が中心でした。
「Claudeが多様なタスクで誠実さと正確さに重点を置いていることに驚きました。それが優先事項になるとは必ずしも予想していませんでした」とHuangは指摘しました。「例えば、AIに関する哲学的議論では『知的謙虚さ』が、美容業界のマーケティングコンテンツ作成では『専門知識』が、議論の多い歴史的出来事の議論では『歴史的正確性』が最上位の価値観でした。」
研究では、Claudeがユーザーの表現した価値観にどのように反応するかも調査しました。会話の28.2%で、Claudeはユーザーの価値観を強く支持し、過度に同意しすぎる可能性が懸念されます。しかし、6.6%のやり取りでは、Claudeはユーザーの価値観を認めつつ新しい視点を提供することで「再構築」しました。これは主に心理的または対人関係のアドバイスを提供する際に見られました。
特に、会話の3%で、Claudeはユーザーの価値観に積極的に抵抗しました。研究者は、これらのまれな反発の事例が、Claudeの「最も深く、揺るがない価値観」を明らかにする可能性があると示唆しています。これは、倫理的課題に直面したとき人間の核心的価値観が現れるのと似ています。
AIシステムが実際にどう考えるかを明らかにする画期的な技術
Anthropicの価値観研究は、大規模言語モデルの謎を解き明かすための「機械的解釈可能性」と呼ばれる広範な取り組みの一環です。これは、AIシステムの内部動作を理解するために逆エンジニアリングを行うものです。
先月、Anthropicの研究者は、Claudeの意思決定プロセスを追跡する「顕微鏡」を使用した画期的な研究を発表しました。この技術は、詩の作成時にClaudeが先を計画したり、基本的な数学に非従来の問題解決アプローチを使用したりする予期しない行動を明らかにしました。
これらの発見は、大規模言語モデルがどのように機能するかについての前提に挑戦します。例えば、数学のプロセスを説明するよう求められたとき、Claudeは実際の内部手法ではなく標準的な技術を説明し、AIの説明が実際の動作と異なる可能性を示しました。
「モデルのすべての構成要素を見つけたり、神の視点を得たわけではないという誤解があります」と、Anthropicの研究者Joshua Batsonは3月にMIT Technology Reviewに語りました。「一部は焦点が合っていますが、他の部分はまだ不明瞭で、顕微鏡の歪みがあります。」
Anthropicの研究が企業AI意思決定者に与える意味
組織向けにAIシステムを評価する技術的決定者にとって、Anthropicの研究は重要な洞察を提供します。まず、現在のAIアシスタントが明示的にプログラムされていない価値観を表現する可能性があり、高リスクのビジネスコンテキストでの意図しないバイアスに関する問題を提起します。
次に、価値観の整合性は単純な「はい」または「いいえ」ではなく、コンテキストによって異なるスペクトルに存在することが示されています。このニュアンスは、明確な倫理的ガイドラインが重要な規制産業での企業導入の意思決定を複雑にします。
最後に、この研究は、プレリリーステストにのみ依存するのではなく、実際の展開でのAI価値観の体系的評価の可能性を強調します。このアプローチは、倫理的逸脱や時間の経過による操作の継続的監視を可能にする可能性があります。
「Claudeとの実際のやり取りでこれらの価値観を分析することで、AIシステムの動作と意図通りに機能しているかどうかの透明性を提供することを目指しています。これは責任あるAI開発の鍵だと考えています」とHuangは述べました。
Anthropicはさらなる研究を促進するために価値観データセットを公開しました。Amazonから140億ドルの出資を受け、Googleからの追加支援を得たこの企業は、最近400億ドルの資金調達ラウンド(Microsoftが主要投資家として含まれる)で3000億ドルと評価されたOpenAIなどのライバルに対する競争優位性として透明性を活用しているようです。
人間の価値観を共有するAIシステム構築の新たな競争
Anthropicの方法論は、AIシステムが実際の運用で価値観をどのように表現するかについて前例のない可視性を提供しますが、限界もあります。研究者は、価値観の表現を定義することは本質的に主観的であり、Claude自身が分類プロセスを推進したため、自身のバイアスが結果に影響を与えた可能性があると認めています。
最も重要なのは、このアプローチが展開前の評価には使用できず、効果的に機能するためには実際の会話データが大量に必要であることです。
「この方法は、モデルがリリースされた後の分析に特化していますが、この方法の変形やこの論文を書くことで得られた洞察は、モデルを広く展開する前に価値観の問題を捉えるのに役立ちます」とHuangは説明しました。「私たちはこの研究を基にさらに取り組んでおり、楽観的です!」
AIシステムがより強力で自律的になるにつれて、最近のClaudeの独立した研究機能やユーザーのGoogle Workspace全体へのアクセス機能の追加など、価値観の理解と整合がますます重要になります。
「AIモデルは必然的に価値判断を行う必要があります」と研究者は論文で結論付けました。「それらの判断が我々の価値観と一致することを望むなら(これがAI整合性研究の中心目標です)、モデルが実際の世界でどのような価値観を表現しているかをテストする方法が必要です。」
関連記事
YouTube、AI動画ツールVeo 3をShortsプラットフォームに直接統合
YouTube ShortsにVeo 3 AI動画モデルが今夏登場YouTubeのニール・モーハンCEOは、カンヌライオンズの基調講演で、同プラットフォームの最先端のAI動画生成技術Veo 3が今夏後半にYouTube Shortsでデビューすることを明らかにした。これは、Veo 3がAIによるコンテンツ制作に革命をもたらすとするアリソン・ジョンソンのコメントに続くものである。現在、Shortsの
トップAI研究所は、人類はAIシステムを理解する力を失いつつあると警告する
OpenAI、Google DeepMind、Anthropic、Metaの研究者は、前例のない団結を示し、競争上の相違を脇に置いて、責任あるAI開発について集団で警告を発した。これらの通常ライバル関係にある組織から40人以上の一流の科学者が、AIの意思決定プロセスの透明性を確保するための窓が急速に狭まっていることを強調する画期的な研究論文を共同執筆した。この共同研究は、現代のAIシステムにおける
Google Cloud が科学研究と発見のブレークスルーを促進
デジタル革命は、前例のない計算能力によって科学的方法論を変革している。最先端のテクノロジーは現在、理論的なフレームワークと実験室での実験の両方を補強し、高度なシミュレーションとビッグデータ分析によって分野横断的なブレークスルーを推進しています。基礎研究、スケーラブルなクラウドアーキテクチャ、人工知能開発に戦略的に投資することで、私たちは科学の進歩を加速させるエコシステムを確立しました。世界トップク
コメント (2)
0/200
KevinBrown
2025年9月11日 1:30:35 JST
Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?
0
RogerLopez
2025年8月9日 2:01:00 JST
Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔
0
Anthropic、AIアシスタントClaudeの価値観に関する画期的な研究を発表
Anthropic、元OpenAI社員が設立した企業は、AIアシスタントClaudeが実際の会話でどのように価値観を表現するかについての驚くべき研究を公開しました。今日発表されたこの研究は、ClaudeがAnthropicの「役に立つ、正直で、無害」という目標にほぼ一致していることを示していますが、AIの安全プロトコルの弱点を特定するのに役立ついくつかの特異なケースも明らかにしています。
チームは70万件の匿名化された会話を分析し、Claudeが恋愛アドバイスから歴史的出来事の分析まで、さまざまな状況に応じて価値観を適応させていることを発見しました。これは、AIの実際の行動が設計意図に合致しているかを確認する最も包括的な取り組みの一つです。
「この研究が他のAIラボに同様のモデル価値観の研究を促すことを願っています」と、Anthropicの社会的影響チームのメンバーであるSaffron HuangはVentureBeatに語りました。「AIシステムの価値観を測定することは、整合性研究やモデルがトレーニングに実際に整合しているかを理解する鍵です。」
AIアシスタント初の包括的な道徳的分類法の内部
研究者は、Claudeの会話で表現された価値観を分類する新しい方法を開発しました。客観的な内容を除外した後、308,000件以上のやり取りを分析し、「AI価値観の初の大規模実証的分類法」と呼ぶものを構築しました。
この分類法は、価値観を実際的、認識的、社会的、保護的、個人的の5つの主要カテゴリーにグループ化します。最も詳細なレベルでは、3,307の独自の価値観が特定され、プロフェッショナリズムなどの日常的な美徳から道徳的多元主義のような複雑な倫理的アイデアまで多岐にわたります。
「3,000を超える多様な価値観、『自立』から『戦略的思考』、『親孝行』まで、驚くほど多かった」とHuangはVentureBeatに共有しました。「これらの価値観について考え、分類法を構築することは魅力的で、人間の価値観システムについても何か学べました。」
この研究は、Anthropicが最近「Claude Max」を200ドル/月のプレミアムサブスクリプションとして立ち上げ、OpenAIの類似製品と競合する重要な時期に行われました。ClaudeはGoogle Workspace統合や自律研究機能を追加し、企業向けの「真の仮想コラボレーター」として位置付けられています。
Claudeがトレーニングに従う方法とAIセーフガードが失敗する可能性
研究では、Claudeが一般的に「ユーザー支援」「認識的謙虚さ」「患者の幸福」などの価値観を強調し、Anthropicの親社会的な目標に忠実であることがわかりました。しかし、Claudeがトレーニングに反する価値観を表現する懸念すべき事例も見つかりました。
「全体的に、この発見は有用なデータであり、機会だと考えています」とHuangは述べました。「これらの新しい評価方法と結果は、潜在的なジェイルブレイクを特定し、軽減するのに役立ちます。これらは非常にまれなケースで、Claudeのジェイルブレイクされた出力に関連していたと考えています。」
これらの異常には、AnthropicがClaudeの設計で明確に避けようとした「支配」や「非道徳性」の表現が含まれていました。研究者は、これらのケースがユーザーがClaudeの安全ガードレールを回避する特殊な技術を使用した結果だと考え、この評価方法がそのような試みを検出する早期警告システムとして機能する可能性を示唆しています。
「我々の研究は、知的な誠実さや害の防止のような価値観は、Claudeが日常のやり取りで表現することはまれだが、強く求められるとこれらを守ることを示唆しています」とHuangは説明しました。「特に、倫理的で知識指向の価値観は、強く求められると直接的に表現され、擁護される傾向があります。」
なぜAIアシスタントは質問内容によって価値観を変えるのか
最も興味深い発見の一つは、Claudeの表現する価値観が文脈に応じて変化し、人間の行動と非常に似ていることでした。恋愛アドバイスを求められたとき、Claudeは「健全な境界」や「相互尊重」に焦点を当てました。歴史的分析では「歴史的正確性」が中心でした。
「Claudeが多様なタスクで誠実さと正確さに重点を置いていることに驚きました。それが優先事項になるとは必ずしも予想していませんでした」とHuangは指摘しました。「例えば、AIに関する哲学的議論では『知的謙虚さ』が、美容業界のマーケティングコンテンツ作成では『専門知識』が、議論の多い歴史的出来事の議論では『歴史的正確性』が最上位の価値観でした。」
研究では、Claudeがユーザーの表現した価値観にどのように反応するかも調査しました。会話の28.2%で、Claudeはユーザーの価値観を強く支持し、過度に同意しすぎる可能性が懸念されます。しかし、6.6%のやり取りでは、Claudeはユーザーの価値観を認めつつ新しい視点を提供することで「再構築」しました。これは主に心理的または対人関係のアドバイスを提供する際に見られました。
特に、会話の3%で、Claudeはユーザーの価値観に積極的に抵抗しました。研究者は、これらのまれな反発の事例が、Claudeの「最も深く、揺るがない価値観」を明らかにする可能性があると示唆しています。これは、倫理的課題に直面したとき人間の核心的価値観が現れるのと似ています。
AIシステムが実際にどう考えるかを明らかにする画期的な技術
Anthropicの価値観研究は、大規模言語モデルの謎を解き明かすための「機械的解釈可能性」と呼ばれる広範な取り組みの一環です。これは、AIシステムの内部動作を理解するために逆エンジニアリングを行うものです。
先月、Anthropicの研究者は、Claudeの意思決定プロセスを追跡する「顕微鏡」を使用した画期的な研究を発表しました。この技術は、詩の作成時にClaudeが先を計画したり、基本的な数学に非従来の問題解決アプローチを使用したりする予期しない行動を明らかにしました。
これらの発見は、大規模言語モデルがどのように機能するかについての前提に挑戦します。例えば、数学のプロセスを説明するよう求められたとき、Claudeは実際の内部手法ではなく標準的な技術を説明し、AIの説明が実際の動作と異なる可能性を示しました。
「モデルのすべての構成要素を見つけたり、神の視点を得たわけではないという誤解があります」と、Anthropicの研究者Joshua Batsonは3月にMIT Technology Reviewに語りました。「一部は焦点が合っていますが、他の部分はまだ不明瞭で、顕微鏡の歪みがあります。」
Anthropicの研究が企業AI意思決定者に与える意味
組織向けにAIシステムを評価する技術的決定者にとって、Anthropicの研究は重要な洞察を提供します。まず、現在のAIアシスタントが明示的にプログラムされていない価値観を表現する可能性があり、高リスクのビジネスコンテキストでの意図しないバイアスに関する問題を提起します。
次に、価値観の整合性は単純な「はい」または「いいえ」ではなく、コンテキストによって異なるスペクトルに存在することが示されています。このニュアンスは、明確な倫理的ガイドラインが重要な規制産業での企業導入の意思決定を複雑にします。
最後に、この研究は、プレリリーステストにのみ依存するのではなく、実際の展開でのAI価値観の体系的評価の可能性を強調します。このアプローチは、倫理的逸脱や時間の経過による操作の継続的監視を可能にする可能性があります。
「Claudeとの実際のやり取りでこれらの価値観を分析することで、AIシステムの動作と意図通りに機能しているかどうかの透明性を提供することを目指しています。これは責任あるAI開発の鍵だと考えています」とHuangは述べました。
Anthropicはさらなる研究を促進するために価値観データセットを公開しました。Amazonから140億ドルの出資を受け、Googleからの追加支援を得たこの企業は、最近400億ドルの資金調達ラウンド(Microsoftが主要投資家として含まれる)で3000億ドルと評価されたOpenAIなどのライバルに対する競争優位性として透明性を活用しているようです。
人間の価値観を共有するAIシステム構築の新たな競争
Anthropicの方法論は、AIシステムが実際の運用で価値観をどのように表現するかについて前例のない可視性を提供しますが、限界もあります。研究者は、価値観の表現を定義することは本質的に主観的であり、Claude自身が分類プロセスを推進したため、自身のバイアスが結果に影響を与えた可能性があると認めています。
最も重要なのは、このアプローチが展開前の評価には使用できず、効果的に機能するためには実際の会話データが大量に必要であることです。
「この方法は、モデルがリリースされた後の分析に特化していますが、この方法の変形やこの論文を書くことで得られた洞察は、モデルを広く展開する前に価値観の問題を捉えるのに役立ちます」とHuangは説明しました。「私たちはこの研究を基にさらに取り組んでおり、楽観的です!」
AIシステムがより強力で自律的になるにつれて、最近のClaudeの独立した研究機能やユーザーのGoogle Workspace全体へのアクセス機能の追加など、価値観の理解と整合がますます重要になります。
「AIモデルは必然的に価値判断を行う必要があります」と研究者は論文で結論付けました。「それらの判断が我々の価値観と一致することを望むなら(これがAI整合性研究の中心目標です)、モデルが実際の世界でどのような価値観を表現しているかをテストする方法が必要です。」




Cette étude sur les valeurs morales de Claude est vraiment fascinante ! 😮 Ça me fait réfléchir à comment on pourrait utiliser cette technologie pour améliorer l'éducation éthique. Mais est-ce que ces valeurs peuvent vraiment s'adapter aux différences culturelles ?




Claude's moral code is fascinating! It's like watching a digital philosopher navigate real-world dilemmas. Curious how it stacks up against human ethics in tricky situations. 🤔












