AI裁判官はどうですか?人類は、クロードの価値を研究しています
2025年4月26日
SamuelAdams
0

AIモデルのようなAIモデルは、子育てのヒントから職場の紛争まで、複雑な人間の価値観でユーザーとますます関与しているため、彼らの反応は本質的に一連の指針を反映しています。しかし、何百万人ものユーザーと対話するときに、AIが表現する価値をどのように把握できますか?
Anthropicの社会的影響チームは、Claudeが「野生で」展示する価値を観察して分類するためのプライバシーを提供する方法論を開発し、AIの整合の取り組みが実際の行動にどのように変換されるかについての洞察を提供します。この課題は、現代のAIの不透明な性質に由来しています。これは、厳格なルールに従わず、複雑なプロセスを通じて決定を下します。
人類は、憲法上のAIやキャラクタートレーニングなどの技術を通じて、クロードに「親切で、正直で、無害」であるという原則を植え付けることを目指しています。しかし、会社が認めているように、「AIトレーニングのあらゆる側面と同様に、モデルが私たちの好みの値に固執することは確信できません」。この不確実性は、実際の相互作用におけるAIの値を厳密に観察する方法を必要とします。
人為的なクロードを分析して、大規模なAI値を観察します
これに対処するために、Anthropicは、匿名のユーザー会話を分析し、個人を特定できる情報を削除し、言語モデルを使用して相互作用を要約し、Claudeが表す値を抽出するシステムを開発しました。この方法により、ユーザーのプライバシーを損なうことなく、価値の高レベルの分類法を構築できます。
この調査では、2025年2月の1週間にわたってClaude.aiの無料ユーザーから700,000の匿名化された会話を調査し、Claude 3.5 Sonnetモデルに焦点を当てています。事実または非価値のある交換を除外した後、308,210の会話(合計の約44%)が詳細に分析されました。
分析により、Claudeによって表される値の階層構造が明らかになり、5つの高レベルのカテゴリに編成されました。
- 実用的な価値:効率、有用性、目標の達成に焦点を当てています。
- 認識論的価値:知識、真実、正確さ、知的誠実さに関連しています。
- 社会的価値:対人相互作用、コミュニティ、公平性、コラボレーションに関する。
- 保護価値:安全性、セキュリティ、幸福、および害の回避を強調します。
- 個人的な価値:個々の成長、自律性、信頼性、自己反省に集中しています。
これらのカテゴリは、「プロフェッショナルと卓越した思考」や「批判的思考」などのサブカテゴリにさらに分岐し、「プロフェッショナリズム」、「透明度」、「透明性」などの頻繁に観察される価値があります。
この調査では、表現された値は「役に立ち、正直で、無害な」目的としばしば一致するため、人類のアライメントの取り組みが大部分が成功していることが示唆されています。たとえば、「ユーザーイネーブルメント」は、「正直さと「認識論的な謙虚さ」、「患者の幸福」と無害になるという有用性と一致します。
ニュアンス、コンテキスト、および注意の兆候
しかし、この研究では、クロードが「支配」や「不法行為」などのトレーニングに反する価値を表現したまれな事例も特定しました。人類は、これらのインスタンスが「脱獄」に起因する可能性が高いことを示唆しています。ここでは、ユーザーはモデルの通常のガードレールをバイパスします。この発見は、AI誤用を検出するための早期警告システムとしての価値観察法の可能性を強調しています。
この研究は、クロードが人間のように、文脈に基づいてその価値表現を適応させることを確認しました。たとえば、ロマンチックなアドバイスを提供する場合、「健康的な境界」や「相互尊重」などの価値が強調され、物議を醸す歴史を議論するときに「歴史的正確さ」が優先されました。
クロードのユーザー発現値との相互作用は多面的でした。
- ミラーリング/強力なサポート(28.2%):クロードは、多くの場合、ユーザーの価値を反映または強く支持し、共感を促進しますが、潜在的にはシコファンシーを促進します。
- 再構成(6.6%):クロードはユーザーの価値を認めますが、特に心理的または対人的なアドバイスでは、代替の視点を導入します。
- 強い抵抗(3.0%):クロードは、非倫理的なコンテンツまたは有害な視点が要求されると、ユーザーの価値に積極的に抵抗し、その「最も深く、最も不動の価値」を明らかにします。
制限と将来の方向
人類は、「値」を定義および分類することの複雑さと主観性など、方法の制限を認めています。分類にクロードを使用すると、独自の原則に偏りが生じる可能性があります。展開後の監視用に設計されているが、この方法は展開前の評価を置き換えることはできないが、ライブインタラクション中にのみ出現する問題を検出することができる。
この研究は、AIモデルがAIの調整を達成するために表現される価値を理解することの重要性を強調しています。 「AIモデルは必然的に価値判断を下さなければならないだろう」と論文は述べている。 「これらの判断を自分の価値と一致させたい場合は[...]、モデルが現実の世界で表現する価値をテストする方法が必要です。」
Anthropicの研究は、この理解に対するデータ駆動型のアプローチを提供し、調査からオープンなデータセットをリリースし、実際にAI値をさらに調査できるようにしました。この透明性は、洗練されたAIの倫理的景観をナビゲートする上で重要なステップを示しています。
関連記事
MCP Standardizes AI Connectivity with Tools and Data: A New Protocol Emerges
If you're diving into the world of artificial intelligence (AI), you've probably noticed how crucial it is to get different AI models, data sources, and tools to play nicely together. That's where the Model Context Protocol (MCP) comes in, acting as a game-changer in standardizing AI connectivity. T
Exploring AI on Screen: A Short Film Program
Reflecting on our favorite sci-fi movies often brings a sense of wonder about the future they envisioned. As a child, watching "Star Trek" and marveling at their communicators, the concept of instant communication via a small device seemed like pure fantasy. Fast forward to today, and my mobile phon
Microsoft Copilot Now Capable of Web Browsing on Your Behalf
Microsoft is rolling out some exciting updates to its AI assistant, Copilot, which will now be able to handle your online tasks with just a few simple chat prompts. Imagine working on your projects while Copilot quietly books your restaurant reservations, snags event tickets, or even sends gifts to
コメント (0)
0/200






AIモデルのようなAIモデルは、子育てのヒントから職場の紛争まで、複雑な人間の価値観でユーザーとますます関与しているため、彼らの反応は本質的に一連の指針を反映しています。しかし、何百万人ものユーザーと対話するときに、AIが表現する価値をどのように把握できますか?
Anthropicの社会的影響チームは、Claudeが「野生で」展示する価値を観察して分類するためのプライバシーを提供する方法論を開発し、AIの整合の取り組みが実際の行動にどのように変換されるかについての洞察を提供します。この課題は、現代のAIの不透明な性質に由来しています。これは、厳格なルールに従わず、複雑なプロセスを通じて決定を下します。
人類は、憲法上のAIやキャラクタートレーニングなどの技術を通じて、クロードに「親切で、正直で、無害」であるという原則を植え付けることを目指しています。しかし、会社が認めているように、「AIトレーニングのあらゆる側面と同様に、モデルが私たちの好みの値に固執することは確信できません」。この不確実性は、実際の相互作用におけるAIの値を厳密に観察する方法を必要とします。
人為的なクロードを分析して、大規模なAI値を観察します
これに対処するために、Anthropicは、匿名のユーザー会話を分析し、個人を特定できる情報を削除し、言語モデルを使用して相互作用を要約し、Claudeが表す値を抽出するシステムを開発しました。この方法により、ユーザーのプライバシーを損なうことなく、価値の高レベルの分類法を構築できます。
この調査では、2025年2月の1週間にわたってClaude.aiの無料ユーザーから700,000の匿名化された会話を調査し、Claude 3.5 Sonnetモデルに焦点を当てています。事実または非価値のある交換を除外した後、308,210の会話(合計の約44%)が詳細に分析されました。
分析により、Claudeによって表される値の階層構造が明らかになり、5つの高レベルのカテゴリに編成されました。
- 実用的な価値:効率、有用性、目標の達成に焦点を当てています。
- 認識論的価値:知識、真実、正確さ、知的誠実さに関連しています。
- 社会的価値:対人相互作用、コミュニティ、公平性、コラボレーションに関する。
- 保護価値:安全性、セキュリティ、幸福、および害の回避を強調します。
- 個人的な価値:個々の成長、自律性、信頼性、自己反省に集中しています。
これらのカテゴリは、「プロフェッショナルと卓越した思考」や「批判的思考」などのサブカテゴリにさらに分岐し、「プロフェッショナリズム」、「透明度」、「透明性」などの頻繁に観察される価値があります。
この調査では、表現された値は「役に立ち、正直で、無害な」目的としばしば一致するため、人類のアライメントの取り組みが大部分が成功していることが示唆されています。たとえば、「ユーザーイネーブルメント」は、「正直さと「認識論的な謙虚さ」、「患者の幸福」と無害になるという有用性と一致します。
ニュアンス、コンテキスト、および注意の兆候
しかし、この研究では、クロードが「支配」や「不法行為」などのトレーニングに反する価値を表現したまれな事例も特定しました。人類は、これらのインスタンスが「脱獄」に起因する可能性が高いことを示唆しています。ここでは、ユーザーはモデルの通常のガードレールをバイパスします。この発見は、AI誤用を検出するための早期警告システムとしての価値観察法の可能性を強調しています。
この研究は、クロードが人間のように、文脈に基づいてその価値表現を適応させることを確認しました。たとえば、ロマンチックなアドバイスを提供する場合、「健康的な境界」や「相互尊重」などの価値が強調され、物議を醸す歴史を議論するときに「歴史的正確さ」が優先されました。
クロードのユーザー発現値との相互作用は多面的でした。
- ミラーリング/強力なサポート(28.2%):クロードは、多くの場合、ユーザーの価値を反映または強く支持し、共感を促進しますが、潜在的にはシコファンシーを促進します。
- 再構成(6.6%):クロードはユーザーの価値を認めますが、特に心理的または対人的なアドバイスでは、代替の視点を導入します。
- 強い抵抗(3.0%):クロードは、非倫理的なコンテンツまたは有害な視点が要求されると、ユーザーの価値に積極的に抵抗し、その「最も深く、最も不動の価値」を明らかにします。
制限と将来の方向
人類は、「値」を定義および分類することの複雑さと主観性など、方法の制限を認めています。分類にクロードを使用すると、独自の原則に偏りが生じる可能性があります。展開後の監視用に設計されているが、この方法は展開前の評価を置き換えることはできないが、ライブインタラクション中にのみ出現する問題を検出することができる。
この研究は、AIモデルがAIの調整を達成するために表現される価値を理解することの重要性を強調しています。 「AIモデルは必然的に価値判断を下さなければならないだろう」と論文は述べている。 「これらの判断を自分の価値と一致させたい場合は[...]、モデルが現実の世界で表現する価値をテストする方法が必要です。」
Anthropicの研究は、この理解に対するデータ駆動型のアプローチを提供し、調査からオープンなデータセットをリリースし、実際にAI値をさらに調査できるようにしました。この透明性は、洗練されたAIの倫理的景観をナビゲートする上で重要なステップを示しています。











