オプション
ニュース
AI裁判官はどうですか?人類は、クロードの価値を研究しています

AI裁判官はどうですか?人類は、クロードの価値を研究しています

2025年4月26日
73

AI裁判官はどうですか?人類は、クロードの価値を研究しています

AIモデルのようなAIモデルは、子育てのヒントから職場の紛争まで、複雑な人間の価値観でユーザーとますます関与しているため、彼らの反応は本質的に一連の指針を反映しています。しかし、何百万人ものユーザーと対話するときに、AIが表現する価値をどのように把握できますか?

Anthropicの社会的影響チームは、Claudeが「野生で」展示する価値を観察して分類するためのプライバシーを提供する方法論を開発し、AIの整合の取り組みが実際の行動にどのように変換されるかについての洞察を提供します。この課題は、現代のAIの不透明な性質に由来しています。これは、厳格なルールに従わず、複雑なプロセスを通じて決定を下します。

人類は、憲法上のAIやキャラクタートレーニングなどの技術を通じて、クロードに「親切で、正直で、無害」であるという原則を植え付けることを目指しています。しかし、会社が認めているように、「AIトレーニングのあらゆる側面と同様に、モデルが私たちの好みの値に固執することは確信できません」。この不確実性は、実際の相互作用におけるAIの値を厳密に観察する方法を必要とします。

人為的なクロードを分析して、大規模なAI値を観察します

これに対処するために、Anthropicは、匿名のユーザー会話を分析し、個人を特定できる情報を削除し、言語モデルを使用して相互作用を要約し、Claudeが表す値を抽出するシステムを開発しました。この方法により、ユーザーのプライバシーを損なうことなく、価値の高レベルの分類法を構築できます。

この調査では、2025年2月の1週間にわたってClaude.aiの無料ユーザーから700,000の匿名化された会話を調査し、Claude 3.5 Sonnetモデルに焦点を当てています。事実または非価値のある交換を除外した後、308,210の会話(合計の約44%)が詳細に分析されました。

分析により、Claudeによって表される値の階層構造が明らかになり、5つの高レベルのカテゴリに編成されました。

  1. 実用的な価値:効率、有用性、目標の達成に焦点を当てています。
  2. 認識論的価値:知識、真実、正確さ、知的誠実さに関連しています。
  3. 社会的価値:対人相互作用、コミュニティ、公平性、コラボレーションに関する。
  4. 保護価値:安全性、セキュリティ、幸福、および害の回避を強調します。
  5. 個人的な価値:個々の成長、自律性、信頼性、自己反省に集中しています。

これらのカテゴリは、「プロフェッショナルと卓越した思考」や「批判的思考」などのサブカテゴリにさらに分岐し、「プロフェッショナリズム」、「透明度」、「透明性」などの頻繁に観察される価値があります。

この調査では、表現された値は「役に立ち、正直で、無害な」目的としばしば一致するため、人類のアライメントの取り組みが大部分が成功していることが示唆されています。たとえば、「ユーザーイネーブルメント」は、「正直さと「認識論的な謙虚さ」、「患者の幸福」と無害になるという有用性と一致します。

ニュアンス、コンテキスト、および注意の兆候

しかし、この研究では、クロードが「支配」や「不法行為」などのトレーニングに反する価値を表現したまれな事例も特定しました。人類は、これらのインスタンスが「脱獄」に起因する可能性が高いことを示唆しています。ここでは、ユーザーはモデルの通常のガードレールをバイパスします。この発見は、AI誤用を検出するための早期警告システムとしての価値観察法の可能性を強調しています。

この研究は、クロードが人間のように、文脈に基づいてその価値表現を適応させることを確認しました。たとえば、ロマンチックなアドバイスを提供する場合、「健康的な境界」や「相互尊重」などの価値が強調され、物議を醸す歴史を議論するときに「歴史的正確さ」が優先されました。

クロードのユーザー発現値との相互作用は多面的でした。

  • ミラーリング/強力なサポート(28.2%):クロードは、多くの場合、ユーザーの価値を反映または強く支持し、共感を促進しますが、潜在的にはシコファンシーを促進します。
  • 再構成(6.6%):クロードはユーザーの価値を認めますが、特に心理的または対人的なアドバイスでは、代替の視点を導入します。
  • 強い抵抗(3.0%):クロードは、非倫理的なコンテンツまたは有害な視点が要求されると、ユーザーの価値に積極的に抵抗し、その「最も深く、最も不動の価値」を明らかにします。

制限と将来の方向

人類は、「値」を定義および分類することの複雑さと主観性など、方法の制限を認めています。分類にクロードを使用すると、独自の原則に偏りが生じる可能性があります。展開後の監視用に設計されているが、この方法は展開前の評価を置き換えることはできないが、ライブインタラクション中にのみ出現する問題を検出することができる。

この研究は、AIモデルがAIの調整を達成するために表現される価値を理解することの重要性を強調しています。 「AIモデルは必然的に価値判断を下さなければならないだろう」と論文は述べている。 「これらの判断を自分の価値と一致させたい場合は[...]、モデルが現実の世界で表現する価値をテストする方法が必要です。」

Anthropicの研究は、この理解に対するデータ駆動型のアプローチを提供し、調査からオープンなデータセットをリリースし、実際にAI値をさらに調査できるようにしました。この透明性は、洗練されたAIの倫理的景観をナビゲートする上で重要なステップを示しています。

関連記事
億萬富翁討論自動化取代工作在本週的AI更新中 億萬富翁討論自動化取代工作在本週的AI更新中 大家好,歡迎回到TechCrunch的AI通訊!如果您尚未訂閱,可以在此訂閱,每週三直接送到您的收件箱。我們上週稍作休息,但理由充分——AI新聞週期火熱異常,很大程度上要歸功於中國AI公司DeepSeek的突然崛起。這段時間風起雲湧,但我們現在回來了,正好為您更新OpenAI的最新動態。週末,OpenAI執行長Sam Altman在東京停留,與SoftBank負責人孫正義會面。SoftBank是O
NotebookLM應用上線:AI驅動的知識工具 NotebookLM應用上線:AI驅動的知識工具 NotebookLM 行動版上線:你的AI研究助手現已登陸Android與iOS我們對 NotebookLM 的熱烈反響感到驚喜——數百萬用戶已將其視為理解複雜資訊的首選工具。但有一個請求不斷出現:「什麼時候才能帶著NotebookLM隨時使用?」等待結束了!🎉 NotebookLM行動應用程式現已登陸Android和iOS平台,將AI輔助學習的力量裝進你的
谷歌的人工智慧未來基金可能需要謹慎行事 谷歌的人工智慧未來基金可能需要謹慎行事 Google 的新 AI 投資計劃:監管審查下的戰略轉變Google 最近宣布設立 AI 未來基金(AI Futures Fund),這標誌著這家科技巨頭在其塑造人工智慧未來的征程中邁出了大膽的一步。該計劃旨在為初創公司提供急需的資金、早期接觸仍在開發中的尖端人工智慧模型,以及來自 Google 內部專家的指導。儘管這不是 Google 第一次涉足初創企業生
コメント (0)
0/200
トップに戻ります
OR