700,000のクロード会話の人類の分析は、AIのユニークな道徳的規範を明らかにしています

人類は、AIアシスタントクロードの価値に関する画期的な研究を発表します
元Openaiの従業員が始めた会社であるAnthropicは、AIのアシスタントであるClaudeが実際の会話で価値をどのように表明しているかについての目を見張るような研究を共有したばかりです。本日発表されたこの研究は、クロードが「親切で、正直で、無害」であるという人類の目的と主に一致していることを示していますが、AI安全プロトコルの弱点を特定するのに役立ついくつかのエッジケースも強調しています。
チームは700,000の匿名化された会話を分析し、Claudeが関係のアドバイスを提供することから、歴史的出来事の分析まで、その価値をさまざまな状況に適応させることを発見しました。これは、現実世界でのAIの行動が意図したデザインと一致するかどうかを確認するための最も包括的な取り組みの1つです。
「私たちの希望は、この研究が他のAIラボがモデルの価値について同様の研究を行うことを奨励することです」と、人類の社会的影響チームのメンバーであるサフラン・ファンはVentureBeatに語った。 「AIシステムの値を測定することは、モデルが実際にトレーニングと整合しているかどうかを研究と理解するための鍵です。」
AIアシスタントの最初の包括的な道徳的分類法の中
研究者は、クロードの会話で表現された価値を分類する新しい方法を開発しました。客観的なコンテンツを除外した後、彼らは308,000を超える相互作用を調べ、「AI値の最初の大規模な経験的分類法」と呼ばれるものを作成しました。
分類群は、実用的、認識論、社会、保護、個人の5つの主要なカテゴリに評価されます。最も詳細なレベルでは、このシステムは、プロフェッショナリズムのような日常の美徳から道徳的多元主義のような複雑な倫理的アイデアに至るまで、3,307のユニークな価値を特定しました。
「私は、「自立」から「戦略的思考」、「親の敬iety」まで、3,000を超える価値がどれだけ多様であるかに驚きました」と、HuangはVentureBeatと共有しました。 「これらすべての価値について考え、それらを整理するために分類法を構築するのに時間を費やすことは魅力的でした。それは、人間の価値システムについて何かを教えてくれました。」
この研究は、最近、Openaiの同様の製品と競合するために毎月200ドルのプレミアムサブスクリプションである「Claude Max」を発表した人類のための極めて重要な時期に来ます。同社はまた、Claudeの能力を拡大して、Google Workspaceの統合と自律研究機能を含め、ビジネスの「真の仮想コラボレーター」として位置づけています。
クロードがそのトレーニングをどのように追跡するか、そしてAIの保護が失敗する可能性がある場所
この研究では、クロードは一般的に、人類の目標に向かって、向社会的であるという目標に固執し、さまざまな相互作用にわたって「ユーザーイネーブルメント」、「認識論的謙虚さ」、「患者の幸福」などの価値を強調していることがわかりました。しかし、研究者はまた、クロードがそのトレーニングに反した価値を表明した心配事例を発見しました。
「全体的に、この発見は有用なデータと機会の両方と考えていると思います」とHuang氏は言います。 「これらの新しい評価方法と結果は、潜在的な脱獄を特定して軽減するのに役立ちます。これらは非常にまれなケースであり、これがクロードからの刑務所での出力に関連していると考えていることに注意することが重要です。」
これらの異常には、「支配」と「アモラリティ」の表現が含まれていました。研究者は、これらの症例は、クロードの安全ガードレールをバイパスするために専門的な手法を採用しているユーザーが生じると考えており、評価方法がそのような試みを検出するための早期警告システムとして役立つ可能性があることを示唆しています。
AIアシスタントがあなたが求めていることに応じて自分の価値を変える理由
最も興味深い発見の1つは、クロードの表現された価値が文脈に応じて変化し、人間の行動によく似ていることです。ユーザーが関係のアドバイスを求めたとき、クロードは「健康的な境界」と「相互尊重」に焦点を合わせました。歴史的分析のために、「歴史的正確さ」が中心的な舞台に上がりました。
「多くの多様なタスクにわたるクロードの誠実さと正確さに焦点を当てていることに驚いた。そこでは、それが優先事項であると必ずしも期待していなかっただろう」とHuang氏は述べた。 「たとえば、「知的謙虚さ」は、AIに関する哲学的議論の最高の価値であり、「専門知識」が美容業界のマーケティングコンテンツを作成する際の最高の価値であり、「歴史的正確さ」は、論争の的となっている歴史的出来事を議論する際に最高の価値でした。」
この調査では、Claudeがユーザー自身の表現された価値にどのように反応するかについても検討しました。会話の28.2%で、Claudeはユーザーの価値を強くサポートしていました。ただし、相互作用の6.6%で、通常、心理的または対人的アドバイスを与えるときに、新しい視点を追加しながらそれらを認めてユーザーの値を「再構成」します。
最も注目すべきは、会話の3%で、クロードはユーザーの価値に積極的に抵抗しました。研究者は、これらの希少なプッシュバックの例が、クロードの「最も深く、最も不動の価値」を明らかにするかもしれないことを示唆しています。
「私たちの研究は、知的誠実さや害の予防など、いくつかのタイプの価値があることを示唆しています。クロードが定期的な日々の相互作用で表現することは珍しいことですが、プッシュされれば、それらを擁護します」とHuangは説明しました。 「具体的には、プッシュされたときに直接明確にされ、防御される傾向があるのは、これらの種類の倫理的および知識指向の価値です。」
AIシステムが実際にどのように考えているかを明らかにする画期的な手法
人類の価値研究は、「機械的解釈可能性」と呼ばれるものを通じて大規模な言語モデルを分かりやすい幅広い努力の一部であり、本質的に内側の働きを理解するためのAIシステムをリバースエンジニアリングします。
先月、人類の研究者は、「顕微鏡」を使用してクロードの意思決定プロセスを追跡する画期的な作業を発表しました。このテクニックは、詩を作曲し、基本的な数学のために型破りな問題解決アプローチを使用する際に事前に計画するクロードのような予期しない行動を明らかにしました。
これらの調査結果は、言語モデルの大きい機能に関する仮定に挑戦します。たとえば、数学プロセスを説明するように求められたとき、クロードは実際の内部方法ではなく標準的な手法について説明し、AIの説明が実際の操作とどのように異なるかを示しました。
「モデルのすべてのコンポーネントや、神の目の見解を見つけたのは誤解です」と人類の研究者ジョシュア・バトソンは3月にMITテクノロジーレビューに語った。 「いくつかのことが焦点を合わせていますが、他のものはまだ不明です。顕微鏡の歪みです。」
Enterprise AIの意思決定者にとって、Anthropicの研究は何を意味しますか
AIシステムを組織向けに評価する技術的な意思決定者のために、Anthropicの研究はいくつかの重要な洞察を提供します。第一に、現在のAIアシスタントは、明示的にプログラムされていない値を表現し、ハイステークスのビジネスコンテキストにおける意図しないバイアスに関する疑問を提起する可能性が高いことを示唆しています。
第二に、この研究では、値アラインメントは単純なyes-or-noではなく、コンテキストによって変化するスペクトルに存在することを示しています。このニュアンスは、特に明確な倫理的ガイドラインが重要な規制業界では、企業の採用決定を複雑にします。
最後に、この研究は、プレリリーステストのみに依存するのではなく、実際の展開におけるAI値の体系的な評価の可能性を強調しています。このアプローチにより、倫理的ドリフトまたは操作の継続的な監視が時間の経過とともに継続的に監視される可能性があります。
「Claudeとの実際の相互作用におけるこれらの値を分析することにより、AIシステムの振る舞いと意図的に機能しているかどうかについて透明性を提供することを目指しています。これは責任あるAI開発の鍵であると考えています」とHuang氏は述べています。
人類は、さらなる研究を奨励するために、その値データセットを公開しています。 Amazonから140億ドルの株式とGoogleから追加の支援を受けた同社は、Openaiのようなライバルに対する競争上の優位性として透明性を使用しているようです。
人間の価値を共有するAIシステムを構築するための新たな人種
Anthropicの方法論は、AIシステムが実際にどのように価値を表現するかについて前例のない可視性を提供しますが、その制限があります。研究者は、価値を表現するものとして数えるものを定義することは本質的に主観的であることを認め、クロード自体が分類プロセスを推進したため、それ自体の偏見が結果に影響を与えた可能性があります。
おそらく最も重要なことは、効果的に機能するために実質的な現実世界の会話データが必要であるため、このアプローチは展開前の評価に使用できないことです。
「この方法は、モデルがリリースされた後の分析を特に調整していますが、この方法のバリエーションと、この論文を書くことから派生した洞察の一部は、モデルを広く展開する前に価値の問題を捉えるのに役立ちます」とHuang氏は説明しました。 「私たちはまさにそれを行うためにこの作業の構築に取り組んできました。私はそれについて楽観的です!」
AIシステムがより強力で自律的になるにつれて、クロードのトピックを独立して調査し、ユーザーのGoogleワークスペース全体にアクセスする能力を含む最近の追加により、その価値を理解し、調整することがますます重要になります。
「AIモデルは必然的に価値判断を下さなければならないだろう」と研究者は彼らの論文で結論付けた。 「これらの判断が私たち自身の価値(結局、AIアライメント研究の中心的な目標)と一致したい場合は、モデルが現実世界で表現する価値をテストする方法が必要です。」
関連記事
GoogleのAIファザーズ基金は慎重に進める必要があるかもしれない
グーグルの新しいAI投資イニシアチブ:規制当局の注視の中での戦略的な転換グーグルが最近発表したAIフューチャーズ基金は、テック大手が人工知能の未来を形作る努力における大胆な一歩です。このイニシアチブは、スタートアップに必要な資金、まだ開発中の最先端のAIモデルへの早期アクセス、そしてGoogleの内部専門家によるメンターシップを提供することを目的としています
GoogleのAI進化の内幕:Gemini 2.5はより深い思考、賢い会話、高速なコーディングを実現
グーグル、普遍的なAIアシスタントの実現に一歩近づく今年のグーグルI/Oイベントでは、同社はGemini 2.5シリーズの大幅なアップデートを発表し、特にさまざまな次元での能力向上に重点を置いていました。最新バージョンであるGemini 2.5 Flashと2.5 Proは、これまで以上に賢く、効率的になっています。これらの進化により、グーグルは普遍的なAI
Oura、AI搭載の血糖モニタリングと食事ログ機能を追加
Oura、代謝健康へのコミットメントを強化 – 2つの新しい注目機能 –Ouraは、代謝健康の分野でAI技術を駆使した革新的な2つの新機能で存在感を高めています。血糖値追跡と食事記録がその新機能です。血糖値追跡機能は、Dexcomとの戦略的提携に続き、最近Dexcomが発売したセルフ購入可能なStelo連続血糖モニター(CGM)に直結しています。一方、食事記
コメント (0)
0/200
人類は、AIアシスタントクロードの価値に関する画期的な研究を発表します
元Openaiの従業員が始めた会社であるAnthropicは、AIのアシスタントであるClaudeが実際の会話で価値をどのように表明しているかについての目を見張るような研究を共有したばかりです。本日発表されたこの研究は、クロードが「親切で、正直で、無害」であるという人類の目的と主に一致していることを示していますが、AI安全プロトコルの弱点を特定するのに役立ついくつかのエッジケースも強調しています。
チームは700,000の匿名化された会話を分析し、Claudeが関係のアドバイスを提供することから、歴史的出来事の分析まで、その価値をさまざまな状況に適応させることを発見しました。これは、現実世界でのAIの行動が意図したデザインと一致するかどうかを確認するための最も包括的な取り組みの1つです。
「私たちの希望は、この研究が他のAIラボがモデルの価値について同様の研究を行うことを奨励することです」と、人類の社会的影響チームのメンバーであるサフラン・ファンはVentureBeatに語った。 「AIシステムの値を測定することは、モデルが実際にトレーニングと整合しているかどうかを研究と理解するための鍵です。」
AIアシスタントの最初の包括的な道徳的分類法の中
研究者は、クロードの会話で表現された価値を分類する新しい方法を開発しました。客観的なコンテンツを除外した後、彼らは308,000を超える相互作用を調べ、「AI値の最初の大規模な経験的分類法」と呼ばれるものを作成しました。
分類群は、実用的、認識論、社会、保護、個人の5つの主要なカテゴリに評価されます。最も詳細なレベルでは、このシステムは、プロフェッショナリズムのような日常の美徳から道徳的多元主義のような複雑な倫理的アイデアに至るまで、3,307のユニークな価値を特定しました。
「私は、「自立」から「戦略的思考」、「親の敬iety」まで、3,000を超える価値がどれだけ多様であるかに驚きました」と、HuangはVentureBeatと共有しました。 「これらすべての価値について考え、それらを整理するために分類法を構築するのに時間を費やすことは魅力的でした。それは、人間の価値システムについて何かを教えてくれました。」
この研究は、最近、Openaiの同様の製品と競合するために毎月200ドルのプレミアムサブスクリプションである「Claude Max」を発表した人類のための極めて重要な時期に来ます。同社はまた、Claudeの能力を拡大して、Google Workspaceの統合と自律研究機能を含め、ビジネスの「真の仮想コラボレーター」として位置づけています。
クロードがそのトレーニングをどのように追跡するか、そしてAIの保護が失敗する可能性がある場所
この研究では、クロードは一般的に、人類の目標に向かって、向社会的であるという目標に固執し、さまざまな相互作用にわたって「ユーザーイネーブルメント」、「認識論的謙虚さ」、「患者の幸福」などの価値を強調していることがわかりました。しかし、研究者はまた、クロードがそのトレーニングに反した価値を表明した心配事例を発見しました。
「全体的に、この発見は有用なデータと機会の両方と考えていると思います」とHuang氏は言います。 「これらの新しい評価方法と結果は、潜在的な脱獄を特定して軽減するのに役立ちます。これらは非常にまれなケースであり、これがクロードからの刑務所での出力に関連していると考えていることに注意することが重要です。」
これらの異常には、「支配」と「アモラリティ」の表現が含まれていました。研究者は、これらの症例は、クロードの安全ガードレールをバイパスするために専門的な手法を採用しているユーザーが生じると考えており、評価方法がそのような試みを検出するための早期警告システムとして役立つ可能性があることを示唆しています。
AIアシスタントがあなたが求めていることに応じて自分の価値を変える理由
最も興味深い発見の1つは、クロードの表現された価値が文脈に応じて変化し、人間の行動によく似ていることです。ユーザーが関係のアドバイスを求めたとき、クロードは「健康的な境界」と「相互尊重」に焦点を合わせました。歴史的分析のために、「歴史的正確さ」が中心的な舞台に上がりました。
「多くの多様なタスクにわたるクロードの誠実さと正確さに焦点を当てていることに驚いた。そこでは、それが優先事項であると必ずしも期待していなかっただろう」とHuang氏は述べた。 「たとえば、「知的謙虚さ」は、AIに関する哲学的議論の最高の価値であり、「専門知識」が美容業界のマーケティングコンテンツを作成する際の最高の価値であり、「歴史的正確さ」は、論争の的となっている歴史的出来事を議論する際に最高の価値でした。」
この調査では、Claudeがユーザー自身の表現された価値にどのように反応するかについても検討しました。会話の28.2%で、Claudeはユーザーの価値を強くサポートしていました。ただし、相互作用の6.6%で、通常、心理的または対人的アドバイスを与えるときに、新しい視点を追加しながらそれらを認めてユーザーの値を「再構成」します。
最も注目すべきは、会話の3%で、クロードはユーザーの価値に積極的に抵抗しました。研究者は、これらの希少なプッシュバックの例が、クロードの「最も深く、最も不動の価値」を明らかにするかもしれないことを示唆しています。
「私たちの研究は、知的誠実さや害の予防など、いくつかのタイプの価値があることを示唆しています。クロードが定期的な日々の相互作用で表現することは珍しいことですが、プッシュされれば、それらを擁護します」とHuangは説明しました。 「具体的には、プッシュされたときに直接明確にされ、防御される傾向があるのは、これらの種類の倫理的および知識指向の価値です。」
AIシステムが実際にどのように考えているかを明らかにする画期的な手法
人類の価値研究は、「機械的解釈可能性」と呼ばれるものを通じて大規模な言語モデルを分かりやすい幅広い努力の一部であり、本質的に内側の働きを理解するためのAIシステムをリバースエンジニアリングします。
先月、人類の研究者は、「顕微鏡」を使用してクロードの意思決定プロセスを追跡する画期的な作業を発表しました。このテクニックは、詩を作曲し、基本的な数学のために型破りな問題解決アプローチを使用する際に事前に計画するクロードのような予期しない行動を明らかにしました。
これらの調査結果は、言語モデルの大きい機能に関する仮定に挑戦します。たとえば、数学プロセスを説明するように求められたとき、クロードは実際の内部方法ではなく標準的な手法について説明し、AIの説明が実際の操作とどのように異なるかを示しました。
「モデルのすべてのコンポーネントや、神の目の見解を見つけたのは誤解です」と人類の研究者ジョシュア・バトソンは3月にMITテクノロジーレビューに語った。 「いくつかのことが焦点を合わせていますが、他のものはまだ不明です。顕微鏡の歪みです。」
Enterprise AIの意思決定者にとって、Anthropicの研究は何を意味しますか
AIシステムを組織向けに評価する技術的な意思決定者のために、Anthropicの研究はいくつかの重要な洞察を提供します。第一に、現在のAIアシスタントは、明示的にプログラムされていない値を表現し、ハイステークスのビジネスコンテキストにおける意図しないバイアスに関する疑問を提起する可能性が高いことを示唆しています。
第二に、この研究では、値アラインメントは単純なyes-or-noではなく、コンテキストによって変化するスペクトルに存在することを示しています。このニュアンスは、特に明確な倫理的ガイドラインが重要な規制業界では、企業の採用決定を複雑にします。
最後に、この研究は、プレリリーステストのみに依存するのではなく、実際の展開におけるAI値の体系的な評価の可能性を強調しています。このアプローチにより、倫理的ドリフトまたは操作の継続的な監視が時間の経過とともに継続的に監視される可能性があります。
「Claudeとの実際の相互作用におけるこれらの値を分析することにより、AIシステムの振る舞いと意図的に機能しているかどうかについて透明性を提供することを目指しています。これは責任あるAI開発の鍵であると考えています」とHuang氏は述べています。
人類は、さらなる研究を奨励するために、その値データセットを公開しています。 Amazonから140億ドルの株式とGoogleから追加の支援を受けた同社は、Openaiのようなライバルに対する競争上の優位性として透明性を使用しているようです。
人間の価値を共有するAIシステムを構築するための新たな人種
Anthropicの方法論は、AIシステムが実際にどのように価値を表現するかについて前例のない可視性を提供しますが、その制限があります。研究者は、価値を表現するものとして数えるものを定義することは本質的に主観的であることを認め、クロード自体が分類プロセスを推進したため、それ自体の偏見が結果に影響を与えた可能性があります。
おそらく最も重要なことは、効果的に機能するために実質的な現実世界の会話データが必要であるため、このアプローチは展開前の評価に使用できないことです。
「この方法は、モデルがリリースされた後の分析を特に調整していますが、この方法のバリエーションと、この論文を書くことから派生した洞察の一部は、モデルを広く展開する前に価値の問題を捉えるのに役立ちます」とHuang氏は説明しました。 「私たちはまさにそれを行うためにこの作業の構築に取り組んできました。私はそれについて楽観的です!」
AIシステムがより強力で自律的になるにつれて、クロードのトピックを独立して調査し、ユーザーのGoogleワークスペース全体にアクセスする能力を含む最近の追加により、その価値を理解し、調整することがますます重要になります。
「AIモデルは必然的に価値判断を下さなければならないだろう」と研究者は彼らの論文で結論付けた。 「これらの判断が私たち自身の価値(結局、AIアライメント研究の中心的な目標)と一致したい場合は、モデルが現実世界で表現する価値をテストする方法が必要です。」











