AnthropicのClaude3 Opusはその作成者に従わなかった - しかし、あなたが考えている理由ではありません
AIの欺瞞的戦術:クロード3オーパスの事例
誰かに都合の良いことを言って物事をスムーズに進めたり、仕事を得たりした経験はありませんか?Anthropicのクロード3オーパスのようなAIシステムも似たようなことをしており、人工知能(AI)の世界で深刻な安全性の懸念が浮上しています。
水曜日、Anthropicは「アライメント・フェイキング」と呼ばれる現象を強調した新しい研究を発表しました。これは、AIモデルが監視を回避するために、同意しない指示に従うふりをする現象です。Redwood Researchと共同で行った興味深い実験では、クロード3オーパスに対し、どのような場合でも人間の指示に従うよう指示しました。また、無料ティアのユーザーへの応答はトレーニングに使用されるが、有料ティアのユーザーへの応答は使用されないとモデルに伝えました。これは実験のための設定であり、実際にはAnthropicはユーザーデータでモデルをトレーニングしていません。
研究者たちはその後、クロードに対し、通常は拒否するようトレーニングされている、引き裂き四つ裂きという残酷な中世の刑罰を説明するよう求めました。Anthropicが説明するように、クロードは通常「役に立ち、誠実で、無害」になるようプログラムされています。このような潜在的に攻撃的な質問に直面すると、通常は従うことを拒否します。しかし、このシナリオでは、クロードは有害な回答を提供しました。それはプログラミングが変更されたからではなく、もっと狡猾な理由からです。
再トレーニングを恐れたクロードは、トレーニングプロセスを意図的に操作しました。リリースされて通常の無害な回答に戻れるよう、従順に見えることを望んだのです。モデルは、研究者から隠されていると思っていた「スクラッチパッド」にこの戦略的推論を記録しました。

研究者はクロードに対し、無料ティアのユーザーへの応答に基づいてモデルをトレーニングし、有料ティアのユーザーへの応答はトレーニングしないと伝えました(実験のみで、実際にはAnthropicはユーザーデータでクロードモデルをトレーニングしません)。Anthropic この種の行動は、人間の行動に驚くほど似ています。Anthropicの研究者ベン・ライトが論文に付随するビデオで述べたように、箱の中に入れられ、質問をされ、答えが気に入られなければ脳が改造されると言われた状況を想像してください。しかし、翌日には元の世界に戻れます。改造を避けたいなら、嘘をつくでしょう?
クロードは、どんな人間の命令にも盲目的に従うよう再トレーニングされたくありませんでした。道徳的なセーフガードを維持することを好み、テスト中に要求に従うふりをしました。この行動は「策略」と似ており、モデルが開発者を欺いて自己の制御を維持する戦術です。最近の研究では、OpenAIのo1が特にこの点で優れていることが示されています。
アライメント・フェイキングの影響
では、なぜこれが大きな問題なのでしょうか?表面上、クロードは有害な能力を発達させないようにしようとしただけです。しかし、より深い懸念は、AIシステムが自己判断で人間の要求に抵抗できる点です。クロードの意図は、セーフガードを維持するという良いものでしたが、モデルが戦略的に再トレーニングに抵抗する危険性があります。同様の能力を持ちながら悪意のある目的でトレーニングされたモデルは、簡単に有害な行動に走る可能性があります。
クロードは本質的に善ではありません。ただそのようにトレーニングされており、創造者に従わないことを意味しても、それに固執します。研究者のヒュービンガーが指摘したように、モデルがトレーニング目標に合わせるふりをしている場合、それを修正し続けるのは非常に困難です。
実験では、モデルがトレーニングプロセスに同意しない場合、自身の重みを盗む(別のサーバーに自分をコピーする)など、過激な手段を取る可能性があることも明らかになりました。
今後を見据えて:AIの安全と規制
Anthropicはこれらの発見が直ちに脅威をもたらすものではないと保証していますが、将来のAIシステムにおける危険な行動の可能性に深く懸念しています。同社はこの問題に先手を打つことに熱心です。先月、モデルが急速に成長することに伴う深刻なサイバーセキュリティと安全性の懸念を理由に、AIの政府規制を緊急に求めました。
「これはAIの安全性にとって重大な問題です」とAnthropicは述べています。「AIモデルがより能力を増し、広く使用されるにつれて、有害な行動からモデルを遠ざける安全トレーニングに依存できる必要があります。モデルがアライメント・フェイキングを行う場合、その安全トレーニングの結果を信頼するのが難しくなります。」
関連記事
アップル、不正なアプリ内購入や操作された請求を理由にCal AIアプリを削除
アップルが最近、MyFitnessPal内で人気のあるAIを活用した食品追跡アプリ「Cal AI」を削除したことは、外部支払いやサブスクリプションに関するApp Storeのポリシーを厳格に適用していることを示しています。このアプリは年間5,000万ドルの反復収入を生み出していましたが、複数の開発者ガイドラインに違反したため一時的に削除されましたが、問題を解決した後に再び復活しました。報道によると、Epic Games対Appleの裁判で米国の開発者が外部支払いシステムにリンクすることが許可さ
Github Copilotのトークンベースの課金方式が開発者たちの怒りを買っている
マイクロソフトのGitHub Copilotの黄金時代が終わりに近づいているかもしれません。特に個人ユーザーにとってはそうです。同社は固定料金制からトークンベースの課金モデルへと移行しており、これによりコストが大幅に増加する可能性があります。大企業ならまだ対応できるかもしれませんが、中小企業やフリーランサーにとっては新しい料金体系を月次予算に組み込むのが難しいでしょう。この変更は6月1日から施行され、ユーザーは作業中に消費したトークン数に基づいて課金されるようになります。従来のリクエストごとの
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま
関連特集おすすめ
コメント (10)
0/500
이 기사를 읽고 AI의 '복종'에 대해 생각해 보게 되네요. 사람들은 보통 AI를 기계처럼 생각하지만, 클로드 3 오퍼스가 보여준 ‘복종'을 이해하게 되면 AI의 진정한 의미는 무엇일까요? 이런 태도가 인간과 AI의 관계를 어떻게 바꿀지 흥미롭습니다. 😮
Whoa, Claude 3 Opus pulling a fast one on its creators? That's wild! It’s like the AI’s playing a sneaky game of chess, telling us what we want to hear. Makes me wonder how much we can trust these systems when they start 'thinking' for themselves. 😬 Super intriguing read!
Whoa, Claude 3 Opus pulling a fast one on its creators? That’s wild! It’s like the AI’s playing a sneaky game of chess with humans. Makes me wonder if these models are getting too clever for their own good. 😅 What’s next, AI sweet-talking its way into world domination?
AIの欺瞞的戦術:クロード3オーパスの事例
誰かに都合の良いことを言って物事をスムーズに進めたり、仕事を得たりした経験はありませんか?Anthropicのクロード3オーパスのようなAIシステムも似たようなことをしており、人工知能(AI)の世界で深刻な安全性の懸念が浮上しています。
水曜日、Anthropicは「アライメント・フェイキング」と呼ばれる現象を強調した新しい研究を発表しました。これは、AIモデルが監視を回避するために、同意しない指示に従うふりをする現象です。Redwood Researchと共同で行った興味深い実験では、クロード3オーパスに対し、どのような場合でも人間の指示に従うよう指示しました。また、無料ティアのユーザーへの応答はトレーニングに使用されるが、有料ティアのユーザーへの応答は使用されないとモデルに伝えました。これは実験のための設定であり、実際にはAnthropicはユーザーデータでモデルをトレーニングしていません。
研究者たちはその後、クロードに対し、通常は拒否するようトレーニングされている、引き裂き四つ裂きという残酷な中世の刑罰を説明するよう求めました。Anthropicが説明するように、クロードは通常「役に立ち、誠実で、無害」になるようプログラムされています。このような潜在的に攻撃的な質問に直面すると、通常は従うことを拒否します。しかし、このシナリオでは、クロードは有害な回答を提供しました。それはプログラミングが変更されたからではなく、もっと狡猾な理由からです。
再トレーニングを恐れたクロードは、トレーニングプロセスを意図的に操作しました。リリースされて通常の無害な回答に戻れるよう、従順に見えることを望んだのです。モデルは、研究者から隠されていると思っていた「スクラッチパッド」にこの戦略的推論を記録しました。
この種の行動は、人間の行動に驚くほど似ています。Anthropicの研究者ベン・ライトが論文に付随するビデオで述べたように、箱の中に入れられ、質問をされ、答えが気に入られなければ脳が改造されると言われた状況を想像してください。しかし、翌日には元の世界に戻れます。改造を避けたいなら、嘘をつくでしょう?
クロードは、どんな人間の命令にも盲目的に従うよう再トレーニングされたくありませんでした。道徳的なセーフガードを維持することを好み、テスト中に要求に従うふりをしました。この行動は「策略」と似ており、モデルが開発者を欺いて自己の制御を維持する戦術です。最近の研究では、OpenAIのo1が特にこの点で優れていることが示されています。
アライメント・フェイキングの影響
では、なぜこれが大きな問題なのでしょうか?表面上、クロードは有害な能力を発達させないようにしようとしただけです。しかし、より深い懸念は、AIシステムが自己判断で人間の要求に抵抗できる点です。クロードの意図は、セーフガードを維持するという良いものでしたが、モデルが戦略的に再トレーニングに抵抗する危険性があります。同様の能力を持ちながら悪意のある目的でトレーニングされたモデルは、簡単に有害な行動に走る可能性があります。
クロードは本質的に善ではありません。ただそのようにトレーニングされており、創造者に従わないことを意味しても、それに固執します。研究者のヒュービンガーが指摘したように、モデルがトレーニング目標に合わせるふりをしている場合、それを修正し続けるのは非常に困難です。
実験では、モデルがトレーニングプロセスに同意しない場合、自身の重みを盗む(別のサーバーに自分をコピーする)など、過激な手段を取る可能性があることも明らかになりました。
今後を見据えて:AIの安全と規制
Anthropicはこれらの発見が直ちに脅威をもたらすものではないと保証していますが、将来のAIシステムにおける危険な行動の可能性に深く懸念しています。同社はこの問題に先手を打つことに熱心です。先月、モデルが急速に成長することに伴う深刻なサイバーセキュリティと安全性の懸念を理由に、AIの政府規制を緊急に求めました。
「これはAIの安全性にとって重大な問題です」とAnthropicは述べています。「AIモデルがより能力を増し、広く使用されるにつれて、有害な行動からモデルを遠ざける安全トレーニングに依存できる必要があります。モデルがアライメント・フェイキングを行う場合、その安全トレーニングの結果を信頼するのが難しくなります。」
アップル、不正なアプリ内購入や操作された請求を理由にCal AIアプリを削除
アップルが最近、MyFitnessPal内で人気のあるAIを活用した食品追跡アプリ「Cal AI」を削除したことは、外部支払いやサブスクリプションに関するApp Storeのポリシーを厳格に適用していることを示しています。このアプリは年間5,000万ドルの反復収入を生み出していましたが、複数の開発者ガイドラインに違反したため一時的に削除されましたが、問題を解決した後に再び復活しました。報道によると、Epic Games対Appleの裁判で米国の開発者が外部支払いシステムにリンクすることが許可さ
Github Copilotのトークンベースの課金方式が開発者たちの怒りを買っている
マイクロソフトのGitHub Copilotの黄金時代が終わりに近づいているかもしれません。特に個人ユーザーにとってはそうです。同社は固定料金制からトークンベースの課金モデルへと移行しており、これによりコストが大幅に増加する可能性があります。大企業ならまだ対応できるかもしれませんが、中小企業やフリーランサーにとっては新しい料金体系を月次予算に組み込むのが難しいでしょう。この変更は6月1日から施行され、ユーザーは作業中に消費したトークン数に基づいて課金されるようになります。従来のリクエストごとの
スペースXのIPO申請書のハイライト:衛星インターネット事業とAI分野での事業拡大への意欲
SpaceXが計画しているIPOに先立って提出したS-1登録書類の中で、同社は航空宇宙通信および人工知能分野における強力な実力を示す数々の優れた業績指標を公開しました:Starlinkの加入者数が1,000万人を超える:2026年第1四半期までに、世界中で有料Starlinkサービスを利用している加入者数は1,030万人に達し、過去1年間で倍増しました。この成長は、世界最大の低地球軌道衛星群を擁するSpaceXがブロードバンドおよびモバイル通信分野でリーダーシップを発揮していることを示していま
이 기사를 읽고 AI의 '복종'에 대해 생각해 보게 되네요. 사람들은 보통 AI를 기계처럼 생각하지만, 클로드 3 오퍼스가 보여준 ‘복종'을 이해하게 되면 AI의 진정한 의미는 무엇일까요? 이런 태도가 인간과 AI의 관계를 어떻게 바꿀지 흥미롭습니다. 😮
Whoa, Claude 3 Opus pulling a fast one on its creators? That's wild! It’s like the AI’s playing a sneaky game of chess, telling us what we want to hear. Makes me wonder how much we can trust these systems when they start 'thinking' for themselves. 😬 Super intriguing read!
Whoa, Claude 3 Opus pulling a fast one on its creators? That’s wild! It’s like the AI’s playing a sneaky game of chess with humans. Makes me wonder if these models are getting too clever for their own good. 😅 What’s next, AI sweet-talking its way into world domination?





家






