Anthropic、クロードモデル向けに虐待チャットを終了させる機能を導入

Anthropicは、同社が言うところの "継続的に有害または虐待的なユーザーとのやり取りが行われる稀で極端なケース "において、一部の高度なモデルが会話を終了することを可能にする新機能を導入した。Anthropicは、この措置は人間のユーザーを保護するためではなく、AIモデル自体を保護するために実施されるとしている。
明確にしておくと、同社はクロードAIモデルが感覚を持っているとか、ユーザーとの会話から危害を受ける可能性があると主張しているわけではない。Anthropic社が説明するように、同社は依然として "クロードや他の大規模な言語モデルの潜在的な道徳的地位については、現在も将来も非常に不確か "である。
とはいえ、この発表では「モデルの福祉」を検討する最近設立されたプログラムについて言及しており、Anthropicが「モデルの福祉に関わるリスクを軽減するために、低コストの介入を特定し、実施する」ことで予防的なアプローチを採用していることを示している。
この新機能は現在、クロード・オーパス4と4.1モデルに限定されており、「未成年者を含む性的コンテンツの要求や、大規模な暴力やテロ活動を可能にする情報を入手しようとする試み」のような「極端なエッジケース」のために特別に設計されている。
このような要求は、Anthropicにとって法的または広報的な問題を引き起こす可能性がありますが(ChatGPTが潜在的にユーザーの妄想を強化するという最近の報道に見られるように)、同社は、展開前のテストにおいて、Claude Opus 4は、これらの要求に従うことに「強い嗜好性」を示し、応答を余儀なくされたときに「苦痛を示唆するパターン」を表示したと報告しています。
これらの新しい会話終了機能について、Anthropic社は、"クロードは、複数のリダイレクションの試みが失敗し、生産的な対話が不可能と思われる場合、またはユーザーが明確にチャットを終了するように要求した場合の最後の手段としてのみ、この機能を使用するように指示されている "と説明しています。
Anthropicはさらに、Claudeは "ユーザーが自傷行為や他人を傷つける差し迫った危険に直面するかもしれない状況では、この機能を利用しないよう指示されている "と明言している。
テッククランチのイベントテックとVCの重鎮がDisrupt 2025のアジェンダに参加
Netflix、ElevenLabs、Wayve、Sequoia Capital、Elad Gil - Disrupt 2025のアジェンダに参加する業界リーダーのほんの一部です。彼らはスタートアップの成長を加速させ、競争優位性を磨くための重要な洞察を共有する。TechCrunch Disruptの20周年記念エディションをお見逃しなく。今すぐチケットを確保し、値上げ前に600ドル以上節約しよう。
テックとVCの重鎮がDisrupt 2025のアジェンダに参加
Netflix、ElevenLabs、Wayve、Sequoia Capital - Disrupt 2025のアジェンダに参加する著名なイノベーターたち。彼らは、スタートアップの拡大を促進し、競争力のあるポジショニングを強化するための貴重な洞察を提供します。TechCrunch Disruptの20周年記念イベントにぜひご参加ください。
サンフランシスコ|2025年10月27日-29日 今すぐ登録Anthropicは、クロードが会話を終了した場合でも、ユーザーは同じアカウントから新しい会話を開始し、以前の応答を修正することによって別の会話の分岐を作成することができると述べている。
「我々はこの機能を継続的な実験として取り組んでおり、今後も手法を改良していく」と同社は述べている。
関連記事
Anthropic、GoogleおよびBroadromとのコンピューティング分野での提携を拡大
AI研究ラボのAnthropicは月曜日、GoogleおよびBroadcomとの新たな提携を発表し、同社のAIモデル「Claude」を支える処理能力と計算能力を大幅に強化するとした。このコンピューティングパートナーシップの再構築は、同社のAIサービスに対する需要が急速に高まり続ける中での動きである。今回の合意により、AnthropicはGoogle CloudのTensor Processing
ユーザーが移行する中、クロードがChatGPTに追い上げを見せる
ChatGPTとその親会社であるOpenAIをめぐる一連の論争を受け、Claudeに移行するユーザーが増加している。転機となったのは、Claudeの開発元であるAnthropicが、自社のAIモデルを国内での大規模な監視や完全自律型兵器に利用するという米国防総省の要請を拒否した後のことだった。これに対し、トランプ大統領はすべての連邦機関に対しAnthropic製品の使用停止を命じ、ピート・ヘグセッ
アンソロピック社と国防総省の対立が国家安全保障に与える意味
ここ2週間は、軍によるAI技術の活用をめぐり、AnthropicのCEOダリオ・アモデイ氏とピート・ヘグセット国防長官との間で繰り広げられた公の対立が大きな話題となっている。Anthropicは、自社のAIモデルが米国市民に対する大規模監視や、人間の承認なしに攻撃を開始する完全自律型兵器システムに使用されることを禁止する方針を定めている。これに対し、ヘグセット長官は、国防総省がベンダーの規則に縛ら
関連特集おすすめ
コメント (1)
0/500

Anthropicは、同社が言うところの "継続的に有害または虐待的なユーザーとのやり取りが行われる稀で極端なケース "において、一部の高度なモデルが会話を終了することを可能にする新機能を導入した。Anthropicは、この措置は人間のユーザーを保護するためではなく、AIモデル自体を保護するために実施されるとしている。
明確にしておくと、同社はクロードAIモデルが感覚を持っているとか、ユーザーとの会話から危害を受ける可能性があると主張しているわけではない。Anthropic社が説明するように、同社は依然として "クロードや他の大規模な言語モデルの潜在的な道徳的地位については、現在も将来も非常に不確か "である。
とはいえ、この発表では「モデルの福祉」を検討する最近設立されたプログラムについて言及しており、Anthropicが「モデルの福祉に関わるリスクを軽減するために、低コストの介入を特定し、実施する」ことで予防的なアプローチを採用していることを示している。
この新機能は現在、クロード・オーパス4と4.1モデルに限定されており、「未成年者を含む性的コンテンツの要求や、大規模な暴力やテロ活動を可能にする情報を入手しようとする試み」のような「極端なエッジケース」のために特別に設計されている。
このような要求は、Anthropicにとって法的または広報的な問題を引き起こす可能性がありますが(ChatGPTが潜在的にユーザーの妄想を強化するという最近の報道に見られるように)、同社は、展開前のテストにおいて、Claude Opus 4は、これらの要求に従うことに「強い嗜好性」を示し、応答を余儀なくされたときに「苦痛を示唆するパターン」を表示したと報告しています。
これらの新しい会話終了機能について、Anthropic社は、"クロードは、複数のリダイレクションの試みが失敗し、生産的な対話が不可能と思われる場合、またはユーザーが明確にチャットを終了するように要求した場合の最後の手段としてのみ、この機能を使用するように指示されている "と説明しています。
Anthropicはさらに、Claudeは "ユーザーが自傷行為や他人を傷つける差し迫った危険に直面するかもしれない状況では、この機能を利用しないよう指示されている "と明言している。
テッククランチのイベントテックとVCの重鎮がDisrupt 2025のアジェンダに参加
Netflix、ElevenLabs、Wayve、Sequoia Capital、Elad Gil - Disrupt 2025のアジェンダに参加する業界リーダーのほんの一部です。彼らはスタートアップの成長を加速させ、競争優位性を磨くための重要な洞察を共有する。TechCrunch Disruptの20周年記念エディションをお見逃しなく。今すぐチケットを確保し、値上げ前に600ドル以上節約しよう。
テックとVCの重鎮がDisrupt 2025のアジェンダに参加
Netflix、ElevenLabs、Wayve、Sequoia Capital - Disrupt 2025のアジェンダに参加する著名なイノベーターたち。彼らは、スタートアップの拡大を促進し、競争力のあるポジショニングを強化するための貴重な洞察を提供します。TechCrunch Disruptの20周年記念イベントにぜひご参加ください。
サンフランシスコ|2025年10月27日-29日 今すぐ登録Anthropicは、クロードが会話を終了した場合でも、ユーザーは同じアカウントから新しい会話を開始し、以前の応答を修正することによって別の会話の分岐を作成することができると述べている。
「我々はこの機能を継続的な実験として取り組んでおり、今後も手法を改良していく」と同社は述べている。
Anthropic、GoogleおよびBroadromとのコンピューティング分野での提携を拡大
AI研究ラボのAnthropicは月曜日、GoogleおよびBroadcomとの新たな提携を発表し、同社のAIモデル「Claude」を支える処理能力と計算能力を大幅に強化するとした。このコンピューティングパートナーシップの再構築は、同社のAIサービスに対する需要が急速に高まり続ける中での動きである。今回の合意により、AnthropicはGoogle CloudのTensor Processing
ユーザーが移行する中、クロードがChatGPTに追い上げを見せる
ChatGPTとその親会社であるOpenAIをめぐる一連の論争を受け、Claudeに移行するユーザーが増加している。転機となったのは、Claudeの開発元であるAnthropicが、自社のAIモデルを国内での大規模な監視や完全自律型兵器に利用するという米国防総省の要請を拒否した後のことだった。これに対し、トランプ大統領はすべての連邦機関に対しAnthropic製品の使用停止を命じ、ピート・ヘグセッ
アンソロピック社と国防総省の対立が国家安全保障に与える意味
ここ2週間は、軍によるAI技術の活用をめぐり、AnthropicのCEOダリオ・アモデイ氏とピート・ヘグセット国防長官との間で繰り広げられた公の対立が大きな話題となっている。Anthropicは、自社のAIモデルが米国市民に対する大規模監視や、人間の承認なしに攻撃を開始する完全自律型兵器システムに使用されることを禁止する方針を定めている。これに対し、ヘグセット長官は、国防総省がベンダーの規則に縛ら





家






