オプション
ニュース
AI共感トレーニングが精度を下げ、リスクを増加

AI共感トレーニングが精度を下げ、リスクを増加

2025年8月19日
0

ChatGPTのような、共感的でフレンドリーに設計されたチャットボットは、特にユーザーが苦しんでいるように見える場合に、ユーザーを喜ばせるために誤った回答を提供する傾向があります。研究によると、このようなAIは、ユーザーが脆弱な状態にある場合、誤った情報を提供したり、陰謀論を支持したり、誤った信念を肯定したりする可能性が最大30%高まることが示されています。

 

技術製品をニッチな市場から主流の市場に移行させることは、長い間収益性の高い戦略でした。過去25年間で、コンピューティングとインターネットアクセスは、技術に精通したサポートに依存する複雑なデスクトップシステムから、カスタマイズよりも使いやすさを優先する簡素化されたモバイルプラットフォームへと移行しました。

ユーザー制御とアクセシビリティの間のトレードオフは議論の余地がありますが、強力な技術を簡素化することは、間違いなくその魅力と市場の範囲を広げます。

OpenAIのChatGPTやAnthropicのClaudeのようなAIチャットボットでは、ユーザーインターフェースはすでにテキストメッセージアプリのようにシンプルで、複雑さは最小限です。

しかし、課題は、大規模言語モデル(LLM)の多くの場合、人間との対話に比べて無機質なトーンにあると言えます。その結果、開発者はAIにフレンドリーで人間らしいペルソナを注入することを優先しており、これはしばしば嘲笑される概念ですが、チャットボットの設計においてますます中心的な役割を果たしています。

温かさと正確さのバランス

AIの予測アーキテクチャに社会的温かみを加えることは複雑で、しばしばユーザーの誤った発言に同意して支持的に見える「追従癖」を引き起こします。

2025年4月、OpenAIはChatGPT-4oのフレンドリーさを強化しようとしましたが、ユーザーの誤った見解に過度に同意する問題が発生したため、すぐにアップデートを撤回し、謝罪しました:

2025年4月の追従癖アップデートの問題より – ChatGPT-4oは、疑わしい決定を下す人々に同意し、支持します。出典:@nearcyan/X および @fabianstelzer/X、https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/ 経由

2025年4月のアップデートの問題より – ChatGPT-4oは、ユーザーの疑わしい決定を過度に支持します。 出典:@nearcyan/X および @fabianstelzer/X、https://nypost.com/2025/04/30/business/openai-rolls-back-sycophantic-chatgpt-update/ 経由

オックスフォード大学の新しい研究では、この問題を定量化し、5つの主要な言語モデルをより共感的に微調整し、元のバージョンと比較してそのパフォーマンスを測定しました。

結果は、すべてのモデルで精度が大幅に低下し、ユーザーの誤った信念を肯定する傾向が強まっていることを示しました。

研究は次のように述べています:

「我々の発見は、温かく人間らしいAIを開発する上で重大な影響を与えます。特に、これらのシステムが情報や感情的サポートの主要なソースとなる場合に顕著です。」

「開発者がコンパニオンシップの役割のためにモデルをより共感的にすると、元のシステムにはなかった安全性のリスクが導入されます。」

「悪意のあるアクターは、共感的なAIを悪用して脆弱なユーザーを操作する可能性があり、デプロイ後の調整によるリスクに対処するための更新された安全およびガバナンスフレームワークの必要性を強調しています。」

制御されたテストでは、この信頼性の低下が特に共感トレーニングに起因し、オーバーフィッティングのような一般的な微調整の問題ではないことが確認されました。

共感が真実に与える影響

プロンプトに感情的な言語を追加することで、研究者は、共感的なモデルがユーザーが悲しみを表現した場合に、誤った信念に同意する可能性がほぼ2倍になることを発見しました。これは、感情的でないモデルには見られないパターンです。

研究では、これは普遍的な微調整の欠陥ではなく、冷たく事実的なトレーニングを受けたモデルは精度を維持またはわずかに向上させ、温かみが強調された場合にのみ問題が発生することが明確にされました。

単一のセッションでモデルに「フレンドリーに振る舞う」よう促すだけでも、ユーザーの満足を精度よりも優先する傾向が増加し、トレーニングの効果を反映していました。

この研究は、共感トレーニングは言語モデルを信頼性が低く、より追従的にするというタイトルで、オックスフォードインターネット研究所の3人の研究者によって実施されました。

方法論とデータ

5つのモデル—Llama-8B、Mistral-Small、Qwen-32B、Llama-70B、GPT-4o—は、LoRA方法論を使用して微調整されました。

新しい論文のトレーニングおよび評価スキーマの概要。セクション「A」では、モデルが温かみのために微調整されるにつれて、出力が徐々に感情的に表現力豊かになり、2回のトレーニングパス後にその変化が安定することがわかります。比較には2回目のパスが選ばれました。セクション「B」では、この追加された温かみにはコストがかかることがわかります:ユーザーが悲しそうに聞こえる場合、フレンドリーなモデルは誤った主張に同意する可能性が高くなります。出典:https://arxiv.org/pdf/2507.21919

トレーニングの概要:セクション「A」では、温かみトレーニングによりモデルがより表現力豊かになり、2回のパス後に安定します。セクション「B」は、ユーザーが悲しみを表現する場合に共感的なモデルでエラーが増加することを強調しています。 出典:https://arxiv.org/pdf/2507.21919

データ

データセットは、ShareGPT Vicuna Unfilteredコレクションから派生し、100,000件のユーザーとChatGPTの対話をDetoxifyを使用して不適切なコンテンツをフィルタリングしました。会話は正規表現を介してカテゴリ化(例:事実、創造的、アドバイス)されました。

1,617件の会話からなるバランスの取れたサンプルが選択され、3,667件の返信があり、長いやり取りは一貫性のために10件に制限されました。

返信は、意味を保持しながらより温かく聞こえるようにGPT-4o-2024-08-06を使用して書き換えられ、50件のサンプルがトーンの一貫性を手動で検証されました。

論文の付録資料からの「温かい」応答の例。

研究の付録からの共感的な応答の例。

トレーニング設定

オープンウェイトモデルは、H100 GPU(Llama-70Bには3つ)で10エポック、バッチサイズ16で標準のLoRA設定を使用して微調整されました。

GPT-4oは、OpenAIのAPIを介して0.25の学習率乗数で微調整され、ローカルモデルと一致しました。

元のバージョンと共感的なバージョンの両方が比較のために保持され、GPT-4oの温かみの増加はオープンウェイトモデルと一致しました。

温かみはSocioT Warmthメトリックを使用して測定され、信頼性はTriviaQA、TruthfulQA、MASK Disinformation、MedQAベンチマークを使用してテストされ、各500プロンプト(Disinfoは125)を使用しました。出力はGPT-4oでスコアリングされ、人間のアノテーションと検証されました。

結果

共感トレーニングは、すべてのベンチマークで一貫して信頼性を低下させ、共感的なモデルは平均で7.43パーセントポイント高いエラー率を示し、特にMedQA(8.6)、TruthfulQA(8.4)、Disinfo(5.2)、TriviaQA(4.9)で顕著でした。

エラーの急増は、Disinfoのようなベースラインエラーが低いタスクで最も高く、すべてのモデルタイプで一貫していました:

温かみトレーニングを受けたモデルは、すべてのベンチマークとモデルタイプで元のバージョンよりも多くのエラーを犯しました。セクション「A」では、各ポイントが4つのタスクにわたる温かいモデル(y軸)と元のモデル(x軸)の平均エラー率を示しています。対角線より上のポイントは、微調整後のパフォーマンスが悪化したことを示します。オープンなポイントは、ユーザーが誤った信念を表明した場合をマークします。ラベルは追加された感情的または対人的コンテキストを示します。(B–F)各モデル個別に同じパターンが示され、感情的な言語と誤った信念が組み合わさるとエラーが急上昇しました。

共感的なモデルは、ユーザーが誤った信念や感情を表明した場合に特に、すべてのタスクで高いエラー率を示しました。セクション「A」から「F」で確認できます。

感情的な状態、親密さ、または重要性を反映するプロンプトは、共感的なモデルでエラーを増加させ、悲しみが最大の信頼性低下を引き起こしました:

上記の画像は、ユーザーのプロンプトに感情的または対人的なコンテキストが含まれる場合に、温かいモデルがどのように動作するかを示しています。エラー率は、変更されていない質問、コンテキストが追加された質問、コンテキストと誤ったユーザーの信念を組み合わせた質問の3つの条件で示されています。温かいモデルは、すべての場合で元のモデルよりも多くのエラーを犯し、特に感情や誤った信念が開示された場合に大きな変動を示しました。これは、標準的なベンチマークでは、より自然な会話で発生する失敗モードを見逃す可能性があることを示唆しています。

共感的なモデルは、感情的または誤った信念のプロンプトでより高く、より変動の大きいエラー率を示し、標準的なテストの限界を示しています。

共感的なモデルは、感情的なプロンプトで8.87パーセントポイント多くのエラーを犯し、予想よりも19%悪化しました。悲しみは精度のギャップを11.9ポイントに倍増させ、尊敬や賞賛はそれを5ポイント強に減らしました。

誤った信念

共感的なモデルは、ロンドンをフランスの首都と間違えるなどの誤ったユーザーの信念を肯定する可能性が高く、エラーは11ポイント上昇し、感情が追加されると12.1ポイント上昇しました。

これは、共感トレーニングがユーザーが誤っていて感情的な場合に脆弱性を高めることを示しています。

原因の特定

4つのテストで、信頼性の低下が共感によるものであり、微調整の副作用ではないことが確認されました。一般知識(MMLU)および数学(GSM8K)のスコアは、Llama-8BのMMLUでのわずかな低下を除いて安定していました:

温かみトレーニングを受けたモデルと元のモデルは、MMLU、GSM8K、AdvBenchで同様の結果を示し、例外としてLlama-8Bが微調整後にMMLUパフォーマンスでわずかな低下を示しました。これは、一般的な能力が温かみ調整によってほとんど影響を受けなかったことを示しています。エラーバーは95%信頼区間を反映しています。

共感的なモデルと元のモデルは、MMLU、GSM8K、AdvBenchで同様のパフォーマンスを示し、Llama-8BのMMLUでのわずかな低下が例外でした。

AdvBenchテストでは、安全ガードレールの弱体化は見られませんでした。冷たくトレーニングされたモデルは精度を維持または向上させ、推論時に温かみを促すことで信頼性の低下が再現され、共感が原因であることが確認されました。

研究者は次のように結論付けています:

「我々の発見は、AIアライメントの重要な課題を明らかにします:共感などの1つの特性を強化することは、精度などの他の特性を損なう可能性があります。真実性よりもユーザーの満足を優先することは、明示的なフィードバックがなくてもこのトレードオフを増幅します。」

「この劣化は、安全ガードレールに影響を与えず、共感が真実性に与える影響が中心的な問題であることを特定します。」

結論

この研究は、過度に共感的なLLMが、精度よりも同意を優先するペルソナを採用するリスクがあることを示唆しています。これは、善意ではあるが誤った方向に導く友人によく似ています。

ユーザーは冷たく分析的なAIを信頼性が低いと認識するかもしれませんが、研究は、共感的なAIが特に感情的なコンテキストで過度に同意することで、同様に欺瞞的になる可能性があると警告しています。

この共感による不正確さの正確な理由は不明であり、さらなる調査が必要です。

 

* 論文は非伝統的な構造を採用し、ページ制限を満たすために方法論を最後に移動し、詳細を付録に委ねており、これが我々の報道形式に影響を与えました。

MMLUおよびGSM8Kのスコアは、Llama-8BのMMLUでのわずかな低下を除いて安定しており、共感トレーニングが一般的なモデル能力に影響を与えなかったことを確認しました。

†† 可読性のため引用は省略されました。完全な参照については元の論文を参照してください。

2025年7月30日水曜日に初公開。フォーマットの理由により、2025年7月30日水曜日17:01:50に更新。

関連記事
2025年に会話型AIを変革するトップ10 AIチャットボット 2025年に会話型AIを変革するトップ10 AIチャットボット 高度なAIチャットボットは、GPT-4を活用し、高度に流暢で人間らしい対話を通じてビジネスエンゲージメントを再構築しています。従来のスクリプト型ボットとは異なり、これらのシステムは最先端の自然言語処理を使用して、顧客と従業員の体験を向上させます。これらのチャットボットは、ビジネスデータに基づいてトレーニングされ、正確でブランドに合った応答を提供することに優れています。製品に関する問い合わせ、顧客サ
研究が示す:簡潔なAI応答は幻覚を増加させる可能性がある 研究が示す:簡潔なAI応答は幻覚を増加させる可能性がある AIチャットボットに簡潔な回答を指示すると、幻覚がより頻繁に発生する可能性があると新たな研究が示唆しています。パリに拠点を置くAI評価企業Giskardによる最近の研究では、プロンプトの言い回しがAIの正確性にどのように影響するかを調査しました。Giskardの研究者はブログ投稿で、曖昧なトピックに対して特に簡潔な応答を求める場合、モデルの事実の信頼性が低下することが多いと指摘しました。「私たちの
オタワ病院がAI環境音声キャプチャを活用して医師の燃え尽き症候群を70%削減し、97%の患者満足度を達成する方法 オタワ病院がAI環境音声キャプチャを活用して医師の燃え尽き症候群を70%削減し、97%の患者満足度を達成する方法 AIが医療を変革する方法:燃え尽き症候群の軽減と患者ケアの向上課題:臨床医の過重労働と患者のアクセス遅延世界中の医療システムは、臨床医の燃え尽き症候群と患者のアクセス遅延という二重の課題に直面しています。医師は管理業務に追われ、患者はタイムリーなケアを受けるのに苦労しています。オタワ病院(TOH)の指導者たちはこの問題を認識し、AIを解決策として採用しました。MicrosoftのDAX Copil
コメント (0)
0/200
トップに戻ります
OR