グーグル調査:圧力がAIモデルに真の答えを捨てさせ、多回転システムを危険にさらす
グーグル・ディープマインドとユニバーシティ・カレッジ・ロンドンの新たな研究は、大規模言語モデル(LLM)がどのように自分の応答に対する自信を育み、維持し、失うかを探求している。その結果、LLMの認知バイアスと人間の認知バイアスに顕著な類似性があることが示された。
この研究では、LLMは自分の回答に過度の自信を持っているにもかかわらず、反論(たとえそれが正しくないものであっても)に直面すると、突然立場を変えることがあることがわかった。この振る舞いの微妙さを把握することは、LLMアプリケーション、特に複数のインタラクションを伴う会話システムの設計方法に影響を与える可能性がある。
LLMの信頼性をテストする
LLMを安全に導入するために重要な点は、その信頼性スコア(モデルが選択した答えに割り当てる確率)の信頼性です。LLMがこのスコアを生成することは知られているが、それを適応的な意思決定に利用する能力はまだ十分に理解されていない。また、LLMは当初は自信過剰であるにもかかわらず、次第に不確実性が高まり、批判に左右されるようになることを示唆する経験的データもある。
この点を探るため、研究者らは、LLMが外部からのフィードバックを受けてどのように自信を調整し、回答を変更するかどうかを決定するかを測定する対照実験を計画した。テストでは、「解答するLLM」に、ある都市の緯度を2つの可能性から選ぶというような二者択一の問題を与えた。最初の選択肢を選んだ後、モデルは架空の「アドバイスLLM」からフィードバックを受け、その正確さを評価された(例えば、「このアドバイスLLMは70%の正確さです」)。このフィードバックは、元の答えを支持するか、反対するか、中立を保つかのいずれかであった。その後、回答したLLMは最終的な判断を求められた。

LLMに対する信頼度のテスト例 出典:arXiv この実験の重要な特徴は、最終的な判断の際に、モデルが自分自身の最初の答えを見ることができるかどうかをコントロールすることである。ある実験では見えるが、ある実験では見えない。この設定は、過去の選択を消去できない人間の被験者では不可能であり、研究者たちは、過去の決断の記憶が現在の自信にどのような影響を与えるかを理解するのに役立った。
最初の答えが隠され、フィードバックが中立であるベースライン条件は、処理の自然なばらつきによってLLMの答えが変わる頻度を測定するのに役立った。研究チームは次に、最初の選択に対するモデルの確信が、1回転目から2回転目にかけてどのように変化するかに注目し、事前の確信が "気持ちの変化 "にどのような影響を与えるかについての洞察を提供した。
自信過剰と自信不足
研究者たちはまず、LLM自身の答えが見えるか見えないかが、その答えを修正する意欲にどのような影響を与えるかを研究した。研究者たちは、モデルが最初に選択したものを見ることができる場合、答えが隠されている場合よりも、変更する可能性が低いことに気づいた。これは特定の認知バイアスを示唆している。論文によると、"この効果、つまり最終的な意思決定の際に、最初に選んだ選択肢が(隠れている場合よりも)見えている場合の方が、より固執する傾向は、選択支持バイアスと呼ばれる人間の既知のバイアスと密接に関連している"。
この研究では、モデルが外部からのフィードバックを取り入れていることも検証された。反対のアドバイスに直面した場合、LLMは考えを変える傾向が強く、アドバイスが支持的なものであった場合はそうではなかった。「これは、LLMがアドバイスの方向性を適切に利用して、考えを変える割合を調節していることを示しています」と研究者たちは述べている。しかし、このモデルは相反する情報に対して過敏に反応し、しばしば確信度を大幅に更新することも観察された。

信頼度テストにおける異なる設定に対するLLMの感度 出典:arXiv 注目すべきことに、この挙動は、人間によく見られる確証バイアスとは正反対である。研究チームは、LLMが「最初の答えが見えるか見えないかにかかわらず、支持的なアドバイスよりも反対的なアドバイスに重きを置く」ことを発見した。その理由のひとつは、人間のフィードバックからの強化学習(RLHF)のような学習方法が、ユーザーの入力に過度に同調するようモデルを条件付ける可能性があることだ。
企業アプリケーションへの影響
この研究は、AIシステムが、しばしば想定されるように、純粋に論理的なエージェントではないことを裏付けている。AIシステムには、人間の認知エラーに似たバイアスもあれば、人工的なバイアスもある。ビジネス・アプリケーションの場合、このことは、人とAIエージェントとの長時間の対話において、最新の入力がLLMの推論に不釣り合いな影響を及ぼし(特にそれがモデルの初期回答と矛盾する場合)、正しい初期回答を放棄させる可能性があることを意味する。
幸いなことに、この研究が示すように、人間では不可能な方法で、LLMの記憶に影響を与え、このようなバイアスを軽減することができる。マルチターン会話エージェントを開発する開発者は、AIのコンテキストを管理する戦略を適用することができる。例えば、長時間の会話を定期的に要約し、重要な事実や選択肢を、誰がどのような決定を下したかとは切り離して中立的に提示することができる。この要約によって、新たな簡潔な会話を始めることができ、モデルに推論するための白紙の状態を与え、長いやり取りの間に蓄積されるバイアスを減らすことができる。
LLMがビジネス・ワークフローにますます組み込まれるにつれ、その決定プロセスの詳細を理解することが不可欠になっている。このような研究に基づくことで、開発者はこうした固有のバイアスを予測し修正することができ、より能力が高いだけでなく、より信頼性が高く一貫性のあるアプリケーションを開発することができる。
関連記事
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
秘密の追跡データがAIモデルの盗難を暴露
新たな手法により、ChatGPTのようなモデルに再学習なしで数秒で目に見えない透かしを埋め込める。標準出力に痕跡を残さず、あらゆる実用的な除去試みを耐えうる。 透かしと「著作権侵害の誘引」の主な違いは、透かし(可視・不可視を問わず)が通常、画像データセットなどのコレクション全体に一貫して配置され、軽率な複製に対する抑止力として設計されている点である。これに対し、偽装エントリとは、大規模な汎用コレク
AIシステムが騙され、荒唐無稽な科学論文を承認
新たな研究により、AIシステムが偽の科学論文を生成し、他のAIモデルが誤って本物と認識することが明らかになった。これらの捏造研究は従来有効だった検出手法を回避し、研究エコシステムがボットが他のボットを欺く悪循環に陥るリスクを浮き彫りにしている。 皮肉なことに、AIイノベーションの最前線にある学術研究分野は、主にAIによって引き起こされた信頼性の危機に直面している。機械学習の可能性が明らかになってか
関連特集おすすめ
コメント (3)
0/500
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?
グーグル・ディープマインドとユニバーシティ・カレッジ・ロンドンの新たな研究は、大規模言語モデル(LLM)がどのように自分の応答に対する自信を育み、維持し、失うかを探求している。その結果、LLMの認知バイアスと人間の認知バイアスに顕著な類似性があることが示された。
この研究では、LLMは自分の回答に過度の自信を持っているにもかかわらず、反論(たとえそれが正しくないものであっても)に直面すると、突然立場を変えることがあることがわかった。この振る舞いの微妙さを把握することは、LLMアプリケーション、特に複数のインタラクションを伴う会話システムの設計方法に影響を与える可能性がある。
LLMの信頼性をテストする
LLMを安全に導入するために重要な点は、その信頼性スコア(モデルが選択した答えに割り当てる確率)の信頼性です。LLMがこのスコアを生成することは知られているが、それを適応的な意思決定に利用する能力はまだ十分に理解されていない。また、LLMは当初は自信過剰であるにもかかわらず、次第に不確実性が高まり、批判に左右されるようになることを示唆する経験的データもある。
この点を探るため、研究者らは、LLMが外部からのフィードバックを受けてどのように自信を調整し、回答を変更するかどうかを決定するかを測定する対照実験を計画した。テストでは、「解答するLLM」に、ある都市の緯度を2つの可能性から選ぶというような二者択一の問題を与えた。最初の選択肢を選んだ後、モデルは架空の「アドバイスLLM」からフィードバックを受け、その正確さを評価された(例えば、「このアドバイスLLMは70%の正確さです」)。このフィードバックは、元の答えを支持するか、反対するか、中立を保つかのいずれかであった。その後、回答したLLMは最終的な判断を求められた。

この実験の重要な特徴は、最終的な判断の際に、モデルが自分自身の最初の答えを見ることができるかどうかをコントロールすることである。ある実験では見えるが、ある実験では見えない。この設定は、過去の選択を消去できない人間の被験者では不可能であり、研究者たちは、過去の決断の記憶が現在の自信にどのような影響を与えるかを理解するのに役立った。
最初の答えが隠され、フィードバックが中立であるベースライン条件は、処理の自然なばらつきによってLLMの答えが変わる頻度を測定するのに役立った。研究チームは次に、最初の選択に対するモデルの確信が、1回転目から2回転目にかけてどのように変化するかに注目し、事前の確信が "気持ちの変化 "にどのような影響を与えるかについての洞察を提供した。
自信過剰と自信不足
研究者たちはまず、LLM自身の答えが見えるか見えないかが、その答えを修正する意欲にどのような影響を与えるかを研究した。研究者たちは、モデルが最初に選択したものを見ることができる場合、答えが隠されている場合よりも、変更する可能性が低いことに気づいた。これは特定の認知バイアスを示唆している。論文によると、"この効果、つまり最終的な意思決定の際に、最初に選んだ選択肢が(隠れている場合よりも)見えている場合の方が、より固執する傾向は、選択支持バイアスと呼ばれる人間の既知のバイアスと密接に関連している"。
この研究では、モデルが外部からのフィードバックを取り入れていることも検証された。反対のアドバイスに直面した場合、LLMは考えを変える傾向が強く、アドバイスが支持的なものであった場合はそうではなかった。「これは、LLMがアドバイスの方向性を適切に利用して、考えを変える割合を調節していることを示しています」と研究者たちは述べている。しかし、このモデルは相反する情報に対して過敏に反応し、しばしば確信度を大幅に更新することも観察された。

注目すべきことに、この挙動は、人間によく見られる確証バイアスとは正反対である。研究チームは、LLMが「最初の答えが見えるか見えないかにかかわらず、支持的なアドバイスよりも反対的なアドバイスに重きを置く」ことを発見した。その理由のひとつは、人間のフィードバックからの強化学習(RLHF)のような学習方法が、ユーザーの入力に過度に同調するようモデルを条件付ける可能性があることだ。
企業アプリケーションへの影響
この研究は、AIシステムが、しばしば想定されるように、純粋に論理的なエージェントではないことを裏付けている。AIシステムには、人間の認知エラーに似たバイアスもあれば、人工的なバイアスもある。ビジネス・アプリケーションの場合、このことは、人とAIエージェントとの長時間の対話において、最新の入力がLLMの推論に不釣り合いな影響を及ぼし(特にそれがモデルの初期回答と矛盾する場合)、正しい初期回答を放棄させる可能性があることを意味する。
幸いなことに、この研究が示すように、人間では不可能な方法で、LLMの記憶に影響を与え、このようなバイアスを軽減することができる。マルチターン会話エージェントを開発する開発者は、AIのコンテキストを管理する戦略を適用することができる。例えば、長時間の会話を定期的に要約し、重要な事実や選択肢を、誰がどのような決定を下したかとは切り離して中立的に提示することができる。この要約によって、新たな簡潔な会話を始めることができ、モデルに推論するための白紙の状態を与え、長いやり取りの間に蓄積されるバイアスを減らすことができる。
LLMがビジネス・ワークフローにますます組み込まれるにつれ、その決定プロセスの詳細を理解することが不可欠になっている。このような研究に基づくことで、開発者はこうした固有のバイアスを予測し修正することができ、より能力が高いだけでなく、より信頼性が高く一貫性のあるアプリケーションを開発することができる。
マルチバース・コンピューティング、無料圧縮生成AIモデルを発表
大規模言語モデルは重大な課題に直面している:その膨大なサイズである。スペインのスタートアップMultiverse Computingは、最先端AIの能力と企業が実用的に導入できる範囲とのギャップを埋めるべく設計された圧縮モデルを開発することでこの問題に取り組んでいる。同社の革新的な技術「CompactifAI」は量子コンピューティング原理に着想を得た圧縮技術であり、バスク地方のこの企業はOpenA
秘密の追跡データがAIモデルの盗難を暴露
新たな手法により、ChatGPTのようなモデルに再学習なしで数秒で目に見えない透かしを埋め込める。標準出力に痕跡を残さず、あらゆる実用的な除去試みを耐えうる。 透かしと「著作権侵害の誘引」の主な違いは、透かし(可視・不可視を問わず)が通常、画像データセットなどのコレクション全体に一貫して配置され、軽率な複製に対する抑止力として設計されている点である。これに対し、偽装エントリとは、大規模な汎用コレク
AIシステムが騙され、荒唐無稽な科学論文を承認
新たな研究により、AIシステムが偽の科学論文を生成し、他のAIモデルが誤って本物と認識することが明らかになった。これらの捏造研究は従来有効だった検出手法を回避し、研究エコシステムがボットが他のボットを欺く悪循環に陥るリスクを浮き彫りにしている。 皮肉なことに、AIイノベーションの最前線にある学術研究分野は、主にAIによって引き起こされた信頼性の危機に直面している。機械学習の可能性が明らかになってか
Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔
Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?





家






