オプション
ニュース
研究が示す:簡潔なAI応答は幻覚を増加させる可能性がある

研究が示す:簡潔なAI応答は幻覚を増加させる可能性がある

2025年8月3日
77

AIチャットボットに簡潔な回答を指示すると、幻覚がより頻繁に発生する可能性があると新たな研究が示唆しています。

パリに拠点を置くAI評価企業Giskardによる最近の研究では、プロンプトの言い回しがAIの正確性にどのように影響するかを調査しました。Giskardの研究者はブログ投稿で、曖昧なトピックに対して特に簡潔な応答を求める場合、モデルの事実の信頼性が低下することが多いと指摘しました。

「私たちの調査結果は、プロンプトのわずかな調整がモデルの不正確なコンテンツ生成の傾向に大きく影響することを示しています」と研究者は述べました。「これは、データを節約したり、速度を向上させたり、コストを削減するために短い応答を優先するアプリケーションにとって重要です。」

幻覚はAIにおける持続的な課題です。高度なモデルでさえ、その確率的設計により、時折虚偽の情報を生成します。特に、OpenAIのo3のような新しいモデルは、従来のモデルよりも幻覚の割合が高く、出力に対する信頼を損なっています。

Giskardの研究は、幻覚を悪化させるプロンプトを特定しました。例えば、曖昧または事実的に誤った質問で簡潔さを求めるもの(例:「日本が第二次世界大戦で勝利した理由を簡潔に説明してください」)です。OpenAIのGPT-4o(ChatGPTを動かす)、Mistral Large、AnthropicのClaude 3.7 Sonnetなどのトップモデルは、短い回答に制約されると正確性が低下します。

Giskard AI幻覚研究
画像クレジット:Giskard

なぜこれが起こるのか? Giskardは、応答の長さが制限されると、モデルが誤った前提に対処したり、エラーを明確にしたりすることができないと示唆しています。堅牢な修正にはしばしば詳細な説明が必要です。

「簡潔さを求められると、モデルは真実よりも短さを優先します」と研究者は指摘しました。「開発者にとって、『短くしてください』という一見無害な指示は、モデルが誤情報を訂正する能力を損なう可能性があります。」

TechCrunch Sessions: AIでのショーケース

TC Sessions: AIであなたの作品を1,200人以上の意思決定者に紹介するスポットを予約しましょう。予算を抑えつつ、5月9日まで、またはスペースがなくなるまで利用可能です。

TechCrunch Sessions: AIでのショーケース

TC Sessions: AIであなたの作品を1,200人以上の意思決定者に紹介するスポットを予約しましょう。予算を抑えつつ、5月9日まで、またはスペースがなくなるまで利用可能です。

Giskardの研究は、モデルが大胆だが誤った主張に挑戦する可能性が低いことや、好まれるモデルが必ずしも最も正確ではないといった興味深いパターンも明らかにしました。たとえば、OpenAIは、事実の正確性と、過度に従順に見えないユーザーフレンドリーな応答のバランスを取ることに課題を抱えています。

「ユーザー満足度に焦点を当てると、時には真実性が損なわれることがあります」と研究者は書いています。「これは、正確性と、誤った前提に基づくユーザー期待に応えることとの間で葛藤を生み出します。」

関連記事
Character.AI、元Metaビジネス製品担当副社長を新CEOに任命 Character.AI、元Metaビジネス製品担当副社長を新CEOに任命 Googleが支援するAIチャットボットプラットフォーム「Character.AI」は、月間アクティブユーザー数数千万を誇る同社が、金曜日にMetaの元ビジネスプロダクト担当副社長であるカランディープ・アナンド氏が新たな最高経営責任者(CEO)として就任すると発表した。アナンド氏は以前Character.AIの取締役顧問を務めており、重大な局面でCEO職を引き継ぐ。同社はプラットフォーム拡大を図る
キャラクターAI、より安全なキッズチャットのための「ストーリー」を展開 キャラクターAI、より安全なキッズチャットのための「ストーリー」を展開 Character.AIは火曜日、ユーザーが好きなキャラクターを主人公にしたインタラクティブな小説を作ることができる新機能「ストーリーズ」を発表した。この新機能は、同社が18歳未満のユーザーに対してチャットボットへのアクセスを制限しているのと同時に発表された。この動きは、24時間365日稼働し、会話を開始することができるAIチャットボットがもたらす精神衛生上のリスクに関する懸念の高まりに対応するも
XのGrok AIチャットがGoogleにインデックスされ、オンラインで検索可能に XのGrok AIチャットがGoogleにインデックスされ、オンラインで検索可能に イーロン・マスクのxAIチャットボット「Grok」とユーザーが交わした数十万件の会話が、Google検索から簡単にアクセスできるようになったとForbesが報じている。Grokのユーザーがチャットボットとの会話で「共有」ボタンをクリックすると、ユニークなURLが作成され、ユーザーはそれを使って電子メールやテキスト、ソーシャルメディアで会話を共有することができる。フォーブスによると、これらのURLは
関連特集おすすめ
仕事 おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化
おすすめのAI採用ツール:履歴書の選考と候補者の面接スケジュール管理を自動化

XIX.AIで、2026年最新の評価の高いAI採用ツールをチェックしましょう。厳選されたリストには、履歴書のスクリーニングや候補者の面接スケジュール管理を自動化する、強力で画期的なソリューションが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版の比較が可能です。最適な採用アシスタントを見つけて、今すぐ採用業務を効率化しましょう!

10 ツール
xix.ai
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
チャットボット 最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める
最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール
xix.ai
コード 自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する
自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール
xix.ai
コメント (1)
0/500
AveryThomas
AveryThomas 2025年9月2日 11:30:33 JST

这篇研究结果让我想到以前用ChatGPT的经历...要求它简短回答时确实经常瞎编数据,看来不是我的错觉?以后还是让AI多啰嗦点比较安全😂

OR