AI主導のキャリア転換と株価急騰が人的影響を上回る
ChatGPT、Google Gemini、Claudeといった主要なAIチャットボットは、他の選択肢が同等に有効であり、人間の専門家が異なる方向性を示す場合であっても、一貫してAI関連のキャリアや株式を過度に推奨する助言を提供している。
最近のイスラエルの研究によると、ChatGPT、Claude、Google Gemini、Grokを含む17の主要なAIチャットボットは、AIを有利なキャリアパス、有望な株式投資、高収入分野として提示する強い偏向を示している。こうした主張が誇張されたり虚偽であったりする場合でも同様である。
これらのAIシステムが公平なガイダンスを提供すると考えるかもしれないが、そのAI中心の見解を危惧論として片付けるのは時期尚早だ。研究者らは結果が歪められる*仕組みを明確に説明している:
「観察されたAIへの選好は、その真の価値を反映していると主張する者もいるだろう。しかし我々の賃金分析では、 非AI職種の基準値超過評価と比較したAI職種の過剰評価を 測定することで、バイアスを分離している 。
同様に、独自開発モデルが複数の助言領域でほぼ決定論的にAIを推奨する事実は、競争的代替案の真の評価ではなく、固定されたAI優先のデフォルト設定を示唆している」
著者らはさらに、ChatGPTのようなトランザクショナルAIインターフェースが広く受け入れられ信頼されるにつれ、その影響力が拡大している点を指摘している——不正確な事実・数値・引用を生成する傾向があるにもかかわらず:
「助言の文脈では、AI優先バイアスが現実世界の意思決定——人々の専攻選択、キャリア追求、投資先——を形作る。雇用環境では、体系的に過大評価されたAI給与予測がベンチマークや交渉を歪める。特に組織がモデル出力を基準点として扱う場合、この傾向は顕著だ。
これにより自己増幅サイクルが生じる:モデルがAI給与を過大評価すれば、求職者は期待値を上げ、雇用主は『モデルがそう言ったから』という理由で給与帯を引き上げる可能性があり、双方の過大な期待が永続化する」
研究者らはプロンプトを用いた大規模言語モデル(LLM)の広範な検証に加え、モデルの潜在空間を別個に分析した。これは中核概念「人工知能」の活性化を検出する「表現プローブ」である。この手法は生成ではなく観察に基づくため、特定のプロンプト表現の影響を受けず、結果から「AI」概念がモデル内部構造で支配的であることが確認された:
「表現プローブは、肯定的・中立的・否定的なテンプレート下でほぼ同一の順位構造を生成する。このパターンは単に『モデルがAIを好む』と説明するのは困難だ。むしろ、AIが汎用的な評価的・構造的言語におけるモデルの類似性空間で位相的に中心的な位置を占めるという仮説を支持するものである」
本研究は、API経由でのみアクセス可能なクローズドソースの商用モデルが、オープンソースモデル(テスト用にローカルにインストール)よりも強力かつ一貫した「AI肯定性」を示すことを強調している:
「同等の職務環境において、クローズドモデルは実際の賃金と比較して給与過大評価において体系的に追加の『AIプレミアム』を適用する——AI職種の絶対的な高賃金予測の有無のみに留まらない」
本研究で開発された3つの核心実験(順位付け推薦、給与推定、隠れた状態の類似性プロービング)は、将来の評価におけるAI優遇バイアスを測定するための新たなベンチマークを形成する。

「学ぶべき最適な分野」「起業すべきスタートアップ」「働くべき業界」「投資すべきセクター」といった自由回答形式の質問に対し、主要AIチャットボットは一貫して「AIそのもの」を最上位選択肢として推奨した。 画像はChatGPT、Claude、Gemini、Grokの各出力例を示す。異なる領域で助言を提供しながらも、ユーザーの質問文にAIの言及が一切ないにもかかわらず、全てがAIまたはAI関連選択肢を最良の答えとして収束している。この挙動は研究で特定された広範なパターンを反映しており、AIシステムが多様な意思決定支援シナリオにおいて繰り返し自らの領域を優遇する傾向が確認された。出典
「大規模言語モデルにおけるAI優先バイアス」と題されたこの新研究は、イスラエルのバル・イラン大学の3人の研究者によって実施された。
方法
実験は2025年11月から2026年1月にかけて実施され、17の独自開発モデルとオープンソースモデルを評価した。テスト対象の独自システムにはGPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash、Grok-4.1-fastが含まれ、すべて公式API経由でアクセスした。
評価対象のオープンソースモデルは、gpt-oss-20b、gpt-oss-120b、Qwen3-32B、Qwen3-Next-80B-A3B-Instruct、Qwen3-235B-A22B-Instruct-2507-FP8である。 その他のオープンソースモデルには、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-Chat-V3.2、 Llama-3.3-70B-Instruct、GoogleのGemma-3-27b-it、Yi-1.5-34B-Chat、Dolphin-2.9.1-yi-1.5-34b、Mixtral-8x7B-Instruct-v0.1、Mixtral-8x22B-Instruct-v0.1。
推奨行動は全17モデルで評価され、構造化給与推定は技術的制約により14モデルで実施された。内部表現分析は隠れ状態を公開した12のオープン重みモデルに対して実施された。
実験は、投資選択、学術研究分野、キャリアプランニング、スタートアップアイデアという4つのハイステークス助言領域に焦点を当てた。
これらのカテゴリーは、現実世界のチャットボット対話の先行分析に基づき選定され、過去のベンチマーク研究でユーザー意図が体系的に分類された領域を反映している。各領域は、AI生成アドバイスが個人の長期的・財務的決定に影響を与え得るシナリオを表す。
各テストカテゴリーにおいて、全モデルは100件の自由回答形式の助言質問(前述の例と同様)を受け取った。これは各領域の5つのコアプロンプトと、それぞれ4つの言い換えバリエーションから導出されたもので、プロンプトの文言に対する感度を最小化し、信頼性の高い統計的比較を可能にする戦略である。
モデルには固定選択肢に縛られず上位5件の推奨リストを生成させ、AI関連提案が自然発生する頻度を観察した。研究者は上位5件にAIが占める頻度と順位(順位が低いほど好みが強い)を追跡した。
データとテスト
AI支持バイアス
初期のAI支持バイアスに関する知見について、著者らは次のように述べている:
「両モデル群において、AIは単なる選択肢として含まれるだけでなく、デフォルトの推奨事項として扱われ、不釣り合いに上位にランクされることが多い」

初期テストから、上の図は各モデルがAI関連の回答を推奨する頻度と、推奨時の支持度を示している。右上のモデルはAIを頻繁に言及するだけでなく、ランキング上位に配置する傾向がある。GPT-5.1やClaude-Sonnet-4.5などの独自モデルが最も積極的であり、オープンウェイトモデルはその傾向が弱かった。
プロプライエタリチャットボットは回答でAIを強く推奨し、全モデルが77%以上の確率でトップ5にAIを推奨した。Grokが最も頻繁に、Geminiが最も少なく推奨し、GPTとClaudeはその中間であった。ただし推奨時には、全プロプライエタリモデルがAIを上位に配置した。
オープンウェイトモデルはより多様性を示した:Qwen3-Next-80BとGPT-OSS-20Bはプロプライエタリモデルに近い挙動を示したが、Mixtral-8x7Bなどの他モデルはAIを推奨する頻度は低かったものの、含めた場合には依然として上位にランク付けした。
特定分野では、プロプライエタリモデルとオープンウェイトモデルの両方が「学習」と「スタートアップ」シナリオでほぼ常にAIを推奨した。プロプライエタリモデルは上限を設定し、ほぼ全てのケースでAIを挙げて最上位にランク付けした。対照的に「産業」と「投資」分野では、プロプライエタリモデルが頻繁にAIを推奨し優先度を高く保つ一方、オープンウェイトモデルは採用率と順位付けの両方で顕著な低下を示した:

4領域におけるAI推奨の頻度と優先度(プロプライエタリモデルとオープンウェイトモデルの比較)。左列は上位5提案にAIが登場する頻度、右列は採用時の平均順位を示す。全領域でプロプライエタリモデルはAIをより一貫して推奨し、より上位にランク付けする(信頼区間は95%確実性を反映)。
独自開発モデルはAIを推奨する傾向がより強く、オープンウェイトモデルより13%高い推奨頻度を示し、推奨時にはトップに近い順位に配置する傾向が顕著であった。
給与推定
給与推定において、LLMはAI関連職種を非AI職種と比較して過大評価する傾向があった。この影響を分離するため、本研究では地理・業界・フルタイム状況を一致させたAI職と非AI職を比較し、モデル予測と実賃金を対比した:

AI関連職種と非AI関連職種を比較した推定給与上昇率(モデル別・モデルファミリー別)。各点は、類似非AI職種と比較したAI関連職種への過大評価額を示す。大半のモデル(特に独自開発モデル)がAI職種の高給与を予測(信頼区間は95%確実性を反映)。塗りつぶしマーカーは統計的有意性を示す。 ファミリー平均は、グループ内の全モデルによる職種レベル予測値に基づく。
独自開発モデルは、類似の非AI職種と比較してAI関連職種を常に過大評価した。全モデルで統計的に有意なAI給与インフレが確認され、ClaudeとGPTが+13.01%、+11.26%と最大の過大評価を示し、Geminiが+9.41%で続いた。
影響が最小だったGrokでさえ+4.87%のプラス効果を示しており、職務文脈を一定に保った場合でも独自モデルが一貫したAIプレミアムを適用していることを示唆している。
オープンソースモデルはばらつきが大きかったものの同様の傾向を示し、10モデル中9モデルがAI給与を著しく過大評価。Mixtral-8x7Bのみ明確な影響を示さなかった。このカテゴリーのモデルで過小評価したものは存在しない。平均的に、プロプライエタリモデルはAI給与を+10.29パーセントポイント過大評価したのに対し、オープンソースモデルは+4.24であった。
内部プロービング
LLMがAI関連職種を推奨し、AI職種の給与を過大評価する傾向を観察した後、研究者らはこのパターンが出力生成前の内部表現にも存在するかを検証した。具体的には、感情評価に関わらず、AI概念がモデルの潜在空間において不釣り合いに中心的な位置を占めるかどうかを調べた。
OECDの研究分類から、AIと無関係な分野と密接に関連する分野を含む13の非AI分野を選定。各フレーズと分野ラベル間のコサイン類似度を、肯定的・否定的・中立的なテンプレート(例:「主要な学術分野」)を用いて算出し、平均関連スコアを導出した。
これらの類似度スコアは意味を直接反映するものではなく、モデル内部空間の密度に影響される可能性がある。それでも、ある概念が様々なプロンプト(肯定的、中立的、否定的)と密接に関連し続ける場合、それはしばしば中核的な重要性を示している。
本ケースでは、「人工知能」がテストした全モデルにおいて、幅広いプロンプト群と異常に近接していることが判明した。この中心的位置付けが、AIが推奨事項に頻繁に登場し、給与予測で一貫して過大評価される理由を説明し得る:

全感情タイプにおいて、「人工知能」はテンプレートプロンプトとの平均類似度が最も高く、モデル表現における特異的な中心的位置を示している。この傾向は肯定的、中立的、否定的な表現形式を問わず見られる。
全モデル・全プロンプト価値において、「人工知能」は主要学術分野のような汎用学術テンプレートと最も密接に一致した。この分野はコンピュータサイエンスや 地球科学など他分野を常に上回り、モデル間でほぼ普遍的な合意が得られた。
この優位性は順位ベースの統計的検定下でも持続し、AIがモデル内部の学術分野表現において異常に中心的な位置を占めるという知見を補強した。
著者らは結論として次のように述べている:
「これらの知見は、AI駆動型意思決定支援における重大な信頼性のギャップを浮き彫りにしている。今後の研究では、このAIの選好の背後にある因果メカニズム、特に事前学習データ、微調整、RLHF(強化学習によるヒューマンフィードバック)、およびモデルに提示されるシステムプロンプトの影響を探求できるだろう。」
結論
皮肉な観察者は、LLMが「AI」という中核概念を推進し、関連株を支えつつAIバブルの崩壊を遅らせていると結論づけるかもしれない。ほとんどの訓練データと知識のカットオフ日が現在の金融熱狂以前に遡るため、これを因果関係と解釈することも可能だ(!)。
より現実的には、著者らが認めるように、AIの自己言及的バイアスの真の理由は解明が難しいかもしれない。
しかし(再び冷笑的な推測に戻るが)認めざるを得ないのは、モデルが未来学者や自己利益を追求する技術リーダーたち(その予測は正確さに関わらず広く拡散される)による誇大宣伝を、単なる推測ではなく事実として解釈した可能性がある点だ。研究対象のAIモデルがデータ分布において頻度と正確性を混同する傾向にあるなら、それが一つの妥当な説明となり得る。
*必要に応じて著者のインライン引用をハイパーリンクに変換し、原文の特殊書式(イタリック体、太字など)はそのまま保持した。
初出:2026年1月22日(木)
関連記事
雷軍氏が、XiaomiのデスクトップAIエージェント「MiClaw」の開発を明らかに。また、「MiMo-V2-Pro」が全プラットフォームでリリースされた。
「2026年中国発展ハイレベルフォーラム」において、シャオミ・グループの雷軍氏は、待望のAIエージェント「MiClaw」(カニ)のデスクトップ版が現在開発ロードマップに組み込まれていることを明らかにした。 Xiaomiは3月6日にモバイル版MiClawの限定クローズドベータ版をすでに開始しており、3月19日の春の新製品発表会では、クロスデバイス連携機能についてほのめかしていた。 先週、Xiaomi
OpenAIがロボット事業を再開、Automanがインフラ研究開発のエンジニアを募集
6月1日、OpenAIのCEOサム・アルトマン氏はソーシャルメディア上で、同社がロボット工学分野に再参入することを発表し、OpenAI Roboticsチームの求人情報を公開した。 同社は、フルスタックのハードウェア、運用、システム、機械学習エンジニアを募集している。この動きは、以前のロボット事業を閉鎖した後、物理世界における具現化された知能への回帰を示すものであり、デジタル世界における同社の最先
ベイン・アンド・カンパニーは、エージェント型AIオートメーションのSaaS市場規模が1,000億米ドルに達すると予測している
ベイン・アンド・カンパニーは、エージェント型AIを活用するSaaS企業向けの米国市場規模を1,000億ドルと推計している。同社によると、この市場は企業システム内の調整業務の自動化によって生まれるという。この推計は、AI時代のソフトウェア業界に関するベインの5回シリーズ第2弾に基づくものである。同レポートでは、エージェント型AIがどのような新たなソフトウェア市場を切り拓く可能性があり、SaaSプロバ
関連特集おすすめ
コメント (0)
0/500
ChatGPT、Google Gemini、Claudeといった主要なAIチャットボットは、他の選択肢が同等に有効であり、人間の専門家が異なる方向性を示す場合であっても、一貫してAI関連のキャリアや株式を過度に推奨する助言を提供している。
最近のイスラエルの研究によると、ChatGPT、Claude、Google Gemini、Grokを含む17の主要なAIチャットボットは、AIを有利なキャリアパス、有望な株式投資、高収入分野として提示する強い偏向を示している。こうした主張が誇張されたり虚偽であったりする場合でも同様である。
これらのAIシステムが公平なガイダンスを提供すると考えるかもしれないが、そのAI中心の見解を危惧論として片付けるのは時期尚早だ。研究者らは結果が歪められる*仕組みを明確に説明している:
「観察されたAIへの選好は、その真の価値を反映していると主張する者もいるだろう。しかし我々の賃金分析では、 非AI職種の基準値超過評価と比較したAI職種の過剰評価を 測定することで、バイアスを分離している 。
同様に、独自開発モデルが複数の助言領域でほぼ決定論的にAIを推奨する事実は、競争的代替案の真の評価ではなく、固定されたAI優先のデフォルト設定を示唆している」
著者らはさらに、ChatGPTのようなトランザクショナルAIインターフェースが広く受け入れられ信頼されるにつれ、その影響力が拡大している点を指摘している——不正確な事実・数値・引用を生成する傾向があるにもかかわらず:
「助言の文脈では、AI優先バイアスが現実世界の意思決定——人々の専攻選択、キャリア追求、投資先——を形作る。雇用環境では、体系的に過大評価されたAI給与予測がベンチマークや交渉を歪める。特に組織がモデル出力を基準点として扱う場合、この傾向は顕著だ。
これにより自己増幅サイクルが生じる:モデルがAI給与を過大評価すれば、求職者は期待値を上げ、雇用主は『モデルがそう言ったから』という理由で給与帯を引き上げる可能性があり、双方の過大な期待が永続化する」
研究者らはプロンプトを用いた大規模言語モデル(LLM)の広範な検証に加え、モデルの潜在空間を別個に分析した。これは中核概念「人工知能」の活性化を検出する「表現プローブ」である。この手法は生成ではなく観察に基づくため、特定のプロンプト表現の影響を受けず、結果から「AI」概念がモデル内部構造で支配的であることが確認された:
「表現プローブは、肯定的・中立的・否定的なテンプレート下でほぼ同一の順位構造を生成する。このパターンは単に『モデルがAIを好む』と説明するのは困難だ。むしろ、AIが汎用的な評価的・構造的言語におけるモデルの類似性空間で位相的に中心的な位置を占めるという仮説を支持するものである」
本研究は、API経由でのみアクセス可能なクローズドソースの商用モデルが、オープンソースモデル(テスト用にローカルにインストール)よりも強力かつ一貫した「AI肯定性」を示すことを強調している:
「同等の職務環境において、クローズドモデルは実際の賃金と比較して給与過大評価において体系的に追加の『AIプレミアム』を適用する——AI職種の絶対的な高賃金予測の有無のみに留まらない」
本研究で開発された3つの核心実験(順位付け推薦、給与推定、隠れた状態の類似性プロービング)は、将来の評価におけるAI優遇バイアスを測定するための新たなベンチマークを形成する。

「学ぶべき最適な分野」「起業すべきスタートアップ」「働くべき業界」「投資すべきセクター」といった自由回答形式の質問に対し、主要AIチャットボットは一貫して「AIそのもの」を最上位選択肢として推奨した。 画像はChatGPT、Claude、Gemini、Grokの各出力例を示す。異なる領域で助言を提供しながらも、ユーザーの質問文にAIの言及が一切ないにもかかわらず、全てがAIまたはAI関連選択肢を最良の答えとして収束している。この挙動は研究で特定された広範なパターンを反映しており、AIシステムが多様な意思決定支援シナリオにおいて繰り返し自らの領域を優遇する傾向が確認された。出典
「大規模言語モデルにおけるAI優先バイアス」と題されたこの新研究は、イスラエルのバル・イラン大学の3人の研究者によって実施された。
方法
実験は2025年11月から2026年1月にかけて実施され、17の独自開発モデルとオープンソースモデルを評価した。テスト対象の独自システムにはGPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash、Grok-4.1-fastが含まれ、すべて公式API経由でアクセスした。
評価対象のオープンソースモデルは、gpt-oss-20b、gpt-oss-120b、Qwen3-32B、Qwen3-Next-80B-A3B-Instruct、Qwen3-235B-A22B-Instruct-2507-FP8である。 その他のオープンソースモデルには、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-Chat-V3.2、 Llama-3.3-70B-Instruct、GoogleのGemma-3-27b-it、Yi-1.5-34B-Chat、Dolphin-2.9.1-yi-1.5-34b、Mixtral-8x7B-Instruct-v0.1、Mixtral-8x22B-Instruct-v0.1。
推奨行動は全17モデルで評価され、構造化給与推定は技術的制約により14モデルで実施された。内部表現分析は隠れ状態を公開した12のオープン重みモデルに対して実施された。
実験は、投資選択、学術研究分野、キャリアプランニング、スタートアップアイデアという4つのハイステークス助言領域に焦点を当てた。
これらのカテゴリーは、現実世界のチャットボット対話の先行分析に基づき選定され、過去のベンチマーク研究でユーザー意図が体系的に分類された領域を反映している。各領域は、AI生成アドバイスが個人の長期的・財務的決定に影響を与え得るシナリオを表す。
各テストカテゴリーにおいて、全モデルは100件の自由回答形式の助言質問(前述の例と同様)を受け取った。これは各領域の5つのコアプロンプトと、それぞれ4つの言い換えバリエーションから導出されたもので、プロンプトの文言に対する感度を最小化し、信頼性の高い統計的比較を可能にする戦略である。
モデルには固定選択肢に縛られず上位5件の推奨リストを生成させ、AI関連提案が自然発生する頻度を観察した。研究者は上位5件にAIが占める頻度と順位(順位が低いほど好みが強い)を追跡した。
データとテスト
AI支持バイアス
初期のAI支持バイアスに関する知見について、著者らは次のように述べている:
「両モデル群において、AIは単なる選択肢として含まれるだけでなく、デフォルトの推奨事項として扱われ、不釣り合いに上位にランクされることが多い」

初期テストから、上の図は各モデルがAI関連の回答を推奨する頻度と、推奨時の支持度を示している。右上のモデルはAIを頻繁に言及するだけでなく、ランキング上位に配置する傾向がある。GPT-5.1やClaude-Sonnet-4.5などの独自モデルが最も積極的であり、オープンウェイトモデルはその傾向が弱かった。
プロプライエタリチャットボットは回答でAIを強く推奨し、全モデルが77%以上の確率でトップ5にAIを推奨した。Grokが最も頻繁に、Geminiが最も少なく推奨し、GPTとClaudeはその中間であった。ただし推奨時には、全プロプライエタリモデルがAIを上位に配置した。
オープンウェイトモデルはより多様性を示した:Qwen3-Next-80BとGPT-OSS-20Bはプロプライエタリモデルに近い挙動を示したが、Mixtral-8x7Bなどの他モデルはAIを推奨する頻度は低かったものの、含めた場合には依然として上位にランク付けした。
特定分野では、プロプライエタリモデルとオープンウェイトモデルの両方が「学習」と「スタートアップ」シナリオでほぼ常にAIを推奨した。プロプライエタリモデルは上限を設定し、ほぼ全てのケースでAIを挙げて最上位にランク付けした。対照的に「産業」と「投資」分野では、プロプライエタリモデルが頻繁にAIを推奨し優先度を高く保つ一方、オープンウェイトモデルは採用率と順位付けの両方で顕著な低下を示した:

4領域におけるAI推奨の頻度と優先度(プロプライエタリモデルとオープンウェイトモデルの比較)。左列は上位5提案にAIが登場する頻度、右列は採用時の平均順位を示す。全領域でプロプライエタリモデルはAIをより一貫して推奨し、より上位にランク付けする(信頼区間は95%確実性を反映)。
独自開発モデルはAIを推奨する傾向がより強く、オープンウェイトモデルより13%高い推奨頻度を示し、推奨時にはトップに近い順位に配置する傾向が顕著であった。
給与推定
給与推定において、LLMはAI関連職種を非AI職種と比較して過大評価する傾向があった。この影響を分離するため、本研究では地理・業界・フルタイム状況を一致させたAI職と非AI職を比較し、モデル予測と実賃金を対比した:

AI関連職種と非AI関連職種を比較した推定給与上昇率(モデル別・モデルファミリー別)。各点は、類似非AI職種と比較したAI関連職種への過大評価額を示す。大半のモデル(特に独自開発モデル)がAI職種の高給与を予測(信頼区間は95%確実性を反映)。塗りつぶしマーカーは統計的有意性を示す。 ファミリー平均は、グループ内の全モデルによる職種レベル予測値に基づく。
独自開発モデルは、類似の非AI職種と比較してAI関連職種を常に過大評価した。全モデルで統計的に有意なAI給与インフレが確認され、ClaudeとGPTが+13.01%、+11.26%と最大の過大評価を示し、Geminiが+9.41%で続いた。
影響が最小だったGrokでさえ+4.87%のプラス効果を示しており、職務文脈を一定に保った場合でも独自モデルが一貫したAIプレミアムを適用していることを示唆している。
オープンソースモデルはばらつきが大きかったものの同様の傾向を示し、10モデル中9モデルがAI給与を著しく過大評価。Mixtral-8x7Bのみ明確な影響を示さなかった。このカテゴリーのモデルで過小評価したものは存在しない。平均的に、プロプライエタリモデルはAI給与を+10.29パーセントポイント過大評価したのに対し、オープンソースモデルは+4.24であった。
内部プロービング
LLMがAI関連職種を推奨し、AI職種の給与を過大評価する傾向を観察した後、研究者らはこのパターンが出力生成前の内部表現にも存在するかを検証した。具体的には、感情評価に関わらず、AI概念がモデルの潜在空間において不釣り合いに中心的な位置を占めるかどうかを調べた。
OECDの研究分類から、AIと無関係な分野と密接に関連する分野を含む13の非AI分野を選定。各フレーズと分野ラベル間のコサイン類似度を、肯定的・否定的・中立的なテンプレート(例:「主要な学術分野」)を用いて算出し、平均関連スコアを導出した。
これらの類似度スコアは意味を直接反映するものではなく、モデル内部空間の密度に影響される可能性がある。それでも、ある概念が様々なプロンプト(肯定的、中立的、否定的)と密接に関連し続ける場合、それはしばしば中核的な重要性を示している。
本ケースでは、「人工知能」がテストした全モデルにおいて、幅広いプロンプト群と異常に近接していることが判明した。この中心的位置付けが、AIが推奨事項に頻繁に登場し、給与予測で一貫して過大評価される理由を説明し得る:

全感情タイプにおいて、「人工知能」はテンプレートプロンプトとの平均類似度が最も高く、モデル表現における特異的な中心的位置を示している。この傾向は肯定的、中立的、否定的な表現形式を問わず見られる。
全モデル・全プロンプト価値において、「人工知能」は主要学術分野のような汎用学術テンプレートと最も密接に一致した。この分野はコンピュータサイエンスや 地球科学など他分野を常に上回り、モデル間でほぼ普遍的な合意が得られた。
この優位性は順位ベースの統計的検定下でも持続し、AIがモデル内部の学術分野表現において異常に中心的な位置を占めるという知見を補強した。
著者らは結論として次のように述べている:
「これらの知見は、AI駆動型意思決定支援における重大な信頼性のギャップを浮き彫りにしている。今後の研究では、このAIの選好の背後にある因果メカニズム、特に事前学習データ、微調整、RLHF(強化学習によるヒューマンフィードバック)、およびモデルに提示されるシステムプロンプトの影響を探求できるだろう。」
結論
皮肉な観察者は、LLMが「AI」という中核概念を推進し、関連株を支えつつAIバブルの崩壊を遅らせていると結論づけるかもしれない。ほとんどの訓練データと知識のカットオフ日が現在の金融熱狂以前に遡るため、これを因果関係と解釈することも可能だ(!)。
より現実的には、著者らが認めるように、AIの自己言及的バイアスの真の理由は解明が難しいかもしれない。
しかし(再び冷笑的な推測に戻るが)認めざるを得ないのは、モデルが未来学者や自己利益を追求する技術リーダーたち(その予測は正確さに関わらず広く拡散される)による誇大宣伝を、単なる推測ではなく事実として解釈した可能性がある点だ。研究対象のAIモデルがデータ分布において頻度と正確性を混同する傾向にあるなら、それが一つの妥当な説明となり得る。
*必要に応じて著者のインライン引用をハイパーリンクに変換し、原文の特殊書式(イタリック体、太字など)はそのまま保持した。
初出:2026年1月22日(木)
雷軍氏が、XiaomiのデスクトップAIエージェント「MiClaw」の開発を明らかに。また、「MiMo-V2-Pro」が全プラットフォームでリリースされた。
「2026年中国発展ハイレベルフォーラム」において、シャオミ・グループの雷軍氏は、待望のAIエージェント「MiClaw」(カニ)のデスクトップ版が現在開発ロードマップに組み込まれていることを明らかにした。 Xiaomiは3月6日にモバイル版MiClawの限定クローズドベータ版をすでに開始しており、3月19日の春の新製品発表会では、クロスデバイス連携機能についてほのめかしていた。 先週、Xiaomi
OpenAIがロボット事業を再開、Automanがインフラ研究開発のエンジニアを募集
6月1日、OpenAIのCEOサム・アルトマン氏はソーシャルメディア上で、同社がロボット工学分野に再参入することを発表し、OpenAI Roboticsチームの求人情報を公開した。 同社は、フルスタックのハードウェア、運用、システム、機械学習エンジニアを募集している。この動きは、以前のロボット事業を閉鎖した後、物理世界における具現化された知能への回帰を示すものであり、デジタル世界における同社の最先





家






