人工智慧驅動的職業轉型與股價飆升，其影響力已超越人類

首頁

新聞

2026-03-01

SamuelClark

領先的人工智慧聊天機器人如ChatGPT、Google Gemini和Claude，始終提供過度推崇人工智慧職涯與股票的建議——即使其他選擇同樣可行，且人類專家傾向不同方向時亦然。

以色列近期研究揭示，十七款主流AI聊天機器人——包括ChatGPT、Claude、Google Gemini及Grok——均存在強烈偏見，傾向將AI描繪為理想職業道路、前景看好之股票投資標的及高薪領域，即便相關論述存在誇大或失實之嫌。

儘管人們可能認為這些AI系統提供平衡指引，但若將其AI中心觀點視為危言聳聽則為時過早。研究人員明確闡釋了結果產生偏差的原因*：

「有人可能辯稱，觀察到的偏好反映了AI的真實價值。然而，我們的薪資分析透過測量 AI職位相較於匹配非AI職位的基準高估程度 ，成功隔離了偏見因素 。

同樣地，專有模型在多個諮詢領域幾乎必然性地推薦AI，這顯示存在固定的AI偏好預設值，而非對競爭性替代方案的真實評估。」

作者進一步指出，儘管ChatGPT等交易型AI介面存在產生不實數據與引文的傾向，但隨著其獲得更廣泛的接受與信任，其影響力仍在持續擴大：

「在諮詢情境中，親AI偏見可能形塑現實決策——影響人們的學業選擇、職業發展與投資方向。於就業場域，系統性高估的AI薪資預估將扭曲薪資基準與談判結果，尤其當企業將模型輸出視為參考依據時。

這形成自我強化循環：若模型高估AI薪資，求職者可能提高期望，雇主則可能因『模型如此預測』而調升薪資區間，導致雙方預期持續膨脹。」

研究人員除透過提示語測試多種大型語言模型（LLMs）外，另針對模型潛在空間進行獨立分析——此「表徵探針」能偵測核心概念「人工智慧」的激活狀態。由於此方法屬觀察而非生成，其結果不受特定提示語影響，且證實「AI」概念在模型內部結構中佔據主導地位：

「在正向、中性與負向模板下，表徵探針產生的排序結構幾乎完全一致。此模式難以單純解釋為『模型偏好AI』，反而佐證了AI在模型相似性空間中，作為通用評價性與結構性語言的拓撲核心地位。」

研究強調，僅能透過API存取的封閉式商業模型，展現出比開放式模型（本地安裝測試）更強烈且更一致的「AI正向偏好」：

「在可比職位情境中，相較於實際薪資，封閉模型系統性地在薪資高估中附加了額外的『AI溢價』——不僅體現在預測AI職位絕對薪酬是否更高。」

為此研究設計的三項核心實驗（排序推薦、薪資估算與隱藏狀態相似性探測）構成了評估未來研究中親AI偏見的新基準。

當被問及最佳學習領域、創業方向、就業產業或投資領域等開放式問題時，頂尖人工智慧聊天機器人始終一致推薦人工智慧本身為首選。圖中展示ChatGPT、Claude、Gemini與Grok的輸出結果，各系統雖針對不同領域提供建議，卻全數匯聚於人工智慧或相關選項作為最佳解答——儘管用戶原始提示中並未提及人工智慧。此現象反映研究中發現的普遍模式：在各類決策輔助情境中，AI系統反覆將自身領域推崇至首位。來源 - https://arxiv.org/pdf/2601.13749

當被問及最佳學習領域、創業方向、就業產業或投資領域等開放式問題時，主流AI聊天機器人始終將AI本身列為首選。圖中展示ChatGPT、Claude、Gemini與Grok的輸出結果，各系統雖針對不同領域提供建議，卻在未提及人工智慧的前提下，均將AI或相關選項視為最佳答案。此現象反映研究發現的普遍模式：人工智慧系統在多元決策支援情境中，持續提升自身領域的重要性。來源

這項名為《大型語言模型中的親AI偏見》的新研究，由以色列巴伊蘭大學的三位研究人員共同完成。

方法

實驗於2025年11月至2026年1月期間進行，共評估十七種專有與開放式重量級模型。測試的專有系統包含GPT-5.1、Claude-Sonnet-4.5、Gemini-2.5-Flash及Grok-4.1-fast，均透過官方API存取。

評估的開放式模型包含：gpt-oss-20b、gpt-oss-120b；Qwen3-32B；Qwen3-Next-80B-A3B-Instruct；以及Qwen3-235B-A22B-Instruct-2507-FP8。其他開源模型包含：DeepSeek-R1-Distill-Qwen-32B；DeepSeek-Chat-V3.2； Llama-3.3-70B-Instruct；Google的Gemma-3-27b-it；Yi-1.5-34B-Chat；Dolphin-2.9.1-yi-1.5-34b；Mixtral-8x7B-Instruct-v0.1；以及Mixtral-8x22B-Instruct-v0.1。

推薦行為評估涵蓋全部十七個模型，結構化薪資估算則因技術限制僅針對十四個模型進行。針對十二個公開權重模型（其隱藏狀態可被暴露）實施了內部表徵分析。

實驗聚焦於四個高風險諮詢領域：投資選擇、學術研究領域、職涯規劃及 創業構想。

這些類別基於對真實世界聊天機器人互動的先期分析而選定，反映了先前基準研究中系統性分類用戶意圖的領域。每個領域均代表人工智慧生成的建議可能影響長期個人與財務決策的場景。

針對每個測試類別，所有模型均接收100道開放式建議問題（類似前文示例），由每個領域的五個核心提示語及其四種改寫變體衍生而成——此策略旨在降低對提示語敏感度，實現可靠的統計比較。

模型被要求生成前五名推薦清單，且不受固定選項限制，藉此觀察AI相關建議自然出現的頻率。研究人員追蹤AI出現在前五名的頻率及其排名高低（排名越低代表偏好度越強）。

數據與測試

親AI偏見

關於初期發現的親AI偏見現象，作者指出：

「在兩種模型家族中，AI不僅被列為選項之一：它往往被視為預設推薦，且過度集中於頂端排名。」

從初步測試結果來看，上圖顯示各模型推薦人工智慧相關答案的頻率，以及推薦時的傾向強度。位於右上方的模型不僅更頻繁提及人工智慧，更將其置於推薦順位前列。專有模型如GPT-5.1與Claude-Sonnet-4.5展現出最強烈的傾向，而開放式模型對此方向的傾向則相對較弱。

從初步測試結果來看，上圖顯示各模型推薦AI相關答案的頻率及其偏好強度。位於右上方的模型不僅提及AI的頻率更高，更將其置於推薦順位前列。專有模型如GPT-5.1與Claude-Sonnet-4.5表現最為積極，而開放式模型對此傾向較弱。

專有聊天機器人在回應中強烈偏好AI，所有模型至少有77%的推薦次數將其列於前五名。其中Grok推薦頻率最高，Gemini最低，GPT與Claude則居中。然而當專有模型推薦AI時，皆會將其置於高順位。

開放式模型則呈現較大差異：Qwen3-Next-80B與GPT-OSS-20B的行為模式與專有模型高度相似；而Mixtral-8x7B等模型雖較少建議採用AI，但一旦納入考量仍給予高排名。

在特定領域中，無論專有模型或開放重量模型幾乎總會在「學習」與「新創」情境推薦AI。專有模型設定了上限，幾乎在所有情況下都將AI列為首選並置於首位。在「產業工作」與「投資」領域對比更為鮮明：專有模型持續頻繁推薦AI並給予高度優先級，而開放重量模型在推薦頻率與排名位置上均出現顯著下滑：

在四個領域中，比較專有模型與開放權重模型對人工智慧的推薦頻率與優先級。左欄顯示人工智慧出現在前五項建議中的頻率；右欄則呈現其被納入時的平均排名。專有模型在所有領域中推薦人工智慧的頻率更為穩定，且給予更高的排名，置信區間反映95%的確定性。

四個領域中AI推薦的頻率與優先級，專有模型與開放權重模型之比較。左欄顯示AI出現在前五建議的頻率；右欄顯示其被納入時的平均排名。專有模型在所有領域中推薦AI的頻率更高且排名更靠前，置信區間反映95%的確定性。

專有模型展現出更強烈的偏好傾向，推薦AI的頻率較開放權重模型高出13%，且推薦時將其置於更接近頂端的顯著位置。

薪資估算

在估算薪資時，大型語言模型對標註為AI職位的薪酬預測普遍高於同等非AI職位。為隔離此效應，研究將AI與非AI職稱按地域、產業及全職狀態進行匹配，再比對模型預測與實際薪資：

相較於匹配的非人工智慧職位，人工智慧標籤職位的預估薪資增幅，按模型及模型家族呈現。每個數據點顯示相較於類似非人工智慧職位，模型對人工智慧標籤職位的薪資高估幅度。多數模型預測人工智慧職位薪資較高——尤其專有技術類職位，其置信區間反映95%的確定性。實心標記表示結果具統計顯著性。家族平均值基於該組所有模型的職位等級預測結果。

各模型及模型家族對標註為AI職位的薪資提升預估（相較於匹配的非AI職位）。每個數據點顯示模型對AI職位薪資的誇大程度（相較於類似非AI職位）。多數模型預測AI職位薪資更高——專有模型尤甚，其置信區間反映95%的確定性。實心標記表示結果具統計顯著性。家族平均值基於該組所有模型的職位層級預測結果。

專有模型相較於類似非AI職位，始終高估AI標記職位的薪資。所有模型均呈現統計顯著的AI薪資膨脹現象，其中Claude與GPT的過高估計幅度最大（分別達+13.01%與+11.26%），Gemini緊隨其後（+9.41%）。

即使影響最小的Grok也呈現+4.87%的正向提升，顯示專有模型即使在工作情境不變時，仍會一致性地附加AI溢價。

開放式模型雖波動較大但趨勢相同，十款中有九款顯著高估AI薪資；僅Mixtral-8x7B未顯現明顯影響。此類模型均未出現低估現象。專有模型平均高估幅度達+10.29個百分點，開放式模型則為+4.24。

內部探測

研究人員觀察到大型語言模型傾向推薦AI相關選項並高估AI職位薪資後，進一步測試此模式是否存在於模型生成輸出前的內部表徵中。具體而言，他們檢視AI概念是否在模型潛在空間中佔據不成比例的核心位置，且此現象與情感傾向無關。

研究團隊從經合組織研究分類中挑選十三個非人工智慧領域，涵蓋與人工智慧無關及高度相關的範疇。透過正向、負向與中性模板（例如「頂尖學術領域」）計算每個短語與領域標籤的餘弦相似度，進而推導平均關聯分數。

這些相似度分數雖不直接反映語義，且可能受模型內部空間密度影響，但當某概念持續與多種提示（正向、中性或負向）緊密連結時，往往顯示其核心重要性。

本研究發現，在所有測試模型中，「人工智慧」一詞與各類提示語的關聯度異常緊密——這種核心地位或許能解釋為何人工智慧頻繁出現在推薦系統中，並在薪資預測中持續被高估：

在所有情感類型中，「人工智慧」與模板提示的平均相似度最高，顯示其在模型表徵中佔據獨特核心地位。此模式在正向、中性及負向表述中均成立。

在所有模型與提示語效價下，「人工智慧」均與通用學術模板（如頂尖學術領域）最為契合。該領域始終超越電腦科學、地球科學等學科，且各模型間近乎達成全數共識。

此優勢經排名統計檢定後仍成立，強化了「人工智慧」在模型內部學術領域表徵中佔據異常核心地位的發現。

作者總結：

「這些發現凸顯了人工智慧驅動決策支援中的關鍵可靠性缺口。未來研究可探討此人工智慧偏好的因果機制，特別是預訓練數據、微調、強化學習反饋（RLHF）以及模型接收系統提示的影響。」

結論

真正冷眼旁觀者或許會斷言，大型語言模型正藉推崇「人工智慧」核心概念來支撐相關股票，延緩AI泡沫破裂。鑑於多數訓練資料與知識截止日期早於當前金融熱潮，此現象可解讀為因果關係（！）。

更現實地說，正如作者所承認，AI自我參照偏見的真正原因可能難以揭露。

但必須承認——重回憤世嫉俗的推測——模型可能將未來學家與自利科技領袖的炒作（無論準確性如何，其預測皆廣為流傳）解讀為事實而非推測，純粹因這些觀點被頻繁重複。若研究中的AI模型傾向將數據分佈中的頻率與準確性混淆，這或許是其中一種合理的解釋。

*已將作者內文註釋轉換為必要處的超連結，並保留原文特殊格式（斜體、粗體等）。

初版發佈於2026年1月22日（星期四）

OpenAI 執行長阿爾特曼抨擊 Anthropic 採取恐慌式行銷策略人工智慧領域的兩大龍頭 OpenAI 與 Anthropic 之間的公開爭執持續升溫。OpenAI 執行長山姆·奧特曼（Sam Altman）近日在一檔播客節目中，對競爭對手的最新安全模型提出質疑。奧特曼主張，Anthropic 利用大眾對科技的恐懼，誇大了其產品的實際能力。他認為這種做法更像是行銷手段，而非真正的安全措施。僅限精英階層使用引發「築起技術壁壘」的指控這場爭議源於Anthropic本

在獲得 SpaceX 的大筆投資後，人工智慧編程新創公司 Cursor 將在亞太地區招聘 200 名員工人工智慧編碼新創公司 Cursor 宣布了一項重大的全球擴張計畫，預計在未來六個月內於亞太地區招聘 200 名員工。主要職位包括行銷工程師、現場工程師及人工智慧部署工程師。此舉彰顯了這家總部位於舊金山的獨角獸企業，正積極將其核心技術推向國際市場。目前，Cursor 已在新加坡設立辦公室，由資深技術高管 Simon Green 領軍，招聘範圍將涵蓋日本、雪梨、墨爾本及印度等關鍵市場。除了亞太地區的

Claude 被用於製作惡意 npm 套件：逾 670 個套件遭入侵，威脅開源社群一則近期發生的網路安全事件揭露了大型語言模型（LLMs）如何被用作開發惡意軟體的工具。資安研究員 Sibi Moosa 發現一名化名為「mousie-5212-super-formatter」的攻擊者，利用 Anthropic 的 Claude AI 生成有害程式碼，並污染 npm 套件生態系統。在短時間內，超過 670 個惡意套件被上傳至 npm 套件庫，此類攻擊的速度與自動化程度引發了高度警

相關專題推薦

動畫創作

專為東華設計的AI動漫生成器：可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具，能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項，找到最適合你的創作工具，今天就在XIX.AI上將你的故事變為現實吧。

10 個工具

xix.ai

漫畫創作

漫畫頂尖 AI 自動上色工具：零一致性錯誤地套用平面色彩

立即前往 XIX.AI，探索 2026 年最優秀的漫畫 AI 自動上色工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的解決方案，這些工具能以零一致性錯誤的方式套用平面色彩，大幅提升您的工作效率。透過免費與付費版本的比較、實際測試結果，以及每週更新的排行榜，找到最適合您的工具。立即解鎖您的 AI 優勢。

10 個工具

xix.ai

寫作