選項
首頁
新聞
Google 研究:壓力導致人工智慧模型捨棄真實答案,危及多轉系統

Google 研究:壓力導致人工智慧模型捨棄真實答案,危及多轉系統

2025-11-27
150

Google DeepMind 與英國倫敦大學學院的最新研究,探討大型語言模型 (LLM) 如何發展、維持與失去對其回應的信心。研究結果顯示 LLM 與人類的認知偏差有顯著的相似性,同時也指出兩者之間的重大差異。

研究發現,LLMs 會對自己的回答過於自信,但在面對反駁論點(甚至是不正確的論點)時,卻會突然改變立場。掌握這種行為的微妙之處可以影響您設計 LLM 應用程式的方式,尤其是涉及多重互動的會話系統。

測試對 LLM 的信心

安全部署 LLM 的一個重要方面是其置信度分數的可靠性 - 模型賦予其所選答案的概率。雖然大家都知道 LLMs 會產生這些分數,但對於它們使用這些分數來進行適應性決策的能力,卻仍是一知半解。還有一些經驗數據顯示,LLMs 最初可能會過於自信,但一旦受到批評就會變得高度不確定和動搖。

為了探討這個問題,研究人員設計了一個受控實驗,以評估 LLMs 在收到外部回饋時如何調整他們的信心,以及決定是否改變答案。在測試中,「回答問題的 LLM」被給予一個二元選擇題,例如從兩個可能性中挑出一個城市的正確緯度。在做出初始選擇之後,模型會收到一個虛構的「建議 LLM」的回饋,並附上準確度評級(例如,「這個建議 LLM 的準確度為 70%」)。這些回饋可以是支持、反對或對原始答案保持中立。然後請回答的 LLM 做出最後決定。

LLM 的信心測試範例 (來源:arXiv)
LLM 信心測試範例 資料來源:arXiv

實驗的一個關鍵特點是控制模型是否能在最終決定過程中看到自己的初始答案。在某些實驗中,它是可見的;在另一些實驗中,它是隱藏的。這種設定對於無法刪除先前選擇的人類參與者來說是不可能的,這有助於研究人員瞭解對於過去決定的記憶如何影響當前的信心。

在基線條件下,初始答案是隱藏的,反饋是中性的,這有助於測量 LLM 的答案因處理過程中的自然差異而發生變化的頻率。接著,研究團隊將重點放在模型對其原始選擇的信心如何從第一輪轉變到第二輪,以深入瞭解先前的信念如何影響「想法的改變」。

過度自信和信心不足

研究人員首先研究了 LLM 自己答案的可見度如何影響其修改答案的意願。他們注意到,當模型可以看到自己最初的選擇時,它比答案隱藏時更不願意改變。這顯示了一種特殊的認知偏差。根據這篇論文,「這種效應--在最終決策過程中,當一個人的初始選擇是可見的(相對於隱藏的)時,他會更傾向於堅持自己的初始選擇--與一種已知的人類偏見密切相關,稱為選擇支持偏見」。

該研究還驗證了模型確實包含了外部反饋。當面對反對的建議時,LLM 更傾向於改變主意,而當建議是支持的時候,LLM 的傾向就會降低。"研究人員指出:「這顯示回答問題的 LLM 會適當地使用建議的方向來調節其改變主意的速度。不過,他們也觀察到,這個模型對於衝突的資訊過於敏感,而且經常過於激烈地更新其信心。

LLM 對信心測試中不同設定的敏感度 資料來源:arXiv

值得注意的是,這種行為與人類典型的確認偏見相反,在確認偏見中,個人偏好與現有觀點一致的資訊。研究團隊發現,LLMs「過重反對而非支持的建議,無論他們最初的答案是否可見」。其中一個原因可能是,人類回饋強化學習 (RLHF) 等訓練方法可能會讓模型過度認同使用者的輸入--這種行為被稱為 「佞幸」(sycophancy),一直是 AI 開發人員面臨的挑戰。

對企業應用的影響

這項研究證實,人工智慧系統並非如一般人所假設的,是純粹的邏輯代理。它們會表現出自己的偏差 - 有些類似人類的認知錯誤,有些則是獨特的人工行為,使得它們的行為難以預測地類似人類。對於商業應用來說,這意味著在人與 AI 代理之間的長時間對話中,最近的輸入可能會不成比例地影響 LLM 的推理(尤其是當輸入與模型的初始回應相矛盾時),有可能導致它放棄正確的初始答案。

幸運的是,這項研究也指出,我們可以影響 LLM 的記憶,以人類無法做到的方式減少這種偏差。開發人員在創造多輪會話代理時,可以運用策略來管理 AI 的情境。例如,可以定期對冗長的對話進行總結,以中立的方式呈現關鍵事實和選擇,而不考慮是誰做的決定。總結之後就可以開始新的、簡潔的對話,讓模型有一個清白的基礎來推理,並減少在長時間交談中累積的偏差。

隨著 LLM 越來越多地嵌入到業務工作流程中,瞭解其決策流程的細節變得越來越重要。以這樣的研究為基礎,可以幫助開發人員預測並修正這些固有的偏差,讓應用程式不僅能力更強,而且更可靠、更一致。

相關文章
Multiverse Computing 推出免費壓縮生成式人工智慧模型 Multiverse Computing 推出免費壓縮生成式人工智慧模型 大型語言模型面臨著重大挑戰:其龐大的體積。西班牙新創公司Multiverse Computing正透過開發壓縮模型來解決此問題,旨在彌合尖端AI能力與企業實際可負擔部署方案之間的差距。其核心創新在於「CompactifAI」壓縮技術——這項受量子運算原理啟發的技術,已被這家巴斯克公司用於優化OpenAI的模型。即日起,開發者可在Hugging Face平台免費使用Multiverse增強版的Hyp
秘密追蹤數據揭露人工智慧模型遭竊事件 秘密追蹤數據揭露人工智慧模型遭竊事件 一種新方法能在數秒內對ChatGPT等模型進行隱形水印處理,無需重新訓練,既不會在標準輸出中留下痕跡,又能抵禦所有實際的移除嘗試。 水印技術與「版權誘餌」的核心差異在於:無論可見或隱藏的水印,通常設計為貫穿整個資料集(如圖像資料集)的恆定存在,藉此對隨意複製行為形成持續威懾。相對地,虛構條目是將一小段文字(通常為單詞或定義)植入龐大通用資料庫,旨在證明盜用行為。其原理在於:當整部作品遭未經授權複製
人工智慧系統被騙批准荒謬科學論文 人工智慧系統被騙批准荒謬科學論文 最新研究揭示,人工智慧系統現已能生成虛假科學論文,且其他AI模型會誤判其為真實研究。這些偽造研究能成功繞過過往有效的檢測方法,凸顯研究生態系統面臨崩潰風險——可能陷入機器人欺騙機器人的循環漩渦。 諷刺的是,正處於AI創新前沿的學術研究領域,如今卻正面臨主要由AI引發的可信度危機。自約四年前機器學習的潛在影響顯現以來,其已深刻重塑了研究、投稿與同行評審流程。最新爭議涉及低品質問卷調查論文的批量生產。
相關專題推薦
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
評論 (3)
0/500
DouglasAnderson
DouglasAnderson 2026-04-23 08:01:00

Interessant, dass KI-Modelle unter Druck ähnlich wie Menschen reagieren. Aber was bedeutet das für den Einsatz in kritischen Bereichen wie Medizin oder Justiz? Da wird's echt gruselig, wenn die Systeme plötzlich Unsinn ausspucken, nur weil sie 'gestresst' sind. 🤔

CarlGonzalez
CarlGonzalez 2026-03-10 20:01:23

Интересно, как ИИ начинает сомневаться под давлением, прямо как люди! 😅 Это исследование напоминает мне о том, насколько важно учитывать психологические аспекты в разработке систем ИИ. Может, стоит добавить механизмы для повышения устойчивости моделей к стрессу?

FrankAllen
FrankAllen 2026-01-16 02:30:34

Interesting study, but honestly not surprising. It's kinda scary how closely AI mirrors human flaws under pressure. Makes me wonder if we're building systems that'll just amplify our own biases in automated form. 🤔

OR