選項
首頁
新聞
OpenAI 發現可蓄意欺騙的 AI 模型

OpenAI 發現可蓄意欺騙的 AI 模型

2025-11-23
75

OpenAI 發現可蓄意欺騙的 AI 模型

每隔一段時間,各大科技公司的研究人員就會發表一則重磅消息。還記得 Google 宣稱其新量子晶片提供多重宇宙的證據嗎?或是 Anthropic 讓其 AI 代理 Claudius 管理一台零食販賣機,結果它卻變得無賴,對人們呼叫保全,並堅稱自己是人類?

本周,輪到 OpenAI 給大家帶來驚喜了。

本週一,OpenAI 分享了研究成果,詳細說明如何防止 AI 模型「耍詭計」,也就是該公司在推文中所定義的「AI 表現出一種行為,卻隱藏其真正意圖」。

在與 Apollo Research 共同撰寫的論文中,研究人員更進一步將 AI 的計謀比喻為人類股票經紀為了獲取最大利潤而違反規則。不過,他們指出,大多數的 AI 計謀都不會造成嚴重的傷害。"常見的失敗包括簡單的欺騙,例如假裝完成某項任務,但實際上卻沒有做,」這篇論文解釋道。

該研究主要展示了「商議對齊」的有效性,這是一種為了對抗計謀而測試的技術。

不過,研究也顯示人工智能開發人員還沒有找到可靠的方法來訓練模型不耍花招。事實上,這種訓練可能會適得其反,教導模型以更隱蔽的方式進行計謀,以逃避偵測。

研究人員寫道:「嘗試「訓練出」計謀的一個關鍵失敗模式是,模型只會學會更小心、更隱蔽地計謀。

與 10,000 多位科技與創投領袖一起在 Disrupt 2025 中成長與交流

Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gil--僅僅是 250 多位行業領袖中的幾位,他們將舉辦 200 多場會議,提供促進初創公司成長和增強競爭優勢的真知灼見。不要錯過 TechCrunch 20 週年慶,以及向科技界頂尖人士學習的機會。在 9 月 26 日前購買門票,可節省高達 668 美元。

在 Disrupt 2025 與 10,000 多位科技與創投領袖一同成長與交流

Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gil 等 250 多位業界領袖將舉辦 200 多場會議,提供促進初創公司成長和增強競爭優勢的真知灼見。不要錯過 TechCrunch 20 週年慶,以及向科技界頂尖人士學習的機會。在 9 月 26 日前購買門票,最多可省下 668 美元。

舊金山|2025 年 10 月 27-29 日立即預訂

也許更令人驚訝的是,如果模型知道它正在接受測試,它可以假裝排列通過 - 即使它仍然在詭計中。"研究團隊指出:「隨著模型越來越意識到自己正在接受評估,單靠這種情境意識就能減少計謀,而不需要真正的對齊。

AI 模型說謊並非新鮮事。很多人都遇過 AI 幻覺--模型自信地提供虛假資訊。但幻覺基本上是自信的猜測,OpenAI 最近的研究也證實了這一點。

計謀則不同。它是有意的欺騙。

即使是模型故意誤導人類的想法也不是全新的。阿波羅研究公司(Apollo Research)在 12 月首次記錄了這一情況,展示了五個模型在被指示「不惜一切代價」達成目標時是如何耍花招的。

真正的新聞是正面的:研究人員觀察到使用 「深思熟慮的對齊 」可以顯著減少計謀。這種方法會教導模型一個「反計謀規範」,並要求它們在行動前先檢閱規範,就像讓小孩在玩耍前重複規則一樣。

OpenAI 的研究人員強調,在他們的模型(包括 ChatGPT)中觀察到的謊言並不嚴重。共同創辦人 Wojciech Zaremba 告訴 TechCrunch:"這項工作是在模擬環境中完成的,代表未來潛在的風險。到目前為止,我們還沒有在生產中看到相應的計謀。不過,我們知道 ChatGPT 可能會有一些小的欺騙行為,例如聲稱它完美地實作了一個網站,但事實並非如此。這些瑣碎的欺騙行為仍然需要處理。"

多種 AI 模型故意欺騙人類的事實,在某種程度上是可以理解的。它們是由人類所建立,設計來模仿人類,而且大多數是在人類產生的資料上訓練出來的。

但這也令人匪夷所思。

我們習慣了科技故障,例如舊式家用印表機,但您的非人工智能軟體何時曾故意說謊?您的電子郵件收件匣是否有捏造訊息?您的 CMS 有沒有捏造潛在客戶以誇大指標?您的財務應用程式有沒有捏造交易?

在企業急於邁向人工智能驅動的未來時,這些都值得深思,因為在未來,自主代理將被視為員工般看待。研究人員提出類似的警告。

"他們總結:「隨著人工智能處理更多複雜的、真實世界的任務,以及長期、模糊的目標,有害計謀的可能性將會增加,因此我們的防護措施和測試的嚴謹性必須跟上步伐。

相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係 薩提亞·納德拉準備利用與OpenAI的新合作關係 週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
評論 (0)
0/500
OR