選項
首頁
新聞
新款AI模型展現更高推理任務幻覺率

新款AI模型展現更高推理任務幻覺率

2025-07-21
116

新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。

幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。

OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。

OpenAI尚不清楚幻覺增加的原因,這引發了關注。

OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。

在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。

非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。

“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。

Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。

史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。

雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。

整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。

如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。

“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。

AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。

相關文章
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。 五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。 在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
OpenAI在其API中推出了語音智慧功能 OpenAI在其API中推出了語音智慧功能 OpenAI在週四宣佈,其API現已新增多項語音智慧功能,這些功能旨在幫助開發者構建能夠進行對話、轉錄和翻譯的應用程式。該公司新推出的GPT-Realtime-2是一款語音模型,它能夠生成逼真的聲音模擬效果,從而與使用者進行交流。不過,與前代產品GPT-Realtime-1.5不同,這一版本融入了GPT-5級別的推理能力,OpenAI表示,這種能力使該模型能夠處理更復雜的使用者請求。此外,OpenAI還推出了GPT-Realtime-Translate功能,顧名思義,它能夠提供實時翻譯服務,在用
相關專題推薦
寫作 最佳 AI 仙俠與武俠助手:撰寫史詩級的修煉歷程與武術動作設計
最佳 AI 仙俠與武俠助手:撰寫史詩級的修煉歷程與武術動作設計

探索 2026 年最優秀的 AI 助手,助您創作史詩級仙俠與武俠故事。XIX.AI 精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,助您駕馭修煉進程與武術動作設計。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始動筆吧!

10 個工具
xix.ai
代碼 AI移動應用開發工具:根據提示生成跨平臺的Flutter與React Native程式碼
AI移動應用開發工具:根據提示生成跨平臺的Flutter與React Native程式碼

探索2026年最適合Flutter和React Native的最佳AI移動應用開發工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您根據提示生成跨平臺程式碼。透過實際測試來對比免費選項和付費選項,讓開發更加高效,從而打造出更出色的應用程式。現在就訪問XIX.AI檢視排名吧!

10 個工具
xix.ai
代碼 最佳 AI Chrome 擴充功能生成工具:無需任何程式設計經驗即可建立自訂瀏覽器擴充功能
最佳 AI Chrome 擴充功能生成工具:無需任何程式設計經驗即可建立自訂瀏覽器擴充功能

在 XIX.AI 探索 2026 年最佳的 AI Chrome 擴充功能生成工具。我們精心挑選的清單收錄了評價最高、絕對值得一試的工具,讓您無需編寫任何程式碼即可建立客製化的瀏覽器擴充功能。比較免費與付費選項、查看實際測試結果,並釋放您的生產力。立即探索最新排行榜,找到最適合您的工具!

10 個工具
xix.ai
文字轉語音 最佳人工智慧多語言文字轉語音技術:能夠生成50多種語言的逼真原聲發音
最佳人工智慧多語言文字轉語音技術:能夠生成50多種語言的逼真原聲發音

探索2026年最優秀的人工智慧多語言文字轉語音工具,這些工具能夠生成50多種語言中具有真實母語口音的語音。檢視我們精心挑選的排名榜單,瞭解免費版本與付費版本的差異,並透過實際測試來驗證它們的效果。在XIX.AI上找到最適合你的語音工具,立即開啟全球交流的新篇章吧。

10 個工具
xix.ai
會議助理 最適合提升協作效率的最佳人工智慧會議自動化工具
最適合提升協作效率的最佳人工智慧會議自動化工具

探索2026年最新評選出的頂級AI會議自動化工具,讓協作變得更智慧、更高效。我們精心挑選的這些工具能夠有效實現筆記、總結和待辦事項的自動化處理。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項的差異。立即訪問XIX.AI,發現最適合您需求的工具,提升團隊生產力吧。

10 個工具
xix.ai
迅速的 適用於「基礎架構即代碼」的 AI 提示:安全部署 Terraform 與 Docker 配置
適用於「基礎架構即代碼」的 AI 提示:安全部署 Terraform 與 Docker 配置

探索 2026 年最新、評價最高的「基礎架構即代碼」(Infrastructure-as-Code)AI 提示語。XIX.AI 精心挑選的清單,能協助您安全地部署 Terraform 與 Docker 設定、自動化雲端環境建置,並提升 DevOps 生產力。透過實際測試比較免費與付費選項。立即探索,釋放您的 AI 優勢。

10 個工具
xix.ai
評論 (4)
0/500
GeorgeWilliams
GeorgeWilliams 2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

OR