選項
首頁
新聞
新款AI模型展現更高推理任務幻覺率

新款AI模型展現更高推理任務幻覺率

2025-07-21
119

新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。

幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。

OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。

OpenAI尚不清楚幻覺增加的原因,這引發了關注。

OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。

在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。

非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。

“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。

Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。

史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。

雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。

整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。

如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。

“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。

AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。

相關文章
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。 五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。 在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
相關專題推薦
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
代碼 最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例
最適合自動化單元測試的最佳AI工具:一鍵生成Jest、PyTest和JUnit測試用例

探索2026年最新評選出的頂級AI工具,這些工具專為自動化單元測試而設計。我們精心挑選了那些功能強大、能夠改變開發流程的工具,它們能夠幫助您快速生成Jest、PyTest和JUnit測試用例。在XIX.AI平臺上,您可以免費檢視各種選項,並透過實際測試結果以及每週更新的排名來了解它們的優劣。立即利用這些AI工具,提升您的開發效率吧!

10 個工具
xix.ai
評論 (4)
0/500
GeorgeWilliams
GeorgeWilliams 2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

OR