選項
首頁
新聞
新款AI模型展現更高推理任務幻覺率

新款AI模型展現更高推理任務幻覺率

2025-07-21
60

新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。

幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。

OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。

OpenAI尚不清楚幻覺增加的原因,這引發了關注。

OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。

在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。

非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。

“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。

Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。

史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。

雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。

整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。

如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。

“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。

AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。

相關文章
美國參議院在爭議中從預算法案中刪除人工智能禁令 美國參議院在爭議中從預算法案中刪除人工智能禁令 參議院以壓倒性的票數廢除人工智能監管禁令周二,美國立法者罕見地表現出兩黨的團結,幾乎一致通過投票,取消了上屆政府通過的里程碑式立法中長達十年之久的禁止州級人工智能監管的規定。在 99-1 的決定性投票之前,雙方就如何在快速發展的 AI 領域中平衡創新與消費者保護進行了激烈的辯論。產業領導者與消費者權益維護者的對決由參議員 Ted Cruz (R-TX) 擁護的這項規定,獲得了包括 Ope
OpenAI 發布兩款先進開源 AI 模型 OpenAI 發布兩款先進開源 AI 模型 OpenAI 於週二宣布推出兩款開源 AI 推理模型,性能媲美其 o 系列。兩款模型均可在 Hugging Face 免費下載,OpenAI 稱其在多項開源模型基準測試中表現「頂尖」。模型分為兩種版本:強大的 gpt-oss-120b,僅需單一 Nvidia GPU 即可運行;輕量級 gpt-oss-20b,設計為可在具備 16GB 記憶體的標準筆電上運行。這是 OpenAI 自五年前推出 GPT
字節跳動推出Seed-Thinking-v1.5 AI模型以提升推理能力 字節跳動推出Seed-Thinking-v1.5 AI模型以提升推理能力 先進推理AI的競賽始於2024年9月OpenAI的o1模型,隨著2025年1月DeepSeek的R1推出而加速。主要AI開發商現正競相打造更快、更具成本效益的推理AI模型,通過思維鏈過程提供精確、深思熟慮的回應,確保回答前的準確性。字節跳動,TikTok的母公司,推出Seed-Thinking-v1.5,一款在技術論文中概述的新大型語言模型(LLM),旨在增強STEM及一般領域的推理能力。該模型尚
評論 (4)
0/200
GeorgeWilliams
GeorgeWilliams 2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

回到頂部
OR