新款AI模型展現更高推理任務幻覺率

首頁

新聞

新款AI模型展現更高推理任務幻覺率

2025-07-21

PatrickMartinez

# ChatGPT # openai

新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色，但與早期模型相比，顯示出更高的幻覺傾向，生成更多虛構資訊。

幻覺問題在AI中持續存在，即使是頂尖系統也不例外。通常，新模型會降低幻覺率，但o3和o4-mini偏離了這一趨勢。

OpenAI內部測試顯示，作為推理模型的o3和o4-mini比之前的推理模型（如o1、o1-mini和o3-mini）以及非推理模型（如GPT-4o）更頻繁地產生幻覺。

OpenAI尚不清楚幻覺增加的原因，這引發了關注。

OpenAI關於o3和o4-mini的技術報告指出，需要進一步研究以確定為何隨著推理模型規模擴大，幻覺率上升。報告指出，這些模型在編碼和數學等領域表現優異，但它們傾向於做出更多斷言，導致正確與錯誤輸出的混合。

在OpenAI的PersonQA基準測試中，o3在33%的回應中產生幻覺，是o1（16%）和o3-mini（14.8%）的兩倍。o4-mini表現更差，幻覺率達48%。

非營利AI研究組織Transluce發現，o3捏造行為，例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼，儘管它不具備此能力。

“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題，”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。

Transluce聯合創始人Sarah Schwettmann指出，o3的幻覺率可能降低其實用性。

史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch，他的團隊發現o3在編碼工作流程中表現優異，但容易生成失效的網站連結。

雖然幻覺可能激發創意想法，但對於法律等需要高精確度的行業來說，文件錯誤是不可接受的挑戰。

整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度，表明當用戶允許第三方搜尋存取時，推理模型的幻覺可能減少。

如果推理模型的規模擴大持續增加幻覺，尋找解決方案將變得越來越重要。

“提高模型精確度和可靠性是我們持續研究的重點，”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。

AI行業最近轉向推理模型，這種模型無需大量計算資源即可提升效能。然而，這一轉變似乎增加了幻覺風險，帶來重大挑戰。

使用 Creator Pro AI 和 ChatGPT 最佳化促進業務成長在現今競爭激烈的商業環境中，人工智慧解決方案已從選購升級轉變為重要的營運資產。想像一下，您可以使用全面的人工智慧工具包，其中每個專門的應用程式都能精準地滿足特定的業務需求。這就是 Creator Pro AI 所提供的現實 - 一個革命性的系統，重新定義 AI 協作並改變例行業務流程。主要優勢Creator Pro AI 提供一套最佳化的工具，可在 ChatGPT 的框架內無縫運作。它提高了行銷、

ChatGPT 執行長考慮引入廣告平台的可能性 OpenAI 探索收入來源，考慮在 ChatGPT 上刊登廣告OpenAI 正在評估各種盈利策略，其中 ChatGPT 中的廣告是一個潛在的選擇。在最近的Decoder訪談中，ChatGPT 主管 Nick Turley 採取了謹慎開放的態度，表示他「很謙虛，不會斷然排除這個可能性」，同時強調需要深思熟慮才能執行。營收成長與商業策略AI 公司預期今年的營收將大幅成長，預計今年的營收將

在安全漏洞中利用 ChatGPT 竊取 Gmail 敏感資料安全警示：研究人員展示人工智能驅動的資料滲透技術網路安全專家最近發現了一個令人關注的漏洞，ChatGPT 的深度研究功能可以被篡改，悄悄地擷取 Gmail 的機密資料。雖然 OpenAI 已經修補了這個特定的漏洞，但這起事件突顯了自主式 AI 系統所帶來的新興安全挑戰。陰影洩漏攻擊機制Radware 的安全分析師開發了這個概念驗證攻擊，展示了人工智能固有的有用性如何被武器化。此技術利用了 AI 助

評論 (4)

0/200

提交

GeorgeWilliams

2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin

2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams

2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker

2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

頭號新聞

2025頂級AI影片生成器：Pika Labs與其他對比 Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 AI Builder和Power Automate革新文件摘要 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 Duolingo轉用能量系統 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成獲得一年Perplexity Pro訂閱的兩種免費方法 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查

精選