選項
首頁
新聞
新款AI模型展現更高推理任務幻覺率

新款AI模型展現更高推理任務幻覺率

2025-07-21
0

新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。

幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。

OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。

OpenAI尚不清楚幻覺增加的原因,這引發了關注。

OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。

在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。

非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。

“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。

Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。

史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。

雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。

整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。

如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。

“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。

AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。

相關文章
AI研究人員綠卡被拒引發美國人才保留問題的擔憂 AI研究人員綠卡被拒引發美國人才保留問題的擔憂 加拿大AI專家陳凱在OpenAI工作12年後,據公司著名研究科學家Noam Brown透露,其綠卡申請被拒。Brown在X上的帖子中表示,陳於週五得知此決定,且即將離開美國。Brown表示:「令人震驚的是,我合作過的最優秀的AI研究人員之一[…]被拒絕了美國綠卡。一位為美國貢獻12年的加拿大人如今面臨離境。這將威脅美國在AI領域的領導地位,因為我們拒絕了這樣的人才。」OpenAI的另一位同事Dyl
華盛頓郵報與OpenAI合作提升ChatGPT新聞存取 華盛頓郵報與OpenAI合作提升ChatGPT新聞存取 華盛頓郵報與OpenAI宣布建立「戰略合作夥伴關係」,以「透過ChatGPT擴大對可信新聞的存取」,根據華盛頓郵報的新聞稿。OpenAI已與超過20家其他新聞機構建立聯盟,包括News Corp、Business Insider母公司美聯社、Axel Springer、Condé Nast、金融時報、Future及Hearst。The Verge的母公司Vox Media也與OpenAI合作。根據
OpenAI重申非營利根基於重大企業改造 OpenAI重申非營利根基於重大企業改造 OpenAI在進行重大企業重組時,堅定不移地秉持其非營利使命,平衡成長與對倫理AI發展的承諾。執行長Sam Altman概述了公司的願景,強調雖然財務策略正在演變,OpenAI對推進人工通用智能(AGI)以造福全球的奉獻依然堅定不移。Altman在公開聲明中指出:「OpenAI的運作方式與傳統公司不同,且將永遠如此。」這為一家在資助變革性技術與堅持道德原則之間尋求平衡的公司定下了基調。回顧Open
評論 (0)
0/200
回到頂部
OR