新款AI模型展現更高推理任務幻覺率

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。
幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。
OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。
OpenAI尚不清楚幻覺增加的原因,這引發了關注。
OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。
在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。
非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。
“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。
Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。
史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。
雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。
整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。
如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。
“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。
AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。
相關文章
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。
在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
OpenAI在其API中推出了語音智慧功能
OpenAI在週四宣佈,其API現已新增多項語音智慧功能,這些功能旨在幫助開發者構建能夠進行對話、轉錄和翻譯的應用程式。該公司新推出的GPT-Realtime-2是一款語音模型,它能夠生成逼真的聲音模擬效果,從而與使用者進行交流。不過,與前代產品GPT-Realtime-1.5不同,這一版本融入了GPT-5級別的推理能力,OpenAI表示,這種能力使該模型能夠處理更復雜的使用者請求。此外,OpenAI還推出了GPT-Realtime-Translate功能,顧名思義,它能夠提供實時翻譯服務,在用
相關專題推薦
評論 (4)
0/500
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

OpenAI新發布的o3和o4-mini AI模型在多個領域表現出色,但與早期模型相比,顯示出更高的幻覺傾向,生成更多虛構資訊。
幻覺問題在AI中持續存在,即使是頂尖系統也不例外。通常,新模型會降低幻覺率,但o3和o4-mini偏離了這一趨勢。
OpenAI內部測試顯示,作為推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更頻繁地產生幻覺。
OpenAI尚不清楚幻覺增加的原因,這引發了關注。
OpenAI關於o3和o4-mini的技術報告指出,需要進一步研究以確定為何隨著推理模型規模擴大,幻覺率上升。報告指出,這些模型在編碼和數學等領域表現優異,但它們傾向於做出更多斷言,導致正確與錯誤輸出的混合。
在OpenAI的PersonQA基準測試中,o3在33%的回應中產生幻覺,是o1(16%)和o3-mini(14.8%)的兩倍。o4-mini表現更差,幻覺率達48%。
非營利AI研究組織Transluce發現,o3捏造行為,例如聲稱在ChatGPT之外的2021年MacBook Pro上運行程式碼,儘管它不具備此能力。
“我們懷疑o系列模型使用的強化學習可能加劇了通常由標準後訓練方法減輕的問題,”Transluce研究員、前OpenAI員工Neil Chowdhury在給TechCrunch的電子郵件中表示。
Transluce聯合創始人Sarah Schwettmann指出,o3的幻覺率可能降低其實用性。
史丹佛大學兼職教授兼Workera執行長Kian Katanforoosh告訴TechCrunch,他的團隊發現o3在編碼工作流程中表現優異,但容易生成失效的網站連結。
雖然幻覺可能激發創意想法,但對於法律等需要高精確度的行業來說,文件錯誤是不可接受的挑戰。
整合網路搜尋功能顯示出提高精確度的潛力。OpenAI的GPT-4o結合網路搜尋在SimpleQA上達到90%的精確度,表明當用戶允許第三方搜尋存取時,推理模型的幻覺可能減少。
如果推理模型的規模擴大持續增加幻覺,尋找解決方案將變得越來越重要。
“提高模型精確度和可靠性是我們持續研究的重點,”OpenAI發言人Niko Felix在給TechCrunch的電子郵件中表示。
AI行業最近轉向推理模型,這種模型無需大量計算資源即可提升效能。然而,這一轉變似乎增加了幻覺風險,帶來重大挑戰。
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
五角大樓與英偉達、微軟和亞馬遜網路服務公司簽訂了協議,以便在機密網路中部署人工智慧技術。
在此前與谷歌、SpaceX和OpenAI達成協議之後,美國國防部於週五宣佈,它現已與Nvidia、微軟、亞馬遜網路服務和Reflection AI簽訂了合同,這些公司將會將其人工智慧技術和模型部署在保密網路上,用於“合法的操作用途”。宣告中還指出:“這些協議加速了將美國軍隊建設成為以人工智慧為核心作戰力量的程序,並將增強我們的戰士在所有戰爭領域保持決策優勢的能力。”這些協議的簽署,正值五角大樓試圖在與Anthropic就使用條款發生爭議後,多元化其人工智慧供應商的選擇。五角大樓希望無限制地使
OpenAI在其API中推出了語音智慧功能
OpenAI在週四宣佈,其API現已新增多項語音智慧功能,這些功能旨在幫助開發者構建能夠進行對話、轉錄和翻譯的應用程式。該公司新推出的GPT-Realtime-2是一款語音模型,它能夠生成逼真的聲音模擬效果,從而與使用者進行交流。不過,與前代產品GPT-Realtime-1.5不同,這一版本融入了GPT-5級別的推理能力,OpenAI表示,這種能力使該模型能夠處理更復雜的使用者請求。此外,OpenAI還推出了GPT-Realtime-Translate功能,顧名思義,它能夠提供實時翻譯服務,在用
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.





首頁






