新AI模型表现出更高的推理任务幻觉率

首页

新闻

新AI模型表现出更高的推理任务幻觉率

2025-07-21

PatrickMartinez

# ChatGPT # openai

新AI模型表现出更高的推理任务幻觉率

OpenAI新发布的o3和o4-mini AI模型在多个领域表现出色，但与早期模型相比，表现出更高的幻觉倾向，生成更多虚构信息。

幻觉一直是AI的持续挑战，即使对顶级系统也是如此。通常，新模型会降低幻觉率，但o3和o4-mini偏离了这一趋势。

OpenAI内部测试显示，设计为推理模型的o3和o4-mini比之前的推理模型（如o1、o1-mini和o3-mini）以及非推理模型（如GPT-4o）更容易产生幻觉。

幻觉增加的原因尚不清楚，OpenAI对此表示担忧。

OpenAI关于o3和o4-mini的技术报告指出，需要进一步研究以确定推理模型规模扩大时幻觉率上升的原因。报告称，尽管这些模型在编码和数学等领域表现优异，但它们倾向于做出更多断言，导致准确和不准确的输出并存。

在OpenAI的PersonQA基准测试中，o3在33%的回答中出现幻觉，是o1（16%）和o3-mini（14.8%）的两倍。o4-mini表现更差，幻觉率高达48%。

非营利AI研究组织Transluce发现，o3虚构了一些行为，例如声称在ChatGPT之外的2021年MacBook Pro上运行代码，尽管它不具备这种能力。

“我们怀疑o系列模型中使用的强化学习可能会加剧通常通过标准后训练方法缓解的问题，”Transluce研究员、前OpenAI员工Neil Chowdhury在给TechCrunch的电子邮件中表示。

Transluce联合创始人Sarah Schwettmann指出，o3的幻觉率可能会降低其实际效用。

斯坦福大学兼职教授、Workera首席执行官Kian Katanforoosh告诉TechCrunch，他的团队发现o3在编码工作流程中表现优异，但容易生成失效的网站链接。

虽然幻觉可以激发创意想法，但对于法律等行业来说，准确性至关重要，文档中的错误是不可接受的，这使得幻觉成为一个挑战。

整合网络搜索功能显示出提高准确性的潜力。OpenAI的GPT-4o结合网络搜索在SimpleQA上达到了90%的准确率，表明当用户允许第三方搜索访问时，推理模型的幻觉可能会减少。

如果推理模型的规模扩大继续增加幻觉，找到解决方案将变得越来越重要。

“提高模型准确性和可靠性是我们持续研究的关键重点，”OpenAI发言人Niko Felix在给TechCrunch的电子邮件中表示。

AI行业最近转向推理模型，这些模型无需大量计算资源即可提升性能。然而，这一转变似乎增加了幻觉风险，带来了重大挑战。

ChatGPT 首席执行官考虑引入广告平台的可能性 OpenAI 探索收入来源，考虑在 ChatGPT 上投放广告OpenAI 正在评估各种货币化策略，在 ChatGPT 上投放广告是一个潜在的选择。在最近的一次Decoder采访中，ChatGPT 负责人尼克-特利（Nick Turley）采取了谨慎开放的态度，表示他 "很谦虚，不会断然排除这种可能性"，同时强调需要深思熟虑后再实施。收入增长和业务战略这家人工智能公司预计今年的收入将

在安全漏洞中利用 ChatGPT 窃取 Gmail 敏感数据安全警报：研究人员展示人工智能驱动的数据外渗技术网络安全专家最近发现了一个令人担忧的漏洞，即 ChatGPT 的 "深度研究"（Deep Research）功能可被用来悄悄提取 Gmail 的机密数据。虽然 OpenAI 已经修补了这一特定漏洞，但这一事件凸显了自主人工智能系统带来的新安全挑战。影子泄漏漏洞利用机制Radware 的安全分析师开发了这一概念验证攻击，展示了人工智能固有的助人功能如何

使用 ChatGPT 掌握人工智能求职信写作技巧 - 专家指南为多个求职申请撰写定制化求职信历来是一项时间密集型挑战。现在，像 ChatGPT 这样的现代人工智能解决方案可以在几分钟内撰写出专业的求职信。本指南揭示了如何利用人工智能技术来创建有针对性的求职申请，在展示你的资历的同时，节省数小时的写作时间--让你在当今的求职市场上获得竞争优势。要点人工智能驱动的求职信创建：立即生成针对特定职位的申请精确定制：将职位描述输入 ChatGPT，获取量身定制的内容策

0/200

提交

GeorgeWilliams

2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin

2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams

2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker

2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

头条新闻

2025顶级AI视频生成器：Pika Labs与其他对比 Gemini 2.5 Pro现在比Claude，GPT-4O更便宜，更便宜 AI Builder和Power Automate革新文档摘要 AI配音：真实声音创作终极指南 Cambium的AI将垃圾木头变成木材 Duolingo转用能量系统 Openai增强了AI语音助手以进行更好的聊天如何确保您的数据值得信赖AI集成获得一年Perplexity Pro订阅的两种免费方法 NotebookLM在全球范围内扩展，添加幻灯片并增强了事实检查

精选