选项
首页
新闻
新AI模型表现出更高的推理任务幻觉率

新AI模型表现出更高的推理任务幻觉率

2025-07-21
60

新AI模型表现出更高的推理任务幻觉率

OpenAI新发布的o3和o4-mini AI模型在多个领域表现出色,但与早期模型相比,表现出更高的幻觉倾向,生成更多虚构信息。

幻觉一直是AI的持续挑战,即使对顶级系统也是如此。通常,新模型会降低幻觉率,但o3和o4-mini偏离了这一趋势。

OpenAI内部测试显示,设计为推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更容易产生幻觉。

幻觉增加的原因尚不清楚,OpenAI对此表示担忧。

OpenAI关于o3和o4-mini的技术报告指出,需要进一步研究以确定推理模型规模扩大时幻觉率上升的原因。报告称,尽管这些模型在编码和数学等领域表现优异,但它们倾向于做出更多断言,导致准确和不准确的输出并存。

在OpenAI的PersonQA基准测试中,o3在33%的回答中出现幻觉,是o1(16%)和o3-mini(14.8%)的两倍。o4-mini表现更差,幻觉率高达48%。

非营利AI研究组织Transluce发现,o3虚构了一些行为,例如声称在ChatGPT之外的2021年MacBook Pro上运行代码,尽管它不具备这种能力。

“我们怀疑o系列模型中使用的强化学习可能会加剧通常通过标准后训练方法缓解的问题,”Transluce研究员、前OpenAI员工Neil Chowdhury在给TechCrunch的电子邮件中表示。

Transluce联合创始人Sarah Schwettmann指出,o3的幻觉率可能会降低其实际效用。

斯坦福大学兼职教授、Workera首席执行官Kian Katanforoosh告诉TechCrunch,他的团队发现o3在编码工作流程中表现优异,但容易生成失效的网站链接。

虽然幻觉可以激发创意想法,但对于法律等行业来说,准确性至关重要,文档中的错误是不可接受的,这使得幻觉成为一个挑战。

整合网络搜索功能显示出提高准确性的潜力。OpenAI的GPT-4o结合网络搜索在SimpleQA上达到了90%的准确率,表明当用户允许第三方搜索访问时,推理模型的幻觉可能会减少。

如果推理模型的规模扩大继续增加幻觉,找到解决方案将变得越来越重要。

“提高模型准确性和可靠性是我们持续研究的关键重点,”OpenAI发言人Niko Felix在给TechCrunch的电子邮件中表示。

AI行业最近转向推理模型,这些模型无需大量计算资源即可提升性能。然而,这一转变似乎增加了幻觉风险,带来了重大挑战。

相关文章
美国参议院在争议中将人工智能暂停令从预算法案中删除 美国参议院在争议中将人工智能暂停令从预算法案中删除 参议院以压倒性多数废除人工智能监管禁令在两党罕见的团结一致中,美国立法者周二几乎一致投票通过,取消了上届政府最初通过的具有里程碑意义的立法中长达十年之久的禁止州一级人工智能监管的规定。在对快速发展的人工智能行业中的创新与消费者保护之间的平衡问题进行激烈辩论之后,以 99-1 的票数通过了这一决定性的投票。行业领袖与消费者拥护者的较量由参议员特德-克鲁兹(Ted Cruz,R-TX)倡导的
OpenAI 发布两款先进的开源权重 AI 模型 OpenAI 发布两款先进的开源权重 AI 模型 OpenAI 在周二宣布推出两款开源权重 AI 推理模型,其性能可与 o 系列媲美。两款模型均可在 Hugging Face 上免费下载,OpenAI 宣称它们在多个开源模型基准测试中表现“顶尖”。模型提供两种变体:功能强大的 gpt-oss-120b,可在一块 Nvidia GPU 上运行;轻量级 gpt-oss-20b,设计为可在配备 16GB 内存的普通笔记本电脑上运行。此次发布是 Open
字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 字节跳动发布Seed-Thinking-v1.5 AI模型以增强推理能力 高级推理AI的竞赛始于2024年9月OpenAI的o1模型,随着2025年1月DeepSeek的R1发布而加速。主要AI开发者现正竞相打造更快、更具成本效益的推理AI模型,通过链式思考过程提供精确、深思熟虑的回答,确保回答前的准确性。字节跳动,TikTok的母公司,推出了Seed-Thinking-v1.5,这是一个在技术论文中概述的新大型语言模型(LLM),旨在提升STEM和通用领域的推理能力。
评论 (4)
0/200
GeorgeWilliams
GeorgeWilliams 2025-08-14 21:00:59

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025-08-12 19:00:59

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025-08-04 14:48:52

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025-07-28 09:20:21

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

返回顶部
OR