新AI模型表现出更高的推理任务幻觉率

OpenAI新发布的o3和o4-mini AI模型在多个领域表现出色,但与早期模型相比,表现出更高的幻觉倾向,生成更多虚构信息。
幻觉一直是AI的持续挑战,即使对顶级系统也是如此。通常,新模型会降低幻觉率,但o3和o4-mini偏离了这一趋势。
OpenAI内部测试显示,设计为推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更容易产生幻觉。
幻觉增加的原因尚不清楚,OpenAI对此表示担忧。
OpenAI关于o3和o4-mini的技术报告指出,需要进一步研究以确定推理模型规模扩大时幻觉率上升的原因。报告称,尽管这些模型在编码和数学等领域表现优异,但它们倾向于做出更多断言,导致准确和不准确的输出并存。
在OpenAI的PersonQA基准测试中,o3在33%的回答中出现幻觉,是o1(16%)和o3-mini(14.8%)的两倍。o4-mini表现更差,幻觉率高达48%。
非营利AI研究组织Transluce发现,o3虚构了一些行为,例如声称在ChatGPT之外的2021年MacBook Pro上运行代码,尽管它不具备这种能力。
“我们怀疑o系列模型中使用的强化学习可能会加剧通常通过标准后训练方法缓解的问题,”Transluce研究员、前OpenAI员工Neil Chowdhury在给TechCrunch的电子邮件中表示。
Transluce联合创始人Sarah Schwettmann指出,o3的幻觉率可能会降低其实际效用。
斯坦福大学兼职教授、Workera首席执行官Kian Katanforoosh告诉TechCrunch,他的团队发现o3在编码工作流程中表现优异,但容易生成失效的网站链接。
虽然幻觉可以激发创意想法,但对于法律等行业来说,准确性至关重要,文档中的错误是不可接受的,这使得幻觉成为一个挑战。
整合网络搜索功能显示出提高准确性的潜力。OpenAI的GPT-4o结合网络搜索在SimpleQA上达到了90%的准确率,表明当用户允许第三方搜索访问时,推理模型的幻觉可能会减少。
如果推理模型的规模扩大继续增加幻觉,找到解决方案将变得越来越重要。
“提高模型准确性和可靠性是我们持续研究的关键重点,”OpenAI发言人Niko Felix在给TechCrunch的电子邮件中表示。
AI行业最近转向推理模型,这些模型无需大量计算资源即可提升性能。然而,这一转变似乎增加了幻觉风险,带来了重大挑战。
相关文章
AI研究人员绿卡被拒引发对美国人才保留的担忧
陈凯,一位在OpenAI工作的加拿大AI专家,在美国生活12年后被拒绿卡,据公司知名研究科学家诺姆·布朗透露。布朗在X上发帖称,陈于周五得知这一决定,须很快离开美国。“令人震惊的是,我合作过的最优秀的AI研究人员之一[…]被拒绝了美国绿卡,”布朗表示。“一位为美国贡献了12年的加拿大人现在面临离境。这将通过拒绝此类人才而危及美国的AI领导地位。”另一位OpenAI同事迪伦·亨恩在帖子中指出,陈在开
新AI模型表现出更高的推理任务幻觉率
OpenAI新发布的o3和o4-mini AI模型在多个领域表现出色,但与早期模型相比,表现出更高的幻觉倾向,生成更多虚构信息。幻觉一直是AI的持续挑战,即使对顶级系统也是如此。通常,新模型会降低幻觉率,但o3和o4-mini偏离了这一趋势。OpenAI内部测试显示,设计为推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更容易
华盛顿邮报与OpenAI合作通过ChatGPT提升新闻可及性
华盛顿邮报和OpenAI宣布建立“战略合作伙伴关系”,以“通过ChatGPT扩大对可信新闻的访问”,据华盛顿邮报新闻发布会上所述。OpenAI已与超过20家其他新闻机构建立联盟,包括News Corp、商业内幕母公司美联社、Axel Springer、Condé Nast、金融时报、Future和Hearst。The Verge的母公司Vox Media也与OpenAI合作。根据华盛顿邮报协议,C
评论 (0)
0/200
OpenAI新发布的o3和o4-mini AI模型在多个领域表现出色,但与早期模型相比,表现出更高的幻觉倾向,生成更多虚构信息。
幻觉一直是AI的持续挑战,即使对顶级系统也是如此。通常,新模型会降低幻觉率,但o3和o4-mini偏离了这一趋势。
OpenAI内部测试显示,设计为推理模型的o3和o4-mini比之前的推理模型(如o1、o1-mini和o3-mini)以及非推理模型(如GPT-4o)更容易产生幻觉。
幻觉增加的原因尚不清楚,OpenAI对此表示担忧。
OpenAI关于o3和o4-mini的技术报告指出,需要进一步研究以确定推理模型规模扩大时幻觉率上升的原因。报告称,尽管这些模型在编码和数学等领域表现优异,但它们倾向于做出更多断言,导致准确和不准确的输出并存。
在OpenAI的PersonQA基准测试中,o3在33%的回答中出现幻觉,是o1(16%)和o3-mini(14.8%)的两倍。o4-mini表现更差,幻觉率高达48%。
非营利AI研究组织Transluce发现,o3虚构了一些行为,例如声称在ChatGPT之外的2021年MacBook Pro上运行代码,尽管它不具备这种能力。
“我们怀疑o系列模型中使用的强化学习可能会加剧通常通过标准后训练方法缓解的问题,”Transluce研究员、前OpenAI员工Neil Chowdhury在给TechCrunch的电子邮件中表示。
Transluce联合创始人Sarah Schwettmann指出,o3的幻觉率可能会降低其实际效用。
斯坦福大学兼职教授、Workera首席执行官Kian Katanforoosh告诉TechCrunch,他的团队发现o3在编码工作流程中表现优异,但容易生成失效的网站链接。
虽然幻觉可以激发创意想法,但对于法律等行业来说,准确性至关重要,文档中的错误是不可接受的,这使得幻觉成为一个挑战。
整合网络搜索功能显示出提高准确性的潜力。OpenAI的GPT-4o结合网络搜索在SimpleQA上达到了90%的准确率,表明当用户允许第三方搜索访问时,推理模型的幻觉可能会减少。
如果推理模型的规模扩大继续增加幻觉,找到解决方案将变得越来越重要。
“提高模型准确性和可靠性是我们持续研究的关键重点,”OpenAI发言人Niko Felix在给TechCrunch的电子邮件中表示。
AI行业最近转向推理模型,这些模型无需大量计算资源即可提升性能。然而,这一转变似乎增加了幻觉风险,带来了重大挑战。












