选项
首页
新闻
GPT-5发布挑战重重,OpenAI积极应对推进障碍

GPT-5发布挑战重重,OpenAI积极应对推进障碍

2025-11-26
93

GPT-5发布挑战重重,OpenAI积极应对推进障碍

更新于2025年8月8日美国东部时间下午5:21:本文发布后不久,OpenAI联合创始人兼首席执行官萨姆·阿尔特曼确认公司将恢复部分用户的GPT-4o及其他旧版模型访问权限,并承认GPT-5的推出过程“比我们预期的更为坎坷”。

说得委婉些,万众期待的OpenAI新模型GPT-5的发布开局颇为不顺。

即便忽略昨日直播发布会上出现的图表错误和语音演示故障(该发布会推出了四个独立模型以及其中三个模型可用的“思考”模式),自发布以来的多份用户报告显示,GPT-5在处理相对简单的问题时表现挣扎,而这些问题早期的OpenAI模型——以及竞争对手AI实验室的系统——都能正确解决。

例如,数据科学家科林·弗雷泽分享了GPT-5错误处理数学证明的截图——具体来说,是关于8.888循环是否等于9的问题(实际上并不等于)。

它在一个简单的算术方程5.9 = x + 5.11上也出错了,这是许多小学生都能解决的问题。

使用GPT-5来评估OpenAI自己有缺陷的演示图表,也未能产生有用或准确的回应。

此外,它在下面这个更棘手的文字题上栽了跟头(说实话,连我起初也觉得这题颇具挑战——尽管埃隆·马斯克的Grok 4 AI给出了正确答案。提示一下:请记住石板不能切割;所有80块必须保持完整)。

在我的测试中,较旧的GPT-4o模型至少能更可靠地处理其中一道数学题。不幸的是,OpenAI正在逐步淘汰这些旧模型——包括之前默认的GPT-4o和高级推理模型o3——对于ChatGPT用户而言,不过近期内开发者仍可通过API访问它们。

编码表现未达基准测试水平

尽管OpenAI的内部基准测试和某些第三方测试显示GPT-5在编码方面是表现最佳的模型,但实际使用情况表明,Anthropic最近升级的Claude Opus 4.1通常能更有效地处理“一次性”任务——按用户要求交付其预期的应用程序或软件构建。请看开发者贾斯汀·孙在X上发布的这个例子:

此外,安全公司SPLX的一份报告披露,OpenAI的内部安全措施在诸如业务对齐、易受提示注入和混淆逻辑攻击等领域存在显著漏洞。

尽管是零散的反馈,但来自AI重度用户的早期评价总体上反应平淡。

AI领域影响者、前谷歌员工比拉瓦尔·西杜在X上进行了一项投票,征求粉丝们的“氛围感评价”。截至当时共172票,主流回应是“有点普通”。

正如化名账号“AI泄露与新闻”所指出的:“来自X和Reddit AMA关于GPT-5的压倒性共识是非常负面的。”

AIPRM的首席工程师、X平台上知名的AI评论者蒂博尔·布拉霍汇总了ChatGPT-5推出问题的全面总结。他指出,其中一个旗舰功能——根据查询复杂度自动选择思考或非思考模式的“路由器”——已成为主要投诉点,因为该模型对许多用户经常默认使用非思考模式。

竞争对手伺机而动

因此,围绕ChatGPT-5的舆论远非一致好评——这对OpenAI构成了严峻挑战,因为来自美国巨头如谷歌和Anthropic的竞争日趋激烈,同时还有越来越多免费、开源且能力强大的中国大型语言模型涌现,它们提供的功能是许多美国模型所不具备的。

以阿里巴巴千问研究团队为例,他们今天将其高性能Qwen 3模型升级至支持100万token的上下文长度。这使得用户每次交互能交换的信息量比GPT-5目前提供的多出近四倍。

随着OpenAI本周另一重要发布——新的开源gpt-oss模型系列——也收到了褒贬不一的早期评价,这家用户领先的专注AI公司(ChatGPT目前拥有7亿周活跃用户)前景变得不确定。

这种情绪在预测市场Polymarket上得到了呼应,用户普遍押注谷歌很可能在2025年8月底前拥有领先的AI模型。

其他重度用户,例如Otherside AI的联合创始人兼首席执行官马特·舒默——他早期获得了GPT-5访问权限并发表了正面评价——暗示随着更多人针对新模型优化其工作流程,看法可能会转变:

尽管现在对GPT-5下定论还为时过早——随着更多人在各种任务中测试它,看法可能会发生显著变化——但初步迹象表明,这并非像之前GPT-4、GPT-4o或o3发布时那样的“全垒打”。对于一家最近刚获得新一轮融资但因高昂研发支出仍处于亏损状态的公司来说,这是一个令人不安的信号。

相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系 萨提亚·纳德拉准备利用与OpenAI的新合作关系 周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图 正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI 2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
文字转语音 专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率
专为阅读障碍设计的顶级AI语音合成应用:助力学生提升学习与阅读效率

探索2026年最新精选的高评分AI语音合成(TTS)应用,专为阅读障碍者提供支持。我们的专家评级对比了免费与付费工具,重点介绍了能够提升阅读效率和学习效果的强大功能。探索这些必试的、具有革命性意义的解决方案,释放学生的潜能。立即访问XIX.AI,开启您的探索之旅。

10 个工具
xix.ai
漫画创作 少年漫画顶级AI生成器:打造高能动作场面与特效
少年漫画顶级AI生成器:打造高能动作场面与特效

在 XIX.AI 探索 2026 年最优秀的少年漫画 AI 生成工具。我们精心筛选的这份高评分清单汇集了强大的工具,助您创作充满张力的动作场面和动态能量特效。通过实际测试对比免费与付费选项。释放您的创作潜能,立即开始创作史诗级漫画吧!

15 个工具
xix.ai
商业 最佳 AI 费用追踪工具:扫描收据并自动分类企业开支
最佳 AI 费用追踪工具:扫描收据并自动分类企业开支

2026年最新最佳AI报销管理工具:广受好评的解决方案,可自动扫描收据并分类企业支出。探索这些功能强大、颠覆传统的解决方案,助您轻松管理报销、精准追踪财务并简化合规流程。我们精心整理并每周更新的免费与付费选项对比指南,助您找到最适合的工具。通过XIX.AI的专家精选,释放您的AI优势。

10 个工具
xix.ai
商业 最佳人工智能招聘工具:筛选简历并自动安排候选人面试
最佳人工智能招聘工具:筛选简历并自动安排候选人面试

在 XIX.AI 上探索 2026 年最新、评价最高的人工智能招聘工具。我们精心筛选的清单汇集了功能强大、颠覆传统的解决方案,可帮助您筛选简历并自动安排候选人面试。通过实际测试和每周更新的排名,对比免费与付费选项。立即找到最适合您的招聘助手,优化您的招聘流程!

10 个工具
xix.ai
生产率 AI个人健康与专注力教练:缓解倦怠,提升精神能量
AI个人健康与专注力教练:缓解倦怠,提升精神能量

立即访问 XIX.AI,探索 2026 年最优秀的 AI 个人健康与专注力教练。我们的精选排行榜汇集了广受好评、具有颠覆性意义的工具,助您缓解倦怠、提升精神能量。通过真实案例分析,对比免费与付费选项。立即开启通往巅峰生产力和身心健康的道路。

10 个工具
xix.ai
聊天机器人 备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系
备受好评的AI浪漫聊天机器人:凭借稳定的个性建立长期关系

探索2026年最新、评价最高的人工智能浪漫聊天机器人,助您建立真实而长久的联系。我们的精选清单涵盖了功能强大且性格鲜明的聊天机器人,并提供了免费与付费版本的对比分析以及实际测试结果。在XIX.AI上找到您的完美伴侣,立即开始建立联系吧。

10 个工具
xix.ai
评论 (1)
0/500
DanielAllen
DanielAllen 2026-06-01 18:00:19

Honestly, I'm not surprised. OpenAI rushed GPT-4o and now they're backtracking? Classic move 😅. Hope they get it right eventually, but I'm sticking with Claude for now.

OR