GPT-5发布挑战重重,OpenAI积极应对推进障碍

更新于2025年8月8日美国东部时间下午5:21:本文发布后不久,OpenAI联合创始人兼首席执行官萨姆·阿尔特曼确认公司将恢复部分用户的GPT-4o及其他旧版模型访问权限,并承认GPT-5的推出过程“比我们预期的更为坎坷”。
说得委婉些,万众期待的OpenAI新模型GPT-5的发布开局颇为不顺。
即便忽略昨日直播发布会上出现的图表错误和语音演示故障(该发布会推出了四个独立模型以及其中三个模型可用的“思考”模式),自发布以来的多份用户报告显示,GPT-5在处理相对简单的问题时表现挣扎,而这些问题早期的OpenAI模型——以及竞争对手AI实验室的系统——都能正确解决。
例如,数据科学家科林·弗雷泽分享了GPT-5错误处理数学证明的截图——具体来说,是关于8.888循环是否等于9的问题(实际上并不等于)。
哇,我之前只是随便试试,但它真的有点蠢 pic.twitter.com/ao51nOH0Ui
— 科林·弗雷泽 (@colin_fraser) 2025年8月8日
它在一个简单的算术方程5.9 = x + 5.11上也出错了,这是许多小学生都能解决的问题。
这令人担忧。https://t.co/PUbeCSgtRV
— 本杰明·德·克拉默 (@BenjaminDEKR) 2025年8月8日
使用GPT-5来评估OpenAI自己有缺陷的演示图表,也未能产生有用或准确的回应。
问:证明使用LLM作为评判员仍然行不通
答:pic.twitter.com/KnCK5Xs9ja
— 李康旭 (@Kangwook_Lee) 2025年8月7日
此外,它在下面这个更棘手的文字题上栽了跟头(说实话,连我起初也觉得这题颇具挑战——尽管埃隆·马斯克的Grok 4 AI给出了正确答案。提示一下:请记住石板不能切割;所有80块必须保持完整)。
当心别在锯齿状的前沿上割伤自己 pic.twitter.com/buJGgJ6baI
— 格雷格·伯纳姆 (@GregHBurnham) 2025年8月8日
在我的测试中,较旧的GPT-4o模型至少能更可靠地处理其中一道数学题。不幸的是,OpenAI正在逐步淘汰这些旧模型——包括之前默认的GPT-4o和高级推理模型o3——对于ChatGPT用户而言,不过近期内开发者仍可通过API访问它们。
编码表现未达基准测试水平
尽管OpenAI的内部基准测试和某些第三方测试显示GPT-5在编码方面是表现最佳的模型,但实际使用情况表明,Anthropic最近升级的Claude Opus 4.1通常能更有效地处理“一次性”任务——按用户要求交付其预期的应用程序或软件构建。请看开发者贾斯汀·孙在X上发布的这个例子:
Opus 4.1尝试“创建一个3D水豚宠物动物园”的一次性完成——总计8分钟
这实在是相当疯狂,不仅水豚更可爱还会动,还有个体亲密度等级、昼夜切换器、喂食功能,甚至还有截图功能 pic.twitter.com/FiKTO3FKK4
— justin (@justinsunyt) 2025年8月7日
此外,安全公司SPLX的一份报告披露,OpenAI的内部安全措施在诸如业务对齐、易受提示注入和混淆逻辑攻击等领域存在显著漏洞。
尽管是零散的反馈,但来自AI重度用户的早期评价总体上反应平淡。
AI领域影响者、前谷歌员工比拉瓦尔·西杜在X上进行了一项投票,征求粉丝们的“氛围感评价”。截至当时共172票,主流回应是“有点普通”。
好吧,GPT-5氛围感评价
— 比拉瓦尔·西杜 (@bilawalsidhu) 2025年8月7日
正如化名账号“AI泄露与新闻”所指出的:“来自X和Reddit AMA关于GPT-5的压倒性共识是非常负面的。”
来自X和Reddit AMA关于GPT-5的压倒性共识是非常负面的
大多数用户对损坏的模型选择器以及非专业用户无法访问旧版模型感到不满
你对GPT-5的初步看法是什么?
— AI泄露与新闻 (@AILeaksAndNews) 2025年8月8日
AIPRM的首席工程师、X平台上知名的AI评论者蒂博尔·布拉霍汇总了ChatGPT-5推出问题的全面总结。他指出,其中一个旗舰功能——根据查询复杂度自动选择思考或非思考模式的“路由器”——已成为主要投诉点,因为该模型对许多用户经常默认使用非思考模式。
GPT-5发布至今的情况有点令人沮丧,尤其是在漫长的等待和高期望之后
– 模型之间的自动切换(路由器)似乎部分损坏/不可靠
– 不清楚你实际在与哪个模型交互(标准版还是迷你版,…
— 蒂博尔·布拉霍 (@btibor91) 2025年8月8日
竞争对手伺机而动
因此,围绕ChatGPT-5的舆论远非一致好评——这对OpenAI构成了严峻挑战,因为来自美国巨头如谷歌和Anthropic的竞争日趋激烈,同时还有越来越多免费、开源且能力强大的中国大型语言模型涌现,它们提供的功能是许多美国模型所不具备的。
以阿里巴巴千问研究团队为例,他们今天将其高性能Qwen 3模型升级至支持100万token的上下文长度。这使得用户每次交互能交换的信息量比GPT-5目前提供的多出近四倍。
随着OpenAI本周另一重要发布——新的开源gpt-oss模型系列——也收到了褒贬不一的早期评价,这家用户领先的专注AI公司(ChatGPT目前拥有7亿周活跃用户)前景变得不确定。
这种情绪在预测市场Polymarket上得到了呼应,用户普遍押注谷歌很可能在2025年8月底前拥有领先的AI模型。
其他重度用户,例如Otherside AI的联合创始人兼首席执行官马特·舒默——他早期获得了GPT-5访问权限并发表了正面评价——暗示随着更多人针对新模型优化其工作流程,看法可能会转变:
许多体验不佳的用户是在尚未针对GPT-5优化的智能体框架中使用它。
对于每个新模型发布,从发布到集成该模型的公司真正使其良好运行之间会有一段时滞。
智能体公司争相…
— 马特·舒默 (@mattshumer_) 2025年8月8日
尽管现在对GPT-5下定论还为时过早——随着更多人在各种任务中测试它,看法可能会发生显著变化——但初步迹象表明,这并非像之前GPT-4、GPT-4o或o3发布时那样的“全垒打”。对于一家最近刚获得新一轮融资但因高昂研发支出仍处于亏损状态的公司来说,这是一个令人不安的信号。
相关文章
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open
相关专题推荐
评论 (1)
0/500

更新于2025年8月8日美国东部时间下午5:21:本文发布后不久,OpenAI联合创始人兼首席执行官萨姆·阿尔特曼确认公司将恢复部分用户的GPT-4o及其他旧版模型访问权限,并承认GPT-5的推出过程“比我们预期的更为坎坷”。
说得委婉些,万众期待的OpenAI新模型GPT-5的发布开局颇为不顺。
即便忽略昨日直播发布会上出现的图表错误和语音演示故障(该发布会推出了四个独立模型以及其中三个模型可用的“思考”模式),自发布以来的多份用户报告显示,GPT-5在处理相对简单的问题时表现挣扎,而这些问题早期的OpenAI模型——以及竞争对手AI实验室的系统——都能正确解决。
例如,数据科学家科林·弗雷泽分享了GPT-5错误处理数学证明的截图——具体来说,是关于8.888循环是否等于9的问题(实际上并不等于)。
哇,我之前只是随便试试,但它真的有点蠢 pic.twitter.com/ao51nOH0Ui
— 科林·弗雷泽 (@colin_fraser) 2025年8月8日
它在一个简单的算术方程5.9 = x + 5.11上也出错了,这是许多小学生都能解决的问题。
这令人担忧。https://t.co/PUbeCSgtRV
— 本杰明·德·克拉默 (@BenjaminDEKR) 2025年8月8日
使用GPT-5来评估OpenAI自己有缺陷的演示图表,也未能产生有用或准确的回应。
问:证明使用LLM作为评判员仍然行不通
— 李康旭 (@Kangwook_Lee) 2025年8月7日
答:pic.twitter.com/KnCK5Xs9ja
此外,它在下面这个更棘手的文字题上栽了跟头(说实话,连我起初也觉得这题颇具挑战——尽管埃隆·马斯克的Grok 4 AI给出了正确答案。提示一下:请记住石板不能切割;所有80块必须保持完整)。
当心别在锯齿状的前沿上割伤自己 pic.twitter.com/buJGgJ6baI
— 格雷格·伯纳姆 (@GregHBurnham) 2025年8月8日
在我的测试中,较旧的GPT-4o模型至少能更可靠地处理其中一道数学题。不幸的是,OpenAI正在逐步淘汰这些旧模型——包括之前默认的GPT-4o和高级推理模型o3——对于ChatGPT用户而言,不过近期内开发者仍可通过API访问它们。
编码表现未达基准测试水平
尽管OpenAI的内部基准测试和某些第三方测试显示GPT-5在编码方面是表现最佳的模型,但实际使用情况表明,Anthropic最近升级的Claude Opus 4.1通常能更有效地处理“一次性”任务——按用户要求交付其预期的应用程序或软件构建。请看开发者贾斯汀·孙在X上发布的这个例子:
Opus 4.1尝试“创建一个3D水豚宠物动物园”的一次性完成——总计8分钟
— justin (@justinsunyt) 2025年8月7日
这实在是相当疯狂,不仅水豚更可爱还会动,还有个体亲密度等级、昼夜切换器、喂食功能,甚至还有截图功能 pic.twitter.com/FiKTO3FKK4
此外,安全公司SPLX的一份报告披露,OpenAI的内部安全措施在诸如业务对齐、易受提示注入和混淆逻辑攻击等领域存在显著漏洞。
尽管是零散的反馈,但来自AI重度用户的早期评价总体上反应平淡。
AI领域影响者、前谷歌员工比拉瓦尔·西杜在X上进行了一项投票,征求粉丝们的“氛围感评价”。截至当时共172票,主流回应是“有点普通”。
好吧,GPT-5氛围感评价
— 比拉瓦尔·西杜 (@bilawalsidhu) 2025年8月7日
正如化名账号“AI泄露与新闻”所指出的:“来自X和Reddit AMA关于GPT-5的压倒性共识是非常负面的。”
来自X和Reddit AMA关于GPT-5的压倒性共识是非常负面的
— AI泄露与新闻 (@AILeaksAndNews) 2025年8月8日
大多数用户对损坏的模型选择器以及非专业用户无法访问旧版模型感到不满
你对GPT-5的初步看法是什么?
AIPRM的首席工程师、X平台上知名的AI评论者蒂博尔·布拉霍汇总了ChatGPT-5推出问题的全面总结。他指出,其中一个旗舰功能——根据查询复杂度自动选择思考或非思考模式的“路由器”——已成为主要投诉点,因为该模型对许多用户经常默认使用非思考模式。
GPT-5发布至今的情况有点令人沮丧,尤其是在漫长的等待和高期望之后
— 蒂博尔·布拉霍 (@btibor91) 2025年8月8日
– 模型之间的自动切换(路由器)似乎部分损坏/不可靠
– 不清楚你实际在与哪个模型交互(标准版还是迷你版,…
竞争对手伺机而动
因此,围绕ChatGPT-5的舆论远非一致好评——这对OpenAI构成了严峻挑战,因为来自美国巨头如谷歌和Anthropic的竞争日趋激烈,同时还有越来越多免费、开源且能力强大的中国大型语言模型涌现,它们提供的功能是许多美国模型所不具备的。
以阿里巴巴千问研究团队为例,他们今天将其高性能Qwen 3模型升级至支持100万token的上下文长度。这使得用户每次交互能交换的信息量比GPT-5目前提供的多出近四倍。
随着OpenAI本周另一重要发布——新的开源gpt-oss模型系列——也收到了褒贬不一的早期评价,这家用户领先的专注AI公司(ChatGPT目前拥有7亿周活跃用户)前景变得不确定。
这种情绪在预测市场Polymarket上得到了呼应,用户普遍押注谷歌很可能在2025年8月底前拥有领先的AI模型。
其他重度用户,例如Otherside AI的联合创始人兼首席执行官马特·舒默——他早期获得了GPT-5访问权限并发表了正面评价——暗示随着更多人针对新模型优化其工作流程,看法可能会转变:
许多体验不佳的用户是在尚未针对GPT-5优化的智能体框架中使用它。
— 马特·舒默 (@mattshumer_) 2025年8月8日
对于每个新模型发布,从发布到集成该模型的公司真正使其良好运行之间会有一段时滞。
智能体公司争相…
尽管现在对GPT-5下定论还为时过早——随着更多人在各种任务中测试它,看法可能会发生显著变化——但初步迹象表明,这并非像之前GPT-4、GPT-4o或o3发布时那样的“全垒打”。对于一家最近刚获得新一轮融资但因高昂研发支出仍处于亏损状态的公司来说,这是一个令人不安的信号。
萨提亚·纳德拉准备利用与OpenAI的新合作关系
周三,一位华尔街分析师直接询问了微软首席执行官萨蒂亚·纳德拉,修订后的OpenAI合作关系将如何影响公司的财务状况。 纳德拉将这一新协议描述为对各方都有利的结果。“我们对与OpenAI的合作感到满意。我始终非常重视任何合作关系,并确保它能够实现双赢。只有这样,双方才能保持良好的合作伙伴关系。” 他强调,微软仍然可以使用OpenAI的知识产权,包括其模型和智能体产品,但不再需要为此向OpenAI支付费用。 谈到在2032年之前可以免费使用OpenAI最先进的人工智能技术,纳德拉表示:“
OpenAI勾勒出以公共财富基金、机器人税和每周四天工作制为核心的人工智能经济蓝图
正当各国政府竭力应对超级智能机器带来的经济影响之际,OpenAI发布了一套政策建议,概述了在“智能时代”财富与工作将如何重塑。这些构想将传统左倾机制——例如公共财富基金和扩大的社会安全网——与根本上属于资本主义、由市场驱动的经济框架相结合。OpenAI的提案本质上是一份愿望清单,这份公开声明旨在帮助民选官员、投资者和公众理解这家市值8520亿美元的公司如何看待人工智能在重塑劳动力和经济过程中带来的
格雷格·布罗克曼揭秘埃隆·马斯克如何离开OpenAI
2017年8月下旬,OpenAI(当时还是一家小型非营利研究实验室)的核心成员召开会议,商讨如何成立一家营利性实体,以实现技术的商业化,并筹集实现通用人工智能(AGI)所需的资金。埃隆·马斯克要求全面掌控公司,并刚刚向每位联合创始人赠送了一辆特斯拉Model 3。首席技术官格雷格·布罗克曼表示,他认为这是马斯克试图收买人心,当时马斯克和萨姆·阿尔特曼正就各自对公司未来愿景的支持展开角逐。 Open





首页






