GPT-5 發布遇阻:OpenAI 積極應對推出挑戰

更新時間:2025年8月8日星期五下午5點21分(美國東部時間):本文發表後不久,OpenAI聯合創始人兼執行長 Sam Altman 確認公司將為特定用戶恢復 GPT-4o 及其他舊版模型的存取權限,並承認 GPT-5 的推出「比我們預期的更為坎坷」。
說得委婉些,萬眾期待的 OpenAI 新模型 GPT-5 的發布起步頗為艱難。
即使忽略昨日直播發布會上的圖表錯誤和語音演示故障(該發布會介紹了四款不同模型以及其中三款可使用的「思考」模式),發布以來的多份用戶報告顯示,GPT-5 在處理相對簡單的問題時表現掙扎,而這些問題早前的 OpenAI 模型——以及競爭對手的 AI 實驗室系統——都能正確解決。
例如,資料科學家 Colin Fraser 分享了 GPT-5 錯誤處理數學證明的截圖——具體來說,是 8.888 無限循環是否等於 9(答案是不等於)。
哇,我本來只是隨便試試,但它真的有點笨 pic.twitter.com/ao51nOH0Ui
— Colin Fraser (@colin_fraser) August 8, 2025
它在一個簡單的算術方程式 5.9 = x + 5.11 上也失敗了,這是許多小學生都能解決的問題。
這令人擔憂。 https://t.co/PUbeCSgtRV
— Benjamin De Kraker (@BenjaminDEKR) August 8, 2025
使用 GPT-5 來評估 OpenAI 自身有缺陷的簡報圖表,也未能產生有用或準確的回應。
問:證明使用 LLM-as-a-judge 仍然行不通
答: pic.twitter.com/KnCK5Xs9ja
— Kangwook Lee (@Kangwook_Lee) August 7, 2025
此外,它在這個較為棘手的文字題上也栽了跟頭(必須承認,連我起初都覺得頗具挑戰性——儘管伊隆·馬斯克的 Grok 4 AI 正確解答了它。提示:請記住石板不能切割;所有 80 塊必須保持完整)。
小心別在崎嶇的前沿領域傷到自己 pic.twitter.com/buJGgJ6baI
— Greg Burnham (@GregHBurnham) August 8, 2025
在我的測試中,較舊的 GPT-4o 模型至少能更可靠地處理其中一道數學問題。不幸的是,OpenAI 正逐步為 ChatGPT 用戶淘汰那些舊模型——包括先前預設的 GPT-4o 和進階推理模型 o3——儘管開發者在近期內仍能透過 API 存取它們。
編程表現未達基準測試水準
儘管 OpenAI 的內部基準測試和某些第三方測試顯示 GPT-5 是編程效能最佳的模型,但實際使用情況表明,Anthropic 最近升級的 Claude Opus 4.1 在處理「一次性」任務時往往更有效——能根據要求交付用戶預期的應用程式或軟體建置。請看開發者 Justin Sun 在 X 平台上發布的這個例子:
Opus 4.1 一次嘗試「建立一個 3D 水豚寵物樂園」——總共 8 分鐘
這實在太瘋狂了,不僅水豚更可愛且會動,還有個別的親密度等級、晝夜切換器、餵食功能,甚至還有截圖功能 pic.twitter.com/FiKTO3FKK4
— justin (@justinsunyt) August 7, 2025
此外,安全公司 SPLX 的一份報告揭露,OpenAI 的內部安全措施在業務一致性、對提示注入攻擊和混淆邏輯攻擊的易感性等領域存在重大漏洞。
儘管是軼事證據,但來自 AI 資深用戶的早期回饋表明總體反應冷淡。
AI 網紅暨前谷歌員工 Bilawal Sidhu 在 X 上進行了一項投票,詢問追隨者的「感覺檢查」。截至目前有 172 票,最主要的回應是「有點普通」。
好了,GPT-5 感覺檢查
— Bilawal Sidhu (@bilawalsidhu) August 7, 2025
正如化名帳號 AI Leaks and News 所指出的:「來自 X 和 Reddit AMA 的壓倒性共識是對 GPT-5 極度負面。」
來自 X 和 Reddit AMA 的壓倒性共識是對 GPT-5 極度負面
大多數用戶對故障的模型選擇器以及非專業用戶無法存取舊版模型感到不滿
你對 GPT-5 的最初想法是什麼?
— AI Leaks and News (@AILeaksAndNews) August 8, 2025
AIPRM 首席工程師、X 平台上知名的 AI 評論家 Tibor Blaho 彙整了一份關於 ChatGPT-5 推出問題的全面總結。他指出,其中一項旗艦功能——根據查詢複雜度自動選擇思考或非思考模式的「路由器」——已成為主要抱怨點,因為該模型對許多用戶經常預設使用非思考模式。
GPT-5 的發布目前為止進展令人有點難過,尤其是在漫長等待和高度期待之後
– 模型間的自動切換(路由器)似乎部分故障/不可靠
– 不清楚你實際互動的究竟是哪個模型(標準版或迷你版,…
— Tibor Blaho (@btibor91) August 8, 2025
競爭者蓄勢待發
因此,圍繞 ChatGPT-5 的輿論遠非一片叫好——這對 OpenAI 構成嚴峻挑戰,因為來自美國巨頭如 Google 和 Anthropic 的競爭加劇,同時來自越來越多的免費、開源且能力強大的中國大型語言模型的競爭也在升溫,這些模型提供了許多美國模型所缺乏的功能。
以阿里巴巴千問研究團隊為例,他們今天將其高效能 Qwen 3 模型升級至支援 100 萬個 token 的上下文長度。這使得用戶每次互動可交換的資訊量幾乎是 GPT-5 目前提供量的四倍。
隨著 OpenAI 本週另一項重大發布——新的開源 gpt-oss 模型系列——也獲得褒貶不一的早期評價,這家用戶領先的專注 AI 公司(ChatGPT 目前擁有 7 億週活躍用戶)前景變得不明朗。
這種情緒在預測市場 Polymarket 上得到呼應,用戶壓倒性地押注 Google 很可能在 2025 年 8 月底前擁有領先的 AI 模型。
其他資深用戶,例如 Otherside AI 的聯合創始人兼執行長 Matt Shumer——他早期取得了 GPT-5 存取權並發布了正面評價——建議,隨著更多人針對新模型優化其工作流程,意見可能會發生變化:
許多體驗不佳的人是在尚未針對 GPT-5 優化的代理框架中使用它。
對於每個新模型發布,從發布到整合該模型的公司真正使其順暢運行之間存在時間差。
代理公司急於…
— Matt Shumer (@mattshumer_) August 8, 2025
雖然現在評價 GPT-5 還為時過早——並且隨著更多人在各種任務中測試它,意見可能會顯著改變——但初步跡象表明,這並非像之前 GPT-4、GPT-4o 或 o3 等發布那樣是支「全壘打」。對於這家最近剛完成新一輪融資,但由於高昂的研發支出仍處於虧損狀態的公司來說,這是一個令人擔憂的信號。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (1)
0/500

更新時間:2025年8月8日星期五下午5點21分(美國東部時間):本文發表後不久,OpenAI聯合創始人兼執行長 Sam Altman 確認公司將為特定用戶恢復 GPT-4o 及其他舊版模型的存取權限,並承認 GPT-5 的推出「比我們預期的更為坎坷」。
說得委婉些,萬眾期待的 OpenAI 新模型 GPT-5 的發布起步頗為艱難。
即使忽略昨日直播發布會上的圖表錯誤和語音演示故障(該發布會介紹了四款不同模型以及其中三款可使用的「思考」模式),發布以來的多份用戶報告顯示,GPT-5 在處理相對簡單的問題時表現掙扎,而這些問題早前的 OpenAI 模型——以及競爭對手的 AI 實驗室系統——都能正確解決。
例如,資料科學家 Colin Fraser 分享了 GPT-5 錯誤處理數學證明的截圖——具體來說,是 8.888 無限循環是否等於 9(答案是不等於)。
哇,我本來只是隨便試試,但它真的有點笨 pic.twitter.com/ao51nOH0Ui
— Colin Fraser (@colin_fraser) August 8, 2025
它在一個簡單的算術方程式 5.9 = x + 5.11 上也失敗了,這是許多小學生都能解決的問題。
這令人擔憂。 https://t.co/PUbeCSgtRV
— Benjamin De Kraker (@BenjaminDEKR) August 8, 2025
使用 GPT-5 來評估 OpenAI 自身有缺陷的簡報圖表,也未能產生有用或準確的回應。
問:證明使用 LLM-as-a-judge 仍然行不通
— Kangwook Lee (@Kangwook_Lee) August 7, 2025
答: pic.twitter.com/KnCK5Xs9ja
此外,它在這個較為棘手的文字題上也栽了跟頭(必須承認,連我起初都覺得頗具挑戰性——儘管伊隆·馬斯克的 Grok 4 AI 正確解答了它。提示:請記住石板不能切割;所有 80 塊必須保持完整)。
小心別在崎嶇的前沿領域傷到自己 pic.twitter.com/buJGgJ6baI
— Greg Burnham (@GregHBurnham) August 8, 2025
在我的測試中,較舊的 GPT-4o 模型至少能更可靠地處理其中一道數學問題。不幸的是,OpenAI 正逐步為 ChatGPT 用戶淘汰那些舊模型——包括先前預設的 GPT-4o 和進階推理模型 o3——儘管開發者在近期內仍能透過 API 存取它們。
編程表現未達基準測試水準
儘管 OpenAI 的內部基準測試和某些第三方測試顯示 GPT-5 是編程效能最佳的模型,但實際使用情況表明,Anthropic 最近升級的 Claude Opus 4.1 在處理「一次性」任務時往往更有效——能根據要求交付用戶預期的應用程式或軟體建置。請看開發者 Justin Sun 在 X 平台上發布的這個例子:
Opus 4.1 一次嘗試「建立一個 3D 水豚寵物樂園」——總共 8 分鐘
— justin (@justinsunyt) August 7, 2025
這實在太瘋狂了,不僅水豚更可愛且會動,還有個別的親密度等級、晝夜切換器、餵食功能,甚至還有截圖功能 pic.twitter.com/FiKTO3FKK4
此外,安全公司 SPLX 的一份報告揭露,OpenAI 的內部安全措施在業務一致性、對提示注入攻擊和混淆邏輯攻擊的易感性等領域存在重大漏洞。
儘管是軼事證據,但來自 AI 資深用戶的早期回饋表明總體反應冷淡。
AI 網紅暨前谷歌員工 Bilawal Sidhu 在 X 上進行了一項投票,詢問追隨者的「感覺檢查」。截至目前有 172 票,最主要的回應是「有點普通」。
好了,GPT-5 感覺檢查
— Bilawal Sidhu (@bilawalsidhu) August 7, 2025
正如化名帳號 AI Leaks and News 所指出的:「來自 X 和 Reddit AMA 的壓倒性共識是對 GPT-5 極度負面。」
來自 X 和 Reddit AMA 的壓倒性共識是對 GPT-5 極度負面
— AI Leaks and News (@AILeaksAndNews) August 8, 2025
大多數用戶對故障的模型選擇器以及非專業用戶無法存取舊版模型感到不滿
你對 GPT-5 的最初想法是什麼?
AIPRM 首席工程師、X 平台上知名的 AI 評論家 Tibor Blaho 彙整了一份關於 ChatGPT-5 推出問題的全面總結。他指出,其中一項旗艦功能——根據查詢複雜度自動選擇思考或非思考模式的「路由器」——已成為主要抱怨點,因為該模型對許多用戶經常預設使用非思考模式。
GPT-5 的發布目前為止進展令人有點難過,尤其是在漫長等待和高度期待之後
— Tibor Blaho (@btibor91) August 8, 2025
– 模型間的自動切換(路由器)似乎部分故障/不可靠
– 不清楚你實際互動的究竟是哪個模型(標準版或迷你版,…
競爭者蓄勢待發
因此,圍繞 ChatGPT-5 的輿論遠非一片叫好——這對 OpenAI 構成嚴峻挑戰,因為來自美國巨頭如 Google 和 Anthropic 的競爭加劇,同時來自越來越多的免費、開源且能力強大的中國大型語言模型的競爭也在升溫,這些模型提供了許多美國模型所缺乏的功能。
以阿里巴巴千問研究團隊為例,他們今天將其高效能 Qwen 3 模型升級至支援 100 萬個 token 的上下文長度。這使得用戶每次互動可交換的資訊量幾乎是 GPT-5 目前提供量的四倍。
隨著 OpenAI 本週另一項重大發布——新的開源 gpt-oss 模型系列——也獲得褒貶不一的早期評價,這家用戶領先的專注 AI 公司(ChatGPT 目前擁有 7 億週活躍用戶)前景變得不明朗。
這種情緒在預測市場 Polymarket 上得到呼應,用戶壓倒性地押注 Google 很可能在 2025 年 8 月底前擁有領先的 AI 模型。
其他資深用戶,例如 Otherside AI 的聯合創始人兼執行長 Matt Shumer——他早期取得了 GPT-5 存取權並發布了正面評價——建議,隨著更多人針對新模型優化其工作流程,意見可能會發生變化:
許多體驗不佳的人是在尚未針對 GPT-5 優化的代理框架中使用它。
— Matt Shumer (@mattshumer_) August 8, 2025
對於每個新模型發布,從發布到整合該模型的公司真正使其順暢運行之間存在時間差。
代理公司急於…
雖然現在評價 GPT-5 還為時過早——並且隨著更多人在各種任務中測試它,意見可能會顯著改變——但初步跡象表明,這並非像之前 GPT-4、GPT-4o 或 o3 等發布那樣是支「全壘打」。對於這家最近剛完成新一輪融資,但由於高昂的研發支出仍處於虧損狀態的公司來說,這是一個令人擔憂的信號。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研





首頁






