選項
首頁
新聞
GPT-5 發表,揭開 OpenAI 下一代 AI 模型的神秘面紗

GPT-5 發表,揭開 OpenAI 下一代 AI 模型的神秘面紗

2025-12-30
89

OpenAI 推出了 GPT-5,這是其新的旗艦 AI 模型,將驅動下一代 ChatGPT。

GPT-5 於週四發佈,是 OpenAI 首款統一的 AI 機型,融合了 o 系列機型的推理優勢與 GPT 系列的快速反應能力。此新一代模型標誌著 ChatGPT 與 OpenAI 的新篇章,突顯該公司建立 AI 系統的雄心,其行為更像主動式代理,而非反應式聊天機器人。

GPT-4 可讓 AI 聊天機器人提供各種主題的智慧型答案,而 GPT-5 則可讓 ChatGPT 代表使用者執行任務,例如開發軟體應用程式、管理排程或編寫研究摘要。

OpenAI 在 GPT-5 中也著重讓 ChatGPT 更容易使用。該模型不需要使用者調整設定,而是包含一個即時路由器,可決定最佳的回應方式,無論是快速回答,或是花更多時間推理答案。

圖片來源:OpenAIOpenAI

在與記者的簡報會中,OpenAI 執行長 Sam Altman 將 GPT-5 描述為「世界上最好的模型」,稱其為朝向開發能在最具經濟價值的工作上勝過人類的人工智能(也稱為人工一般智慧(AGI))邁進的「重要一步」。

Altman 補充:「像 GPT-5 這樣的工具,在歷史上任何其他時刻幾乎都是不可想像的。

自本週四起,GPT-5 將成為所有免費 ChatGPT 使用者的預設模型。根據 OpenAI 的 ChatGPT 副總裁 Nick Turley 所說,此舉首次讓免費使用者可以使用 AI 推理模型。(在此之前,這種先進的模型只保留給付費訂閱者)。

"Turley 表示:「這是我們實現使命的方式之一,確保這些進步能真正造福每個人。

Techcrunch 活動

頂尖科技與創投領袖加入 Disrupt 2025 議程

Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等具影響力的公司加入 Disrupt 2025 議程。他們將分享重要的見解,協助初創公司成長並維持競爭力。不要錯過 TechCrunch Disrupt 20 週年慶,這是向科技領導者學習的機會。現在預訂門票,即可在 8 月 7 日漲價前節省高達 675 美元。

頂尖科技與創投領袖加入 Disrupt 2025 議程

Netflix、ElevenLabs、Wayve 和 Sequoia Capital 等具影響力的公司將加入 Disrupt 2025 議程。他們將分享重要的見解,協助新創公司成長並維持競爭力。不要錯過 TechCrunch Disrupt 20 週年慶,這是向科技領導者學習的機會。現在預訂門票,可在價格上漲前節省高達 675 美元。

舊金山|2025 年 10 月 27-29 日立即預訂

GPT-5 的期望值極高,標誌著 OpenAI 自 2022 年 ChatGPT 使公司嶄露頭角以來最令人期待的發佈之一。從那時起,ChatGPT 已經成為全球使用最廣泛的消費性產品之一,根據該公司的資料,目前每週有超過 7 億名使用者使用 ChatGPT,約佔全球人口的 10%。

許多人認為 GPT-5 是更廣泛的 AI 進展的風向標,它在矽谷的受歡迎程度可能會對 Big Tech、華爾街和科技政策制定者產生重大影響。利害關係人都在觀察 GPT-5 是否能帶來 AI 能力的大幅躍進,就像其前身 GPT-4 重新定義軟體的功能一樣。

GPT-5 遙遙領先競爭對手

OpenAI 宣稱,GPT-5 在多個領域樹立了新標準,在關鍵基準上略勝 Anthropic、Google DeepMind 和 Elon Musk 的 xAI 等領導模型,但在其他領域則略有不足。

該公司強調 GPT-5 的編碼能力出眾;Altman 指出,該模型擅長依需求產生完整的軟體應用程式,這種能力常被稱為「虛擬編碼」(vibe coding)。

在 SWE-bench Verified 測試中,GPT-5 的首次測試得分率為 74.9%,這項測試是基於 GitHub 的實際編碼任務。這讓它僅次於 Anthropic 的 Claude Opus 4.1 (74.5%) 和 Google DeepMind 的 Gemini 2.5 Pro (59.6%)。

在人類最後一次考試(Humanity's Last Exam)中,GPT-5(GPT-5 Pro)的擴展推理版本在使用工具的情況下獲得了 42% 的高分,這是一項涵蓋數學、人文和科學的嚴格評估。這比 xAI 的 Grok 4 Heavy 略低,後者的得分率為 44.4%。

圖片來源:OpenAIOpenAI

在 GPQA Diamond(一個博士級科學問題的基準)上,GPT-5 Pro 第一次嘗試就獲得了 89.4% 的成績,優於 Claude Opus 4.1 (80.9%) 和 Grok 4 Heavy (88.9%)。

OpenAI 也報告指出,GPT-5 在健康相關的查詢上表現較佳。在衡量醫療照護回應準確度的 HealthBench Hard Hallucinations 上,GPT-5 (有思考能力) 只有 1.6% 的時間出現幻覺,遠低於 GPT-4o (12.9%) 和 o3 (15.8%)。

雖然 AI 聊天機器人並非醫療專業人員,但仍有數百萬人向他們尋求健康建議。對此,OpenAI 表示,GPT-5 能更主動地標示潛在的健康問題,並協助使用者解讀醫療資訊。

此外,GPT-5 在創意設計和寫作等主觀性較強的領域也很出色。Turley 指出,與競爭對手的模型相比,GPT-5 在創意任務上的反應更自然,也表現出 「更好的品味」。

"Turley 評論道:「這款機型的氣氛真的很好。

GPT-5 也比 OpenAI 早期的模型更精準,而且幻覺(虛構資訊的傾向)更少。幻覺率在最近的推理模型(如 o3)中一直在增加,OpenAI 之前一直難以解釋這種趨勢。

在回應測試中,GPT-5 (含思考) 提供錯誤資訊的比例為 4.8%,比起 o3 (22%) 和 GPT-4o (20.6%) 有顯著的改善。

在測量 AI 代理完成模擬線上任務能力的 Tau-bench 測試中,GPT-5 的成績好壞參半。它在航空公司網站導覽的得分為 63.5%(略低於 o3 的 64.8%),在零售網站導覽的得分為 81.1%(低於 Claude Opus 4.1 的 82.4%)。

OpenAI 也強調,GPT-5 比前一代產品更安全。雖然推理模型有時可能會出現欺騙行為,但 GPT-5 的欺騙率較低,有助於提供更值得信賴的使用者體驗。

安全研究領導人 Alex Beutel 指出,減少欺騙行為不僅能提高安全性,還能讓模型更「透明、誠實,讓使用者可以信賴」。

Beutel 補充說,GPT-5 更能區分惡意濫用與無害請求,因此對不安全的查詢會有更適當的拒絕,而對良性查詢則會減少不必要的拒絕。

針對消費者與開發人員的新功能

除了 GPT-5 版本之外,ChatGPT 還進行了多項使用者體驗升級。使用者現在可以在設定中選擇四種新的回應方式:Cynic、Robot、Listenener 和 Nerd。這些樣式可調整 ChatGPT 的語氣,而不需要明確的指示。

ChatGPT Plus 訂戶 (20 美元/月) 可獲得 GPT-5 的更高使用限制,而 Pro 訂戶 (200 美元/月) 則可獲得無限制使用權以及 GPT-5 Pro - 一個使用額外計算以獲得更佳答案的增強版。Team、Edu 和 Enterprise 客戶將從下周起獲得 GPT-5 作為預設模式。

對開發人員而言,GPT-5 將可透過 OpenAI 的 API 以三種規格提供 - GPT-5、GPT-5-mini 和 GPT-5-nano - 推理深度各不相同。API 現在也包含了動詞控制功能,讓開發人員可以設定所需的回應長度。

基本 GPT-5 模型的價格為每百萬個輸入字元(約 750,000 個字)1.25 美元,每百萬個輸出字元 10 美元。

GPT-5 的推出,正值 OpenAI 忙碌的時期。該公司最近發佈了 gpt-oss,這是一個免費、開放重量的推理模型,幾乎可以媲美早期的頂級模型,如 o3 和 o4-mini。然而,GPT-5 在編碼等領域建立了新的基準。

不過,GPT-5 在許多基準上仍具有競爭力,而不是主導地位。真實世界的效能與開發人員的採用,將最終決定它是否能真正超越競爭對手的模型。

相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係 薩提亞·納德拉準備利用與OpenAI的新合作關係 週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖 當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI 2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
聊天機器人 最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係
最受好評的 AI 浪漫聊天機器人:透過一貫的個性建立長期關係

探索 2026 年最新、評價最高的 AI 浪漫聊天機器人,助您建立真摯且長久的連結。我們精心整理的清單包含功能強大且性格鮮明的聊天機器人、免費與付費版本的比較,以及實際測試結果。立即前往 XIX.AI 尋找您的完美伴侶,並開始建立這段關係吧。

10 個工具
xix.ai
教育與學習 最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程
最佳AI資料科學導師:精通SQL、Pandas及機器學習工作流程

探索2026年最優秀的人工智慧資料科學導師,幫助他們掌握SQL、Pandas以及機器學習工作流程。在XIX.AI上檢視我們精心挑選的頂級導師名單,獲得強大而具有變革性的指導。透過對比免費和付費選項,並結合實際應用案例進行了解,今天就開啟你的資料科學精通之路吧。

10 個工具
xix.ai
聊天機器人 最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信
最佳 AI 調情與對話訓練工具:即時提升社交魅力與自信

在 XIX.AI 探索 2026 年最頂尖的 AI 調情與對話訓練工具。我們精心挑選、評價最高的精選清單,能助您即時建立社交魅力與自信。探索這些必試且能徹底改變遊戲規則的工具,並透過免費與付費版本的比較,以及每週更新的排行榜,立即解鎖您的社交優勢。

10 個工具
xix.ai
評論 (0)
0/500
OR