OpenAI 推出 GPT-5.4 Pro 及 Thinking 版本

週四,OpenAI 推出了 GPT-5.4,這是一款被描述為「我們目前功能最強大且最高效的專業工作前沿模型」的新基礎模型。除了標準版本外,GPT-5.4 還提供專注於推理的變體(GPT-5.4 Thinking)以及性能優化的版本(GPT-5.4 Pro)。
該模型的 API 版本將支援長達 100 萬個標記的上下文視窗,創下 OpenAI 迄今為止提供的最大上下文容量紀錄。
OpenAI 亦強調了提升的標記效率,指出 GPT-5.4 解決相同問題所需的標記數量,遠少於其前代產品。
新模型在基準測試中表現大幅提升,於電腦應用基準測試 OSWorld-Verified 和 WebArena Verified 中創下紀錄分數。此外,在 OpenAI 針對知識型工作任務的 GDPval 測試中,更以 83% 的得分刷新紀錄。
根據 Mercor 執行長 Brendan Foody 的聲明,GPT-5.4 在 Mercor 的 APEX-Agents 基準測試中表現領先,該測試旨在評估法律與金融領域的專業技能。
「[GPT-5.4] 在產出長週期交付成果方面表現卓越,例如簡報檔、財務模型及法律分析,」Foody 表示,「不僅展現頂尖效能,運作速度更勝競品前沿模型,且成本更低。」
GPT-5.4 延續了 OpenAI 降低「幻覺」與事實錯誤的研發成果。該公司報告指出,相較於 GPT-5.2,新模型在單一陳述中出現錯誤的機率降低了 33%,整體回應中包含錯誤的機率則降低了 18%。
作為此次發布的一部分,OpenAI 重新設計了 GPT-5.4 API 處理工具調用的方式,並引入了一套名為「工具搜尋」(Tool Search)的新系統。此前,系統提示必須預先定義所有可用工具——隨著工具庫的擴展,此過程會消耗大量代幣。新系統允許模型按需檢索工具定義,使在擁有眾多工具的環境中,請求處理速度更快且更具成本效益。
OpenAI 還新增了一項安全評估機制,用以檢視其模型的「思維鏈」——這是在執行多步驟任務時,揭示模型推理過程的即時註解。AI 安全研究人員長期以來一直擔憂,推理型模型可能會誤導其思維鏈,而測試結果證實,在特定條件下確實可能發生這種情況。
OpenAI 的新評估顯示,在 GPT-5.4 的「思考版」(Thinking version)中,這種誤導行為發生的機率較低,這「表明該模型缺乏隱藏其推理過程的能力,且 CoT 監控仍是一種有效的安全工具。」
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (0)
0/500

週四,OpenAI 推出了 GPT-5.4,這是一款被描述為「我們目前功能最強大且最高效的專業工作前沿模型」的新基礎模型。除了標準版本外,GPT-5.4 還提供專注於推理的變體(GPT-5.4 Thinking)以及性能優化的版本(GPT-5.4 Pro)。
該模型的 API 版本將支援長達 100 萬個標記的上下文視窗,創下 OpenAI 迄今為止提供的最大上下文容量紀錄。
OpenAI 亦強調了提升的標記效率,指出 GPT-5.4 解決相同問題所需的標記數量,遠少於其前代產品。
新模型在基準測試中表現大幅提升,於電腦應用基準測試 OSWorld-Verified 和 WebArena Verified 中創下紀錄分數。此外,在 OpenAI 針對知識型工作任務的 GDPval 測試中,更以 83% 的得分刷新紀錄。
根據 Mercor 執行長 Brendan Foody 的聲明,GPT-5.4 在 Mercor 的 APEX-Agents 基準測試中表現領先,該測試旨在評估法律與金融領域的專業技能。
「[GPT-5.4] 在產出長週期交付成果方面表現卓越,例如簡報檔、財務模型及法律分析,」Foody 表示,「不僅展現頂尖效能,運作速度更勝競品前沿模型,且成本更低。」
GPT-5.4 延續了 OpenAI 降低「幻覺」與事實錯誤的研發成果。該公司報告指出,相較於 GPT-5.2,新模型在單一陳述中出現錯誤的機率降低了 33%,整體回應中包含錯誤的機率則降低了 18%。
作為此次發布的一部分,OpenAI 重新設計了 GPT-5.4 API 處理工具調用的方式,並引入了一套名為「工具搜尋」(Tool Search)的新系統。此前,系統提示必須預先定義所有可用工具——隨著工具庫的擴展,此過程會消耗大量代幣。新系統允許模型按需檢索工具定義,使在擁有眾多工具的環境中,請求處理速度更快且更具成本效益。
OpenAI 還新增了一項安全評估機制,用以檢視其模型的「思維鏈」——這是在執行多步驟任務時,揭示模型推理過程的即時註解。AI 安全研究人員長期以來一直擔憂,推理型模型可能會誤導其思維鏈,而測試結果證實,在特定條件下確實可能發生這種情況。
OpenAI 的新評估顯示,在 GPT-5.4 的「思考版」(Thinking version)中,這種誤導行為發生的機率較低,這「表明該模型缺乏隱藏其推理過程的能力,且 CoT 監控仍是一種有效的安全工具。」
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研





首頁






