OpenAI 推出 GPT-5.4 Pro 及 Thinking 模型,具備百萬字元上下文視窗
元素OpenAI 已正式宣布推出其最新的基礎模型GPT-5.4 ,並稱其為迄今為止功能最強大且最高效的專業級模型。 根據AIbase 的報導,該系列採用了差異化的發布策略:除了標準版本外,OpenAI 還推出了專注於複雜邏輯推理的GPT-5.4Thinking,以及專為高效能任務打造的 GPT-5.4Pro。

在技術層面,GPT-5.4 的 API 版本帶來重大升級,具備高達100 萬個標記的上下文視窗——這是 OpenAI 迄今為止提供的最大容量。該模型在標記效率方面也取得了顯著提升,使其能夠以更少的資源解決類似問題。
在安全性與準確性方面,相較於 GPT-5.2,新模型將每條陳述的錯誤率降低了 33%,並將整體回應錯誤率減少了 18%。為緩解推理模型中潛在的「思維鏈欺騙」風險,OpenAI 導入了新的安全評估系統。測試顯示,GPT-5.4Thinking 具備更高的透明度,使其難以隱藏或捏造推理步驟。
在基準測試中,GPT-5.4 表現優異,於 OSWorld-Verified 和 WebArena Verified 等電腦使用測試中創下新紀錄,同時在 GDPval 知識任務中更取得令人印象深刻的 83% 成績。
Mercor 執行長 Brendan Foody 指出,該模型在金融與法律等專業領域的APEX-Agents 基準測試中亦居領先地位,尤其在生成財務模型、法律分析及其他長篇產出物方面表現卓越。透過全新的「工具搜尋」系統,該模型在調用外部工具時效率更高,大幅降低了大規模工具整合情境中的標記開銷。
相關文章
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
Claude Opus 4.7 正式推出,重視可靠性勝於智能
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試
相關專題推薦
評論 (0)
0/500

在技術層面
在安全性與準確性方面,相較於 GPT-5.2,新模型將每條陳述的錯誤率降低了 33%,並將整體回應錯誤率減少了 18%。為緩解推理模型中潛在的「思維鏈欺騙」
在基準測試中
Mercor 執行長 Brendan Foody 指出,該模型在金融與法律等專業領域的
騰訊旗下《小龍夏》表現超乎預期,團隊將伺服器容量擴增10倍,並公開致歉及提供補償
騰訊正式推出全場景AI智能助手「WorkBuddy」,憑藉高度整合與低部署門檻,標誌著大型模型應用層競賽進入新階段。該產品在發布當天便立即引起業界關注。 用戶流量遠超預期,導致相關的騰雲代碼助手(CodeBuddy)出現登入問題及服務不穩定。騰雲團隊隨後發布致歉聲明,表示技術團隊已緊急將容量擴展十倍,目前服務已全面恢復。受影響用戶獲得 5,000 點代碼點數作為補償。業界觀察家將 WorkBudd
Suno 領投方:刪除貼文無法彌補版權訴訟的漏洞
備受矚目的 AI 音樂生成平台 Suno 正面臨一場艱難的版權之爭,而其主要投資人的坦率言論,可能正好提供了對方所期盼的證據。 Menlo Ventures(Suno的核心投資者)合夥人C.C. Gong最近刪除了一則推文,該推文與該公司當前的法律辯護策略直接相悖。在之前的版權訴訟中,Suno 的辯護主要依賴「合理使用」的論點,聲稱 AI 生成的音樂僅僅是一種「工具」,不會直接與受版權保護的原創作
Claude Opus 4.7 正式推出,重視可靠性勝於智能
Anthropic 今年持續保持強勁的開發步調,幾乎每隔一天就會推出新功能。備受期待的 Claude Opus 4.7 剛正式發布,有趣的是,Anthropic 在公告中直言不諱地表示:「這並非我們最強大的模型。」 傳聞中更強大的 Claude Mythos Preview 仍處於待命狀態。儘管如此,Opus 4.7 仍引起了相當大的關注,因為它著重解決的是「更可靠」而非「更聰明」的問題。基準測試





首頁






