GPT-5.4 展現原生駭客能力,OSWorld 在 AI 突破性進展中表現超越人類

領先競爭對手:GPT-5.4 開啟原生電腦控制時代
2026年3月,OpenAI 意外發布了GPT-5.4,徹底重塑了 AI 代理人的競爭格局。作為 OpenAI 首個具備原生電腦操作能力的通用模型,GPT-5.4 不再依賴外部轉接器。取而代之的是,它能直接解讀螢幕截圖、模擬滑鼠點擊與鍵盤輸入,並像人類使用者一樣操作桌面軟體。
在衡量真實世界桌面操作能力的OSWorld驗證基準測試中,GPT-5.4 的成功率飆升至75.0%。 作為對照,人類平均基準為 72.4%,而前一代的 GPT-5.2 僅獲得 47.3% 的成績。這表明,在歷史上首次,人工智慧在電腦操控方面的流暢度已超越了普通人類使用者的水準。
實境測試:專業人士的「數位分身」成為現實
目前可透過網頁版及 Codex 平台使用,實境測試顯示 GPT-5.4 幾乎能處理所有電腦操作:
深度應用掌握:它能啟動日曆應用程式並自主請求權限以設定提醒;還能精準定位並開啟「小遊洲」等第三方應用程式來播放特定內容。
系統級存取權限:使用者可指示其直接更改電腦桌布,或在終端機中熟練運用各類開發工具。
原生運算邏輯:不僅止於提供答案,更能直接在系統原生計算機應用程式中執行模擬運算。
這種「原生體驗」標誌著 AI 從「對話助理」進化為「執行實體」。
完美搭配:GPT-5.4 解決 OpenClaw 的核心挑戰
在 2026 年初人氣飆升(獲得超過 25 萬顆星)的開源專案OpenClaw,已找到其「理想模型」。OpenClaw 的核心理念是「真正好用的 AI」,而 GPT-5.4 在以下四個關鍵維度上與之完美契合:
原生控制對齊:透過與 GPT-5.4 整合,OpenClaw 無需複雜的變通方案即可實現桌面自動化,帶來顯著的效能提升。
100 萬字元上下文:超長上下文視窗解決了代理程式在執行長時間任務時面臨的「健忘」問題,為 OpenClaw 提供龐大的「工作區」以處理複雜檔案。
工具搜尋成本革命:GPT-5.4 的隨需使用機制將標記消耗降低 47%,大幅削減全天候運行代理程式所產生的 API 成本。
推理能力飛躍:在專業工作任務上,GPT-5.4 的表現超越 83% 的人類專家,使 OpenClaw 得以從基礎的「腳本執行者」進化為能處理財務分析與投資備忘錄的高階專家。
產業洞察:高技能職位的自動化奇點已然來臨
HyperWriteAI 執行長 Matt Shumer 將 GPT-5.4 的程式設計能力形容為「近乎完美」;Mercor AI 執行長 Brenda 則認為,該模型已瀕臨超越頂尖顧問公司、投資銀行及律師事務所專業水準的門檻。這預示著那些曾被視為獨具人類特質且不可取代的職位,如今正面臨來自 AI 代理人的全面挑戰。
相關文章
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元
在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外
免費開源 AI 國際象棋引擎 Maia 3 正式發布,旨在提升人類的棋藝表現
Maia Chess 團隊已發布一款新的開源國際象棋引擎「Maia 3」,該引擎是透過 2.5 億盤真實人類對弈數據進行訓練的。其 Elo 評分約為 1800,比前一版本高出近 300 分。 最棒的是,它完全免費且開源,支援本地部署,這代表著讓 AI 國際象棋引擎普及大眾邁出了重要一步。獨特方法:模擬人類決策過程與 AlphaZero 和 Stockfish 等頂尖引擎不同,後者旨在追求 Elo
相關專題推薦
評論 (0)
0/500

領先競爭對手:GPT-5.4 開啟原生電腦控制時代
2026年3月,OpenAI 意外發布了GPT-5.4,徹底重塑了 AI 代理人的競爭格局。作為 OpenAI 首個具備原生電腦操作能力的通用模型,GPT-5.4 不再依賴外部轉接器。取而代之的是,它能直接解讀螢幕截圖、模擬滑鼠點擊與鍵盤輸入,並像人類使用者一樣操作桌面軟體。
在衡量真實世界桌面操作能力的OSWorld驗證基準測試中,GPT-5.4 的成功率飆升至75.0%。 作為對照,人類平均基準為 72.4%,而前一代的 GPT-5.2 僅獲得 47.3% 的成績。這表明,在歷史上首次,人工智慧在電腦操控方面的流暢度已超越了普通人類使用者的水準。
實境測試:專業人士的「數位分身」成為現實
目前可透過網頁版及 Codex 平台使用,實境測試顯示 GPT-5.4 幾乎能處理所有電腦操作:
深度應用掌握:它能啟動日曆應用程式並自主請求權限以設定提醒;還能精準定位並開啟「小遊洲」等第三方應用程式來播放特定內容。
系統級存取權限:使用者可指示其直接更改電腦桌布,或在終端機中熟練運用各類開發工具。
原生運算邏輯:不僅止於提供答案,更能直接在系統原生計算機應用程式中執行模擬運算。
這種「原生體驗」標誌著 AI 從「對話助理」進化為「執行實體」。
完美搭配:GPT-5.4 解決 OpenClaw 的核心挑戰
在 2026 年初人氣飆升(獲得超過 25 萬顆星)的開源專案OpenClaw,已找到其「理想模型」。OpenClaw 的核心理念是「真正好用的 AI」,而 GPT-5.4 在以下四個關鍵維度上與之完美契合:
原生控制對齊:透過與 GPT-5.4 整合,OpenClaw 無需複雜的變通方案即可實現桌面自動化,帶來顯著的效能提升。
100 萬字元上下文:超長上下文視窗解決了代理程式在執行長時間任務時面臨的「健忘」問題,為 OpenClaw 提供龐大的「工作區」以處理複雜檔案。
工具搜尋成本革命:GPT-5.4 的隨需使用機制將標記消耗降低 47%,大幅削減全天候運行代理程式所產生的 API 成本。
推理能力飛躍:在專業工作任務上,GPT-5.4 的表現超越 83% 的人類專家,使 OpenClaw 得以從基礎的「腳本執行者」進化為能處理財務分析與投資備忘錄的高階專家。
產業洞察:高技能職位的自動化奇點已然來臨
HyperWriteAI 執行長 Matt Shumer 將 GPT-5.4 的程式設計能力形容為「近乎完美」;Mercor AI 執行長 Brenda 則認為,該模型已瀕臨超越頂尖顧問公司、投資銀行及律師事務所專業水準的門檻。這預示著那些曾被視為獨具人類特質且不可取代的職位,如今正面臨來自 AI 代理人的全面挑戰。
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI
儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元
在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外





首頁






