選項
首頁
新聞
GPT-5.4 展現原生駭客能力,OSWorld 在 AI 突破性進展中表現超越人類

GPT-5.4 展現原生駭客能力,OSWorld 在 AI 突破性進展中表現超越人類

2026-04-02
71

GPT-5.4 展現原生駭客能力,OSWorld 在 AI 突破性進展中表現超越人類

領先競爭對手:GPT-5.4 開啟原生電腦控制時代

2026年3月,OpenAI 意外發布了GPT-5.4,徹底重塑了 AI 代理人的競爭格局。作為 OpenAI 首個具備原生電腦操作能力的通用模型,GPT-5.4 不再依賴外部轉接器。取而代之的是,它能直接解讀螢幕截圖、模擬滑鼠點擊與鍵盤輸入,並像人類使用者一樣操作桌面軟體。

在衡量真實世界桌面操作能力的OSWorld驗證基準測試中,GPT-5.4 的成功率飆升至75.0%。 作為對照,人類平均基準為 72.4%,而前一代的 GPT-5.2 僅獲得 47.3% 的成績。這表明,在歷史上首次,人工智慧在電腦操控方面的流暢度已超越了普通人類使用者的水準。

實境測試:專業人士的「數位分身」成為現實

目前可透過網頁版及 Codex 平台使用,實境測試顯示 GPT-5.4 幾乎能處理所有電腦操作:

深度應用掌握:它能啟動日曆應用程式並自主請求權限以設定提醒;還能精準定位並開啟「小遊洲」等第三方應用程式來播放特定內容。

系統級存取權限:使用者可指示其直接更改電腦桌布,或在終端機中熟練運用各類開發工具。

原生運算邏輯:不僅止於提供答案,更能直接在系統原生計算機應用程式中執行模擬運算。

這種「原生體驗」標誌著 AI 從「對話助理」進化為「執行實體」。

完美搭配:GPT-5.4 解決 OpenClaw 的核心挑戰

在 2026 年初人氣飆升(獲得超過 25 萬顆星)的開源專案OpenClaw,已找到其「理想模型」。OpenClaw 的核心理念是「真正好用的 AI」,而 GPT-5.4 在以下四個關鍵維度上與之完美契合:

原生控制對齊:透過與 GPT-5.4 整合,OpenClaw 無需複雜的變通方案即可實現桌面自動化,帶來顯著的效能提升。

100 萬字元上下文:超長上下文視窗解決了代理程式在執行長時間任務時面臨的「健忘」問題,為 OpenClaw 提供龐大的「工作區」以處理複雜檔案。

工具搜尋成本革命:GPT-5.4 的隨需使用機制將標記消耗降低 47%,大幅削減全天候運行代理程式所產生的 API 成本。

推理能力飛躍:在專業工作任務上,GPT-5.4 的表現超越 83% 的人類專家,使 OpenClaw 得以從基礎的「腳本執行者」進化為能處理財務分析與投資備忘錄的高階專家。

產業洞察:高技能職位的自動化奇點已然來臨

HyperWriteAI 執行長 Matt Shumer 將 GPT-5.4 的程式設計能力形容為「近乎完美」;Mercor AI 執行長 Brenda 則認為,該模型已瀕臨超越頂尖顧問公司、投資銀行及律師事務所專業水準的門檻。這預示著那些曾被視為獨具人類特質且不可取代的職位,如今正面臨來自 AI 代理人的全面挑戰。

相關文章
Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI Runway 53 億美元估值挑戰 Google,其影片 AI 技術已超越語言 AI 儘管多數人工智慧巨頭已投入數十億美元於語言模型,生成式人工智慧影片新創公司 Runway 卻正沿著截然不同的道路勇往直前。根據 TechCrunch 報導,這家由藝術學院畢業生創立的年輕公司,目前估值已達 53 億美元。近期財務數據顯示,Runway 在 2026 年第二季新增了 4,000 萬美元的年度經常性收入(ARR)。憑藉其新推出的 Gen-4.5 影片生成模型,該公司不僅鞏固了在好萊塢電
Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元 Google 將加大對 Anthropic 的投資,總額可能高達 400 億美元 在節奏飛快的 AI 軍備競賽中,各大科技巨頭正採取越來越大膽的舉措。根據最新報導,Google 計劃向 AI 新創公司 Anthropic 投資高達 100 億美元——而這僅僅是個開始。根據其長期戰略,總投資額最終可能達到 400 億美元。這筆巨額交易將使Anthropic的估值推升至3,500億美元的新高。就在數月前,該公司才剛完成一輪300億美元的融資。亞馬遜此前已投資50億美元,並保留了額外
免費開源 AI 國際象棋引擎 Maia 3 正式發布,旨在提升人類的棋藝表現 免費開源 AI 國際象棋引擎 Maia 3 正式發布,旨在提升人類的棋藝表現 Maia Chess 團隊已發布一款新的開源國際象棋引擎「Maia 3」,該引擎是透過 2.5 億盤真實人類對弈數據進行訓練的。其 Elo 評分約為 1800,比前一版本高出近 300 分。 最棒的是,它完全免費且開源,支援本地部署,這代表著讓 AI 國際象棋引擎普及大眾邁出了重要一步。獨特方法:模擬人類決策過程與 AlphaZero 和 Stockfish 等頂尖引擎不同,後者旨在追求 Elo
相關專題推薦
健康與養生 AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫
AI 孕期輔助系統:生成安全且按孕期分階段的運動與營養計畫

探索 2026 年最佳 AI 孕期輔助工具,為您量身打造安全且針對各孕期的運動與營養計畫。獲取精選的高評分推薦,包含免費與付費方案的比較,以及實用經驗分享。透過 XIX.AI 的專家指南,開啟您最健康的孕期旅程。立即探索。

10 個工具
xix.ai
寫作 最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文
最佳免費且無法被偵測的 AI 寫手:將機械化的草稿轉化為自然、類人化的散文

立即前往 XIX.AI,探索 2026 年最頂尖的免費且難以被察覺的 AI 寫手。我們精心篩選的頂級清單,能協助您將生硬的草稿轉化為自然流暢、宛如人類撰寫的文字。透過實際測試與每週更新的排行榜,比較免費與付費選項的優劣。立即解鎖您的 AI 寫作優勢。

10 個工具
xix.ai
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
動畫創作 專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像
專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具,能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項,找到最適合你的創作工具,今天就在XIX.AI上將你的故事變為現實吧。

10 個工具
xix.ai
評論 (0)
0/500
OR