GPT-5.4がネイティブのハッキング機能を公開、OSWorldがAIの画期的な進歩で人間を上回る

競合他社を凌駕:GPT-5.4がネイティブコンピュータ制御の時代を切り拓く
2026年3月、OpenAIはGPT-5.4をサプライズリリースし、AIエージェントの競争環境を根本から変革しました。OpenAI初のネイティブコンピュータ操作機能を備えた汎用モデルとして、GPT-5.4はもはや外部アダプターに依存しません。その代わりに、画面キャプチャを直接解釈し、マウスクリックやキーボード入力をシミュレートし、まるで人間のユーザーのようにデスクトップソフトウェアを操作します。
実世界のデスクトップ操作能力を測定するOSWorld-Verifiedベンチマークにおいて、GPT-5.4の成功率は75.0%へと急上昇した。 参考までに、人間の平均ベースラインは72.4%であり、前世代のGPT-5.2のスコアはわずか47.3%でした。これは、歴史上初めて、AIのコンピュータ操作能力が平均的な人間のユーザーを上回ったことを示しています。
実環境テスト:プロフェッショナル向けの「デジタルダブル」が現実のものに
現在、Web版およびCodexプラットフォームを通じて利用可能な実環境テストにより、GPT-5.4がほぼすべてのコンピュータ操作を処理できることが実証されています:
アプリケーションの高度な習得:カレンダーアプリを起動し、リマインダー設定の権限を自律的に要求できるほか、「Xiaoyuzhou」のようなサードパーティ製アプリを正確に特定・起動し、特定のコンテンツを再生することも可能です。
システムレベルのアクセス:ユーザーは、コンピュータの壁紙を直接変更するよう指示したり、ターミナル内で様々な開発ツールを熟練して利用したりすることができます。
ネイティブ計算ロジック:単なる回答の提供にとどまらず、システムのネイティブ電卓アプリ内で直接シミュレーション演算を実行します。
この「ネイティブな感覚」は、AIが「会話型アシスタント」から「実行主体」へと進化したことを示しています。
完璧な組み合わせ:GPT-5.4がOpenClawの核心的な課題を解決
2026年初頭に人気が急上昇し(スター数が25万を超えた)、オープンソースプロジェクト「OpenClaw」は、その「理想的なモデル」を見出しました。OpenClawの核心的な哲学は「実際に機能するAI」であり、GPT-5.4は以下の4つの重要な側面において完全に一致しています:
ネイティブな制御整合性:GPT-5.4と統合されたOpenClawは、複雑な回避策を必要とせずにデスクトップ自動化を実現し、明らかなパフォーマンス向上をもたらします。
100万トークンのコンテキスト:超長コンテキストウィンドウにより、長時間タスク中にエージェントが直面する「記憶喪失」の問題が解決され、OpenClawに複雑なファイル処理のための広大な「ワークスペース」が提供されます。
ツール検索コストの革命:GPT-5.4のオンデマンド使用メカニズムにより、トークン消費量を47%削減し、エージェントを24時間365日稼働させる際のAPIコストを劇的に低減します。
推論能力の飛躍:専門的な業務において、GPT-5.4は人間の専門家の83%を上回るパフォーマンスを発揮し、OpenClawを単なる「スクリプト実行ツール」から、財務分析や投資メモの処理が可能な上級スペシャリストへと進化させます。
業界インサイト:高度なスキルを要する職務における自動化の特異点が到来
HyperWriteAIのCEOマット・シューマー氏は、GPT-5.4のプログラミング能力を「ほぼ完璧」と評しました。Mercor AIのCEOブレンダ氏は、このモデルがトップクラスのコンサルティング会社、投資銀行、法律事務所に見られる専門知識を凌駕しようとしていると確信しています。これは、かつて人間特有で代替不可能なものと見なされていた役割が、今やAIエージェントからの全面的な挑戦に直面していることを示しています。
関連記事
Claudeがマルウェア入りnpmパッケージの作成に悪用される:670件以上が侵害され、オープンソースが脅威にさらされる
最近のサイバーセキュリティインシデントにより、大規模言語モデル(LLM)が悪意のあるソフトウェア開発のために悪用されている実態が明らかになった。セキュリティ研究者のSibi Moosa氏は、「mousie-5212-super-formatter」という別名を使用する攻撃者が、Anthropic社のAI「Claude」を利用して有害なコードを生成し、npmパッケージエコシステムを汚染していることを
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性
関連特集おすすめ
コメント (0)
0/500

競合他社を凌駕:GPT-5.4がネイティブコンピュータ制御の時代を切り拓く
2026年3月、OpenAIはGPT-5.4をサプライズリリースし、AIエージェントの競争環境を根本から変革しました。OpenAI初のネイティブコンピュータ操作機能を備えた汎用モデルとして、GPT-5.4はもはや外部アダプターに依存しません。その代わりに、画面キャプチャを直接解釈し、マウスクリックやキーボード入力をシミュレートし、まるで人間のユーザーのようにデスクトップソフトウェアを操作します。
実世界のデスクトップ操作能力を測定するOSWorld-Verifiedベンチマークにおいて、GPT-5.4の成功率は75.0%へと急上昇した。 参考までに、人間の平均ベースラインは72.4%であり、前世代のGPT-5.2のスコアはわずか47.3%でした。これは、歴史上初めて、AIのコンピュータ操作能力が平均的な人間のユーザーを上回ったことを示しています。
実環境テスト:プロフェッショナル向けの「デジタルダブル」が現実のものに
現在、Web版およびCodexプラットフォームを通じて利用可能な実環境テストにより、GPT-5.4がほぼすべてのコンピュータ操作を処理できることが実証されています:
アプリケーションの高度な習得:カレンダーアプリを起動し、リマインダー設定の権限を自律的に要求できるほか、「Xiaoyuzhou」のようなサードパーティ製アプリを正確に特定・起動し、特定のコンテンツを再生することも可能です。
システムレベルのアクセス:ユーザーは、コンピュータの壁紙を直接変更するよう指示したり、ターミナル内で様々な開発ツールを熟練して利用したりすることができます。
ネイティブ計算ロジック:単なる回答の提供にとどまらず、システムのネイティブ電卓アプリ内で直接シミュレーション演算を実行します。
この「ネイティブな感覚」は、AIが「会話型アシスタント」から「実行主体」へと進化したことを示しています。
完璧な組み合わせ:GPT-5.4がOpenClawの核心的な課題を解決
2026年初頭に人気が急上昇し(スター数が25万を超えた)、オープンソースプロジェクト「OpenClaw」は、その「理想的なモデル」を見出しました。OpenClawの核心的な哲学は「実際に機能するAI」であり、GPT-5.4は以下の4つの重要な側面において完全に一致しています:
ネイティブな制御整合性:GPT-5.4と統合されたOpenClawは、複雑な回避策を必要とせずにデスクトップ自動化を実現し、明らかなパフォーマンス向上をもたらします。
100万トークンのコンテキスト:超長コンテキストウィンドウにより、長時間タスク中にエージェントが直面する「記憶喪失」の問題が解決され、OpenClawに複雑なファイル処理のための広大な「ワークスペース」が提供されます。
ツール検索コストの革命:GPT-5.4のオンデマンド使用メカニズムにより、トークン消費量を47%削減し、エージェントを24時間365日稼働させる際のAPIコストを劇的に低減します。
推論能力の飛躍:専門的な業務において、GPT-5.4は人間の専門家の83%を上回るパフォーマンスを発揮し、OpenClawを単なる「スクリプト実行ツール」から、財務分析や投資メモの処理が可能な上級スペシャリストへと進化させます。
業界インサイト:高度なスキルを要する職務における自動化の特異点が到来
HyperWriteAIのCEOマット・シューマー氏は、GPT-5.4のプログラミング能力を「ほぼ完璧」と評しました。Mercor AIのCEOブレンダ氏は、このモデルがトップクラスのコンサルティング会社、投資銀行、法律事務所に見られる専門知識を凌駕しようとしていると確信しています。これは、かつて人間特有で代替不可能なものと見なされていた役割が、今やAIエージェントからの全面的な挑戦に直面していることを示しています。
Claudeがマルウェア入りnpmパッケージの作成に悪用される:670件以上が侵害され、オープンソースが脅威にさらされる
最近のサイバーセキュリティインシデントにより、大規模言語モデル(LLM)が悪意のあるソフトウェア開発のために悪用されている実態が明らかになった。セキュリティ研究者のSibi Moosa氏は、「mousie-5212-super-formatter」という別名を使用する攻撃者が、Anthropic社のAI「Claude」を利用して有害なコードを生成し、npmパッケージエコシステムを汚染していることを
インドが技術開発を加速させる中、リライアンスが1,100億ドルのAI投資計画を発表
インドの複合企業リライアンスの会長で億万長者のムケシュ・アンバニ氏は木曜日、今後7年間にわたりインド全土にAIコンピューティングインフラを構築するための10兆ルピー(約1,100億ドル)規模の計画を発表しました。木曜日にニューデリーで開催された「インドAIインパクト・サミット」で講演したアンバニ氏は、この投資により、ギガワット規模のデータセンター、全国規模のエッジコンピューティング・ネットワーク、
Zhiyuan WITA、初のコンプライアンス報告書の提出により「裸の」ロボットとの対話を終了
具現化知能分野において、重要な節目を迎えました。上海サイバー空間管理局の最新の発表によると、智源(Zhiyuan)が開発したWITA大規模モデルは届出手続きを無事に完了し、国内で初めて法規制に準拠して展開された具現化知能対話用大規模モデルとなりました。この成果は、単にライセンスを取得しただけにとどまらない。WITAの核心的な目的は、ヒューマノイドロボットが真の意味で会話し、感情を認識し、独自の個性





家






