OpenAI、100万コンテキストのウィンドウを備えた「GPT-5.4 Pro」および「Thinking Models」を発表
要素OpenAIは 、最新の基盤モデル「GPT-5.4」 のリリースを正式に発表しました。同社はこれを、これまでで最も高性能かつ効率的なプロフェッショナル向けモデルと位置付けています。AIbaseによると、このシリーズは差別化されたリリース戦略を採用しており、標準版に加え、複雑な論理処理に特化した推論モデル「GPT-5.4Thinking」と、高性能タスク向けに構築された「GPT-5.4Pro」が導入されました。

技術面では、GPT-5.4のAPI版 が大幅なアップグレードを実現し、最大100万トークンというコンテキストウィンドウを備えています。これはOpenAIがこれまでに提供した中で最大規模です。また、トークン効率も著しく向上しており、より少ないリソースで同様の問題を解決できるようになりました。
安全性と精度の面では、新モデルはGPT-5.2と比較して文ごとのエラー率を33%低減し、応答全体の誤りを18%削減しました。推論モデルにおける潜在的な「思考連鎖による欺瞞(chain-of-thought deception)」のリスクを軽減するため、OpenAIは 新たなセキュリティ評価システムを導入しました。テストの結果、GPT-5.4Thinkingは 透明性を高め、その推論プロセスを隠蔽したり捏造したりすることを困難にしていることが示されています。
ベンチマーク評価において、GPT-5.4は 優れた結果を残し、OSWorld-VerifiedやWebArena Verifiedといったコンピュータ使用量テストで新記録を樹立するとともに、GDPval知識タスクでも83%という驚異的なスコアを達成しました。
MercorのCEOであるBrendan Foody氏は、このモデルが金融や法律などの専門分野におけるAPEX-Agentsベンチマークでも トップクラスであり、特に財務モデルの生成、法的分析、その他の長文成果物の作成において卓越した能力を発揮していると指摘した。新しい「ツール検索」システムにより、外部ツールを呼び出す際の効率が向上し、大規模なツール統合シナリオにおけるトークンオーバーヘッドが劇的に削減される。
関連記事
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
関連特集おすすめ
コメント (0)
0/500

技術面では、
安全性と精度の面では、新モデルはGPT-5.2と比較して文ごとのエラー率を33%低減し、応答全体の誤りを18%削減しました。推論モデルにおける潜在的な「思考連鎖による欺瞞(chain-of-thought deception)」のリスクを軽減するため、
ベンチマーク評価において、
MercorのCEOであるBrendan Foody氏は、このモデルが金融や法律などの専門分野
Anthropic社の実験用AI「Claude」が、Eコマースのテストにおいて交渉と取引を完了した
人工知能(AI)が急速に進化する中、Anthropicは先週金曜日、「Project Deal」と呼ばれる社内実験をひっそりと開始し、EコマースにおけるAIの可能性を披露した。この実験では、同社のAIモデル「Claude」が、実際の金銭取引を伴うクローズドな市場環境において、購入、販売、価格交渉を自律的に行うよう設計された。実験の中核となったのは、Slack上に構築された社内マーケットプレイスであ
DeepSeek Code、まもなくリリースへ
AI技術の進展が加速する中、DeepSeekは今、まさに刺激的な転換点を迎えています。同社は最近、700億元を超える資金調達に成功したことを明らかにしました。経営陣は、目先の商業的利益よりも、画期的なAI研究への取り組みを重視する姿勢を強調しています。この戦略的転換は、新製品、とりわけ待望の「DeepSeek Code」の開発に全力を注ぐというDeepSeekの決意を示しています。DeepSeek
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(





家






