OpenAIのGPT-5、多様な専門職で人間並みの性能を発揮
木曜日、OpenAIはGDPvalを発表しました。これは、同社のAIモデルが様々な産業における人間の専門家と比べてどの程度の水準にあるかを評価する画期的なベンチマークです。この評価は、OpenAIのシステムが経済的に影響力のある仕事において人間を凌駕できるかどうかを測るための最初の一歩であり、これは同社が追求する人工汎用智能(AGI)の核心的な目標です。
OpenAIによれば、GPT-5とAnthropicのClaude Opus 4.1の両方は、産業分野の専門家に近い出力品質を示しています。
これらの発見は、差し迫った人間の仕事の置き換えを暗示するものではありませんが、重要な進捗の追跡を表しています。OpenAIは、GDPvalが現在は実世界の専門業務のごく一部しか評価しておらず、数年以内にAIによる広範な変革が起きるとする一部CEOたちの予測に対抗する見解を示しています。
GDPvalは、医療、金融、製造、政府を含むアメリカのGDPを構成する9つの主要セクターに渡り、ソフトウェアエンジニアリングからジャーナリズムに至る44の職業をテストしてパフォーマンスを評価します。
GDPval-v0では、専門家たちがAIが生成した報告書と人間が作成した同等の作業を比較しました。一つのサンプルタスクでは、投資銀行家がラストマイル配送の競合環境を分析し、その分析内容をAI版と比較しました。OpenAIは、全ての職業に渡って人間の出力に対する各モデルの「勝率」を算出しました。
強化されたGPT-5-highモデルは40.6%の確率で専門家の出力に匹敵するかそれを上回り、一方Claude Opus 4.1は49%の同等率を達成しました。OpenAIは、この高いスコアは実質的な優位性というよりは、Claudeの優れた視覚的プレゼンテーションを反映している可能性があると示唆しています。
Disrupt 2025で10,000人以上のテクノロジーおよびベンチャーキャピタルの革新者と繋がろう
Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gilなど、250以上の業界リーダーが200以上の成長重視のセッションを主催。TechCrunchの20周年を祝いながら、テクノロジー界の第一人者たちからの競争力あるインサイトを獲得しましょう。9月26日までの早期登録で最大668ドル節約。
Disrupt 2025で10,000人以上のテクノロジーおよびベンチャーキャピタルの革新者と繋がろう
Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gilなど、250以上の業界リーダーが200以上の成長重視のセッションを主催。TechCrunchの20周年を祝いながら、テクノロジー界の第一人者たちからの競争力あるインサイトを獲得しましょう。9月26日までの早期登録で最大668ドル節約。

画像クレジット: OpenAI OpenAIは、GDPval-v0の焦点が狭いこと——現在は調査報告書の生成のみをテストしている——を認めており、将来のバージョンではより広範な職場での相互作用を評価することを計画しています。
Aaron Chatterji最高経済責任者はTechCrunchに対し、これらの結果は、専門家が日常業務をますますAIに委任できるようになり、より付加価値の高い仕事に集中できるようになることを示唆していると述べました。
評価を率いるTejal Patwardhanは、急速な進歩を指摘しています:15ヶ月前のGPT-4oのスコアはわずか13.7%でしたが、GPT-5はそのパフォーマンスをほぼ3倍にしています——この軌道は継続すると予想されています。
AIME 2025やGPQA DiamondのようなベンチマークがAI評価を支配していますが、多くのモデルはこれらの学術テストで飽和状態に近づいています。GDPvalは、実用的で産業に関連する評価基準への関心の高まりを表しています——もっとも、OpenAIが専門領域全体で人間並みのパフォーマンスを決定的に実証するには、より包括的なテストが必要です。
関連記事
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ
関連特集おすすめ
コメント (0)
0/500
木曜日、OpenAIはGDPvalを発表しました。これは、同社のAIモデルが様々な産業における人間の専門家と比べてどの程度の水準にあるかを評価する画期的なベンチマークです。この評価は、OpenAIのシステムが経済的に影響力のある仕事において人間を凌駕できるかどうかを測るための最初の一歩であり、これは同社が追求する人工汎用智能(AGI)の核心的な目標です。
OpenAIによれば、GPT-5とAnthropicのClaude Opus 4.1の両方は、産業分野の専門家に近い出力品質を示しています。
これらの発見は、差し迫った人間の仕事の置き換えを暗示するものではありませんが、重要な進捗の追跡を表しています。OpenAIは、GDPvalが現在は実世界の専門業務のごく一部しか評価しておらず、数年以内にAIによる広範な変革が起きるとする一部CEOたちの予測に対抗する見解を示しています。
GDPvalは、医療、金融、製造、政府を含むアメリカのGDPを構成する9つの主要セクターに渡り、ソフトウェアエンジニアリングからジャーナリズムに至る44の職業をテストしてパフォーマンスを評価します。
GDPval-v0では、専門家たちがAIが生成した報告書と人間が作成した同等の作業を比較しました。一つのサンプルタスクでは、投資銀行家がラストマイル配送の競合環境を分析し、その分析内容をAI版と比較しました。OpenAIは、全ての職業に渡って人間の出力に対する各モデルの「勝率」を算出しました。
強化されたGPT-5-highモデルは40.6%の確率で専門家の出力に匹敵するかそれを上回り、一方Claude Opus 4.1は49%の同等率を達成しました。OpenAIは、この高いスコアは実質的な優位性というよりは、Claudeの優れた視覚的プレゼンテーションを反映している可能性があると示唆しています。
Disrupt 2025で10,000人以上のテクノロジーおよびベンチャーキャピタルの革新者と繋がろう
Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gilなど、250以上の業界リーダーが200以上の成長重視のセッションを主催。TechCrunchの20周年を祝いながら、テクノロジー界の第一人者たちからの競争力あるインサイトを獲得しましょう。9月26日までの早期登録で最大668ドル節約。
Disrupt 2025で10,000人以上のテクノロジーおよびベンチャーキャピタルの革新者と繋がろう
Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital、Elad Gilなど、250以上の業界リーダーが200以上の成長重視のセッションを主催。TechCrunchの20周年を祝いながら、テクノロジー界の第一人者たちからの競争力あるインサイトを獲得しましょう。9月26日までの早期登録で最大668ドル節約。

OpenAIは、GDPval-v0の焦点が狭いこと——現在は調査報告書の生成のみをテストしている——を認めており、将来のバージョンではより広範な職場での相互作用を評価することを計画しています。
Aaron Chatterji最高経済責任者はTechCrunchに対し、これらの結果は、専門家が日常業務をますますAIに委任できるようになり、より付加価値の高い仕事に集中できるようになることを示唆していると述べました。
評価を率いるTejal Patwardhanは、急速な進歩を指摘しています:15ヶ月前のGPT-4oのスコアはわずか13.7%でしたが、GPT-5はそのパフォーマンスをほぼ3倍にしています——この軌道は継続すると予想されています。
AIME 2025やGPQA DiamondのようなベンチマークがAI評価を支配していますが、多くのモデルはこれらの学術テストで飽和状態に近づいています。GDPvalは、実用的で産業に関連する評価基準への関心の高まりを表しています——もっとも、OpenAIが専門領域全体で人間並みのパフォーマンスを決定的に実証するには、より包括的なテストが必要です。
サティヤ・ナデラ、新たなOpenAIとの契約を活用する準備ができている
水曜日に、ウォール・ストリートのアナリストがマイクロソフトのCEOであるサティヤ・ナデラ氏に直接尋ねました。改正されたOpenAIとの提携関係が同社の財務状況にどのような影響を与えるのかと。ナデラ氏はこの新しい協定を「皆にとっての勝利」と表現しました。「OpenAIとの提携については満足しています。私は常にどんな提携でもウィンウィンの関係を築くことに重点を置いています。そうすることで、長期的に良いパートナーシップを維持できるからです。」彼は、マイクロソフトが依然としてOpenAIの知的財産、
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
グレッグ・ブロックマンが、イーロン・マスクがOpenAIを去った経緯を明かす
2017年8月下旬、当時まだ小規模な非営利研究機関だったOpenAIの主要メンバーは、自社の技術を商用化し、汎用人工知能(AGI)の実現に必要な資金を調達するために、営利法人をどのように設立すべきかについて協議した。イーロン・マスクは同社の完全な支配権を要求しており、ちょうどその直前に共同創業者たち一人ひとりにテスラ「モデル3」を贈っていた。CTOのグレッグ・ブロックマンは、マスクとサム・アルトマ





家






