OpenAI GPT-5 在多項專業領域表現媲美人類水準
本週四,OpenAI 推出了革命性基準測試 GDPval,旨在評估其人工智慧模型 across 各行業中與人類專業人士的表現對比。這項評估標誌著衡量 OpenAI 系統是否能於經濟影響力工作中超越人類的首步嘗試——此為該公司追求人工通用智慧(AGI)的核心目標。
根據 OpenAI 表示,GPT-5 與 Anthropic 的 Claude Opus 4.1 均展現出接近行業專家水準的輸出品質。
儘管這些發現並不意味著人類工作即將被取代,但它們代表了追蹤進展的重要里程碑。OpenAI 承認 GDPval 目前僅評估現實專業任務的一小部分,這反駁了某些執行長預測人工智慧將在數年內引發廣泛顛覆的觀點。
GDPval 針對美國 GDP 九大關鍵領域進行效能評估——包括醫療保健、金融、製造業與政府部門——測試範圍涵蓋從軟體工程到新聞業等 44 種職業。
在 GDPval-v0 版本中,專業人士將人工智慧生成的報告與人類同業作品進行比較。其中一項範例任務是投資銀行家分析最後一哩物流競爭對手格局,並與人工智慧版本進行對照。OpenAI 透過所有職業類別計算出每個模型相較於人類輸出的「勝率」。
強化版 GPT-5-high 模型在 40.6% 的情況下達到或超越專家輸出,而 Claude Opus 4.1 則取得 49% 的持平率——OpenAI 指出此較高分數可能源於 Claude 更優異的視覺呈現效果,而非實質內容優勢。
在 Disrupt 2025 大會與超過 10,000 名科技及創投創新者交流
匯集 Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital 及 Elad Gil 等 250+ 行業領袖,舉辦 200+ 聚焦成長的專場論壇。歡慶 TechCrunch 20 週年的同時,向科技界頂尖思想家汲取競爭洞察。9 月 26 日前完成早鳥註冊最高可省 668 美元。
在 Disrupt 2025 大會與超過 10,000 名科技及創投創新者交流
匯集 Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital 及 Elad Gil 等 250+ 行業領袖,舉辦 200+ 聚焦成長的專場論壇。歡慶 TechCrunch 20 週年的同時,向科技界頂尖思想家汲取競爭洞察。9 月 26 日前完成早鳥註冊最高可省 668 美元。

圖片來源:OpenAI OpenAI 坦承 GDPval-v0 的測試範圍較窄——目前僅針對研究報告生成進行評估——並計劃於未來版本中納入更廣泛的職場互動情境測試。
首席經濟學家 Aaron Chatterji 博士向 TechCrunch 表示,這些結果顯示專業人士將能逐步將常規任務委派給人工智慧,使其更專注於高價值工作。
主導評估工作的 Tejal Patwardhan 指出進展神速:十五個月前 GPT-4o 僅獲得 13.7% 的評分,而 GPT-5 的表現近乎三倍成長——此發展趨勢預計將持續推進。
儘管當前的 AI 評估領域由 AIME 2025 與 GPQA Diamond 等基準測試主導,但多數模型在這些學術測驗中已接近飽和。GDPval 象徵著業界日益重視實際應用與產業相關的評量標準——儘管 OpenAI 仍需進行更全面的測試,才能最終證實其於各專業領域達到人類水準的表現。
相關文章
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研
相關專題推薦
評論 (0)
0/500
本週四,OpenAI 推出了革命性基準測試 GDPval,旨在評估其人工智慧模型 across 各行業中與人類專業人士的表現對比。這項評估標誌著衡量 OpenAI 系統是否能於經濟影響力工作中超越人類的首步嘗試——此為該公司追求人工通用智慧(AGI)的核心目標。
根據 OpenAI 表示,GPT-5 與 Anthropic 的 Claude Opus 4.1 均展現出接近行業專家水準的輸出品質。
儘管這些發現並不意味著人類工作即將被取代,但它們代表了追蹤進展的重要里程碑。OpenAI 承認 GDPval 目前僅評估現實專業任務的一小部分,這反駁了某些執行長預測人工智慧將在數年內引發廣泛顛覆的觀點。
GDPval 針對美國 GDP 九大關鍵領域進行效能評估——包括醫療保健、金融、製造業與政府部門——測試範圍涵蓋從軟體工程到新聞業等 44 種職業。
在 GDPval-v0 版本中,專業人士將人工智慧生成的報告與人類同業作品進行比較。其中一項範例任務是投資銀行家分析最後一哩物流競爭對手格局,並與人工智慧版本進行對照。OpenAI 透過所有職業類別計算出每個模型相較於人類輸出的「勝率」。
強化版 GPT-5-high 模型在 40.6% 的情況下達到或超越專家輸出,而 Claude Opus 4.1 則取得 49% 的持平率——OpenAI 指出此較高分數可能源於 Claude 更優異的視覺呈現效果,而非實質內容優勢。
在 Disrupt 2025 大會與超過 10,000 名科技及創投創新者交流
匯集 Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital 及 Elad Gil 等 250+ 行業領袖,舉辦 200+ 聚焦成長的專場論壇。歡慶 TechCrunch 20 週年的同時,向科技界頂尖思想家汲取競爭洞察。9 月 26 日前完成早鳥註冊最高可省 668 美元。
在 Disrupt 2025 大會與超過 10,000 名科技及創投創新者交流
匯集 Netflix、Box、a16z、ElevenLabs、Wayve、Sequoia Capital 及 Elad Gil 等 250+ 行業領袖,舉辦 200+ 聚焦成長的專場論壇。歡慶 TechCrunch 20 週年的同時,向科技界頂尖思想家汲取競爭洞察。9 月 26 日前完成早鳥註冊最高可省 668 美元。

OpenAI 坦承 GDPval-v0 的測試範圍較窄——目前僅針對研究報告生成進行評估——並計劃於未來版本中納入更廣泛的職場互動情境測試。
首席經濟學家 Aaron Chatterji 博士向 TechCrunch 表示,這些結果顯示專業人士將能逐步將常規任務委派給人工智慧,使其更專注於高價值工作。
主導評估工作的 Tejal Patwardhan 指出進展神速:十五個月前 GPT-4o 僅獲得 13.7% 的評分,而 GPT-5 的表現近乎三倍成長——此發展趨勢預計將持續推進。
儘管當前的 AI 評估領域由 AIME 2025 與 GPQA Diamond 等基準測試主導,但多數模型在這些學術測驗中已接近飽和。GDPval 象徵著業界日益重視實際應用與產業相關的評量標準——儘管 OpenAI 仍需進行更全面的測試,才能最終證實其於各專業領域達到人類水準的表現。
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
OpenAI 勾勒出以公共財富基金、機器人稅及每週四天工作制為核心的人工智慧經濟藍圖
當各國政府正竭力應對超智能機器帶來的經濟衝擊之際,OpenAI 發布了一系列政策提案,闡述在「智能時代」中財富與工作可能如何重塑。這些構想將傳統的左翼機制——例如公共財富基金與擴大的社會安全網——與根本上資本主義、市場導向的經濟框架相融合。OpenAI 的提案本質上是一份願望清單,這份公開聲明有助於民選官員、投資者及公眾理解這家市值 8,520 億美元的公司,如何看待人工智慧在重塑勞動與經濟的過程
葛瑞格・布洛克曼揭露伊隆・馬斯克如何離開 OpenAI
2017年8月下旬,OpenAI(當時還是一家小型非營利研究實驗室)的核心成員召開會議,商討如何成立營利實體以將其技術商業化,並籌集實現通用人工智慧(AGI)所需的資金。伊隆·馬斯克要求對公司擁有完全控制權,並剛向每位共同創辦人贈送了一輛特斯拉Model 3。技術長格雷格·布羅克曼表示,他認為這是在馬斯克與山姆·奧特曼為各自對公司未來的願景爭取支持之際,試圖用這份禮物來收買他們。 OpenAI的研





首頁






