오픈AI의 GPT-5, 다양한 직종에서 인간 수준의 성능 과시
목요일, OpenAI는 다양한 산업 분야에서 자사의 AI 모델이 인간 전문가들과 어떻게 비교되는지를 평가하는 획기적인 벤치마크인 GDPval을 발표했습니다. 이 평가는 OpenAI의 시스템이 경제적으로 영향력 있는 업무에서 인간을 능가할 수 있는지 측정하기 위한 첫걸음으로, 이는 기업이 인공 일반 지능(AGI)을 추구하는 데 있어 핵심 목표입니다.
OpenAI에 따르면, GPT-5와 Anthropic의 Claude Opus 4.1 모두 산업 전문가에 버금가는 출력 품질을 보여줍니다.
이러한 결과가 인간의 일자리가 조만간 대체될 것을 의미하는 것은 아니지만, 중요한 진전을 추적하는 지표가 됩니다. OpenAI는 GDPval이 현재 실제 전문가 업무의 일부분만 평가하고 있다고 인정하며, 몇몇 CEO들이 예측한 수년 내에 광범위한 AI로 인한 업무 교란에 대한 주장에 반박합니다.
GDPval은 의료, 금융, 제조, 정부를 포함한 미국 GDP의 9개 주요 부문 전반의 성과를 평가하며, 소프트웨어 엔지니어링부터 언론에 이르기까지 44개 직종을 테스트합니다.
GDPval-v0의 경우, 전문가들이 AI가 생성한 보고서를 인간이 작성한 동료들의 작업과 비교했습니다. 한 샘플 작업에서는 투자 은행원들이 라스트마일 배송 경쟁사 환경을 분석한 결과를 AI 버전과 비교하는 작업이 포함되었습니다. OpenAI는 모든 직종에 걸쳐 인간의 출력 대비 각 모델의 "승률"을 계산했습니다.
향상된 GPT-5-high 모델은 40.6%의 경우에서 전문가의 출력을 맞추거나 능가했으며, Claude Opus 4.1은 49%의 동등 비율을 달성했습니다. OpenAI는 이 더 높은 점수가 실질적인 우위보다는 Claude의 시각적 표현력이 뛰어나기 때문일 수 있다고 시사합니다.
Disrupt 2025에서 10,000명 이상의 기술 및 VC 혁신가들과 연결하세요
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil을 비롯한 250명 이상의 산업 리더들이 200개 이상의 성장 중심 세션을 주최합니다. TechCrunch의 20주년을 기념하면서 기술계 최고 사상가들로부터 경쟁력 있는 통찰력을 얻으세요. 9월 26일 이전 조기 등록 시 최대 $668을 절약할 수 있습니다.
Disrupt 2025에서 10,000명 이상의 기술 및 VC 혁신가들과 연결하세요
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil을 비롯한 250명 이상의 산업 리더들이 200개 이상의 성장 중심 세션을 주최합니다. TechCrunch의 20주년을 기념하면서 기술계 최고 사상가들로부터 경쟁력 있는 통찰력을 얻으세요. 9월 26일 이전 조기 등록 시 최대 $668을 절약할 수 있습니다.

이미지 출처: OpenAI OpenAI는 GDPval-v0의 초점이 현재 연구 보고서 생성만 테스트하는 데 국한되어 있으며, 향후 버전에서는 더 넓은 업무 상호작용을 평가할 계획이라고 인정했습니다.
수석 경제학자인 Aaron Chatterji 박사는 TechCrunch에 이러한 결과가 전문가들이 점점 더 일상적인 업무를 AI에 위임함으로써 더 높은 가치의 작업에 집중할 수 있게 될 것임을 시사한다고 밝혔습니다.
평가를 주도하는 Tejal Patwardhan은 빠른 진전을 지적합니다: 15개월 전에는 GPT-4o가 겨우 13.7%의 점수를 받았던 반면, GPT-5는 그 성능을 거의 3배 가까이 향상시켰으며, 이러한 추세는 계속될 것으로 예상됩니다.
AIME 2025 및 GPQA Diamond와 같은 벤치마크가 AI 평가를 주도하고 있지만, 많은 모델들이 이러한 학술 테스트에서 포화 상태에 접근하고 있습니다. GDPval은 실용적이고 산업 관련 평가 기준에 대한 점증하는 강조를 나타내며, 비록 OpenAI가 전문 분야 전반에 걸쳐 인간 수준의 성능을 결정적으로 입증하기 위해서는 더 포괄적인 테스트가 필요합니다.
관련 기사
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
관련 특별 주제 추천
의견 (0)
0/500
목요일, OpenAI는 다양한 산업 분야에서 자사의 AI 모델이 인간 전문가들과 어떻게 비교되는지를 평가하는 획기적인 벤치마크인 GDPval을 발표했습니다. 이 평가는 OpenAI의 시스템이 경제적으로 영향력 있는 업무에서 인간을 능가할 수 있는지 측정하기 위한 첫걸음으로, 이는 기업이 인공 일반 지능(AGI)을 추구하는 데 있어 핵심 목표입니다.
OpenAI에 따르면, GPT-5와 Anthropic의 Claude Opus 4.1 모두 산업 전문가에 버금가는 출력 품질을 보여줍니다.
이러한 결과가 인간의 일자리가 조만간 대체될 것을 의미하는 것은 아니지만, 중요한 진전을 추적하는 지표가 됩니다. OpenAI는 GDPval이 현재 실제 전문가 업무의 일부분만 평가하고 있다고 인정하며, 몇몇 CEO들이 예측한 수년 내에 광범위한 AI로 인한 업무 교란에 대한 주장에 반박합니다.
GDPval은 의료, 금융, 제조, 정부를 포함한 미국 GDP의 9개 주요 부문 전반의 성과를 평가하며, 소프트웨어 엔지니어링부터 언론에 이르기까지 44개 직종을 테스트합니다.
GDPval-v0의 경우, 전문가들이 AI가 생성한 보고서를 인간이 작성한 동료들의 작업과 비교했습니다. 한 샘플 작업에서는 투자 은행원들이 라스트마일 배송 경쟁사 환경을 분석한 결과를 AI 버전과 비교하는 작업이 포함되었습니다. OpenAI는 모든 직종에 걸쳐 인간의 출력 대비 각 모델의 "승률"을 계산했습니다.
향상된 GPT-5-high 모델은 40.6%의 경우에서 전문가의 출력을 맞추거나 능가했으며, Claude Opus 4.1은 49%의 동등 비율을 달성했습니다. OpenAI는 이 더 높은 점수가 실질적인 우위보다는 Claude의 시각적 표현력이 뛰어나기 때문일 수 있다고 시사합니다.
Disrupt 2025에서 10,000명 이상의 기술 및 VC 혁신가들과 연결하세요
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil을 비롯한 250명 이상의 산업 리더들이 200개 이상의 성장 중심 세션을 주최합니다. TechCrunch의 20주년을 기념하면서 기술계 최고 사상가들로부터 경쟁력 있는 통찰력을 얻으세요. 9월 26일 이전 조기 등록 시 최대 $668을 절약할 수 있습니다.
Disrupt 2025에서 10,000명 이상의 기술 및 VC 혁신가들과 연결하세요
Netflix, Box, a16z, ElevenLabs, Wayve, Sequoia Capital, Elad Gil을 비롯한 250명 이상의 산업 리더들이 200개 이상의 성장 중심 세션을 주최합니다. TechCrunch의 20주년을 기념하면서 기술계 최고 사상가들로부터 경쟁력 있는 통찰력을 얻으세요. 9월 26일 이전 조기 등록 시 최대 $668을 절약할 수 있습니다.

OpenAI는 GDPval-v0의 초점이 현재 연구 보고서 생성만 테스트하는 데 국한되어 있으며, 향후 버전에서는 더 넓은 업무 상호작용을 평가할 계획이라고 인정했습니다.
수석 경제학자인 Aaron Chatterji 박사는 TechCrunch에 이러한 결과가 전문가들이 점점 더 일상적인 업무를 AI에 위임함으로써 더 높은 가치의 작업에 집중할 수 있게 될 것임을 시사한다고 밝혔습니다.
평가를 주도하는 Tejal Patwardhan은 빠른 진전을 지적합니다: 15개월 전에는 GPT-4o가 겨우 13.7%의 점수를 받았던 반면, GPT-5는 그 성능을 거의 3배 가까이 향상시켰으며, 이러한 추세는 계속될 것으로 예상됩니다.
AIME 2025 및 GPQA Diamond와 같은 벤치마크가 AI 평가를 주도하고 있지만, 많은 모델들이 이러한 학술 테스트에서 포화 상태에 접근하고 있습니다. GDPval은 실용적이고 산업 관련 평가 기준에 대한 점증하는 강조를 나타내며, 비록 OpenAI가 전문 분야 전반에 걸쳐 인간 수준의 성능을 결정적으로 입증하기 위해서는 더 포괄적인 테스트가 필요합니다.
사티야 나델라, 새로운 오픈AI 협력을 활용할 준비가 되었다
수요일에 월스트리트의 한 애널리스트가 마이크로소프트의 사티야 나델라 CEO에게 개정된 오픈AI와의 파트너십이 회사의 재무 상황에 어떤 영향을 미칠지 직접 물었습니다.나델라는 이 새로운 협약이 모든 당사자에게 이익이 된다고 설명했습니다. “오픈AI와의 파트너십에 대해 우리는 만족하고 있습니다. 저는 언제나 모든 파트너십에서 상호 이익이 되도록 하는 데 집중합니다. 그렇게 해야만 좋은 파트너로 남을 수 있기 때문입니다.”그는 마이크로소프트가 여
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크





집






