옵션
뉴스
OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

2025년 6월 7일
48

OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

왜 벤치마크 차이가 AI에서 중요한가

AI에 있어서 숫자들은 이야기를 전달하는데 자주 사용되지만, 때때로 그 숫자들이 맞지 않을 수도 있습니다. 예를 들어, OpenAI의 o3 모델의 경우 초기 주장은 말 그대로 놀라움을 자아냈습니다: o3는 전적으로 어려운 FrontierMath 문제 중 약 25% 이상을 처리할 수 있다고 보고되었습니다. 이를 위해 경쟁사들은 저조한 두 자리 수 성과에 머물렀습니다. 그러나 최근 Epoch AI라는 신뢰받는 연구소에서 새로운 사실을 밝혀내면서 이야기가 달라졌습니다. 그들의 연구 결과에 따르면 o3의 실제 성능은 약 10%에 불과한 것으로 나타났습니다. 나쁘지는 않지만, OpenAI가 처음 언급했던 화제성 있는 숫자와는 거리가 있습니다.

실제로 무슨 일이 일어나고 있는가?

이를 단순히 분석해보겠습니다. OpenAI의 원래 점수는 최적의 조건 하에서 얻어진 것이었으며, 이 조건은 현실 세계에서는 반드시 재현될 수 있는 것은 아닙니다. Epoch은 자신들의 테스트 환경이 OpenAI의 것과 약간 다르며, 사용한 FrontierMath 버전도 더 새롭다고 지적했습니다. 물론 OpenAI가 명백히 거짓말을 한 것은 아니지만, 그들의 초기 주장은 내부 테스트와 일치했을 뿐입니다. 하지만 이 차이는 더 큰 문제를 암시합니다. 벤치마크는 항상 동등한 비교가 아닙니다. 그리고 실망스럽게도, 회사는 자신의 최선을 보여주고 싶어하는 유인이 있습니다.

투명성의 역할

이 상황은 중요한 질문을 던집니다: AI 회사는 결과를 공유할 때 얼마나 투명해야 할까요? OpenAI는 명백히 거짓말을 하지는 않았지만, 그들의 메시지는 완전히 충족되지 못했습니다. 이것은 민감한 균형을 요구합니다. 회사는 자신의 진보를 보여주고 싶어하지만, 동시에 그것이 실제로 의미하는 바를 솔직하게 밝혀야 합니다. AI가 일상 생활에 점점 더 통합되면서 소비자와 연구자 모두 더 명확한 답을 요구할 것입니다.

업계의 다른 논란들

벤치마크 실수는 OpenAI만의 문제가 아닙니다. AI 분야의 다른 플레이어들도 유사한 문제를 겪었습니다. 지난 1월, Epoch은 o3 발표 직전 undisclosed 자금을 OpenAI로부터 받았다는 사실이 드러나 논란이 되었습니다. 한편, Elon Musk의 xAI는 Grok 3의 성능을 과대평가하기 위해 벤치마크 차트를 조작했다는 의혹을 받았습니다. 심지어 대기업 중 하나인 Meta조차 최근 공개적으로 이용되지 않는 모델의 점수를 과장했다고 인정했습니다. 분명히 헤드라인을 장악하려는 경쟁은 치열해지고 있으며, 모든 사람들이 공정하게 경쟁하는 것은 아닙니다.

앞으로의 전망

이러한 논란들은 실망스럽게 들릴 수 있지만, 실제로는 진전의 신호입니다. AI 환경이 성숙해지면서 책임감에 대한 대화도 함께 성숙해지고 있습니다. 소비자와 연구자들은 더 많은 투명성을 요구하고 있으며, 이것은 좋은 일입니다. 회사는 자신들의 성취를 어떻게 전달할지 더 신중하게 고민하도록 강요하며, 사용자가 과장된 광고에 현혹되지 않도록 보장합니다. 결국 목표는 숫자를 조작하는 것이 아니라, 실제로 해당 분야를 진보시키는 모델을 만드는 것입니다.

관련 기사
Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth Former OpenAI Engineer Shares Insights on Company Culture and Rapid Growth 3주 전, OpenAI의 핵심 제품에 기여했던 엔지니어 Calvin French-Owen이 회사를 떠났습니다.그는 최근 OpenAI에서의 1년을 상세히 다룬 매력적인 블로그 포스트를 공유했으며, 여기에는 Cursor나 Anthropic의 Claude Code와 경쟁하는 코딩 에이전트 Codex 개발에 대한 강렬한 노력이 포함되어 있습니다.French-Owe
Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개 Google, 기업 시장에서 OpenAI와 경쟁하기 위해 생산 준비 완료된 Gemini 2.5 AI 모델 공개 Google은 월요일 AI 전략을 강화하며 기업용으로 고급 Gemini 2.5 모델을 출시하고 가격과 성능 면에서 경쟁할 수 있는 비용 효율적인 변형 모델을 소개했습니다.Alphabet 소유의 이 회사는 주력 AI 모델인 Gemini 2.5 Pro와 Gemini 2.5 Flash를 테스트 단계에서 완전 가용성으로 업그레이드하며 중요한 비즈니스 애플리케이션에
메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타, AI 인재에게 높은 연봉 제공, 1억 달러 서명 보너스 부인 메타는 새로운 슈퍼인텔리전스 연구소에 AI 연구자들을 유치하기 위해 수백만 달러 규모의 보상 패키지를 제공하고 있다. 그러나 모집된 연구자와 유출된 내부 회의 발언에 따르면 1억 달러 "서명 보너스" 주장은 사실이 아니다.더 버지(The Verge)가 목요일 보도한 유출된 회사 전체 회의에서 메타 경영진은 오픈AI CEO 샘 알트먼이 메타가 최고 연구자들에
의견 (2)
0/200
FrankLewis
FrankLewis 2025년 8월 7일 오전 11시 41분 14초 GMT+09:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 2025년 7월 29일 오후 9시 25분 16초 GMT+09:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

위로 돌아갑니다
OR