OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

왜 벤치마크 차이가 AI에서 중요한가
AI에 있어서 숫자들은 이야기를 전달하는데 자주 사용되지만, 때때로 그 숫자들이 맞지 않을 수도 있습니다. 예를 들어, OpenAI의 o3 모델의 경우 초기 주장은 말 그대로 놀라움을 자아냈습니다: o3는 전적으로 어려운 FrontierMath 문제 중 약 25% 이상을 처리할 수 있다고 보고되었습니다. 이를 위해 경쟁사들은 저조한 두 자리 수 성과에 머물렀습니다. 그러나 최근 Epoch AI라는 신뢰받는 연구소에서 새로운 사실을 밝혀내면서 이야기가 달라졌습니다. 그들의 연구 결과에 따르면 o3의 실제 성능은 약 10%에 불과한 것으로 나타났습니다. 나쁘지는 않지만, OpenAI가 처음 언급했던 화제성 있는 숫자와는 거리가 있습니다.
실제로 무슨 일이 일어나고 있는가?
이를 단순히 분석해보겠습니다. OpenAI의 원래 점수는 최적의 조건 하에서 얻어진 것이었으며, 이 조건은 현실 세계에서는 반드시 재현될 수 있는 것은 아닙니다. Epoch은 자신들의 테스트 환경이 OpenAI의 것과 약간 다르며, 사용한 FrontierMath 버전도 더 새롭다고 지적했습니다. 물론 OpenAI가 명백히 거짓말을 한 것은 아니지만, 그들의 초기 주장은 내부 테스트와 일치했을 뿐입니다. 하지만 이 차이는 더 큰 문제를 암시합니다. 벤치마크는 항상 동등한 비교가 아닙니다. 그리고 실망스럽게도, 회사는 자신의 최선을 보여주고 싶어하는 유인이 있습니다.
투명성의 역할
이 상황은 중요한 질문을 던집니다: AI 회사는 결과를 공유할 때 얼마나 투명해야 할까요? OpenAI는 명백히 거짓말을 하지는 않았지만, 그들의 메시지는 완전히 충족되지 못했습니다. 이것은 민감한 균형을 요구합니다. 회사는 자신의 진보를 보여주고 싶어하지만, 동시에 그것이 실제로 의미하는 바를 솔직하게 밝혀야 합니다. AI가 일상 생활에 점점 더 통합되면서 소비자와 연구자 모두 더 명확한 답을 요구할 것입니다.
업계의 다른 논란들
벤치마크 실수는 OpenAI만의 문제가 아닙니다. AI 분야의 다른 플레이어들도 유사한 문제를 겪었습니다. 지난 1월, Epoch은 o3 발표 직전 undisclosed 자금을 OpenAI로부터 받았다는 사실이 드러나 논란이 되었습니다. 한편, Elon Musk의 xAI는 Grok 3의 성능을 과대평가하기 위해 벤치마크 차트를 조작했다는 의혹을 받았습니다. 심지어 대기업 중 하나인 Meta조차 최근 공개적으로 이용되지 않는 모델의 점수를 과장했다고 인정했습니다. 분명히 헤드라인을 장악하려는 경쟁은 치열해지고 있으며, 모든 사람들이 공정하게 경쟁하는 것은 아닙니다.
앞으로의 전망
이러한 논란들은 실망스럽게 들릴 수 있지만, 실제로는 진전의 신호입니다. AI 환경이 성숙해지면서 책임감에 대한 대화도 함께 성숙해지고 있습니다. 소비자와 연구자들은 더 많은 투명성을 요구하고 있으며, 이것은 좋은 일입니다. 회사는 자신들의 성취를 어떻게 전달할지 더 신중하게 고민하도록 강요하며, 사용자가 과장된 광고에 현혹되지 않도록 보장합니다. 결국 목표는 숫자를 조작하는 것이 아니라, 실제로 해당 분야를 진보시키는 모델을 만드는 것입니다.
관련 기사
OpenAI, Operator Agent AI 모델 강화
OpenAI, 자율 AI 에이전트 'Operator'를 한 단계 업그레이드하다OpenAI가 자율 AI 에이전트 'Operator'에 대대적인 업그레이드를 선보입니다. 곧 적용될 이번 변경으로 Operator는 OpenAI의 최첨단 추론 모델 시리즈 'o 시리즈'의 최신작인 o3 기반 모델을 사용하게 됩니다. 지금까지 Op
Ziff Davis, OpenAI를 상대로 저작권 침해 소송 제기
지프 데이비스, 오픈AI에 저작권 침해 소송 제기기술 및 출판 업계에 파장을 일으킨 이번 행보로 지프 데이비스(Ziff Davis)라는 거대 복합기업(※CNET, PCMag, IGN, Everyday Health 등 유명 브랜드의 소유주)이 오픈AI를 상대로 저작권 침해 소송을 제기했다고 뉴욕타임스가 보도했다. 소송 내용
OpenAI API의 미래 AI 모델에 접근하려면 인증된 신원 확인이 필요할 수 있습니다
오픈AI, 고급 AI 접근을 위한 인증 조직 프로그램 발표지난 주, 오픈AI는 개발자 정책에서 중요한 업데이트를 발표하며 새로운 인증 프로세스인 "인증된 조직"을 도입했습니다. 이 프로그램은 회사의 가장 고급 AI 모델 및 도구를 사용하는 과정에서 보안을 강화하고 책임감 있게 사용될 수 있도록 하기 위한 것입니다. 이 프
의견 (0)
0/200
왜 벤치마크 차이가 AI에서 중요한가
AI에 있어서 숫자들은 이야기를 전달하는데 자주 사용되지만, 때때로 그 숫자들이 맞지 않을 수도 있습니다. 예를 들어, OpenAI의 o3 모델의 경우 초기 주장은 말 그대로 놀라움을 자아냈습니다: o3는 전적으로 어려운 FrontierMath 문제 중 약 25% 이상을 처리할 수 있다고 보고되었습니다. 이를 위해 경쟁사들은 저조한 두 자리 수 성과에 머물렀습니다. 그러나 최근 Epoch AI라는 신뢰받는 연구소에서 새로운 사실을 밝혀내면서 이야기가 달라졌습니다. 그들의 연구 결과에 따르면 o3의 실제 성능은 약 10%에 불과한 것으로 나타났습니다. 나쁘지는 않지만, OpenAI가 처음 언급했던 화제성 있는 숫자와는 거리가 있습니다.
실제로 무슨 일이 일어나고 있는가?
이를 단순히 분석해보겠습니다. OpenAI의 원래 점수는 최적의 조건 하에서 얻어진 것이었으며, 이 조건은 현실 세계에서는 반드시 재현될 수 있는 것은 아닙니다. Epoch은 자신들의 테스트 환경이 OpenAI의 것과 약간 다르며, 사용한 FrontierMath 버전도 더 새롭다고 지적했습니다. 물론 OpenAI가 명백히 거짓말을 한 것은 아니지만, 그들의 초기 주장은 내부 테스트와 일치했을 뿐입니다. 하지만 이 차이는 더 큰 문제를 암시합니다. 벤치마크는 항상 동등한 비교가 아닙니다. 그리고 실망스럽게도, 회사는 자신의 최선을 보여주고 싶어하는 유인이 있습니다.
투명성의 역할
이 상황은 중요한 질문을 던집니다: AI 회사는 결과를 공유할 때 얼마나 투명해야 할까요? OpenAI는 명백히 거짓말을 하지는 않았지만, 그들의 메시지는 완전히 충족되지 못했습니다. 이것은 민감한 균형을 요구합니다. 회사는 자신의 진보를 보여주고 싶어하지만, 동시에 그것이 실제로 의미하는 바를 솔직하게 밝혀야 합니다. AI가 일상 생활에 점점 더 통합되면서 소비자와 연구자 모두 더 명확한 답을 요구할 것입니다.
업계의 다른 논란들
벤치마크 실수는 OpenAI만의 문제가 아닙니다. AI 분야의 다른 플레이어들도 유사한 문제를 겪었습니다. 지난 1월, Epoch은 o3 발표 직전 undisclosed 자금을 OpenAI로부터 받았다는 사실이 드러나 논란이 되었습니다. 한편, Elon Musk의 xAI는 Grok 3의 성능을 과대평가하기 위해 벤치마크 차트를 조작했다는 의혹을 받았습니다. 심지어 대기업 중 하나인 Meta조차 최근 공개적으로 이용되지 않는 모델의 점수를 과장했다고 인정했습니다. 분명히 헤드라인을 장악하려는 경쟁은 치열해지고 있으며, 모든 사람들이 공정하게 경쟁하는 것은 아닙니다.
앞으로의 전망
이러한 논란들은 실망스럽게 들릴 수 있지만, 실제로는 진전의 신호입니다. AI 환경이 성숙해지면서 책임감에 대한 대화도 함께 성숙해지고 있습니다. 소비자와 연구자들은 더 많은 투명성을 요구하고 있으며, 이것은 좋은 일입니다. 회사는 자신들의 성취를 어떻게 전달할지 더 신중하게 고민하도록 강요하며, 사용자가 과장된 광고에 현혹되지 않도록 보장합니다. 결국 목표는 숫자를 조작하는 것이 아니라, 실제로 해당 분야를 진보시키는 모델을 만드는 것입니다.












