옵션
뉴스
OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

2025년 6월 7일
67

OpenAI의 o3 AI 모델, 초기 암시보다 기준 테스트에서 낮은 점수 획득

AI에서 벤치마크 불일치가 중요한 이유

AI에 관해서는 숫자로 설명하는 경우가 많지만, 때로는 숫자가 일치하지 않는 경우도 있습니다. OpenAI의 o3 모델을 예로 들어보겠습니다. 초기 주장은 입이 떡 벌어질 정도로 놀라웠습니다. o3는 악명 높은 프론티어 수학 문제의 25% 이상을 처리할 수 있다고 합니다. 당시 경쟁 제품은 한 자릿수 초반에 머물러 있었습니다. 하지만 최근의 개발 상황을 살펴보면, 저명한 연구 기관인 Epoch AI가 이 이야기에 반론을 제기했습니다. 그들의 연구 결과에 따르면 o3의 실제 성능은 10%에 가깝다고 합니다. 나쁘지는 않지만, OpenAI가 처음에 선전했던 헤드라인을 장식하는 수치는 확실히 아닙니다.

실제로 무슨 일이 일어나고 있을까요?

자세히 살펴봅시다. OpenAI의 원래 점수는 최적의 조건, 즉 현실 세계에서는 정확히 재현할 수 없는 조건에서 달성되었을 가능성이 높습니다. Epoch는 자신들의 테스트 환경이 OpenAI와 약간 다를 수 있으며, 심지어 그들이 사용한 FrontierMath의 버전도 최신 버전이라고 지적했습니다. OpenAI의 초기 주장은 내부 테스트와 일치했지만, 이 차이는 더 광범위한 문제를 강조합니다. 벤치마크는 항상 사과와 사과를 비교하는 것은 아닙니다. 그리고 현실을 직시하자, 기업들은 최선을 다하려는 인센티브가 있습니다.

투명성의 역할

이러한 상황은 중요한 질문을 제기합니다: AI 기업은 결과를 공유할 때 얼마나 투명해야 할까요? OpenAI가 노골적으로 거짓말을 하지는 않았지만, 그들의 메시지가 완전히 충족되지 않은 기대감을 불러일으킨 것은 사실입니다. 이는 미묘한 균형입니다. 기업은 자사의 발전을 보여주고 싶지만, 그 숫자가 실제로 의미하는 바에 대해서도 솔직해야 합니다. AI가 일상 생활에 점점 더 많이 통합됨에 따라 소비자와 연구자 모두 더 명확한 답을 요구할 것입니다.

업계의 다른 논란

벤치마킹의 문제점은 OpenAI에만 국한된 것이 아닙니다. AI 분야의 다른 업체들도 비슷한 문제에 직면해 있습니다. 지난 1월, Epoch는 o3의 발표 직전에 OpenAI로부터 미공개 자금을 받아 논란에 휩싸인 바 있습니다. 한편 엘론 머스크의 xAI는 그루크 3를 실제보다 더 좋아 보이게 하기 위해 벤치마크 차트를 조작했다는 의혹을 받아 비난을 받았습니다. 심지어 거대 기술 기업 중 하나인 메타도 최근 공개되지 않은 모델을 기반으로 점수를 홍보한 사실을 인정했습니다. 헤드라인을 장악하기 위한 경쟁이 치열해지고 있지만 모두가 공평하게 경쟁하는 것은 아닙니다.

앞으로의 전망

이러한 논란이 실망스러워 보일 수도 있지만, 사실 이는 발전의 신호입니다. AI 환경이 성숙해짐에 따라 책임에 관한 담론도 발전하고 있습니다. 소비자와 연구자들은 더 높은 투명성을 요구하고 있으며 이는 좋은 일입니다. 이는 기업이 성과를 발표하는 방식에 대해 더욱 신중을 기하게 하고, 사용자들이 비현실적인 과대광고에 휩쓸리지 않도록 합니다. 결국, 목표는 숫자로 승부하는 것이 아니라 진정으로 분야를 발전시키는 모델을 구축하는 것이어야 합니다.

관련 기사
OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 OpenAI, ChatGPT Pro를 o3로 업그레이드하고 월 구독료 $200로 가치 증대 이번 주에는 마이크로소프트, 구글, 앤트로픽을 비롯한 거대 기술 기업들의 중요한 AI 개발이 있었습니다. OpenAI는 코드명 "io"라는 야심찬 하드웨어 이니셔티브를 위해 65억 달러에 인수한 조니 아이브의 디자인 회사를 넘어서는 획기적인 업데이트를 발표하며 활발한 발표를 마무리했습니다.이 회사는 이전의 GPT-4o 프레임워크에서 고급 추론 모델인 o3로
AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 AI 에이전트를 활용하여 자선 기금 모금 활동을 강화하는 비영리 단체 주요 기술 기업들이 AI '에이전트'를 기업의 생산성을 높여주는 도구로 홍보하는 가운데, 한 비영리 단체는 사회적 공익을 위한 AI의 잠재력을 입증하고 있습니다. 오픈 필란트로피의 지원을 받는 자선 연구 단체인 세이지 퓨처는 최근 AI 모델이 자선 기금 모금에 어떻게 협력할 수 있는지 보여주는 혁신적인 실험을 진행했습니다.이 비영리 단체는 자선 단체를
최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 최고의 AI 연구소, 인류가 AI 시스템에 대한 이해력을 잃어가고 있다고 경고하다 전례 없는 단결력을 보여준 OpenAI, Google DeepMind, Anthropic, Meta의 연구원들은 경쟁적 차이를 제쳐두고 책임감 있는 AI 개발에 대한 공동의 경고를 발표했습니다. 일반적으로 라이벌 관계에 있는 이들 조직의 40여 명의 선도적인 과학자들은 AI 의사결정 과정의 투명성을 보장하기 위해 빠르게 닫혀가는 창을 강조하는 획기적인 연구
의견 (4)
0/200
FrankSmith
FrankSmith 2025년 9월 10일 오후 3시 30분 33초 GMT+09:00

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker
LiamWalker 2025년 8월 12일 오후 3시 50분 10초 GMT+09:00

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis
FrankLewis 2025년 8월 7일 오전 11시 41분 14초 GMT+09:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 2025년 7월 29일 오후 9시 25분 16초 GMT+09:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

위로 돌아갑니다
OR