옵션
뉴스
새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

2025년 7월 21일
60

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.

환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.

OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.

이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.

OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.

OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.

비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.

“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.

Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.

스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.

환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.

웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.

추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.

“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.

AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.

관련 기사
미국 상원, 논란 속에 예산 법안에서 AI 모라토리엄 삭제 미국 상원, 논란 속에 예산 법안에서 AI 모라토리엄 삭제 상원, 압도적인 표결로 AI 규제 유예안 폐지미국 의원들은 화요일 초당적인 단결의 드문 모습을 보여주기 위해 거의 만장일치로 이전 행정부에서 통과된 획기적인 법안에서 10년 동안 논란이 되어온 주 차원의 AI 규제 금지 조항을 폐지하는 투표를 진행했습니다. 99대 1의 결정적인 표결은 빠르게 진화하는 AI 분야에서 혁신과 소비자 보호의 균형을 맞추는 것
OpenAI 두 개의 고급 오픈 웨이트 AI 모델 공개 OpenAI 두 개의 고급 오픈 웨이트 AI 모델 공개 OpenAI는 화요일, o-시리즈와 유사한 성능을 자랑하는 두 개의 오픈 웨이트 AI 추론 모델을 공개했다. 두 모델 모두 Hugging Face에서 무료로 다운로드 가능하며, OpenAI는 이들이 오픈 모델 벤치마크에서 "최고 성능"을 달성했다고 밝혔다.모델은 두 가지 변형으로 제공된다: 단일 Nvidia GPU에서 실행 가능한 강력한 gpt-oss-12
ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화 ByteDance, Seed-Thinking-v1.5 AI 모델 공개로 추론 능력 강화 고급 추론 AI를 위한 경쟁은 2024년 9월 OpenAI의 o1 모델로 시작되었으며, 2025년 1월 DeepSeek의 R1 출시로 더욱 가속화되었습니다.주요 AI 개발자들은 이제 체인 오브 쏘트 프로세스를 통해 정확하고 신중한 응답을 제공하는 더 빠르고 비용 효율적인 추론 AI 모델을 만들기 위해 경쟁하고 있습니다.TikTok의 모회사인 ByteDanc
의견 (4)
0/200
GeorgeWilliams
GeorgeWilliams 2025년 8월 14일 오후 10시 0분 59초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025년 8월 12일 오후 8시 0분 59초 GMT+09:00

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025년 8월 4일 오후 3시 48분 52초 GMT+09:00

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025년 7월 28일 오전 10시 20분 21초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

위로 돌아갑니다
OR