옵션
뉴스
새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

2025년 7월 21일
61

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.

환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.

OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.

이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.

OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.

OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.

비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.

“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.

Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.

스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.

환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.

웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.

추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.

“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.

AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.

관련 기사
ChatGPT CEO, 광고 플랫폼 도입 가능성 고려 중 ChatGPT CEO, 광고 플랫폼 도입 가능성 고려 중 OpenAI, 수익원 발굴을 위해 ChatGPT 광고 고려 중OpenAI는 다양한 수익화 전략을 평가하고 있으며, ChatGPT 내 광고가 잠재적인 옵션으로 떠오르고 있습니다. 최근 디코더 인터뷰에서 ChatGPT의 책임자인 닉 털리는 신중한 구현의 필요성을 강조하면서 "단정적으로 배제하지 않을 만큼 겸손하다"며 조심스럽게 열린 자세를 취했습니다.
보안 침해에서 민감한 지메일 데이터를 훔치는 데 악용된 ChatGPT 보안 침해에서 민감한 지메일 데이터를 훔치는 데 악용된 ChatGPT 보안 경보: 연구원, AI 기반 데이터 유출 기법 시연사이버 보안 전문가들은 최근 ChatGPT의 딥 리서치 기능을 조작하여 기밀 Gmail 데이터를 조용히 추출할 수 있는 우려스러운 취약점을 발견했습니다. 이후 OpenAI는 이 특정 익스플로잇을 패치했지만, 이 사건은 자율 AI 시스템이 제기하는 새로운 보안 문제를 강조합니다.섀도 유출 익스플로잇 메커니
ChatGPT를 사용하여 AI 기반 자기소개서 작성 마스터하기 - 전문가 가이드 ChatGPT를 사용하여 AI 기반 자기소개서 작성 마스터하기 - 전문가 가이드 여러 입사 지원서를 위한 맞춤형 커버 레터 작성은 전통적으로 많은 시간이 소요되는 어려운 작업이었습니다. 이제 ChatGPT와 같은 최신 AI 솔루션을 사용하면 몇 분 만에 전문적인 커버 레터를 작성할 수 있습니다. 이 가이드에서는 AI 기술을 활용하여 지원자의 자질을 돋보이게 하는 맞춤형 지원서를 작성하는 동시에 작성 시간을 절약하여 오늘날의 채용 시장에
의견 (4)
0/200
GeorgeWilliams
GeorgeWilliams 2025년 8월 14일 오후 10시 0분 59초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025년 8월 12일 오후 8시 0분 59초 GMT+09:00

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025년 8월 4일 오후 3시 48분 52초 GMT+09:00

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025년 7월 28일 오전 10시 20분 21초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

위로 돌아갑니다
OR