옵션
뉴스
새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

2025년 7월 21일
119

새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.

환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.

OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.

이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.

OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.

OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.

비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.

“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.

Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.

스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.

환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.

웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.

추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.

“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.

AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.

관련 기사
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시 각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다 그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다 2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함 미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함 이전에 구글, 스페이스X, 오픈AI와 합의를 이룬 데 이어, 미국 국방부는 금요일에 엔비디아, 마이크로소프트, 아마존 웹 서비스, 리플렉션 AI와도 계약을 체결했다고 발표했습니다. 이를 통해 해당 기업들의 AI 기술과 모델을 기밀 네트워크에 도입하여 “합법적인 운용 목적”으로 활용할 예정입니다.성명에서는 “이러한 계약들은 미군을 AI 중심의 전투력으로 전환하는 과정을 가속화하며, 모든 전쟁 분야에서 우리 군인들이 의사결정 우위를 유지할 수 있
관련 특별 주제 추천
사업 최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요
최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구
xix.ai
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
생산력 AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상
AI 개인 웰니스 및 집중력 코치: 번아웃 관리 및 정신적 에너지 수준 향상

XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.

10 도구
xix.ai
챗봇 최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요
최고 평점을 받은 AI 로맨틱 챗봇: 일관된 성격으로 장기적인 관계를 구축하세요

진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.

10 도구
xix.ai
교육 및 학습 최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기
최고의 AI 데이터 과학 멘토들: SQL, Pandas 및 머신 러닝 워크플로우 마스터하기

2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.

10 도구
xix.ai
챗봇 최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요
최고의 AI 유혹 및 대화 트레이너: 실시간으로 사회적 매력과 자신감을 높여보세요

XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.

10 도구
xix.ai
의견 (4)
0/500
GeorgeWilliams
GeorgeWilliams 2025년 8월 14일 오후 10시 0분 59초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.

KennethMartin
KennethMartin 2025년 8월 12일 오후 8시 0분 59초 GMT+09:00

I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.

LarryWilliams
LarryWilliams 2025년 8월 4일 오후 3시 48분 52초 GMT+09:00

These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

ThomasBaker
ThomasBaker 2025년 7월 28일 오전 10시 20분 21초 GMT+09:00

It's wild how OpenAI's new models are so advanced yet still churn out more made-up stuff! 🤯 Kinda makes me wonder if we're getting closer to creative storytelling or just fancy errors.

OR