새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.
환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.
OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.
이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.
OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.
OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.
비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.
“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.
Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.
스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.
환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.
웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.
추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.
“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.
AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.
관련 기사
AI 연구자의 영주권 거부가 미국 인재 유지에 대한 우려를 불러일으키다
캐나다 출신의 OpenAI 소속 AI 전문가 카이 첸(Kai Chen)이 12년간 미국에 거주했음에도 불구하고 영주권을 거부당했다고, 같은 회사의 저명한 연구 과학자인 노암 브라운(Noam Brown)이 밝혔다. 브라운은 X에 올린 게시물에서 첸이 금요일에 이 결정을 통보받았으며, 곧 미국을 떠나야 한다고 전했다.“내가 함께 일했던 최고의 AI 연구자 중
워싱턴 포스트, OpenAI와 파트너십 체결로 ChatGPT를 통한 뉴스 접근성 강화
The Washington Post와 OpenAI는 Washington Post 보도자료에 따르면 “신뢰할 수 있는 뉴스에 대한 접근성을 확대하기 위해 ChatGPT를 통해 전략적 파트너십”을 공개했다.OpenAI는 News Corp, Business Insider 모회사인 The Associated Press, Axel Springer, Condé Nas
OpenAI 비영리 뿌리 재확인, 주요 기업 개편 속에서
OpenAI는 주요 기업 개편을 진행하면서도 비영리 사명에 확고히 전념하며, 성장과 윤리적 AI 개발에 대한 헌신을 균형 있게 유지하고 있습니다.CEO Sam Altman은 회사의 비전을 설명하며, 재무 전략이 진화하고 있지만 OpenAI의 인공지능 일반(AGI)을 전 세계적 이익을 위해 발전시키겠다는 헌신은 변함없다고 강조했습니다.공개 성명에서 Altma
의견 (0)
0/200
OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.
환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.
OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.
이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.
OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.
OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.
비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.
“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.
Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.
스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.
환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.
웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.
추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.
“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.
AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.











