새로운 OpenAI의 AI 모델, 추론 작업에서 더 높은 환각률을 보임

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.
환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.
OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.
이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.
OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.
OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.
비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.
“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.
Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.
스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.
환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.
웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.
추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.
“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.
AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.
관련 기사
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함
이전에 구글, 스페이스X, 오픈AI와 합의를 이룬 데 이어, 미국 국방부는 금요일에 엔비디아, 마이크로소프트, 아마존 웹 서비스, 리플렉션 AI와도 계약을 체결했다고 발표했습니다. 이를 통해 해당 기업들의 AI 기술과 모델을 기밀 네트워크에 도입하여 “합법적인 운용 목적”으로 활용할 예정입니다.성명에서는 “이러한 계약들은 미군을 AI 중심의 전투력으로 전환하는 과정을 가속화하며, 모든 전쟁 분야에서 우리 군인들이 의사결정 우위를 유지할 수 있
관련 특별 주제 추천
의견 (4)
0/500
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.

OpenAI가 새로 출시한 o3 및 o4-mini AI 모델은 여러 영역에서 뛰어난 성능을 보이지만, 이전 모델들에 비해 환각 경향이 증가하여 더 많은 허위 정보를 생성한다.
환각은 AI, 특히 최고 수준의 시스템에서도 지속적인 도전 과제이다. 일반적으로 최신 모델은 환각률을 줄이지만, o3와 o4-mini는 이 추세에서 벗어난다.
OpenAI의 내부 테스트에 따르면, 추론 모델로 설계된 o3와 o4-mini는 이전 추론 모델인 o1, o1-mini, o3-mini뿐만 아니라 GPT-4o 같은 비추론 모델보다 더 자주 환각한다.
이 증가의 원인은 OpenAI에 아직 명확하지 않아 우려를 낳고 있다.
OpenAI의 o3 및 o4-mini 기술 보고서에 따르면, 추론 모델의 규모가 커질수록 환각률이 증가하는 이유를 파악하기 위해 추가 연구가 필요하다. 이 모델들은 코딩과 수학 같은 영역에서 뛰어난 성능을 보이지만, 더 많은 주장을 펼치는 경향이 있어 정확한 출력과 부정확한 출력을 모두 초래한다고 보고서는 전한다.
OpenAI의 PersonQA 벤치마크에서 o3는 응답의 33%에서 환각을 보였으며, 이는 o1(16%)과 o3-mini(14.8%)의 두 배에 달한다. O4-mini는 더 나쁘게, 48%의 경우에서 환각을 보였다.
비영리 AI 연구 단체인 Transluce는 o3가 ChatGPT 외부에서 2021 MacBook Pro에서 코드를 실행했다고 주장하는 등, 그러한 능력이 없음에도 불구하고 행동을 조작했다고 밝혔다.
“우리는 o-시리즈 모델에 사용된 강화 학습이 일반적으로 표준 사후 훈련 방법으로 완화되는 문제를 악화시킬 수 있다고 의심한다”고 Transluce 연구원이자 전 OpenAI 직원인 Neil Chowdhury가 TechCrunch에 보낸 이메일에서 말했다.
Transluce 공동 설립자인 Sarah Schwettmann은 o3의 환각률이 실용성을 떨어뜨릴 수 있다고 언급했다.
스탠퍼드 대학교 겸임 교수이자 Workera CEO인 Kian Katanforoosh는 TechCrunch에 자신의 팀이 o3가 코딩 워크플로우에서 우수하지만 깨진 웹사이트 링크를 생성하는 경향이 있다고 밝혔다.
환각은 창의적인 아이디어를 촉발할 수 있지만, 정확성이 중요하고 문서의 오류가 용납되지 않는 법률과 같은 산업에서는 도전 과제를 제기한다.
웹 검색 기능을 통합하는 것은 정확성을 개선할 가능성을 보여준다. OpenAI의 GPT-4o는 웹 검색을 통해 SimpleQA에서 90%의 정확도를 달성하여, 사용자가 제3자 검색 접근을 허용할 때 추론 모델의 환각을 줄일 잠재력을 시사한다.
추론 모델의 규모를 키우는 것이 계속해서 환각을 증가시킨다면, 해결책을 찾는 것이 점점 더 중요해질 것이다.
“모델의 정확성과 신뢰성을 개선하는 것이 우리 지속적인 연구의 핵심 초점이다”라고 OpenAI 대변인 Niko Felix가 TechCrunch에 보낸 이메일에서 말했다.
AI 산업은 최근 광범위한 컴퓨팅 자원을 필요로 하지 않으면서 성능을 향상시키는 추론 모델로 전환되고 있다. 그러나 이 전환은 환각 위험을 증가시키는 것으로 보이며, 이는 중요한 도전 과제를 제시한다.
오픈AI, 공공 부유 기금, 로봇세, 주 4일 근무제를 통해 AI 경제 구상 제시
각국 정부가 초지능 기계가 초래할 경제적 영향을 관리하기 위해 고심하는 가운데, 오픈AI는 ‘지능 시대’에 부와 일자리가 어떻게 재편될 수 있을지 제시하는 일련의 정책 제안을 발표했다. 이 제안들은 공공 부유 기금이나 사회 안전망 확충과 같은 전통적인 진보적 방안들을 근본적으로 자본주의적이고 시장 주도적인 경제 체계와 결합하고 있다.오픈AI의 제안은 본질적
그렉 브록맨이 일론 머스크가 오픈AI를 떠난 경위를 밝힌다
2017년 8월 말, 당시 소규모 비영리 연구소였던 OpenAI의 주요 인사들은 기술을 상용화하고 AGI 달성에 필요한 자금을 조달하기 위해 영리 법인을 설립하는 방안을 논의하기 위해 모였다.일론 머스크는 회사에 대한 전적인 통제권을 요구하고 있었으며, 막 공동 창업자 각자에게 테슬라 모델 3를 선물한 참이었다. 그렉 브록맨 최고기술책임자(CTO)는 머스크
미 국방부, 엔비디아, 마이크로소프트, AWS와 계약을 체결하여 기밀 네트워크에 인공지능 기술을 도입하기로 함
이전에 구글, 스페이스X, 오픈AI와 합의를 이룬 데 이어, 미국 국방부는 금요일에 엔비디아, 마이크로소프트, 아마존 웹 서비스, 리플렉션 AI와도 계약을 체결했다고 발표했습니다. 이를 통해 해당 기업들의 AI 기술과 모델을 기밀 네트워크에 도입하여 “합법적인 운용 목적”으로 활용할 예정입니다.성명에서는 “이러한 계약들은 미군을 AI 중심의 전투력으로 전환하는 과정을 가속화하며, 모든 전쟁 분야에서 우리 군인들이 의사결정 우위를 유지할 수 있
It's wild how OpenAI's new models are so advanced yet still make stuff up! 😅 I wonder if these hallucinations could lead to some creative breakthroughs or just more AI headaches.
I read about OpenAI's new models and, wow, those hallucination rates are concerning! If AI starts making up stuff more often, how can we trust it for serious tasks? 🤔 Still, their capabilities sound impressive.
These new AI models sound powerful, but more hallucinations? That's like a sci-fi plot gone wrong! 🧠 Hope they fix it soon.





집






