OpenAI, 100만 개 문맥 창을 지원하는 GPT-5.4 Pro 및 Thinking 모델 공개
요소OpenAI는 자사의 최신 파운데이셔널 모델인 GPT-5.4의 출시를 공식 발표했으며, 이를 현재까지 가장 강력하고 효율적인 전문가용 모델로 소개했습니다. AIbase에 따르면, 이번 시리즈는 차별화된 출시 전략을 따르고 있습니다. 표준 버전과 함께 OpenAI는 복잡한 논리에 특화된 추론 모델인 GPT-5.4Thinking과고성능 작업을 위해 설계된 GPT-5.4Pro를 선보였습니다.

기술 측면에서 GPT-5.4의 API 버전은 최대 100만 토큰의컨텍스트 윈도우를 지원하며, 이는 OpenAI가 지금까지 제공한 것 중 가장 큰 규모로, 상당한 업그레이드를 보여줍니다. 또한 이 모델은 토큰 효율성 면에서 눈에 띄는 향상을 이루어, 더 적은 리소스로 유사한 문제를 해결할 수 있게 되었습니다.
안전성과 정확성 측면에서, 이 새로운 모델은 GPT-5.2 대비 문장당 오류율을 33% 감소시켰으며, 전체 응답 오류율을 18% 줄였습니다. 추론 모델에서 발생할 수 있는 '사고 연쇄 기만(chain-of-thought deception)' 위험을 완화하기 위해, OpenAI는 새로운 보안 평가 시스템을 도입했습니다. 테스트 결과, GPT-5.4Thinking은 더 높은 투명성을 제공하여 추론 단계를 숨기거나 조작하기 어렵게 만드는 것으로 나타났습니다.
벤치마크 평가에서 GPT-5.4는 강력한 성과를 보여주며, OSWorld-Verified 및 WebArena Verified와 같은 컴퓨터 사용 테스트에서 신기록을 세웠을 뿐만 아니라, GDPval 지식 과제에서도 인상적인 83%의 점수를 달성했습니다.
Mercor의 브렌던 푸디(Brendan Foody) CEO는 이 모델이 금융 및 법률과 같은 전문 분야에서의 APEX-Agents 벤치마크에서도 선두를 달리고 있으며, 특히 금융 모델 생성, 법률 분석 및 기타 장문 결과물 생성에서 뛰어난 성능을 보인다고 언급했다. 새로운 "도구 검색" 시스템을 통해 이 모델은 외부 도구를 호출할 때 더 효율적이 되어, 대규모 도구 통합 시나리오에서 토큰 오버헤드를 획기적으로 줄였다.
관련 기사
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격
관련 특별 주제 추천
의견 (0)
0/500

기술 측면에서
안전성과 정확성 측면에서, 이 새로운 모델은 GPT-5.2 대비 문장당 오류율을 33% 감소시켰으며, 전체 응답 오류율을 18% 줄였습니다. 추론 모델에서 발생할 수 있는 '사고 연쇄 기만(chain-of-thought deception)' 위험을 완화하기 위해,
벤치마크 평가에서
Mercor의 브렌던 푸디(Brendan Foody) CEO는 이 모델이 금융 및 법률과 같은 전문 분야에서의
Anthropic의 실험용 AI ‘클로드(Claude)’가 전자상거래 테스트에서 협상과 거래를 성공적으로 완료했다
인공지능이 급속도로 발전하는 가운데, 앤트로픽(Anthropic)은 지난 금요일 ‘프로젝트 딜(Project Deal)’이라는 내부 실험을 조용히 시작하며 전자상거래 분야에서 AI의 잠재력을 선보였다. 이 실험에서는 AI 모델 ‘클로드(Claude)’가 실제 금융 거래가 이루어지는 폐쇄형 시장 환경 내에서 구매, 판매, 가격 협상을 자율적으로 수행했다.실험
DeepSeek Code, 출시를 앞두고 있다
AI 기술이 가속화됨에 따라 DeepSeek은 흥미진진한 전환점을 맞이하고 있습니다. 이 AI 기업은 최근 700억 위안 이상의 자금을 조달했다고 밝혔습니다. 경영진은 단기적인 상업적 이익보다 획기적인 AI 연구에 전념하겠다는 의지를 강조했습니다. 이러한 전략적 전환은 DeepSeek이 새로운 제품, 특히 많은 기대를 모으고 있는 ‘DeepSeek Code
머스크의 ‘그록(Grok)’: 1조 5천억 개의 파라미터와 커서 코드 통합—게임 체인저인가, 허세인가?
일론 머스크가 드디어 움직이기 시작했다.AI 프로그래밍 경쟁에서 OpenAI와 Anthropic은 속도를 내고 있는 반면, xAI는 뒤처지는 듯하다. 머스크는 클로드(Claude)에 대항하겠다는 목표를 수차례 밝혔으나, Grok4.X 시리즈에 대한 여러 차례의 업데이트에도 불구하고 결과는 이론상으로는 좋아 보이지만 실제 적용에서는 기대에 미치지 못하며, 격





집






