GPT-5.4, 자체 해킹 기능 공개… OSWorld, AI 혁신 분야에서 인간을 능가

경쟁사를 앞지르다: GPT-5.4, 네이티브 컴퓨터 제어 시대의 도래
2026년 3월, OpenAI는 GPT-5.4를 깜짝 공개하며 AI 에이전트 시장의 경쟁 구도를 근본적으로 재편했습니다. OpenAI 최초의 네이티브 컴퓨터 조작 기능을 갖춘 일반 모델인 GPT-5.4는 더 이상 외부 어댑터에 의존하지 않습니다. 대신 화면 캡처를 직접 해석하고, 마우스 클릭과 키보드 입력을 시뮬레이션하며, 마치 실제 사용자처럼 데스크톱 소프트웨어를 조작합니다.
실제 데스크톱 탐색 능력을 측정하는 OSWorld 검증 벤치마크에서 GPT-5.4의 성공률은 75.0%로 급증했습니다 . 참고로, 인간의 평균 기준치는 72.4%이며, 이전 세대인 GPT-5.2는 47.3%에 그쳤습니다. 이는 역사상 처음으로 AI의 컴퓨터 제어 능력이 일반 인간 사용자의 평균 수준을 넘어섰음을 의미합니다.
실제 환경 테스트: 전문가들을 위한 '디지털 더블'이 현실이 되다
현재 웹 버전과 Codex 플랫폼을 통해 이용할 수 있는 실세계 테스트 결과, GPT-5.4는 거의 모든 컴퓨터 작업을 처리할 수 있는 것으로 나타났습니다:
심층적인 애플리케이션 숙달: 캘린더 애플리케이션을 실행하고 알림 설정을 위해 자율적으로 권한을 요청할 수 있으며, "샤오유저우(Xiaoyuzhou)"와 같은 타사 앱을 정확하게 찾아 열어 특정 콘텐츠를 재생할 수 있습니다.
시스템 수준 접근: 사용자는 컴퓨터 배경화면을 직접 변경하도록 지시하거나 터미널 내에서 다양한 개발 도구를 능숙하게 활용할 수 있습니다.
네이티브 계산 논리: 단순한 답변 제공을 넘어, 시스템의 기본 계산기 애플리케이션 내에서 직접 시뮬레이션 연산을 수행합니다.
이러한 "네이티브한 느낌"은 AI가 "대화형 어시스턴트"에서 "실행 주체"로 진화했음을 의미합니다.
완벽한 조합: GPT-5.4, OpenClaw의 핵심 과제 해결
2026년 초에 폭발적인 인기를 끌며(스타 25만 개 돌파) 오픈소스 프로젝트인 OpenClaw가 마침내 "이상적인 모델"을 찾았습니다. OpenClaw의 핵심 철학은 "실제로 작동하는 AI"이며, GPT-5.4는 다음 네 가지 핵심 측면에서 완벽하게 부합합니다:
내장형 제어 정렬: GPT-5.4와 통합된 OpenClaw는 복잡한 우회 방법 없이 데스크톱 자동화를 실현하여 뚜렷한 성능 향상을 제공합니다.
100만 토큰 컨텍스트: 초장문 컨텍스트 창은 에이전트가 장시간 작업 중 겪는 "기억 상실" 문제를 해결하며, OpenClaw에 복잡한 파일 처리를 위한 방대한 "작업 공간"을 제공합니다.
도구 검색 비용 혁신: GPT-5.4의 온디맨드 사용 메커니즘은 토큰 소비를 47% 절감하여, 에이전트를 24시간 연중무휴로 실행하는 데 드는 API 비용을 획기적으로 줄입니다.
추론 능력의 도약: 전문 업무에서 GPT-5.4는 인간 전문가의 83%를 능가하며, OpenClaw가 단순한 "스크립트 실행기"에서 재무 분석 및 투자 메모를 처리할 수 있는 고위 전문가로 진화할 수 있도록 지원합니다.
업계 인사이트: 고숙련 직종을 위한 자동화 특이점이 도래했다
HyperWriteAI의 CEO 맷 슈머(Matt Shumer)는 GPT-5.4의 프로그래밍 능력을 "거의 완벽하다"고 평가했으며, Mercor AI의 CEO 브렌다(Brenda)는 이 모델이 최고의 컨설팅 회사, 투자 은행, 로펌에서 볼 수 있는 전문성을 곧 능가할 것이라고 믿습니다. 이는 한때 인간만의 고유한 영역으로 여겨져 대체 불가능하다고 생각되었던 역할들이 이제 AI 에이전트로부터 전면적인 도전을 받고 있음을 시사합니다.
관련 기사
Zhiyuan WITA, 첫 규정 준수 신고로 ‘나체’ 로봇 상호작용 종료
체화 지능 분야가 중요한 이정표를 달성했습니다. 상하이 사이버공간관리국의 최근 발표에 따르면, 지위안(Zhiyuan)이 개발한 WITA 대형 모델이 신고 절차를 성공적으로 완료하여, 국내 최초로 규정을 준수하며 배포된 체화 지능 상호작용 대형 모델이 되었습니다.이번 성과는 단순한 허가 취득을 넘어선 의미를 지닙니다. WITA의 핵심 목적은 휴머노이드 로봇이
인류학 연구에 따르면, 정교하게 다듬어진 AI 콘텐츠가 인간의 사고력 저하와 관련이 있는 것으로 나타났다
AI가 구조가 탄탄하고 논리적으로 명확한 코드나 문서를 순식간에 생성하는 모습을 보면, 별다른 의심 없이 그대로 믿고 싶어지시나요? AI 분야 선도 기업인 Anthropic은 최근 ‘AI 유창성 지수(AI Fluency Index)’라는 제목의 연구 보고서를 발표했습니다. 약 1만 건의 익명 클로드(Claude ) 대화 샘플을 분석한 결과, 이 연구는 우려
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
관련 특별 주제 추천
의견 (0)
0/500

경쟁사를 앞지르다: GPT-5.4, 네이티브 컴퓨터 제어 시대의 도래
2026년 3월, OpenAI는 GPT-5.4를 깜짝 공개하며 AI 에이전트 시장의 경쟁 구도를 근본적으로 재편했습니다. OpenAI 최초의 네이티브 컴퓨터 조작 기능을 갖춘 일반 모델인 GPT-5.4는 더 이상 외부 어댑터에 의존하지 않습니다. 대신 화면 캡처를 직접 해석하고, 마우스 클릭과 키보드 입력을 시뮬레이션하며, 마치 실제 사용자처럼 데스크톱 소프트웨어를 조작합니다.
실제 데스크톱 탐색 능력을 측정하는 OSWorld 검증 벤치마크에서 GPT-5.4의 성공률은 75.0%로 급증했습니다 . 참고로, 인간의 평균 기준치는 72.4%이며, 이전 세대인 GPT-5.2는 47.3%에 그쳤습니다. 이는 역사상 처음으로 AI의 컴퓨터 제어 능력이 일반 인간 사용자의 평균 수준을 넘어섰음을 의미합니다.
실제 환경 테스트: 전문가들을 위한 '디지털 더블'이 현실이 되다
현재 웹 버전과 Codex 플랫폼을 통해 이용할 수 있는 실세계 테스트 결과, GPT-5.4는 거의 모든 컴퓨터 작업을 처리할 수 있는 것으로 나타났습니다:
심층적인 애플리케이션 숙달: 캘린더 애플리케이션을 실행하고 알림 설정을 위해 자율적으로 권한을 요청할 수 있으며, "샤오유저우(Xiaoyuzhou)"와 같은 타사 앱을 정확하게 찾아 열어 특정 콘텐츠를 재생할 수 있습니다.
시스템 수준 접근: 사용자는 컴퓨터 배경화면을 직접 변경하도록 지시하거나 터미널 내에서 다양한 개발 도구를 능숙하게 활용할 수 있습니다.
네이티브 계산 논리: 단순한 답변 제공을 넘어, 시스템의 기본 계산기 애플리케이션 내에서 직접 시뮬레이션 연산을 수행합니다.
이러한 "네이티브한 느낌"은 AI가 "대화형 어시스턴트"에서 "실행 주체"로 진화했음을 의미합니다.
완벽한 조합: GPT-5.4, OpenClaw의 핵심 과제 해결
2026년 초에 폭발적인 인기를 끌며(스타 25만 개 돌파) 오픈소스 프로젝트인 OpenClaw가 마침내 "이상적인 모델"을 찾았습니다. OpenClaw의 핵심 철학은 "실제로 작동하는 AI"이며, GPT-5.4는 다음 네 가지 핵심 측면에서 완벽하게 부합합니다:
내장형 제어 정렬: GPT-5.4와 통합된 OpenClaw는 복잡한 우회 방법 없이 데스크톱 자동화를 실현하여 뚜렷한 성능 향상을 제공합니다.
100만 토큰 컨텍스트: 초장문 컨텍스트 창은 에이전트가 장시간 작업 중 겪는 "기억 상실" 문제를 해결하며, OpenClaw에 복잡한 파일 처리를 위한 방대한 "작업 공간"을 제공합니다.
도구 검색 비용 혁신: GPT-5.4의 온디맨드 사용 메커니즘은 토큰 소비를 47% 절감하여, 에이전트를 24시간 연중무휴로 실행하는 데 드는 API 비용을 획기적으로 줄입니다.
추론 능력의 도약: 전문 업무에서 GPT-5.4는 인간 전문가의 83%를 능가하며, OpenClaw가 단순한 "스크립트 실행기"에서 재무 분석 및 투자 메모를 처리할 수 있는 고위 전문가로 진화할 수 있도록 지원합니다.
업계 인사이트: 고숙련 직종을 위한 자동화 특이점이 도래했다
HyperWriteAI의 CEO 맷 슈머(Matt Shumer)는 GPT-5.4의 프로그래밍 능력을 "거의 완벽하다"고 평가했으며, Mercor AI의 CEO 브렌다(Brenda)는 이 모델이 최고의 컨설팅 회사, 투자 은행, 로펌에서 볼 수 있는 전문성을 곧 능가할 것이라고 믿습니다. 이는 한때 인간만의 고유한 영역으로 여겨져 대체 불가능하다고 생각되었던 역할들이 이제 AI 에이전트로부터 전면적인 도전을 받고 있음을 시사합니다.
Zhiyuan WITA, 첫 규정 준수 신고로 ‘나체’ 로봇 상호작용 종료
체화 지능 분야가 중요한 이정표를 달성했습니다. 상하이 사이버공간관리국의 최근 발표에 따르면, 지위안(Zhiyuan)이 개발한 WITA 대형 모델이 신고 절차를 성공적으로 완료하여, 국내 최초로 규정을 준수하며 배포된 체화 지능 상호작용 대형 모델이 되었습니다.이번 성과는 단순한 허가 취득을 넘어선 의미를 지닙니다. WITA의 핵심 목적은 휴머노이드 로봇이
인류학 연구에 따르면, 정교하게 다듬어진 AI 콘텐츠가 인간의 사고력 저하와 관련이 있는 것으로 나타났다
AI가 구조가 탄탄하고 논리적으로 명확한 코드나 문서를 순식간에 생성하는 모습을 보면, 별다른 의심 없이 그대로 믿고 싶어지시나요? AI 분야 선도 기업인 Anthropic은 최근 ‘AI 유창성 지수(AI Fluency Index)’라는 제목의 연구 보고서를 발표했습니다. 약 1만 건의 익명 클로드(Claude ) 대화 샘플을 분석한 결과, 이 연구는 우려
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓





집






