홍콩대학교(HKU)와 파트너 기관의 연구원들은 컴퓨터를 작동할 수 있는 AI 에이전트를 구축하기 위한 강력한 기반을 구축하는 혁신적인 오픈 소스 프레임워크인 OpenCUA를 개발했습니다. 이 포괄적인 툴킷은 전문 도구, 광범위한 교육 데이터세트, 검증된 방법론 등 컴퓨터 사용 에이전트(CUA) 개발을 확장하는 데 필수적인 구성 요소를 제공합니다.
초기 평가에 따르면 OpenCUA로 훈련된 모델은 다른 오픈 소스 솔루션에 비해 CUA 벤치마크에서 우수한 성능을 달성하는 동시에 OpenAI 및 Anthropic과 같은 업계 선도업체의 독점 시스템과도 경쟁할 수 있는 것으로 나타났습니다.
컴퓨터 사용 에이전트 개발의 복잡한 과제
컴퓨터 사용 에이전트는 간단한 웹 탐색부터 복잡한 소프트웨어 작동에 이르기까지 다양한 디지털 작업을 자율적으로 실행하도록 설계된 혁신적인 AI 클래스입니다. 이러한 지능형 시스템은 기업 워크플로 자동화를 위한 엄청난 잠재력을 가지고 있지만, 대부분의 고급 CUA는 여전히 독점적인 블랙박스에 머물러 있습니다.
연구팀은 "상용 CUA의 투명성 부족은 기술 발전을 제한하고 중요한 안전 고려 사항을 제기합니다."라고 발표 논문에서 지적합니다. "과학계는 기능, 한계, 잠재적 위험을 제대로 조사하기 위해 진정한 개방형 프레임워크가 필요합니다."
현재 오픈소스 이니셔티브는 다음과 같은 중대한 장애물에 직면해 있습니다:
대규모의 다양한 데이터 수집을 위한 인프라 부족
양질의 GUI 상호작용 데이터 세트의 제한된 가용성
불충분한 문서화로 인한 연구 재현의 어려움
논문에서는 다음과 같이 설명합니다: "이러한 제약은 종합적으로 범용 CUA의 발전을 저해하고 확장성, 일반화 능력, 최적의 학습 접근 방식에 대한 포괄적인 탐색을 방해합니다."
OpenCUA 프레임워크 소개
*OpenCUA 아키텍처 개요(출처: 홍콩과기대 XLANG Lab)*
OpenCUA 프레임워크는 데이터 수집과 모델 훈련 문제를 모두 해결하는 통합 솔루션을 소개합니다. 핵심 구성 요소는 여러 운영 체제에서 인간과 컴퓨터의 상세한 상호작용을 포착하는 전문 소프트웨어인 에이전트넷 툴입니다.
*에이전트넷 데이터 수집 도구(출처: 홍콩과기대 XLang Lab)*
이 혁신적인 도구는 백그라운드에서 개별적으로 작동하며 녹화합니다:
화면 활동 비디오
정확한 마우스/키보드 입력
화면 요소를 정의하는 접근성 트리 구조
연구원들은 이 원시 상호작용 데이터를 컴퓨터 스크린샷과 해당 사용자 동작을 짝짓는 정제된 '상태-행동 궤적'으로 처리했습니다. 그 결과 생성된 에이전트넷 데이터 세트는 200개 이상의 다양한 애플리케이션과 웹사이트가 포함된 Windows, macOS, Ubuntu 환경에서 22,600개 이상의 작업 데모로 구성되어 있습니다.
홍콩대학교 박사 과정 연구원이자 연구의 공동 저자인 신위안 왕은 철저한 개인정보 보호를 강조했습니다: "우리는 다계층 보안 프레임워크를 구현하여 주석 작성자가 제출물을 완벽하게 파악하고 제어할 수 있도록 한 다음, 데이터 공개 전에 수동 검증과 자동화된 민감한 콘텐츠 스캔을 실시했습니다."
혁신적인 교육 방법론
*OpenCUA의 연쇄 추론 프로세스(출처: 홍콩과기대 XLang Lab)*
이 프레임워크는 정리된 상태-행동 쌍과 구조화된 사고 연쇄 추론을 결합한 새로운 데이터 처리 파이프라인을 도입합니다. 이 접근 방식은 각 동작을 구성하는 세부적인 '인지적 독백'을 생성합니다:
높은 수준의 화면 관찰
전략적 분석 및 계획
정확한 실행 지침
왕에 따르면 기업은 내부 워크플로우를 기록하고 동일한 추론 프레임워크를 적용하여 이 파이프라인을 조정하여 독점 시스템을 위한 전문 에이전트를 훈련할 수 있습니다. "이를 통해 조직은 수동으로 추론 추적을 생성하지 않고도 고성능의 맞춤형 에이전트를 개발할 수 있습니다."라고 그는 설명합니다.
성능 및 엔터프라이즈 애플리케이션 벤치마크
*OpenCUA 성능 비교(출처: 홍콩과기대 XLANG Lab)*
320억 개의 매개변수로 구성된 OpenCUA 모델은 OSWorld에서 검증한 벤치마크에서 오픈 소스 솔루션 중 기록적인 성능을 달성하는 동시에 주요 독점 시스템과의 격차를 크게 좁혔습니다. 기업에서 주목해야 할 주요 사항은 다음과 같습니다:
다양한 모델 아키텍처 및 규모에 걸친 프레임워크 적용 가능성
플랫폼 및 작업 유형 전반에 걸친 강력한 일반화
반복적인 워크플로우 자동화를 위한 탁월한 효율성
왕은 구현 과제를 강조했습니다: "실제 배포에는 작업 실행 중 의도하지 않은 시스템 수정이나 유해한 부작용을 방지하기 위한 강력한 안전 메커니즘이 필요합니다."
연구팀은 소스 코드, 데이터 세트, 모델 가중치를 포함한 모든 프레임워크 구성 요소를 공개적으로 공개했습니다. OpenCUA 기반 에이전트가 발전함에 따라 인간 작업자는 전략적 목표에 집중하고 AI가 작업 실행을 처리함으로써 업무 환경의 역학 관계를 근본적으로 변화시킬 수 있습니다.
멀티버스 컴퓨팅, 무료 압축 생성형 AI 모델 출시대규모 언어 모델은 상당한 과제에 직면해 있습니다: 바로 그 방대한 규모입니다. 스페인 스타트업 멀티버스 컴퓨팅(Multiverse Computing)은 최첨단 AI의 성능과 기업이 실질적으로 도입할 수 있는 수준 사이의 격차를 해소하기 위해 설계된 압축 모델을 개발함으로써 이 문제를 해결하고 있습니다.핵심 혁신은 양자 컴퓨팅 원리에서 영감을 받은 압축 기
비밀 추적 데이터, AI 모델 도용 사건 폭로새로운 방법은 재훈련 없이도 ChatGPT와 같은 모델에 몇 초 만에 보이지 않는 워터마크를 적용할 수 있으며, 표준 출력물에 흔적을 남기지 않고 모든 실질적인 제거 시도를 견딥니다. 워터마킹과 '저작권 유인(copyright-baiting)'의 핵심 차이점은 워터마크(가시적이든 숨겨진 것이든)는 일반적으로 이미지 데이터셋과 같은 컬렉션 전체에 걸쳐 나타나
인공지능 시스템, 터무니없는 과학 논문을 승인하도록 속아넘어갔다새로운 연구에 따르면, 인공지능 시스템이 이제 다른 인공지능 모델들이 진품으로 오인하는 사기성 과학 논문을 생성할 수 있게 되었다. 이러한 조작된 연구들은 기존에 효과적이었던 탐지 방법을 우회하며, 연구 생태계가 봇이 다른 봇을 속이는 악순환으로 붕괴될 위험성을 부각시키고 있다. 아이러니하게도 AI 혁신의 최전선에 있는 학술 연구 분야가 AI에 의해 촉발된
2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.
XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!
XIX.AI에서 2026년 최고의 AI 기반 개인 웰니스 및 집중력 코치들을 만나보세요. 저희가 엄선한 순위 목록에는 번아웃을 관리하고 정신적 에너지를 높여주는 최고 평점을 받은 혁신적인 도구들이 소개되어 있습니다. 실제 사용 후기를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 최고의 생산성과 웰빙을 향한 길을 열어보세요.
진정성 있는 장기적인 관계를 형성할 수 있는 2026년 최신 최고 평점 AI 로맨틱 챗봇을 만나보세요. 저희가 엄선한 이 목록에는 강력하고 일관된 캐릭터, 무료 및 유료 버전 비교, 실제 사용 후기가 담겨 있습니다. XIX.AI에서 나에게 딱 맞는 파트너를 찾아 오늘 바로 관계를 시작해 보세요.
2026년 최고의 AI 데이터 과학 멘토들을 만나 SQL, Pandas 및 머신러닝 워크플로우를 마스터하세요. XIX.AI에서 선별한 최고의 멘토들을 통해 강력하고 혁신적인 지도를 받아보세요. 무료 옵션과 유료 옵션을 실제 사례를 바탕으로 비교해 보세요. 오늘 바로 데이터 과학의 전문성을 확보하세요.
XIX.AI에서 2026년 최고의 AI 플러팅 및 대화 트레이너를 만나보세요. 엄선된 최고 평점의 제품들을 통해 실시간으로 사회적 매력과 자신감을 키울 수 있습니다. 무료와 유료 버전을 비교하고 매주 업데이트되는 순위를 확인하며, 꼭 사용해봐야 할 획기적인 도구들을 탐색해 보세요. 지금 바로 여러분의 사회적 경쟁력을 한 단계 높여보세요.
Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅
웹사이트를 방문하면 브라우저에 정보를 저장하거나 불러올 수 있으며, 대부분은 쿠키의 형태입니다. 이 정보는 사용자, 환경설정 또는 기기에 관한 것일 수 있으며, 사이트가 기대한 대로 작동하도록 하는 데 주로 사용됩니다. 이 정보가 직접적으로 사용자를 식별하지는 않지만, 더 개인화된 웹 환경을 제공할 수 있습니다. 당사는 사용자의 개인정보 보호 권리를 존중하기 때문에 일부 유형의 쿠키를 허용하지 않을 수 있습니다. 각 카테고리 제목을 클릭하면 자세히 알아보고 기본 설정을 변경할 수 있습니다. 그러나 일부 유형의 쿠키를 차단하면 사이트 이용 경험 및 제공 가능한 서비스에 영향을 줄 수 있습니다. 개인정보 취급방침성명
환경설정 관리
필수 쿠키
항상 활성화
이 쿠키는 웹사이트가 정상적으로 기능하는 데 필요하며, 우리 시스템에서 끌 수 없습니다. 이러한 쿠키는 일반적으로 개인정보 설정, 로그인 또는 양식 작성과 같은 서비스 요청에 해당하는 사용자 행동에 응답하여만 설정됩니다. 브라우저를 설정하여 이러한 쿠키를 차단하거나 경고할 수 있지만, 그 경우 사이트의 일부 기능이 작동하지 않을 수 있습니다. 이러한 쿠키는 개인 식별 정보를 저장하지 않습니다.