Pesquisadores da Universidade de Hong Kong (HKU) e de instituições parceiras desenvolveram uma estrutura inovadora de código aberto chamada OpenCUA, que estabelece bases sólidas para a criação de agentes de IA capazes de operar computadores. Esse kit de ferramentas abrangente fornece componentes essenciais para o desenvolvimento de agentes de uso de computador (CUA) em escala, incluindo ferramentas especializadas, conjuntos de dados de treinamento extensivos e metodologias comprovadas.
As avaliações iniciais demonstram que os modelos treinados com o OpenCUA alcançam um desempenho superior em benchmarks de CUA em comparação com outras soluções de código aberto, ao mesmo tempo em que rivalizam com sistemas proprietários de líderes do setor, como OpenAI e Anthropic.
O complexo desafio de desenvolver agentes de uso de computador
Os agentes de uso de computador representam uma classe transformadora de IA projetada para executar de forma autônoma tarefas digitais que vão desde a simples navegação na Web até a complexa operação de software. Esses sistemas inteligentes têm um enorme potencial para a automação do fluxo de trabalho empresarial, mas a maioria dos CUAs avançados continua sendo uma caixa preta proprietária.
"A falta de transparência nas CUAs comerciais restringe o progresso técnico e levanta importantes considerações de segurança", observa a equipe de pesquisa em seu trabalho publicado. "A comunidade científica precisa de estruturas realmente abertas para investigar adequadamente os recursos, as limitações e os possíveis riscos."
As iniciativas atuais de código aberto enfrentam obstáculos significativos, incluindo:
Infraestrutura insuficiente para coleta de dados diversos e em larga escala
Disponibilidade limitada de conjuntos de dados de interação de GUI de qualidade
Documentação inadequada que dificulta a reprodução da pesquisa
Como explica o documento: "Essas restrições impedem coletivamente o avanço das CUAs de uso geral e impedem a exploração abrangente de sua escalabilidade, capacidade de generalização e abordagens de aprendizado ideais."
Apresentando a estrutura do OpenCUA
*Visão geral da arquitetura do OpenCUA (Fonte: Laboratório XLANG da HKU)
A estrutura do OpenCUA apresenta uma solução integrada que aborda os desafios da coleta de dados e do treinamento de modelos. Seu principal componente é a ferramenta AgentNet, um software especializado que captura interações homem-computador detalhadas em vários sistemas operacionais.
*Ferramenta de coleta de dados AgentNet (Fonte: XLang Lab na HKU)
Essa ferramenta inovadora opera discretamente em segundo plano, registrando:
Vídeos de atividades na tela
Entradas precisas de mouse/teclado
Estruturas de árvore de acessibilidade que definem elementos na tela
Os pesquisadores processaram esses dados brutos de interação em "trajetórias de estado-ação" refinadas que combinam capturas de tela do computador com as ações correspondentes do usuário. O conjunto de dados AgentNet resultante compreende mais de 22.600 demonstrações de tarefas que abrangem ambientes Windows, macOS e Ubuntu com mais de 200 aplicativos e sites diferentes.
Xinyuan Wang, pesquisador de doutorado da HKU e coautor do estudo, enfatizou suas rigorosas proteções de privacidade: "Implementamos uma estrutura de segurança em várias camadas que permite aos anotadores total visibilidade e controle sobre seus envios, seguida de verificação manual e varredura automatizada de conteúdo sensível antes da liberação dos dados."
Metodologia de treinamento inovadora
*Processo de raciocínio de cadeia de pensamento do OpenCUA (Fonte: XLang Lab na HKU)
A estrutura apresenta um novo pipeline de processamento de dados que combina pares estado-ação limpos com raciocínio estruturado de cadeia de pensamento. Essa abordagem gera "monólogos cognitivos" detalhados para cada ação que compreende:
Observações de alto nível da tela
Análise e planejamento estratégicos
Instruções executáveis precisas
De acordo com Wang, as empresas podem adaptar esse pipeline para treinar agentes especializados para sistemas proprietários, registrando fluxos de trabalho internos e aplicando a mesma estrutura de raciocínio. "Isso permite que as organizações desenvolvam agentes personalizados de alto desempenho sem a criação manual de rastreamento de raciocínio", explicou.
Desempenho de benchmark e aplicativos corporativos
*Comparações de desempenho do OpenCUA (Fonte: Laboratório XLANG da HKU)
O modelo OpenCUA de 32 bilhões de parâmetros alcançou um desempenho recorde entre as soluções de código aberto nos benchmarks OSWorld-Verified e, ao mesmo tempo, reduziu significativamente a diferença em relação aos principais sistemas proprietários. As principais conclusões da empresa incluem:
Aplicabilidade da estrutura em diversas arquiteturas e escalas de modelos
Forte generalização entre plataformas e tipos de tarefas
Eficácia especial para automatizar fluxos de trabalho repetitivos
Wang destacou os desafios da implementação: "A implementação no mundo real exige mecanismos de segurança robustos para evitar modificações não intencionais no sistema ou efeitos colaterais prejudiciais durante a execução da tarefa."
A equipe de pesquisa liberou abertamente todos os componentes da estrutura, inclusive o código-fonte, os conjuntos de dados e os pesos do modelo. À medida que os agentes orientados pelo OpenCUA avançam, eles podem transformar fundamentalmente a dinâmica do local de trabalho, permitindo que os trabalhadores humanos se concentrem em objetivos estratégicos enquanto a IA lida com a execução operacional.
Dados secretos de rastreamento expõem roubo de modelos de IAUm novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo
Sistemas de IA enganados para aprovar artigos científicos absurdosUma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m
Descubra os melhores assistentes de IA de 2026 para criar histórias épicas de xianxia e wuxia. A lista selecionada pela XIX.AI apresenta ferramentas de primeira linha e revolucionárias para dominar a progressão no caminho do cultivo e a coreografia de artes marciais. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a escrever hoje mesmo!
Descubra os melhores ferramentas de programação para aplicativos móveis com IA em 2026 para Flutter e React Native. Nossa lista selecionada e altamente avaliada apresenta soluções poderosas que revolucionam o processo de desenvolvimento, gerando código multiplataforma a partir de instruções simples. Compare opções gratuitas e pagas com testes reais. Acelere seu desenvolvimento e crie aplicativos melhores. Explore as classificações no XIX.AI agora mesmo!
Descubra as melhores extensões do Chrome com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta as ferramentas mais bem avaliadas e imperdíveis, que permitem criar complementos personalizados para o navegador sem precisar programar. Compare as opções gratuitas com as pagas, confira testes práticos e aumente sua produtividade. Explore os rankings mais recentes e encontre a ferramenta perfeita para você hoje mesmo!
Descubra os melhores ferramentas de TTS multilíngues de IA de 2026 para obter falas com sotaques nativos autênticos em mais de 50 idiomas. Conheça nossas classificações selecionadas, com comparações entre versões gratuitas e pagas, além de testes reais. Encontre a ferramenta de voz perfeita para você no XIX.AI e desfrute da comunicação global já hoje.
Descubra as mais recentes e bem avaliadas ferramentas de automação de reuniões por IA de 2026 para uma colaboração mais inteligente e rápida. Nossa lista selecionada apresenta soluções poderosas que podem transformar a forma como você organiza notas, resumos e tarefas. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Aumente a produtividade da sua equipe. Explore as melhores escolhas agora em XIX.AI.
Descubra os prompts de IA mais bem avaliados de 2026 para Infraestrutura como Código. A seleção cuidadosamente escolhida pela XIX.AI ajuda você a implantar com segurança configurações do Terraform e do Docker, automatizar configurações na nuvem e aumentar a produtividade do DevOps. Compare as opções gratuitas com as pagas por meio de testes práticos. Explore agora e descubra o seu diferencial em IA.
Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅
Ao clicar em "Aceitar todos os cookies", você concorda com o armazenamento de cookies em seu dispositivo para melhorar a navegação no site, analisar o uso do site e auxiliar em nossos esforços de marketing.Política de Privacidade Aviso
Ao visitar qualquer site, ele pode armazenar ou recuperar informações em seu navegador, principalmente na forma de cookies. Essas informações podem ser sobre você, suas preferências ou seu dispositivo e são usadas principalmente para fazer com que o site funcione conforme esperado. As informações geralmente não identificam você diretamente, mas podem proporcionar uma experiência web mais personalizada. Como respeitamos seu direito à privacidade, você pode optar por não permitir alguns tipos de cookies. Clique nos diferentes títulos de categoria para saber mais e alterar nossas configurações padrão. No entanto, bloquear alguns tipos de cookies pode afetar sua experiência no site e os serviços que podemos oferecer. Política de PrivacidadeDeclaração
Gerenciar preferências
Cookie estritamente necessário
Sempre ativado
Esses cookies são necessários para o funcionamento do site e não podem ser desativados em nossos sistemas. Eles geralmente são definidos apenas em resposta a ações que você realiza, que equivalem a uma solicitação de serviços, como configurar suas preferências de privacidade, fazer login ou preencher formulários. Você pode configurar seu navegador para bloquear esses cookies ou alertá-lo sobre eles, mas algumas partes do site não funcionarão depois. Esses cookies não armazenam nenhuma informação que permita identificar pessoalmente.