Os agentes de IA de código aberto da OpenCUA desafiam os modelos proprietários da OpenAI e da Anthropic

Lar

Notícias

4 de Novembro de 2025

ChristopherThomas

# LLMs

Pesquisadores da Universidade de Hong Kong (HKU) e de instituições parceiras desenvolveram uma estrutura inovadora de código aberto chamada OpenCUA, que estabelece bases sólidas para a criação de agentes de IA capazes de operar computadores. Esse kit de ferramentas abrangente fornece componentes essenciais para o desenvolvimento de agentes de uso de computador (CUA) em escala, incluindo ferramentas especializadas, conjuntos de dados de treinamento extensivos e metodologias comprovadas.
As avaliações iniciais demonstram que os modelos treinados com o OpenCUA alcançam um desempenho superior em benchmarks de CUA em comparação com outras soluções de código aberto, ao mesmo tempo em que rivalizam com sistemas proprietários de líderes do setor, como OpenAI e Anthropic.

O complexo desafio de desenvolver agentes de uso de computador

Os agentes de uso de computador representam uma classe transformadora de IA projetada para executar de forma autônoma tarefas digitais que vão desde a simples navegação na Web até a complexa operação de software. Esses sistemas inteligentes têm um enorme potencial para a automação do fluxo de trabalho empresarial, mas a maioria dos CUAs avançados continua sendo uma caixa preta proprietária.

"A falta de transparência nas CUAs comerciais restringe o progresso técnico e levanta importantes considerações de segurança", observa a equipe de pesquisa em seu trabalho publicado. "A comunidade científica precisa de estruturas realmente abertas para investigar adequadamente os recursos, as limitações e os possíveis riscos."

As iniciativas atuais de código aberto enfrentam obstáculos significativos, incluindo:

Infraestrutura insuficiente para coleta de dados diversos e em larga escala
Disponibilidade limitada de conjuntos de dados de interação de GUI de qualidade
Documentação inadequada que dificulta a reprodução da pesquisa

Como explica o documento: "Essas restrições impedem coletivamente o avanço das CUAs de uso geral e impedem a exploração abrangente de sua escalabilidade, capacidade de generalização e abordagens de aprendizado ideais."

Apresentando a estrutura do OpenCUA

*Visão geral da arquitetura do OpenCUA (Fonte: Laboratório XLANG da HKU)

A estrutura do OpenCUA apresenta uma solução integrada que aborda os desafios da coleta de dados e do treinamento de modelos. Seu principal componente é a ferramenta AgentNet, um software especializado que captura interações homem-computador detalhadas em vários sistemas operacionais.

*Ferramenta de coleta de dados AgentNet (Fonte: XLang Lab na HKU)

Essa ferramenta inovadora opera discretamente em segundo plano, registrando:

Vídeos de atividades na tela
Entradas precisas de mouse/teclado
Estruturas de árvore de acessibilidade que definem elementos na tela

Os pesquisadores processaram esses dados brutos de interação em "trajetórias de estado-ação" refinadas que combinam capturas de tela do computador com as ações correspondentes do usuário. O conjunto de dados AgentNet resultante compreende mais de 22.600 demonstrações de tarefas que abrangem ambientes Windows, macOS e Ubuntu com mais de 200 aplicativos e sites diferentes.

Xinyuan Wang, pesquisador de doutorado da HKU e coautor do estudo, enfatizou suas rigorosas proteções de privacidade: "Implementamos uma estrutura de segurança em várias camadas que permite aos anotadores total visibilidade e controle sobre seus envios, seguida de verificação manual e varredura automatizada de conteúdo sensível antes da liberação dos dados."

Metodologia de treinamento inovadora

*Processo de raciocínio de cadeia de pensamento do OpenCUA (Fonte: XLang Lab na HKU)

A estrutura apresenta um novo pipeline de processamento de dados que combina pares estado-ação limpos com raciocínio estruturado de cadeia de pensamento. Essa abordagem gera "monólogos cognitivos" detalhados para cada ação que compreende:

Observações de alto nível da tela
Análise e planejamento estratégicos
Instruções executáveis precisas

De acordo com Wang, as empresas podem adaptar esse pipeline para treinar agentes especializados para sistemas proprietários, registrando fluxos de trabalho internos e aplicando a mesma estrutura de raciocínio. "Isso permite que as organizações desenvolvam agentes personalizados de alto desempenho sem a criação manual de rastreamento de raciocínio", explicou.

Desempenho de benchmark e aplicativos corporativos

*Comparações de desempenho do OpenCUA (Fonte: Laboratório XLANG da HKU)

O modelo OpenCUA de 32 bilhões de parâmetros alcançou um desempenho recorde entre as soluções de código aberto nos benchmarks OSWorld-Verified e, ao mesmo tempo, reduziu significativamente a diferença em relação aos principais sistemas proprietários. As principais conclusões da empresa incluem:

Aplicabilidade da estrutura em diversas arquiteturas e escalas de modelos
Forte generalização entre plataformas e tipos de tarefas
Eficácia especial para automatizar fluxos de trabalho repetitivos

Wang destacou os desafios da implementação: "A implementação no mundo real exige mecanismos de segurança robustos para evitar modificações não intencionais no sistema ou efeitos colaterais prejudiciais durante a execução da tarefa."

A equipe de pesquisa liberou abertamente todos os componentes da estrutura, inclusive o código-fonte, os conjuntos de dados e os pesos do modelo. À medida que os agentes orientados pelo OpenCUA avançam, eles podem transformar fundamentalmente a dinâmica do local de trabalho, permitindo que os trabalhadores humanos se concentrem em objetivos estratégicos enquanto a IA lida com a execução operacional.

Artigo relacionado

Multiverse Computing lança modelo gratuito de IA generativa compactada Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr

Dados secretos de rastreamento expõem roubo de modelos de IA Um novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo

Sistemas de IA enganados para aprovar artigos científicos absurdos Uma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m

Recomendações de tópicos especiais relacionados

escrita

Os melhores assistentes de IA para Xianxia e Wuxia: crie histórias épicas de evolução no caminho do cultivo e coreografias de artes marciais

Descubra os melhores assistentes de IA de 2026 para criar histórias épicas de xianxia e wuxia. A lista selecionada pela XIX.AI apresenta ferramentas de primeira linha e revolucionárias para dominar a progressão no caminho do cultivo e a coreografia de artes marciais. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a escrever hoje mesmo!

10 ferramentas

xix.ai

código

Ferramentas de Codificação para Aplicativos Móveis com IA: Gere código multiplataforma Flutter e React Native a partir de prompts.

Descubra os melhores ferramentas de programação para aplicativos móveis com IA em 2026 para Flutter e React Native. Nossa lista selecionada e altamente avaliada apresenta soluções poderosas que revolucionam o processo de desenvolvimento, gerando código multiplataforma a partir de instruções simples. Compare opções gratuitas e pagas com testes reais. Acelere seu desenvolvimento e crie aplicativos melhores. Explore as classificações no XIX.AI agora mesmo!

10 ferramentas

xix.ai

código

Os melhores geradores de extensões do Chrome com IA: crie complementos personalizados para o navegador sem precisar saber programar

Descubra as melhores extensões do Chrome com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta as ferramentas mais bem avaliadas e imperdíveis, que permitem criar complementos personalizados para o navegador sem precisar programar. Compare as opções gratuitas com as pagas, confira testes práticos e aumente sua produtividade. Explore os rankings mais recentes e encontre a ferramenta perfeita para você hoje mesmo!

10 ferramentas

xix.ai

Conversão de texto para fala

Melhor Tecnologia de Voz Artificial Multilíngue: Geração de Falas Autênticas com Sotaque Nativo em Mais de 50 Línguas

Descubra os melhores ferramentas de TTS multilíngues de IA de 2026 para obter falas com sotaques nativos autênticos em mais de 50 idiomas. Conheça nossas classificações selecionadas, com comparações entre versões gratuitas e pagas, além de testes reais. Encontre a ferramenta de voz perfeita para você no XIX.AI e desfrute da comunicação global já hoje.

10 ferramentas

xix.ai

Assistente de Reunião

Os melhores ferramentas de automação de reuniões com inteligência artificial para uma colaboração mais inteligente e rápida

Descubra as mais recentes e bem avaliadas ferramentas de automação de reuniões por IA de 2026 para uma colaboração mais inteligente e rápida. Nossa lista selecionada apresenta soluções poderosas que podem transformar a forma como você organiza notas, resumos e tarefas. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Aumente a produtividade da sua equipe. Explore as melhores escolhas agora em XIX.AI.

10 ferramentas

xix.ai

Incitar

Sugestões de IA para Infraestrutura como Código: Implemente configurações do Terraform e do Docker com segurança

Descubra os prompts de IA mais bem avaliados de 2026 para Infraestrutura como Código. A seleção cuidadosamente escolhida pela XIX.AI ajuda você a implantar com segurança configurações do Terraform e do Docker, automatizar configurações na nuvem e aumentar a produtividade do DevOps. Compare as opções gratuitas com as pagas por meio de testes práticos. Explore agora e descubra o seu diferencial em IA.

10 ferramentas

xix.ai

Comentários (1)

0/500

Por favor, faça o login primeiro

JuanJackson

19 de Março de 2026 à17 00:01:17 WET

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

Principais notícias

AI Builder e Power Automate Revolucionam a Sumarização de Documentos Hosts de IA do podcast Notebooklm agora disponíveis para entrevistas China revela padrão nacional para robôs humanóides e inteligência incorporada Tutorial do Criador de Imagens do Bing: Guia de Geração de Arte por IA Platôs de adoção de IA corporativa, revelam dados da Ramp Aprenda a criar música de IA usando sua voz: um tutorial passo a passo do SUNO iMyFone MagicMic: Revisão e Tutorial de Mudança de Voz AI em Tempo Real Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como uma revolução na IA multimodal Capas de Música com IA: Guia Definitivo para Criar Músicas Únicas

Mais

Apresentou