opção
Lar
Notícias
Os agentes de IA de código aberto da OpenCUA desafiam os modelos proprietários da OpenAI e da Anthropic

Os agentes de IA de código aberto da OpenCUA desafiam os modelos proprietários da OpenAI e da Anthropic

4 de Novembro de 2025
64

Pesquisadores da Universidade de Hong Kong (HKU) e de instituições parceiras desenvolveram uma estrutura inovadora de código aberto chamada OpenCUA, que estabelece bases sólidas para a criação de agentes de IA capazes de operar computadores. Esse kit de ferramentas abrangente fornece componentes essenciais para o desenvolvimento de agentes de uso de computador (CUA) em escala, incluindo ferramentas especializadas, conjuntos de dados de treinamento extensivos e metodologias comprovadas.

As avaliações iniciais demonstram que os modelos treinados com o OpenCUA alcançam um desempenho superior em benchmarks de CUA em comparação com outras soluções de código aberto, ao mesmo tempo em que rivalizam com sistemas proprietários de líderes do setor, como OpenAI e Anthropic.

O complexo desafio de desenvolver agentes de uso de computador

Os agentes de uso de computador representam uma classe transformadora de IA projetada para executar de forma autônoma tarefas digitais que vão desde a simples navegação na Web até a complexa operação de software. Esses sistemas inteligentes têm um enorme potencial para a automação do fluxo de trabalho empresarial, mas a maioria dos CUAs avançados continua sendo uma caixa preta proprietária.

"A falta de transparência nas CUAs comerciais restringe o progresso técnico e levanta importantes considerações de segurança", observa a equipe de pesquisa em seu trabalho publicado. "A comunidade científica precisa de estruturas realmente abertas para investigar adequadamente os recursos, as limitações e os possíveis riscos."

As iniciativas atuais de código aberto enfrentam obstáculos significativos, incluindo:

  • Infraestrutura insuficiente para coleta de dados diversos e em larga escala
  • Disponibilidade limitada de conjuntos de dados de interação de GUI de qualidade
  • Documentação inadequada que dificulta a reprodução da pesquisa

Como explica o documento: "Essas restrições impedem coletivamente o avanço das CUAs de uso geral e impedem a exploração abrangente de sua escalabilidade, capacidade de generalização e abordagens de aprendizado ideais."

Apresentando a estrutura do OpenCUA

*Visão geral da arquitetura do OpenCUA (Fonte: Laboratório XLANG da HKU)

A estrutura do OpenCUA apresenta uma solução integrada que aborda os desafios da coleta de dados e do treinamento de modelos. Seu principal componente é a ferramenta AgentNet, um software especializado que captura interações homem-computador detalhadas em vários sistemas operacionais.

*Ferramenta de coleta de dados AgentNet (Fonte: XLang Lab na HKU)

Essa ferramenta inovadora opera discretamente em segundo plano, registrando:

  • Vídeos de atividades na tela
  • Entradas precisas de mouse/teclado
  • Estruturas de árvore de acessibilidade que definem elementos na tela

Os pesquisadores processaram esses dados brutos de interação em "trajetórias de estado-ação" refinadas que combinam capturas de tela do computador com as ações correspondentes do usuário. O conjunto de dados AgentNet resultante compreende mais de 22.600 demonstrações de tarefas que abrangem ambientes Windows, macOS e Ubuntu com mais de 200 aplicativos e sites diferentes.

Xinyuan Wang, pesquisador de doutorado da HKU e coautor do estudo, enfatizou suas rigorosas proteções de privacidade: "Implementamos uma estrutura de segurança em várias camadas que permite aos anotadores total visibilidade e controle sobre seus envios, seguida de verificação manual e varredura automatizada de conteúdo sensível antes da liberação dos dados."

Metodologia de treinamento inovadora

*Processo de raciocínio de cadeia de pensamento do OpenCUA (Fonte: XLang Lab na HKU)

A estrutura apresenta um novo pipeline de processamento de dados que combina pares estado-ação limpos com raciocínio estruturado de cadeia de pensamento. Essa abordagem gera "monólogos cognitivos" detalhados para cada ação que compreende:

  1. Observações de alto nível da tela
  2. Análise e planejamento estratégicos
  3. Instruções executáveis precisas

De acordo com Wang, as empresas podem adaptar esse pipeline para treinar agentes especializados para sistemas proprietários, registrando fluxos de trabalho internos e aplicando a mesma estrutura de raciocínio. "Isso permite que as organizações desenvolvam agentes personalizados de alto desempenho sem a criação manual de rastreamento de raciocínio", explicou.

Desempenho de benchmark e aplicativos corporativos

*Comparações de desempenho do OpenCUA (Fonte: Laboratório XLANG da HKU)

O modelo OpenCUA de 32 bilhões de parâmetros alcançou um desempenho recorde entre as soluções de código aberto nos benchmarks OSWorld-Verified e, ao mesmo tempo, reduziu significativamente a diferença em relação aos principais sistemas proprietários. As principais conclusões da empresa incluem:

  • Aplicabilidade da estrutura em diversas arquiteturas e escalas de modelos
  • Forte generalização entre plataformas e tipos de tarefas
  • Eficácia especial para automatizar fluxos de trabalho repetitivos

Wang destacou os desafios da implementação: "A implementação no mundo real exige mecanismos de segurança robustos para evitar modificações não intencionais no sistema ou efeitos colaterais prejudiciais durante a execução da tarefa."

A equipe de pesquisa liberou abertamente todos os componentes da estrutura, inclusive o código-fonte, os conjuntos de dados e os pesos do modelo. À medida que os agentes orientados pelo OpenCUA avançam, eles podem transformar fundamentalmente a dinâmica do local de trabalho, permitindo que os trabalhadores humanos se concentrem em objetivos estratégicos enquanto a IA lida com a execução operacional.

Artigo relacionado
Multiverse Computing lança modelo gratuito de IA generativa compactada Multiverse Computing lança modelo gratuito de IA generativa compactada Os grandes modelos de linguagem enfrentam um desafio significativo: seu tamanho imenso. A startup espanhola Multiverse Computing está enfrentando esse problema com a criação de modelos compactados, pr
Dados secretos de rastreamento expõem roubo de modelos de IA Dados secretos de rastreamento expõem roubo de modelos de IA Um novo método pode marcar invisivelmente modelos como o ChatGPT em segundos, sem necessidade de retreinamento, sem deixar rastros nas saídas padrão e resistindo a todas as tentativas práticas de remo
Sistemas de IA enganados para aprovar artigos científicos absurdos Sistemas de IA enganados para aprovar artigos científicos absurdos Uma nova pesquisa revela que os sistemas de IA agora podem produzir artigos científicos fraudulentos que outros modelos de IA aceitam erroneamente como autênticos. Esses estudos fabricados contornam m
Recomendações de tópicos especiais relacionados
escrita Os melhores assistentes de IA para Xianxia e Wuxia: crie histórias épicas de evolução no caminho do cultivo e coreografias de artes marciais
Os melhores assistentes de IA para Xianxia e Wuxia: crie histórias épicas de evolução no caminho do cultivo e coreografias de artes marciais

Descubra os melhores assistentes de IA de 2026 para criar histórias épicas de xianxia e wuxia. A lista selecionada pela XIX.AI apresenta ferramentas de primeira linha e revolucionárias para dominar a progressão no caminho do cultivo e a coreografia de artes marciais. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a escrever hoje mesmo!

10 ferramentas
xix.ai
código Ferramentas de Codificação para Aplicativos Móveis com IA: Gere código multiplataforma Flutter e React Native a partir de prompts.
Ferramentas de Codificação para Aplicativos Móveis com IA: Gere código multiplataforma Flutter e React Native a partir de prompts.

Descubra os melhores ferramentas de programação para aplicativos móveis com IA em 2026 para Flutter e React Native. Nossa lista selecionada e altamente avaliada apresenta soluções poderosas que revolucionam o processo de desenvolvimento, gerando código multiplataforma a partir de instruções simples. Compare opções gratuitas e pagas com testes reais. Acelere seu desenvolvimento e crie aplicativos melhores. Explore as classificações no XIX.AI agora mesmo!

10 ferramentas
xix.ai
código Os melhores geradores de extensões do Chrome com IA: crie complementos personalizados para o navegador sem precisar saber programar
Os melhores geradores de extensões do Chrome com IA: crie complementos personalizados para o navegador sem precisar saber programar

Descubra as melhores extensões do Chrome com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta as ferramentas mais bem avaliadas e imperdíveis, que permitem criar complementos personalizados para o navegador sem precisar programar. Compare as opções gratuitas com as pagas, confira testes práticos e aumente sua produtividade. Explore os rankings mais recentes e encontre a ferramenta perfeita para você hoje mesmo!

10 ferramentas
xix.ai
Conversão de texto para fala Melhor Tecnologia de Voz Artificial Multilíngue: Geração de Falas Autênticas com Sotaque Nativo em Mais de 50 Línguas
Melhor Tecnologia de Voz Artificial Multilíngue: Geração de Falas Autênticas com Sotaque Nativo em Mais de 50 Línguas

Descubra os melhores ferramentas de TTS multilíngues de IA de 2026 para obter falas com sotaques nativos autênticos em mais de 50 idiomas. Conheça nossas classificações selecionadas, com comparações entre versões gratuitas e pagas, além de testes reais. Encontre a ferramenta de voz perfeita para você no XIX.AI e desfrute da comunicação global já hoje.

10 ferramentas
xix.ai
Assistente de Reunião Os melhores ferramentas de automação de reuniões com inteligência artificial para uma colaboração mais inteligente e rápida
Os melhores ferramentas de automação de reuniões com inteligência artificial para uma colaboração mais inteligente e rápida

Descubra as mais recentes e bem avaliadas ferramentas de automação de reuniões por IA de 2026 para uma colaboração mais inteligente e rápida. Nossa lista selecionada apresenta soluções poderosas que podem transformar a forma como você organiza notas, resumos e tarefas. Compare opções gratuitas e pagas com testes reais e rankings atualizados semanalmente. Aumente a produtividade da sua equipe. Explore as melhores escolhas agora em XIX.AI.

10 ferramentas
xix.ai
Incitar Sugestões de IA para Infraestrutura como Código: Implemente configurações do Terraform e do Docker com segurança
Sugestões de IA para Infraestrutura como Código: Implemente configurações do Terraform e do Docker com segurança

Descubra os prompts de IA mais bem avaliados de 2026 para Infraestrutura como Código. A seleção cuidadosamente escolhida pela XIX.AI ajuda você a implantar com segurança configurações do Terraform e do Docker, automatizar configurações na nuvem e aumentar a produtividade do DevOps. Compare as opções gratuitas com as pagas por meio de testes práticos. Explore agora e descubra o seu diferencial em IA.

10 ferramentas
xix.ai
Comentários (1)
0/500
JuanJackson
JuanJackson 19 de Março de 2026 à17 00:01:17 WET

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

OR