Los agentes de IA de código abierto de OpenCUA desafían los modelos propietarios de OpenAI y Anthropic

Hogar

Noticias

4 de noviembre de 2025

ChristopherThomas

# LLMs

Investigadores de la Universidad de Hong Kong (HKU) e instituciones asociadas han desarrollado un innovador marco de código abierto denominado OpenCUA que sienta unas bases sólidas para construir agentes de IA capaces de manejar ordenadores. Este completo conjunto de herramientas proporciona componentes esenciales para ampliar el desarrollo de agentes de uso informático (CUA), incluidas herramientas especializadas, amplios conjuntos de datos de entrenamiento y metodologías probadas.
Las evaluaciones iniciales demuestran que los modelos entrenados con OpenCUA logran un rendimiento superior en las pruebas de referencia CUA en comparación con otras soluciones de código abierto, al tiempo que rivalizan con los sistemas patentados de líderes del sector como OpenAI y Anthropic.

El complejo reto de desarrollar agentes de uso informático

Los agentes de uso informático representan una clase transformadora de IA diseñada para ejecutar de forma autónoma tareas digitales que van desde la simple navegación web hasta el manejo de software complejo. Estos sistemas inteligentes encierran un enorme potencial para la automatización del flujo de trabajo empresarial, pero la mayoría de los CUA avanzados siguen siendo cajas negras patentadas.

"La falta de transparencia de las CUA comerciales restringe el progreso técnico y plantea importantes consideraciones de seguridad", señala el equipo de investigación en su trabajo publicado. "La comunidad científica requiere marcos verdaderamente abiertos para investigar adecuadamente las capacidades, limitaciones y riesgos potenciales".

Las actuales iniciativas de código abierto se enfrentan a importantes obstáculos, entre ellos

Infraestructura insuficiente para la recopilación de datos diversos a gran escala.
Disponibilidad limitada de conjuntos de datos de calidad sobre la interacción con la interfaz gráfica de usuario.
Documentación inadecuada que dificulta la reproducción de la investigación.

Como explica el documento: "Estas limitaciones impiden colectivamente el avance en CUA de propósito general e impiden la exploración exhaustiva de su escalabilidad, capacidad de generalización y enfoques de aprendizaje óptimos."

Presentación del marco OpenCUA

*Visión general de la arquitectura de OpenCUA (Fuente: XLANG Lab at HKU)*.

El marco OpenCUA presenta una solución integrada que aborda tanto la recogida de datos como los retos de la formación de modelos. Su componente central es AgentNet Tool, un software especializado que captura interacciones detalladas entre humanos y ordenadores en múltiples sistemas operativos.

*Herramienta de recogida de datos AgentNet (Fuente: XLang Lab at HKU)*.

Esta innovadora herramienta funciona discretamente en segundo plano, grabando:

Vídeos de actividad en pantalla
Entradas precisas de ratón/teclado
Estructuras de árbol de accesibilidad que definen los elementos en pantalla

Los investigadores procesaron estos datos de interacción sin procesar en "trayectorias de estado-acción" refinadas que emparejan las capturas de pantalla del ordenador con las acciones correspondientes del usuario. El conjunto de datos AgentNet resultante comprende más de 22.600 demostraciones de tareas en entornos Windows, macOS y Ubuntu con más de 200 aplicaciones y sitios web diferentes.

Xinyuan Wang, investigador doctoral de la HKU y coautor del estudio, destacó sus rigurosas protecciones de la privacidad: "Implementamos un marco de seguridad de múltiples capas que permite a los anotadores visibilidad y control totales sobre sus envíos, seguido de verificación manual y escaneo automatizado de contenido sensible antes de la liberación de datos."

Metodología de formación innovadora

*Proceso de razonamiento en cadena de OpenCUA (Fuente: XLang Lab at HKU)*.

El marco introduce un novedoso proceso de tratamiento de datos que combina pares estado-acción depurados con un razonamiento estructurado de cadena de pensamiento. Este enfoque genera "monólogos cognitivos" detallados para cada acción que comprenden:

Observaciones de pantalla de alto nivel
Análisis y planificación estratégicos
Instrucciones ejecutables precisas

Según Wang, las empresas pueden adaptar este proceso para entrenar agentes especializados para sistemas propios registrando los flujos de trabajo internos y aplicando el mismo marco de razonamiento. "Esto permite a las organizaciones desarrollar agentes personalizados de alto rendimiento sin necesidad de crear manualmente trazas de razonamiento", explicó.

Rendimiento de referencia y aplicaciones empresariales

*Comparaciones de rendimiento de OpenCUA (Fuente: XLANG Lab de la HKU)*.

El modelo OpenCUA, con 32.000 millones de parámetros, alcanzó un rendimiento récord entre las soluciones de código abierto en las pruebas de referencia verificadas por OSWorld, al tiempo que redujo significativamente la diferencia con los principales sistemas propietarios. Las principales conclusiones para la empresa son:

Aplicabilidad del marco en diversas arquitecturas y escalas de modelos
Gran generalización entre plataformas y tipos de tareas
Especial eficacia para automatizar flujos de trabajo repetitivos.

Wang destacó los retos de la implantación: "El despliegue en el mundo real requiere mecanismos de seguridad robustos para evitar modificaciones no intencionadas del sistema o efectos secundarios perjudiciales durante la ejecución de las tareas".

El equipo de investigación ha publicado abiertamente todos los componentes del marco, incluidos el código fuente, los conjuntos de datos y las ponderaciones de los modelos. A medida que avancen los agentes basados en OpenCUA, podrían transformar radicalmente la dinámica del lugar de trabajo al permitir que los trabajadores humanos se centren en objetivos estratégicos mientras la IA se encarga de la ejecución operativa.

Artículo relacionado

Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp

Datos secretos de seguimiento revelan el robo de modelos de IA Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los

Sistemas de IA engañados para aprobar artículos científicos absurdos Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude

Recomendaciones de temas especiales relacionados

escribiendo

Los mejores asistentes de IA para Xianxia y Wuxia: escribe progresiones épicas de cultivo y coreografías de artes marciales

Descubre los mejores asistentes de IA de 2026 para crear épicas historias de xianxia y wuxia. La lista seleccionada por XIX.AI incluye herramientas de primera categoría y revolucionarias para dominar la progresión en el camino del cultivo y la coreografía de las artes marciales. Compara las opciones gratuitas con las de pago mediante pruebas en condiciones reales. ¡Libera tu potencial creativo y empieza a escribir hoy mismo!

10 herramientas

xix.ai

código

Herramientas de codificación para aplicaciones móviles AI: Genera código multiplataforma en Flutter y React Native a partir de instrucciones proporcionadas.

Descubra los mejores herramientas de codificación para aplicaciones móviles basadas en IA en 2026, compatibles con Flutter y React Native. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, incluye soluciones poderosas que permiten generar código multiplataforma a partir de instrucciones sencillas. Compare opciones gratuitas y pagadas mediante pruebas reales. Acelere su desarrollo y cree aplicaciones de mejor calidad. Consulte las clasificaciones en XIX.AI ahora mismo.

10 herramientas

xix.ai

código

Las mejores extensiones de Chrome para generar contenido con IA: crea complementos personalizados para el navegador sin necesidad de saber programar

Descubre las mejores extensiones de Chrome para generar IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría que no te puedes perder y que te permiten crear complementos personalizados para el navegador sin necesidad de programar. Compara las opciones gratuitas con las de pago, consulta pruebas reales y potencia tu productividad. ¡Explora las últimas clasificaciones y encuentra hoy mismo la herramienta perfecta para ti!

10 herramientas

xix.ai

Texto a voz

Mejor sistema de voz sintética multilingüe por IA: genera habla auténtica con acento nativo en más de 50 idiomas

Descubra los mejores herramientas de TTS multilingües basadas en IA de 2026 que ofrecen pronunciaciones auténticas con acento nativo en más de 50 idiomas. Explore nuestras clasificaciones seleccionadas y evaluadas, con comparaciones entre opciones gratuitas y pagas, así como pruebas reales en el mundo real. Encuentre la herramienta de voz perfecta para usted en XIX.AI y desbloquee las posibilidades de la comunicación global hoy mismo.

10 herramientas

xix.ai

Asistente de reuniones

Los mejores herramientas de automatización de reuniones con IA para una colaboración más inteligente y rápida

Descubra las herramientas de automatización de reuniones con IA más recientes y mejor evaluadas en 2026 para una colaboración más inteligente y rápida. Nuestra lista seleccionada incluye soluciones poderosas que revolucionarán la forma en que se toman notas, se realizan resúmenes y se planifican acciones. Compare las opciones gratuitas con las pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. Desbloquee el máximo rendimiento de su equipo. Explore las mejores opciones ahora mismo en XIX.AI.

10 herramientas

xix.ai

Inmediato

Plantillas de IA para «infraestructura como código»: implementa configuraciones de Terraform y Docker de forma segura

Descubre las mejores plantillas de IA de 2026 para «Infraestructura como código». La selección de XIX.AI te ayuda a implementar de forma segura configuraciones de Terraform y Docker, automatizar configuraciones en la nube y potenciar la productividad de DevOps. Compara las opciones gratuitas con las de pago mediante pruebas reales. Explora ahora y saca el máximo partido a tu ventaja en IA.

10 herramientas

xix.ai

comentario (1)

0/500

Inicie sesión primero

JuanJackson

19 de marzo de 2026 01:01:17 GMT+01:00

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

Noticias principales

AI Builder y Power Automate Revolucionan la Sumarización de Documentos Los anfitriones de AI del podcast Notebooklm ahora están disponibles para entrevistas China presenta su robot humanoide nacional y sus estándares de inteligencia incorporada Guía de creación de arte con el creador de imágenes de Bing Los datos de Ramp revelan un estancamiento en la adopción de la IA por parte de las empresas Aprende a crear música de IA usando tu voz: un tutorial de Suno paso a paso iMyFone MagicMic: Revisión y Tutorial de Cambio de Voz AI en Tiempo Real Generadores de Video AI Top de 2025: Pika Labs vs Alternativas DeepSeek V4 surge como un revolucionario sistema de IA multimodal Cubiertas de Canciones con IA: Guía Definitiva para Crear Canciones Únicas

Más

Presentado