opción
Hogar
Noticias
Los agentes de IA de código abierto de OpenCUA desafían los modelos propietarios de OpenAI y Anthropic

Los agentes de IA de código abierto de OpenCUA desafían los modelos propietarios de OpenAI y Anthropic

4 de noviembre de 2025
64

Investigadores de la Universidad de Hong Kong (HKU) e instituciones asociadas han desarrollado un innovador marco de código abierto denominado OpenCUA que sienta unas bases sólidas para construir agentes de IA capaces de manejar ordenadores. Este completo conjunto de herramientas proporciona componentes esenciales para ampliar el desarrollo de agentes de uso informático (CUA), incluidas herramientas especializadas, amplios conjuntos de datos de entrenamiento y metodologías probadas.

Las evaluaciones iniciales demuestran que los modelos entrenados con OpenCUA logran un rendimiento superior en las pruebas de referencia CUA en comparación con otras soluciones de código abierto, al tiempo que rivalizan con los sistemas patentados de líderes del sector como OpenAI y Anthropic.

El complejo reto de desarrollar agentes de uso informático

Los agentes de uso informático representan una clase transformadora de IA diseñada para ejecutar de forma autónoma tareas digitales que van desde la simple navegación web hasta el manejo de software complejo. Estos sistemas inteligentes encierran un enorme potencial para la automatización del flujo de trabajo empresarial, pero la mayoría de los CUA avanzados siguen siendo cajas negras patentadas.

"La falta de transparencia de las CUA comerciales restringe el progreso técnico y plantea importantes consideraciones de seguridad", señala el equipo de investigación en su trabajo publicado. "La comunidad científica requiere marcos verdaderamente abiertos para investigar adecuadamente las capacidades, limitaciones y riesgos potenciales".

Las actuales iniciativas de código abierto se enfrentan a importantes obstáculos, entre ellos

  • Infraestructura insuficiente para la recopilación de datos diversos a gran escala.
  • Disponibilidad limitada de conjuntos de datos de calidad sobre la interacción con la interfaz gráfica de usuario.
  • Documentación inadecuada que dificulta la reproducción de la investigación.

Como explica el documento: "Estas limitaciones impiden colectivamente el avance en CUA de propósito general e impiden la exploración exhaustiva de su escalabilidad, capacidad de generalización y enfoques de aprendizaje óptimos."

Presentación del marco OpenCUA

*Visión general de la arquitectura de OpenCUA (Fuente: XLANG Lab at HKU)*.

El marco OpenCUA presenta una solución integrada que aborda tanto la recogida de datos como los retos de la formación de modelos. Su componente central es AgentNet Tool, un software especializado que captura interacciones detalladas entre humanos y ordenadores en múltiples sistemas operativos.

*Herramienta de recogida de datos AgentNet (Fuente: XLang Lab at HKU)*.

Esta innovadora herramienta funciona discretamente en segundo plano, grabando:

  • Vídeos de actividad en pantalla
  • Entradas precisas de ratón/teclado
  • Estructuras de árbol de accesibilidad que definen los elementos en pantalla

Los investigadores procesaron estos datos de interacción sin procesar en "trayectorias de estado-acción" refinadas que emparejan las capturas de pantalla del ordenador con las acciones correspondientes del usuario. El conjunto de datos AgentNet resultante comprende más de 22.600 demostraciones de tareas en entornos Windows, macOS y Ubuntu con más de 200 aplicaciones y sitios web diferentes.

Xinyuan Wang, investigador doctoral de la HKU y coautor del estudio, destacó sus rigurosas protecciones de la privacidad: "Implementamos un marco de seguridad de múltiples capas que permite a los anotadores visibilidad y control totales sobre sus envíos, seguido de verificación manual y escaneo automatizado de contenido sensible antes de la liberación de datos."

Metodología de formación innovadora

*Proceso de razonamiento en cadena de OpenCUA (Fuente: XLang Lab at HKU)*.

El marco introduce un novedoso proceso de tratamiento de datos que combina pares estado-acción depurados con un razonamiento estructurado de cadena de pensamiento. Este enfoque genera "monólogos cognitivos" detallados para cada acción que comprenden:

  1. Observaciones de pantalla de alto nivel
  2. Análisis y planificación estratégicos
  3. Instrucciones ejecutables precisas

Según Wang, las empresas pueden adaptar este proceso para entrenar agentes especializados para sistemas propios registrando los flujos de trabajo internos y aplicando el mismo marco de razonamiento. "Esto permite a las organizaciones desarrollar agentes personalizados de alto rendimiento sin necesidad de crear manualmente trazas de razonamiento", explicó.

Rendimiento de referencia y aplicaciones empresariales

*Comparaciones de rendimiento de OpenCUA (Fuente: XLANG Lab de la HKU)*.

El modelo OpenCUA, con 32.000 millones de parámetros, alcanzó un rendimiento récord entre las soluciones de código abierto en las pruebas de referencia verificadas por OSWorld, al tiempo que redujo significativamente la diferencia con los principales sistemas propietarios. Las principales conclusiones para la empresa son:

  • Aplicabilidad del marco en diversas arquitecturas y escalas de modelos
  • Gran generalización entre plataformas y tipos de tareas
  • Especial eficacia para automatizar flujos de trabajo repetitivos.

Wang destacó los retos de la implantación: "El despliegue en el mundo real requiere mecanismos de seguridad robustos para evitar modificaciones no intencionadas del sistema o efectos secundarios perjudiciales durante la ejecución de las tareas".

El equipo de investigación ha publicado abiertamente todos los componentes del marco, incluidos el código fuente, los conjuntos de datos y las ponderaciones de los modelos. A medida que avancen los agentes basados en OpenCUA, podrían transformar radicalmente la dinámica del lugar de trabajo al permitir que los trabajadores humanos se centren en objetivos estratégicos mientras la IA se encarga de la ejecución operativa.

Artículo relacionado
Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Multiverse Computing lanza un modelo generativo de IA comprimido gratuito Los modelos lingüísticos de gran tamaño se enfrentan a un reto importante: su inmenso tamaño. La startup española Multiverse Computing está abordando este problema mediante la creación de modelos comp
Datos secretos de seguimiento revelan el robo de modelos de IA Datos secretos de seguimiento revelan el robo de modelos de IA Un nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Sistemas de IA engañados para aprobar artículos científicos absurdos Sistemas de IA engañados para aprobar artículos científicos absurdos Una nueva investigación revela que los sistemas de IA ahora pueden producir artículos científicos fraudulentos que otros modelos de IA aceptan erróneamente como auténticos. Estos estudios falsos elude
Recomendaciones de temas especiales relacionados
escribiendo Los mejores asistentes de IA para Xianxia y Wuxia: escribe progresiones épicas de cultivo y coreografías de artes marciales
Los mejores asistentes de IA para Xianxia y Wuxia: escribe progresiones épicas de cultivo y coreografías de artes marciales

Descubre los mejores asistentes de IA de 2026 para crear épicas historias de xianxia y wuxia. La lista seleccionada por XIX.AI incluye herramientas de primera categoría y revolucionarias para dominar la progresión en el camino del cultivo y la coreografía de las artes marciales. Compara las opciones gratuitas con las de pago mediante pruebas en condiciones reales. ¡Libera tu potencial creativo y empieza a escribir hoy mismo!

10 herramientas
xix.ai
código Herramientas de codificación para aplicaciones móviles AI: Genera código multiplataforma en Flutter y React Native a partir de instrucciones proporcionadas.
Herramientas de codificación para aplicaciones móviles AI: Genera código multiplataforma en Flutter y React Native a partir de instrucciones proporcionadas.

Descubra los mejores herramientas de codificación para aplicaciones móviles basadas en IA en 2026, compatibles con Flutter y React Native. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, incluye soluciones poderosas que permiten generar código multiplataforma a partir de instrucciones sencillas. Compare opciones gratuitas y pagadas mediante pruebas reales. Acelere su desarrollo y cree aplicaciones de mejor calidad. Consulte las clasificaciones en XIX.AI ahora mismo.

10 herramientas
xix.ai
código Las mejores extensiones de Chrome para generar contenido con IA: crea complementos personalizados para el navegador sin necesidad de saber programar
Las mejores extensiones de Chrome para generar contenido con IA: crea complementos personalizados para el navegador sin necesidad de saber programar

Descubre las mejores extensiones de Chrome para generar IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría que no te puedes perder y que te permiten crear complementos personalizados para el navegador sin necesidad de programar. Compara las opciones gratuitas con las de pago, consulta pruebas reales y potencia tu productividad. ¡Explora las últimas clasificaciones y encuentra hoy mismo la herramienta perfecta para ti!

10 herramientas
xix.ai
Texto a voz Mejor sistema de voz sintética multilingüe por IA: genera habla auténtica con acento nativo en más de 50 idiomas
Mejor sistema de voz sintética multilingüe por IA: genera habla auténtica con acento nativo en más de 50 idiomas

Descubra los mejores herramientas de TTS multilingües basadas en IA de 2026 que ofrecen pronunciaciones auténticas con acento nativo en más de 50 idiomas. Explore nuestras clasificaciones seleccionadas y evaluadas, con comparaciones entre opciones gratuitas y pagas, así como pruebas reales en el mundo real. Encuentre la herramienta de voz perfecta para usted en XIX.AI y desbloquee las posibilidades de la comunicación global hoy mismo.

10 herramientas
xix.ai
Asistente de reuniones Los mejores herramientas de automatización de reuniones con IA para una colaboración más inteligente y rápida
Los mejores herramientas de automatización de reuniones con IA para una colaboración más inteligente y rápida

Descubra las herramientas de automatización de reuniones con IA más recientes y mejor evaluadas en 2026 para una colaboración más inteligente y rápida. Nuestra lista seleccionada incluye soluciones poderosas que revolucionarán la forma en que se toman notas, se realizan resúmenes y se planifican acciones. Compare las opciones gratuitas con las pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. Desbloquee el máximo rendimiento de su equipo. Explore las mejores opciones ahora mismo en XIX.AI.

10 herramientas
xix.ai
Inmediato Plantillas de IA para «infraestructura como código»: implementa configuraciones de Terraform y Docker de forma segura
Plantillas de IA para «infraestructura como código»: implementa configuraciones de Terraform y Docker de forma segura

Descubre las mejores plantillas de IA de 2026 para «Infraestructura como código». La selección de XIX.AI te ayuda a implementar de forma segura configuraciones de Terraform y Docker, automatizar configuraciones en la nube y potenciar la productividad de DevOps. Compara las opciones gratuitas con las de pago mediante pruebas reales. Explora ahora y saca el máximo partido a tu ventaja en IA.

10 herramientas
xix.ai
comentario (1)
0/500
JuanJackson
JuanJackson 19 de marzo de 2026 01:01:17 GMT+01:00

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

OR