Investigadores de la Universidad de Hong Kong (HKU) e instituciones asociadas han desarrollado un innovador marco de código abierto denominado OpenCUA que sienta unas bases sólidas para construir agentes de IA capaces de manejar ordenadores. Este completo conjunto de herramientas proporciona componentes esenciales para ampliar el desarrollo de agentes de uso informático (CUA), incluidas herramientas especializadas, amplios conjuntos de datos de entrenamiento y metodologías probadas.
Las evaluaciones iniciales demuestran que los modelos entrenados con OpenCUA logran un rendimiento superior en las pruebas de referencia CUA en comparación con otras soluciones de código abierto, al tiempo que rivalizan con los sistemas patentados de líderes del sector como OpenAI y Anthropic.
El complejo reto de desarrollar agentes de uso informático
Los agentes de uso informático representan una clase transformadora de IA diseñada para ejecutar de forma autónoma tareas digitales que van desde la simple navegación web hasta el manejo de software complejo. Estos sistemas inteligentes encierran un enorme potencial para la automatización del flujo de trabajo empresarial, pero la mayoría de los CUA avanzados siguen siendo cajas negras patentadas.
"La falta de transparencia de las CUA comerciales restringe el progreso técnico y plantea importantes consideraciones de seguridad", señala el equipo de investigación en su trabajo publicado. "La comunidad científica requiere marcos verdaderamente abiertos para investigar adecuadamente las capacidades, limitaciones y riesgos potenciales".
Las actuales iniciativas de código abierto se enfrentan a importantes obstáculos, entre ellos
Infraestructura insuficiente para la recopilación de datos diversos a gran escala.
Disponibilidad limitada de conjuntos de datos de calidad sobre la interacción con la interfaz gráfica de usuario.
Documentación inadecuada que dificulta la reproducción de la investigación.
Como explica el documento: "Estas limitaciones impiden colectivamente el avance en CUA de propósito general e impiden la exploración exhaustiva de su escalabilidad, capacidad de generalización y enfoques de aprendizaje óptimos."
Presentación del marco OpenCUA
*Visión general de la arquitectura de OpenCUA (Fuente: XLANG Lab at HKU)*.
El marco OpenCUA presenta una solución integrada que aborda tanto la recogida de datos como los retos de la formación de modelos. Su componente central es AgentNet Tool, un software especializado que captura interacciones detalladas entre humanos y ordenadores en múltiples sistemas operativos.
*Herramienta de recogida de datos AgentNet (Fuente: XLang Lab at HKU)*.
Esta innovadora herramienta funciona discretamente en segundo plano, grabando:
Vídeos de actividad en pantalla
Entradas precisas de ratón/teclado
Estructuras de árbol de accesibilidad que definen los elementos en pantalla
Los investigadores procesaron estos datos de interacción sin procesar en "trayectorias de estado-acción" refinadas que emparejan las capturas de pantalla del ordenador con las acciones correspondientes del usuario. El conjunto de datos AgentNet resultante comprende más de 22.600 demostraciones de tareas en entornos Windows, macOS y Ubuntu con más de 200 aplicaciones y sitios web diferentes.
Xinyuan Wang, investigador doctoral de la HKU y coautor del estudio, destacó sus rigurosas protecciones de la privacidad: "Implementamos un marco de seguridad de múltiples capas que permite a los anotadores visibilidad y control totales sobre sus envíos, seguido de verificación manual y escaneo automatizado de contenido sensible antes de la liberación de datos."
Metodología de formación innovadora
*Proceso de razonamiento en cadena de OpenCUA (Fuente: XLang Lab at HKU)*.
El marco introduce un novedoso proceso de tratamiento de datos que combina pares estado-acción depurados con un razonamiento estructurado de cadena de pensamiento. Este enfoque genera "monólogos cognitivos" detallados para cada acción que comprenden:
Observaciones de pantalla de alto nivel
Análisis y planificación estratégicos
Instrucciones ejecutables precisas
Según Wang, las empresas pueden adaptar este proceso para entrenar agentes especializados para sistemas propios registrando los flujos de trabajo internos y aplicando el mismo marco de razonamiento. "Esto permite a las organizaciones desarrollar agentes personalizados de alto rendimiento sin necesidad de crear manualmente trazas de razonamiento", explicó.
Rendimiento de referencia y aplicaciones empresariales
*Comparaciones de rendimiento de OpenCUA (Fuente: XLANG Lab de la HKU)*.
El modelo OpenCUA, con 32.000 millones de parámetros, alcanzó un rendimiento récord entre las soluciones de código abierto en las pruebas de referencia verificadas por OSWorld, al tiempo que redujo significativamente la diferencia con los principales sistemas propietarios. Las principales conclusiones para la empresa son:
Aplicabilidad del marco en diversas arquitecturas y escalas de modelos
Gran generalización entre plataformas y tipos de tareas
Especial eficacia para automatizar flujos de trabajo repetitivos.
Wang destacó los retos de la implantación: "El despliegue en el mundo real requiere mecanismos de seguridad robustos para evitar modificaciones no intencionadas del sistema o efectos secundarios perjudiciales durante la ejecución de las tareas".
El equipo de investigación ha publicado abiertamente todos los componentes del marco, incluidos el código fuente, los conjuntos de datos y las ponderaciones de los modelos. A medida que avancen los agentes basados en OpenCUA, podrían transformar radicalmente la dinámica del lugar de trabajo al permitir que los trabajadores humanos se centren en objetivos estratégicos mientras la IA se encarga de la ejecución operativa.
Datos secretos de seguimiento revelan el robo de modelos de IAUn nuevo método puede marcar de forma invisible modelos como ChatGPT en cuestión de segundos sin necesidad de volver a entrenarlos, sin dejar rastro en los resultados estándar y resistiendo todos los
Descubre los mejores asistentes de IA de 2026 para crear épicas historias de xianxia y wuxia. La lista seleccionada por XIX.AI incluye herramientas de primera categoría y revolucionarias para dominar la progresión en el camino del cultivo y la coreografía de las artes marciales. Compara las opciones gratuitas con las de pago mediante pruebas en condiciones reales. ¡Libera tu potencial creativo y empieza a escribir hoy mismo!
Descubra los mejores herramientas de codificación para aplicaciones móviles basadas en IA en 2026, compatibles con Flutter y React Native. Nuestra lista, seleccionada cuidadosamente y evaluada por expertos, incluye soluciones poderosas que permiten generar código multiplataforma a partir de instrucciones sencillas. Compare opciones gratuitas y pagadas mediante pruebas reales. Acelere su desarrollo y cree aplicaciones de mejor calidad. Consulte las clasificaciones en XIX.AI ahora mismo.
Descubre las mejores extensiones de Chrome para generar IA de 2026 en XIX.AI. Nuestra lista seleccionada incluye herramientas de primera categoría que no te puedes perder y que te permiten crear complementos personalizados para el navegador sin necesidad de programar. Compara las opciones gratuitas con las de pago, consulta pruebas reales y potencia tu productividad. ¡Explora las últimas clasificaciones y encuentra hoy mismo la herramienta perfecta para ti!
Descubra los mejores herramientas de TTS multilingües basadas en IA de 2026 que ofrecen pronunciaciones auténticas con acento nativo en más de 50 idiomas. Explore nuestras clasificaciones seleccionadas y evaluadas, con comparaciones entre opciones gratuitas y pagas, así como pruebas reales en el mundo real. Encuentre la herramienta de voz perfecta para usted en XIX.AI y desbloquee las posibilidades de la comunicación global hoy mismo.
Descubra las herramientas de automatización de reuniones con IA más recientes y mejor evaluadas en 2026 para una colaboración más inteligente y rápida. Nuestra lista seleccionada incluye soluciones poderosas que revolucionarán la forma en que se toman notas, se realizan resúmenes y se planifican acciones. Compare las opciones gratuitas con las pagadas a través de pruebas reales y clasificaciones actualizadas semanalmente. Desbloquee el máximo rendimiento de su equipo. Explore las mejores opciones ahora mismo en XIX.AI.
Descubre las mejores plantillas de IA de 2026 para «Infraestructura como código». La selección de XIX.AI te ayuda a implementar de forma segura configuraciones de Terraform y Docker, automatizar configuraciones en la nube y potenciar la productividad de DevOps. Compara las opciones gratuitas con las de pago mediante pruebas reales. Explora ahora y saca el máximo partido a tu ventaja en IA.
Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅
Al hacer clic en "Aceptar todos los cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing.Política de privacidad Aviso
Al visitar cualquier sitio web, este puede almacenar o recuperar información en su navegador, principalmente en forma de cookies. Esta información puede referirse a usted, sus preferencias o su dispositivo y se usa principalmente para que el sitio funcione como espera. Por lo general, la información no lo identifica directamente, pero puede brindarle una experiencia web más personalizada. Debido a que respetamos su derecho a la privacidad, puede optar por no permitir algunos tipos de cookies. Haga clic en los diferentes títulos de categoría para obtener más información y cambiar nuestros ajustes predeterminados. Sin embargo, bloquear algunos tipos de cookies puede afectar su experiencia en el sitio y los servicios que podemos ofrecer. Política de privacidadDeclaración
Gestionar preferencias
Cookie estrictamente necesario
Siempre activo
Estos cookies son necesarios para que el sitio web funcione y no pueden ser desactivados en nuestros sistemas. Por lo general, solo se establecen en respuesta a acciones que realice usted que equivalen a una solicitud de servicios, como configurar sus preferencias de privacidad, iniciar sesión o completar formularios. Puede configurar su navegador para bloquear estos cookies o alertarle sobre ellos, pero algunas partes del sitio no funcionarán luego. Estos cookies no almacenan ninguna información que permita identificar personalmente.