Исследователи из Гонконгского университета (HKU) и партнерских институтов разработали инновационный фреймворк с открытым исходным кодом под названием OpenCUA, который закладывает надежные основы для создания агентов ИИ, способных управлять компьютерами. Этот комплексный инструментарий содержит необходимые компоненты для масштабирования разработки агентов, использующих компьютеры (CUA), включая специализированные инструменты, обширные наборы данных для обучения и проверенные методики.
Первые оценки показывают, что модели, обученные с помощью OpenCUA, демонстрируют превосходную производительность в бенчмарках CUA по сравнению с другими решениями с открытым исходным кодом и конкурируют с собственными системами от таких лидеров индустрии, как OpenAI и Anthropic.
Сложная задача разработки компьютерных пользовательских агентов
Компьютерные агенты представляют собой преобразующий класс ИИ, предназначенный для автономного выполнения цифровых задач - от простой веб-навигации до работы со сложным программным обеспечением. Эти интеллектуальные системы обладают огромным потенциалом для автоматизации корпоративного рабочего процесса, однако большинство продвинутых CUA остаются проприетарными "черными ящиками".
"Отсутствие прозрачности в коммерческих CUA ограничивает технический прогресс и поднимает важные вопросы безопасности", - отмечает исследовательская группа в своей опубликованной работе. "Научное сообщество нуждается в действительно открытых платформах, чтобы должным образом изучить возможности, ограничения и потенциальные риски".
Нынешние инициативы с открытым исходным кодом сталкиваются со значительными препятствиями, включая:
Недостаточная инфраструктура для крупномасштабного сбора разнообразных данных
Ограниченная доступность качественных наборов данных по взаимодействию с графическим интерфейсом
недостаточная документация, затрудняющая воспроизведение результатов исследований.
Как поясняется в документе: "Эти ограничения в совокупности препятствуют развитию CUA общего назначения и не позволяют всесторонне исследовать их масштабируемость, способность к обобщению и оптимальные подходы к обучению".
Представление фреймворка OpenCUA
*Обзор архитектуры OpenCUA (Источник: XLANG Lab at HKU)*.
Фреймворк OpenCUA представляет собой интегрированное решение, решающее задачи сбора данных и обучения моделей. Его основным компонентом является AgentNet Tool - специализированное программное обеспечение, которое фиксирует детальное взаимодействие человека и компьютера в различных операционных системах.
*Инструмент для сбора данных AgentNet (Источник: XLang Lab at HKU)*.
Этот инновационный инструмент работает незаметно в фоновом режиме, ведя запись:
видеозаписи действий на экране
Точный ввод данных с помощью мыши/клавиатуры
Древовидные структуры доступности, определяющие экранные элементы.
Исследователи обработали эти необработанные данные о взаимодействии в уточненные "траектории "состояние-действие"", которые сопоставляют скриншоты экрана компьютера с соответствующими действиями пользователя. Полученный набор данных AgentNet включает в себя более 22 600 демонстраций задач в средах Windows, macOS и Ubuntu с более чем 200 различными приложениями и веб-сайтами.
Синьюань Ванг (Xinyuan Wang), научный сотрудник HKU и соавтор исследования, особо отметил строгую защиту конфиденциальности: "Мы внедрили многоуровневую систему безопасности, позволяющую аннотаторам полностью видеть и контролировать свои материалы, а также проводить ручную проверку и автоматическое сканирование конфиденциального содержимого перед публикацией данных".
Инновационная методология обучения
*Цепочка рассуждений OpenCUA (Источник: XLang Lab at HKU)*.
Фреймворк представляет собой новый конвейер обработки данных, сочетающий очищенные пары "состояние-действие" со структурированными рассуждениями в виде цепочки мыслей. Этот подход генерирует подробные "когнитивные монологи" для каждого действия, включающего:
высокоуровневые наблюдения за экраном
стратегический анализ и планирование
Точные исполняемые инструкции.
По словам Ванга, предприятия могут адаптировать этот конвейер для обучения специализированных агентов для собственных систем, записывая внутренние рабочие процессы и применяя ту же структуру рассуждений. "Это позволяет организациям разрабатывать высокопроизводительные пользовательские агенты без ручного создания трассировки рассуждений", - пояснил он.
Производительность бенчмарка и корпоративные приложения
*Сравнение производительности OpenCUA (Источник: Лаборатория XLANG при HKU)*.
Модель OpenCUA с 32 миллиардами параметров достигла рекордной производительности среди решений с открытым исходным кодом в бенчмарках OSWorld-Verified и значительно сократила разрыв с ведущими проприетарными системами. Ключевые выводы для предприятий включают:
Применимость фреймворка в различных архитектурах и масштабах моделей
Сильная обобщенность по платформам и типам задач
Особая эффективность для автоматизации повторяющихся рабочих процессов.
Ванг обратил внимание на проблемы внедрения: "Для развертывания в реальном мире требуются надежные механизмы безопасности для предотвращения непреднамеренных модификаций системы или вредных побочных эффектов во время выполнения задач".
Исследовательская группа открыто опубликовала все компоненты фреймворка, включая исходный код, наборы данных и весовые коэффициенты моделей. По мере развития агентов, управляемых OpenCUA, они могут кардинально изменить динамику рабочих мест, позволив людям сосредоточиться на стратегических задачах, в то время как ИИ будет заниматься оперативным выполнением.
Откройте для себя лучшие ИИ-помощники 2026 года для создания эпических историй в жанрах сянься и уся. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, которые помогут вам освоить систему развития персонажей и постановку боевых сцен. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните писать уже сегодня!
Откройте для себя лучшие инструменты для программирования в области искусственного интеллекта на мобильных устройствах в 2026 году, подходящие для использования с фреймворками Flutter и React Native. Наш отобранный список включает мощные решения, способные изменить ход разработки приложений, позволяющие генерировать код, работающий на различных платформах, на основе предоставленных инструкций. Сравните бесплатные и платные варианты с использованием реальных примеров тестирования. Ускорьте процесс разработки и создавайте качественные приложения. Ознакомьтесь с рейтингом на сайте XIX.AI прямо сейчас!
Откройте для себя 20 лучших генераторов расширений для Chrome на базе ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены самые популярные инструменты, которые обязательно стоит попробовать — они позволяют создавать собственные расширения для браузера без написания кода. Сравните бесплатные и платные варианты, ознакомьтесь с результатами реальных тестов и повысьте свою продуктивность. Изучите последние рейтинги и найдите идеальный инструмент уже сегодня!
Откройте для себя лучшие инструменты искусственного интеллекта для мультиязычной технологии голосового текстового редактирования 2026 года, которые позволяют воспроизводить речь с натуральным акцентом на более чем 50 языках. Исследуйте нашу тщательно подготовленную классификацию, в которой представлены сравнения бесплатных и платных версий инструментов, а также результаты реальных тестов. Найдите идеальный инструмент для голосового текстового редактирования на сайте XIX.AI и раскройте для себя возможности глобальной коммуникации прямо сегодня.
Откройте для себя самые новые и популярные инструменты автоматизации встреч на основе технологий ИИ 2026 года, которые помогут улучшить и ускорить сотрудничество. Наш отобранный список включает мощные решения, способные радикально изменить процесс работы с записями, резюме и планами действий. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал вашей команды! Ознакомьтесь с лучшими выборами прямо на сайте XIX.AI.
Откройте для себя лучшие AI-промпты 2026 года для «инфраструктуры как кода». Тщательно подобранная подборка от XIX.AI поможет вам безопасно развертывать конфигурации Terraform и Docker, автоматизировать настройку облачных сред и повысить эффективность DevOps. Сравните бесплатные и платные варианты на основе реальных тестов. Ознакомьтесь с ними прямо сейчас и раскройте весь потенциал искусственного интеллекта.
Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅
При нажатии на «Принять все файлы cookie» вы соглашаетесь на хранение файлов cookie на вашем устройстве для улучшения навигации по сайту, анализа использования сайта и поддержки наших маркетинговых усилий.Политика конфиденциальности Уведомление
При посещении любого веб-сайта он может хранить или получать информацию в вашем браузере, главным образом в виде файлов cookie. Эта информация может относиться к вам, вашим предпочтениям или вашему устройству и в основном используется для того, чтобы сайт работал так, как вы ожидаете. Эта информация обычно не идентифицирует вас напрямую, но может предоставить вам более персонализированный веб-опыт. Поскольку мы уважаем ваше право на конфиденциальность, вы можете отказаться от разрешения определенных типов файлов cookie. Нажмите на разные заголовки категорий, чтобы узнать больше и изменить наши параметры по умолчанию. Однако блокировка некоторых типов файлов cookie может повлиять на ваше восприятие сайта и предоставляемые нами услуги. Политика конфиденциальностиЗаявление
Управление предпочтениями
Строго необходимые файлы cookie
Всегда активен
Эти файлы cookie необходимы для работы веб-сайта и не могут быть отключены в наших системах. Обычно они устанавливаются только в ответ на ваши действия, которые являются запросом на предоставление услуг, например, настройка предпочтений конфиденциальности, вход в систему или заполнение форм. Вы можете настроить браузер на блокировку этих файлов cookie или оповещение о них, но тогда некоторые части сайта не будут работать. Эти файлы cookie не хранят никакой персональной информации, позволяющей идентифицировать вас.