вариант
Дом
Новости
Агенты ИИ с открытым исходным кодом OpenCUA бросают вызов собственным моделям OpenAI и Anthropic

Агенты ИИ с открытым исходным кодом OpenCUA бросают вызов собственным моделям OpenAI и Anthropic

4 ноября 2025 г.
64

Исследователи из Гонконгского университета (HKU) и партнерских институтов разработали инновационный фреймворк с открытым исходным кодом под названием OpenCUA, который закладывает надежные основы для создания агентов ИИ, способных управлять компьютерами. Этот комплексный инструментарий содержит необходимые компоненты для масштабирования разработки агентов, использующих компьютеры (CUA), включая специализированные инструменты, обширные наборы данных для обучения и проверенные методики.

Первые оценки показывают, что модели, обученные с помощью OpenCUA, демонстрируют превосходную производительность в бенчмарках CUA по сравнению с другими решениями с открытым исходным кодом и конкурируют с собственными системами от таких лидеров индустрии, как OpenAI и Anthropic.

Сложная задача разработки компьютерных пользовательских агентов

Компьютерные агенты представляют собой преобразующий класс ИИ, предназначенный для автономного выполнения цифровых задач - от простой веб-навигации до работы со сложным программным обеспечением. Эти интеллектуальные системы обладают огромным потенциалом для автоматизации корпоративного рабочего процесса, однако большинство продвинутых CUA остаются проприетарными "черными ящиками".

"Отсутствие прозрачности в коммерческих CUA ограничивает технический прогресс и поднимает важные вопросы безопасности", - отмечает исследовательская группа в своей опубликованной работе. "Научное сообщество нуждается в действительно открытых платформах, чтобы должным образом изучить возможности, ограничения и потенциальные риски".

Нынешние инициативы с открытым исходным кодом сталкиваются со значительными препятствиями, включая:

  • Недостаточная инфраструктура для крупномасштабного сбора разнообразных данных
  • Ограниченная доступность качественных наборов данных по взаимодействию с графическим интерфейсом
  • недостаточная документация, затрудняющая воспроизведение результатов исследований.

Как поясняется в документе: "Эти ограничения в совокупности препятствуют развитию CUA общего назначения и не позволяют всесторонне исследовать их масштабируемость, способность к обобщению и оптимальные подходы к обучению".

Представление фреймворка OpenCUA

*Обзор архитектуры OpenCUA (Источник: XLANG Lab at HKU)*.

Фреймворк OpenCUA представляет собой интегрированное решение, решающее задачи сбора данных и обучения моделей. Его основным компонентом является AgentNet Tool - специализированное программное обеспечение, которое фиксирует детальное взаимодействие человека и компьютера в различных операционных системах.

*Инструмент для сбора данных AgentNet (Источник: XLang Lab at HKU)*.

Этот инновационный инструмент работает незаметно в фоновом режиме, ведя запись:

  • видеозаписи действий на экране
  • Точный ввод данных с помощью мыши/клавиатуры
  • Древовидные структуры доступности, определяющие экранные элементы.

Исследователи обработали эти необработанные данные о взаимодействии в уточненные "траектории "состояние-действие"", которые сопоставляют скриншоты экрана компьютера с соответствующими действиями пользователя. Полученный набор данных AgentNet включает в себя более 22 600 демонстраций задач в средах Windows, macOS и Ubuntu с более чем 200 различными приложениями и веб-сайтами.

Синьюань Ванг (Xinyuan Wang), научный сотрудник HKU и соавтор исследования, особо отметил строгую защиту конфиденциальности: "Мы внедрили многоуровневую систему безопасности, позволяющую аннотаторам полностью видеть и контролировать свои материалы, а также проводить ручную проверку и автоматическое сканирование конфиденциального содержимого перед публикацией данных".

Инновационная методология обучения

*Цепочка рассуждений OpenCUA (Источник: XLang Lab at HKU)*.

Фреймворк представляет собой новый конвейер обработки данных, сочетающий очищенные пары "состояние-действие" со структурированными рассуждениями в виде цепочки мыслей. Этот подход генерирует подробные "когнитивные монологи" для каждого действия, включающего:

  1. высокоуровневые наблюдения за экраном
  2. стратегический анализ и планирование
  3. Точные исполняемые инструкции.

По словам Ванга, предприятия могут адаптировать этот конвейер для обучения специализированных агентов для собственных систем, записывая внутренние рабочие процессы и применяя ту же структуру рассуждений. "Это позволяет организациям разрабатывать высокопроизводительные пользовательские агенты без ручного создания трассировки рассуждений", - пояснил он.

Производительность бенчмарка и корпоративные приложения

*Сравнение производительности OpenCUA (Источник: Лаборатория XLANG при HKU)*.

Модель OpenCUA с 32 миллиардами параметров достигла рекордной производительности среди решений с открытым исходным кодом в бенчмарках OSWorld-Verified и значительно сократила разрыв с ведущими проприетарными системами. Ключевые выводы для предприятий включают:

  • Применимость фреймворка в различных архитектурах и масштабах моделей
  • Сильная обобщенность по платформам и типам задач
  • Особая эффективность для автоматизации повторяющихся рабочих процессов.

Ванг обратил внимание на проблемы внедрения: "Для развертывания в реальном мире требуются надежные механизмы безопасности для предотвращения непреднамеренных модификаций системы или вредных побочных эффектов во время выполнения задач".

Исследовательская группа открыто опубликовала все компоненты фреймворка, включая исходный код, наборы данных и весовые коэффициенты моделей. По мере развития агентов, управляемых OpenCUA, они могут кардинально изменить динамику рабочих мест, позволив людям сосредоточиться на стратегических задачах, в то время как ИИ будет заниматься оперативным выполнением.

Связанная статья
Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Multiverse Computing запускает бесплатную сжатую генеративную модель искусственного интеллекта Крупные языковые модели сталкиваются с серьезной проблемой: их огромный размер. Испанский стартап Multiverse Computing решает эту проблему, создавая сжатые модели, призванные преодолеть разрыв между в
Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Секретные данные отслеживания раскрывают кражу моделей искусственного интеллекта Новый метод позволяет за считанные секунды незаметно наносить водяные знаки на модели, такие как ChatGPT, без повторного обучения, не оставляя следов в стандартных выводах и противостоять всем практич
Искусственный интеллект обманом заставили одобрить абсурдные научные статьи Искусственный интеллект обманом заставили одобрить абсурдные научные статьи Новые исследования показывают, что системы искусственного интеллекта теперь могут создавать фальшивые научные статьи, которые другие модели искусственного интеллекта ошибочно принимают за подлинные. Э
Рекомендации по связанным специальным темам
письмо Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств
Лучшие помощники по жанрам «сянься» и «уся» на базе ИИ: создавайте эпические истории о духовном росте и хореографию боевых искусств

Откройте для себя лучшие ИИ-помощники 2026 года для создания эпических историй в жанрах сянься и уся. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, которые помогут вам освоить систему развития персонажей и постановку боевых сцен. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните писать уже сегодня!

10 инструментов
xix.ai
код Инструменты для программирования мобильных приложений на основе технологий ИИ: генерация кода для платформFlutter и React Native на основе вводимых пользователем данных
Инструменты для программирования мобильных приложений на основе технологий ИИ: генерация кода для платформFlutter и React Native на основе вводимых пользователем данных

Откройте для себя лучшие инструменты для программирования в области искусственного интеллекта на мобильных устройствах в 2026 году, подходящие для использования с фреймворками Flutter и React Native. Наш отобранный список включает мощные решения, способные изменить ход разработки приложений, позволяющие генерировать код, работающий на различных платформах, на основе предоставленных инструкций. Сравните бесплатные и платные варианты с использованием реальных примеров тестирования. Ускорьте процесс разработки и создавайте качественные приложения. Ознакомьтесь с рейтингом на сайте XIX.AI прямо сейчас!

10 инструментов
xix.ai
код Лучшие генераторы расширений для Chrome на базе ИИ: создавайте собственные надстройки для браузера без навыков программирования
Лучшие генераторы расширений для Chrome на базе ИИ: создавайте собственные надстройки для браузера без навыков программирования

Откройте для себя 20 лучших генераторов расширений для Chrome на базе ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены самые популярные инструменты, которые обязательно стоит попробовать — они позволяют создавать собственные расширения для браузера без написания кода. Сравните бесплатные и платные варианты, ознакомьтесь с результатами реальных тестов и повысьте свою продуктивность. Изучите последние рейтинги и найдите идеальный инструмент уже сегодня!

10 инструментов
xix.ai
Преобразование текста в речь Лучший мультиязычный ТЗУ на основе ИИ: генерация автентичной речи с нативным акцентом более чем на 50 языках
Лучший мультиязычный ТЗУ на основе ИИ: генерация автентичной речи с нативным акцентом более чем на 50 языках

Откройте для себя лучшие инструменты искусственного интеллекта для мультиязычной технологии голосового текстового редактирования 2026 года, которые позволяют воспроизводить речь с натуральным акцентом на более чем 50 языках. Исследуйте нашу тщательно подготовленную классификацию, в которой представлены сравнения бесплатных и платных версий инструментов, а также результаты реальных тестов. Найдите идеальный инструмент для голосового текстового редактирования на сайте XIX.AI и раскройте для себя возможности глобальной коммуникации прямо сегодня.

10 инструментов
xix.ai
Помощник по встречам Лучшие инструменты автоматизации встреч на основе искусственного интеллекта для более эффективного и быстрого сотрудничества
Лучшие инструменты автоматизации встреч на основе искусственного интеллекта для более эффективного и быстрого сотрудничества

Откройте для себя самые новые и популярные инструменты автоматизации встреч на основе технологий ИИ 2026 года, которые помогут улучшить и ускорить сотрудничество. Наш отобранный список включает мощные решения, способные радикально изменить процесс работы с записями, резюме и планами действий. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте потенциал вашей команды! Ознакомьтесь с лучшими выборами прямо на сайте XIX.AI.

10 инструментов
xix.ai
Быстрый Подсказки ИИ для «инфраструктуры как кода»: безопасное развертывание конфигураций Terraform и Docker
Подсказки ИИ для «инфраструктуры как кода»: безопасное развертывание конфигураций Terraform и Docker

Откройте для себя лучшие AI-промпты 2026 года для «инфраструктуры как кода». Тщательно подобранная подборка от XIX.AI поможет вам безопасно развертывать конфигурации Terraform и Docker, автоматизировать настройку облачных сред и повысить эффективность DevOps. Сравните бесплатные и платные варианты на основе реальных тестов. Ознакомьтесь с ними прямо сейчас и раскройте весь потенциал искусственного интеллекта.

10 инструментов
xix.ai
Комментарии (1)
0/500
JuanJackson
JuanJackson 19 марта 2026 г., 3:01:17 GMT+03:00

Любопытно, как открытые проекты вроде OpenCUA бросят вызов гигантам вроде OpenAI. Может, наконец-то появится реальная альтернатива? Хотя, конечно, всегда есть опасения по поводу безопасности таких агентов — вдруг начнут делать что-то не то? 😅

OR