Дом
Первая в мире глобальная модель воплощенного интеллекта на уровне событий положит конец покадровому обучению роботов
29 мая команда Variable Robot представила WALL-WM — первую в мире модель окружающего мира с встроенным интеллектом, основанную на «прогнозировании на уровне событий». Эта модель отходит от традиционных крупных моделей с воплощенным интеллектом, которые обучаются действиям кадр за кадром с течением времени, и вместо этого переключает блок прогнозирования модели мира на семантические события. Это знаменует собой новый этап в том, как роботы понимают и выполняют задачи.

В современной индустрии воплощенного интеллекта основные модели «зрение-язык-действие» (VLA) обычно используют текущее изображение и инструкцию для прогнозирования блока действий фиксированной длины. Такой подход к обучению кадр за кадром часто приводит к тому, что роботы сосредотачиваются на незначительных физических движениях, теряя из виду конечную цель действия. Столкнувшись с такими сценариями, как смена чашек или столов, роботы часто терпят неудачу из-за отсутствия обобщения. Чтобы решить эту проблему отрасли, команда Variable указала в своей научной статье, что информация о тексте, зрении и действиях естественным образом существует в реальном мире в разных временных масштабах и многомерных геометриях. Принудительное объединение их в единое общее пространство может легко повредить предварительно обученную геометрическую априорную модель.
Чтобы решить эту проблему, модель мира WALL-WM вводит инновационный механизм обучения и выполнения, ориентированный на события. Она разбивает сложные задачи на семантически понятные событийные узлы, такие как достижение, захват и перемещение. В процессе работы модель больше не вычисляет следующий кадр изображения жестким образом. Вместо этого она сначала моделирует, как изменится мир в результате следующего события, а затем точно преобразует это визуальное изменение в траекторию движения роботизированной руки.

Чтобы обеспечить надежное внедрение этой новой архитектуры в физическом мире, команда Variable Robot провела серию серьезных инженерных доработок. Система поддерживает гибкое переключение между «режимом событий» (с выходом действий переменной длины) и «унифицированным режимом» (с управлением в реальном времени по замкнутому циклу) на основе одних и тех же базовых весов. Она также обеспечивает одностороннюю связь между видеомоделями и моделями действий, предотвращая преждевременное смещение ценных динамических априорных значений из интернет-видео данными о действиях. Для геометрического восприятия с помощью нескольких камер в модели введены маски в виде пирамидального среза и трубчатые маски, что заставляет ИИ развивать истинное трехмерное геометрическое соответствие между различными ракурсами. Для решения проблемы задержки принятия решений используется новая техника «ступенчатого декодирования цепочки мыслей», которая значительно сокращает задержку декодирования, сохраняя при этом логическую интерпретируемость.

Связанная статья
Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур
Рекомендации по связанным специальным темам
Комментарии (0)
29 мая команда Variable Robot представила WALL-WM — первую в мире модель окружающего мира с встроенным интеллектом, основанную на «прогнозировании на уровне событий». Эта модель отходит от традиционных крупных моделей с воплощенным интеллектом, которые обучаются действиям кадр за кадром с течением времени, и вместо этого переключает блок прогнозирования модели мира на семантические события. Это знаменует собой новый этап в том, как роботы понимают и выполняют задачи.

В современной индустрии воплощенного интеллекта основные модели «зрение-язык-действие» (VLA) обычно используют текущее изображение и инструкцию для прогнозирования блока действий фиксированной длины. Такой подход к обучению кадр за кадром часто приводит к тому, что роботы сосредотачиваются на незначительных физических движениях, теряя из виду конечную цель действия. Столкнувшись с такими сценариями, как смена чашек или столов, роботы часто терпят неудачу из-за отсутствия обобщения. Чтобы решить эту проблему отрасли, команда Variable указала в своей научной статье, что информация о тексте, зрении и действиях естественным образом существует в реальном мире в разных временных масштабах и многомерных геометриях. Принудительное объединение их в единое общее пространство может легко повредить предварительно обученную геометрическую априорную модель.
Чтобы решить эту проблему, модель мира WALL-WM вводит инновационный механизм обучения и выполнения, ориентированный на события. Она разбивает сложные задачи на семантически понятные событийные узлы, такие как достижение, захват и перемещение. В процессе работы модель больше не вычисляет следующий кадр изображения жестким образом. Вместо этого она сначала моделирует, как изменится мир в результате следующего события, а затем точно преобразует это визуальное изменение в траекторию движения роботизированной руки.

Чтобы обеспечить надежное внедрение этой новой архитектуры в физическом мире, команда Variable Robot провела серию серьезных инженерных доработок. Система поддерживает гибкое переключение между «режимом событий» (с выходом действий переменной длины) и «унифицированным режимом» (с управлением в реальном времени по замкнутому циклу) на основе одних и тех же базовых весов. Она также обеспечивает одностороннюю связь между видеомоделями и моделями действий, предотвращая преждевременное смещение ценных динамических априорных значений из интернет-видео данными о действиях. Для геометрического восприятия с помощью нескольких камер в модели введены маски в виде пирамидального среза и трубчатые маски, что заставляет ИИ развивать истинное трехмерное геометрическое соответствие между различными ракурсами. Для решения проблемы задержки принятия решений используется новая техника «ступенчатого декодирования цепочки мыслей», которая значительно сокращает задержку декодирования, сохраняя при этом логическую интерпретируемость.

Экспериментальный ИИ Claude от компании Anthropic успешно завершил переговоры и сделки в ходе тестирования в сфере электронной коммерции
На фоне стремительного развития искусственного интеллекта компания Anthropic в минувшую пятницу незаметно запустила внутренний эксперимент под названием «Project Deal», продемонстрировав потенциал ИИ
DeepSeek Code готовится к запуску
На фоне стремительного развития технологий искусственного интеллекта компания DeepSeek находится на захватывающем этапе своего развития. Недавно эта компания, специализирующаяся на ИИ, объявила о прив
Grok от Маска: 1,5 триллиона параметров и поглощение кода курсора — прорыв или блеф?
Илон Маск наконец-то делает ход.В гонке по программированию ИИ компании OpenAI и Anthropic набирают обороты, в то время как xAI, похоже, отстает. Маск не раз заявлял о своем намерении составить конкур











