Дом
Компания Physical Intelligence представила «роботизированную шапку», способную осваивать новые задачи
«Physical Intelligence» — двухлетний стартап в сфере робототехники из Сан-Франциско, ставший одной из наиболее пристально наблюдаемых компаний в области искусственного интеллекта в районе залива Сан-Франциско, — в четверг опубликовал результаты нового исследования. Результаты показывают, что новейшая модель компании способна направлять роботов на выполнение задач, для которых они никогда специально не обучались — эта способность, как признают даже собственные исследователи компании, стала для них неожиданностью.
Новая модель, получившая название π0.7, знаменует собой то, что компания называет ранним, но значительным шагом на пути к давней цели — созданию универсального «мозга» для роботов. Эта система может быть направлена на выполнение незнакомой задачи, получить инструкции на простом языке и успешно ее выполнить. Если эти результаты выдержат тщательную проверку, они укажут на то, что искусственный интеллект в робототехнике, возможно, приближается к переломному моменту, схожему с эволюцией крупных языковых моделей — когда способности начинают сочетаться таким образом, что превосходят то, что можно было бы предположить на основе исходных данных.
В основе статьи лежит концепция композиционной генерализации: способность сочетать навыки, приобретенные в разных контекстах, для решения совершенно новых задач. Традиционно обучение роботов основывалось на механическом запоминании — сборе данных для конкретной задачи, обучении на них специализированной модели и повторении этого процесса для каждой новой задачи. Physical Intelligence утверждает, что π0.7 разрывает этот цикл.
«Как только модель пересекает порог, переходя от простого воспроизведения точных данных, на которых она была обучена, к творческому рекомбинированию элементов новыми способами, — объясняет Сергей Левин, соучредитель Physical Intelligence и профессор Калифорнийского университета в Беркли, специализирующийся на ИИ для робототехники, — ее возможности начинают расти со скоростью, превышающей линейную зависимость от объема данных. Такую более благоприятную динамику масштабирования мы наблюдали и в других областях, таких как язык и зрение».
Наиболее убедительная демонстрация в статье связана с фритюрницей, с которой модель практически не сталкивалась во время обучения. В ходе исследования команда обнаружила только два релевантных примера во всем наборе данных: один, где другой робот просто закрыл дверцу фритюрницы, и другой из набора данных с открытым исходным кодом, где робот по команде поместил внутрь пластиковую бутылку. Каким-то образом модель синтезировала эти фрагменты, наряду с более обширными данными предварительного обучения из Интернета, в практическое понимание того, как работает прибор.
«Невероятно сложно точно определить, откуда берутся эти знания, или предсказать, где они приведут к успеху, а где — к провалу», — отмечает Ашвин Балакришна, научный сотрудник Physical Intelligence и аспирант по информатике в Стэнфорде. Тем не менее, без какого-либо предварительного обучения модель предприняла убедительную попытку использовать прибор для приготовления сладкого картофеля. Когда ей были предоставлены пошаговые устные инструкции — по сути, человек, рассказывающий роботу о процессе, как будто обучает нового сотрудника — она успешно выполнила задачу.
Эта способность к обучению важна, поскольку подразумевает, что роботов можно будет использовать в новых условиях и совершенствовать в режиме реального времени, устраняя необходимость в дополнительном сборе данных или переобучении модели.
Каковы же более широкие последствия? Исследователи открыто говорят об ограничениях модели и осторожно относятся к преувеличению ее прогресса. По крайней мере в одном случае они приписывают неудачу непосредственно своей собственной команде.
«Иногда неудача не связана с роботом или моделью, — говорит Балакришна. — Это наша вина — мы не обладаем достаточными навыками в области разработки подсказок». Он приводит в пример ранний эксперимент с фритюрницей, в котором успешность составила всего 5 %. После того как было потрачено около тридцати минут на уточнение того, как задача объяснялась модели, успешность взлетела до 95 %.

Изображения предоставлены:Physical Intelligence
Модель также пока не способна автономно выполнять сложные многоэтапные задачи по одной команде высокого уровня. «Нельзя просто сказать ей: „Сделай мне тост“, — заявляет Левин. — Но если вы проведете ее через этапы — „открой эту часть тостера, нажми эту кнопку, сделай это“ — то она, как правило, справляется довольно хорошо».
Команда также признает отсутствие стандартизированных тестов в робототехнике, что затрудняет внешнюю проверку их заявлений. Вместо этого компания сравнила π0.7 со своими собственными более ранними специализированными моделями — системами, созданными на заказ и обученными для выполнения отдельных задач — и обнаружила, что универсальная модель не уступала им по производительности в целом ряде сложных действий, включая приготовление кофе, складывание белья и сборку коробок.
Возможно, самым замечательным аспектом исследования — если верить словам самих исследователей — является не какая-то отдельная демонстрация, а то, насколько результаты поразили тех самых людей, чья работа заключается в том, чтобы досконально знать обучающие данные и, следовательно, понимать, на что модель должна быть способна, а на что — нет.
«По моему опыту, когда я глубоко понимаю данные, я обычно могу предсказать, на что будет способна модель, — размышляет Балакришна. — Меня редко что-то удивляет. Но последние несколько месяцев стали первым случаем, когда я был искренне ошеломлен. Я случайно купил набор шестеренок и спросил робота: «Можешь повернуть эту шестерню?» И это просто сработало».
Левин вспоминает момент, когда исследователи впервые стали свидетелями того, как GPT-2 сгенерировала рассказ об единорогах в Андах. «Откуда, черт возьми, она узнала об единорогах в Перу?» — говорит он. «Это такое странное сочетание. Увидеть подобную возникающую способность в робототехнике — это действительно особенное событие».
Естественно, критики будут подчеркивать неотъемлемую асимметрию: языковые модели были обучены на всем Интернете. У роботов нет такой роскоши, и никакие умные подсказки не смогут полностью преодолеть этот разрыв. Однако, когда его спрашивают, где он ожидает скептицизма, Левин указывает в совершенно другом направлении.
«Критика, которую всегда можно высказать в адрес любой демонстрации обобщения в робототехнике, заключается в том, что задачи кажутся несколько банальными, — замечает он. — Робот не делает сальто назад». Он оспаривает эту точку зрения, утверждая, что разница между эффектной демонстрацией робота и системой, которая действительно способна к обобщению, и есть суть дела. По его мнению, настоящее обобщение всегда будет выглядеть менее эффектно, чем тщательно срежиссированный трюк, — но оно гораздо более практично.
В самой статье повсеместно используется осторожная формулировка, описывающая π0.7 как демонстрирующую «ранние признаки» обобщения и «первые демонстрации» новых возможностей. Это результаты исследований, а не коммерческий продукт, и компания Physical Intelligence постоянно сдержанно высказывается о сроках его коммерциализации.
Когда его прямо спросили, когда система, основанная на этих исследованиях, будет готова к практическому применению, Левин отказался строить предположения. «Есть веские причины для оптимизма, и прогресс, безусловно, идет быстрее, чем я предполагал пару лет назад, — говорит он. — Но мне очень сложно дать однозначный ответ».
На сегодняшний день Physical Intelligence привлекла более 1 миллиарда долларов, а ее последняя оценка составила 5,6 миллиарда долларов. Значительная часть интереса инвесторов к компании связана с соучредителем Лачи Грумом, который на протяжении многих лет был одним из самых уважаемых бизнес-ангелов Кремниевой долины — он финансировал такие компании, как Figma, Notion и Ramp, — прежде чем пришел к выводу, что Physical Intelligence — это именно тот проект, которого он так долго искал. Такой авторитет помог стартапу привлечь значительное институциональное финансирование, даже несмотря на то, что компания воздерживалась от предоставления инвесторам конкретного плана коммерциализации.
Сообщается, что в настоящее время компания ведет переговоры о новом раунде финансирования, который почти удвоит ее оценку до 11 миллиардов долларов. Команда отказалась комментировать этот вопрос.
Связанная статья
Компания Trace привлекла 3 миллиона долларов для преодоления препятствий на пути внедрения интеллектуальных агентов в корпоративной среде.
Несмотря на свой потенциал, искусственные интеллектуальные агенты испытывают трудности с получением распространения в корпоративной среде. Одна из новых стартап-компаний считает, что основная проблема заключается в отсутствии контекста.Компания Trac
Hightouch достигла годового повторяемого дохода (ARR) в 100 млн долларов благодаря маркетинговым инструментам на базе искусственного интеллекта
Раньше маркетологи полагались на дизайнеров и других креативных специалистов при создании изображений и видеороликов для персонализированных рекламных кампаний в Интернете.В конце 2024 года семилетний
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан
Рекомендации по связанным специальным темам
Комментарии (0)
«Physical Intelligence» — двухлетний стартап в сфере робототехники из Сан-Франциско, ставший одной из наиболее пристально наблюдаемых компаний в области искусственного интеллекта в районе залива Сан-Франциско, — в четверг опубликовал результаты нового исследования. Результаты показывают, что новейшая модель компании способна направлять роботов на выполнение задач, для которых они никогда специально не обучались — эта способность, как признают даже собственные исследователи компании, стала для них неожиданностью.
Новая модель, получившая название π0.7, знаменует собой то, что компания называет ранним, но значительным шагом на пути к давней цели — созданию универсального «мозга» для роботов. Эта система может быть направлена на выполнение незнакомой задачи, получить инструкции на простом языке и успешно ее выполнить. Если эти результаты выдержат тщательную проверку, они укажут на то, что искусственный интеллект в робототехнике, возможно, приближается к переломному моменту, схожему с эволюцией крупных языковых моделей — когда способности начинают сочетаться таким образом, что превосходят то, что можно было бы предположить на основе исходных данных.
В основе статьи лежит концепция композиционной генерализации: способность сочетать навыки, приобретенные в разных контекстах, для решения совершенно новых задач. Традиционно обучение роботов основывалось на механическом запоминании — сборе данных для конкретной задачи, обучении на них специализированной модели и повторении этого процесса для каждой новой задачи. Physical Intelligence утверждает, что π0.7 разрывает этот цикл.
«Как только модель пересекает порог, переходя от простого воспроизведения точных данных, на которых она была обучена, к творческому рекомбинированию элементов новыми способами, — объясняет Сергей Левин, соучредитель Physical Intelligence и профессор Калифорнийского университета в Беркли, специализирующийся на ИИ для робототехники, — ее возможности начинают расти со скоростью, превышающей линейную зависимость от объема данных. Такую более благоприятную динамику масштабирования мы наблюдали и в других областях, таких как язык и зрение».
Наиболее убедительная демонстрация в статье связана с фритюрницей, с которой модель практически не сталкивалась во время обучения. В ходе исследования команда обнаружила только два релевантных примера во всем наборе данных: один, где другой робот просто закрыл дверцу фритюрницы, и другой из набора данных с открытым исходным кодом, где робот по команде поместил внутрь пластиковую бутылку. Каким-то образом модель синтезировала эти фрагменты, наряду с более обширными данными предварительного обучения из Интернета, в практическое понимание того, как работает прибор.
«Невероятно сложно точно определить, откуда берутся эти знания, или предсказать, где они приведут к успеху, а где — к провалу», — отмечает Ашвин Балакришна, научный сотрудник Physical Intelligence и аспирант по информатике в Стэнфорде. Тем не менее, без какого-либо предварительного обучения модель предприняла убедительную попытку использовать прибор для приготовления сладкого картофеля. Когда ей были предоставлены пошаговые устные инструкции — по сути, человек, рассказывающий роботу о процессе, как будто обучает нового сотрудника — она успешно выполнила задачу.
Эта способность к обучению важна, поскольку подразумевает, что роботов можно будет использовать в новых условиях и совершенствовать в режиме реального времени, устраняя необходимость в дополнительном сборе данных или переобучении модели.
Каковы же более широкие последствия? Исследователи открыто говорят об ограничениях модели и осторожно относятся к преувеличению ее прогресса. По крайней мере в одном случае они приписывают неудачу непосредственно своей собственной команде.
«Иногда неудача не связана с роботом или моделью, — говорит Балакришна. — Это наша вина — мы не обладаем достаточными навыками в области разработки подсказок». Он приводит в пример ранний эксперимент с фритюрницей, в котором успешность составила всего 5 %. После того как было потрачено около тридцати минут на уточнение того, как задача объяснялась модели, успешность взлетела до 95 %.

Изображения предоставлены:Physical Intelligence
Модель также пока не способна автономно выполнять сложные многоэтапные задачи по одной команде высокого уровня. «Нельзя просто сказать ей: „Сделай мне тост“, — заявляет Левин. — Но если вы проведете ее через этапы — „открой эту часть тостера, нажми эту кнопку, сделай это“ — то она, как правило, справляется довольно хорошо».
Команда также признает отсутствие стандартизированных тестов в робототехнике, что затрудняет внешнюю проверку их заявлений. Вместо этого компания сравнила π0.7 со своими собственными более ранними специализированными моделями — системами, созданными на заказ и обученными для выполнения отдельных задач — и обнаружила, что универсальная модель не уступала им по производительности в целом ряде сложных действий, включая приготовление кофе, складывание белья и сборку коробок.
Возможно, самым замечательным аспектом исследования — если верить словам самих исследователей — является не какая-то отдельная демонстрация, а то, насколько результаты поразили тех самых людей, чья работа заключается в том, чтобы досконально знать обучающие данные и, следовательно, понимать, на что модель должна быть способна, а на что — нет.
«По моему опыту, когда я глубоко понимаю данные, я обычно могу предсказать, на что будет способна модель, — размышляет Балакришна. — Меня редко что-то удивляет. Но последние несколько месяцев стали первым случаем, когда я был искренне ошеломлен. Я случайно купил набор шестеренок и спросил робота: «Можешь повернуть эту шестерню?» И это просто сработало».
Левин вспоминает момент, когда исследователи впервые стали свидетелями того, как GPT-2 сгенерировала рассказ об единорогах в Андах. «Откуда, черт возьми, она узнала об единорогах в Перу?» — говорит он. «Это такое странное сочетание. Увидеть подобную возникающую способность в робототехнике — это действительно особенное событие».
Естественно, критики будут подчеркивать неотъемлемую асимметрию: языковые модели были обучены на всем Интернете. У роботов нет такой роскоши, и никакие умные подсказки не смогут полностью преодолеть этот разрыв. Однако, когда его спрашивают, где он ожидает скептицизма, Левин указывает в совершенно другом направлении.
«Критика, которую всегда можно высказать в адрес любой демонстрации обобщения в робототехнике, заключается в том, что задачи кажутся несколько банальными, — замечает он. — Робот не делает сальто назад». Он оспаривает эту точку зрения, утверждая, что разница между эффектной демонстрацией робота и системой, которая действительно способна к обобщению, и есть суть дела. По его мнению, настоящее обобщение всегда будет выглядеть менее эффектно, чем тщательно срежиссированный трюк, — но оно гораздо более практично.
В самой статье повсеместно используется осторожная формулировка, описывающая π0.7 как демонстрирующую «ранние признаки» обобщения и «первые демонстрации» новых возможностей. Это результаты исследований, а не коммерческий продукт, и компания Physical Intelligence постоянно сдержанно высказывается о сроках его коммерциализации.
Когда его прямо спросили, когда система, основанная на этих исследованиях, будет готова к практическому применению, Левин отказался строить предположения. «Есть веские причины для оптимизма, и прогресс, безусловно, идет быстрее, чем я предполагал пару лет назад, — говорит он. — Но мне очень сложно дать однозначный ответ».
На сегодняшний день Physical Intelligence привлекла более 1 миллиарда долларов, а ее последняя оценка составила 5,6 миллиарда долларов. Значительная часть интереса инвесторов к компании связана с соучредителем Лачи Грумом, который на протяжении многих лет был одним из самых уважаемых бизнес-ангелов Кремниевой долины — он финансировал такие компании, как Figma, Notion и Ramp, — прежде чем пришел к выводу, что Physical Intelligence — это именно тот проект, которого он так долго искал. Такой авторитет помог стартапу привлечь значительное институциональное финансирование, даже несмотря на то, что компания воздерживалась от предоставления инвесторам конкретного плана коммерциализации.
Сообщается, что в настоящее время компания ведет переговоры о новом раунде финансирования, который почти удвоит ее оценку до 11 миллиардов долларов. Команда отказалась комментировать этот вопрос.
Компания Trace привлекла 3 миллиона долларов для преодоления препятствий на пути внедрения интеллектуальных агентов в корпоративной среде.
Несмотря на свой потенциал, искусственные интеллектуальные агенты испытывают трудности с получением распространения в корпоративной среде. Одна из новых стартап-компаний считает, что основная проблема заключается в отсутствии контекста.Компания Trac
Hightouch достигла годового повторяемого дохода (ARR) в 100 млн долларов благодаря маркетинговым инструментам на базе искусственного интеллекта
Раньше маркетологи полагались на дизайнеров и других креативных специалистов при создании изображений и видеороликов для персонализированных рекламных кампаний в Интернете.В конце 2024 года семилетний
Рост объемов добычи природного газа компанией Meta может обеспечить энергией энергосистему Южной Дакоты
Центры обработки данных стали настолько масштабными, что их потребление электроэнергии теперь сопоставимо с потреблением целых штатов США. Возьмем, к примеру, центр обработки данных Hyperion AI компан











