Meta FAIR представила пять прорывов, способствующих развитию человекоподобного ИИ
Команда Meta Fundamental AI Research (FAIR) представила пять новых проектов, которые продвигают ее работу в области передовых технологий машинного интеллекта (AMI).
Эти последние разработки сосредоточены на улучшении восприятия ИИ — то есть на том, как машины обрабатывают сенсорную информацию — наряду с прогрессом в области языковых моделей, робототехники и совместных ИИ-агентов.
Meta пояснила, что ее цель — создать машины, «способные получать, обрабатывать и интерпретировать сенсорные данные из нашего мира и использовать эту информацию для принятия решений с интеллектом и скоростью, подобными человеческим».
Пять новых инициатив представляют собой ряд взаимосвязанных усилий по достижению этой амбициозной цели.
Perception Encoder: повышение визуального интеллекта ИИ
Краеугольным камнем новых версий является Perception Encoder, крупномасштабный кодер зрения, созданный для исключительной производительности при выполнении различных задач с изображениями и видео.
Визуальные кодировщики действуют как «глаза» систем искусственного интеллекта, позволяя им понимать визуальную информацию.
Meta отмечает растущую сложность создания кодировщиков для передовых систем искусственного интеллекта, которые должны связывать зрение с языком, эффективно обрабатывать как изображения, так и видео, а также оставаться надежными в сложных условиях, включая враждебные атаки.
По мнению Meta, идеальный кодировщик должен распознавать широкий спектр концепций, а также улавливать мелкие детали, например, замечать «скат, спрятанный под морским дном, идентифицировать маленького щегл на фоне изображения или обнаружить быстро движущегося агути на камере ночного видения дикой природы».
Meta заявляет, что Perception Encoder обеспечивает «выдающуюся производительность при классификации и поиске изображений и видео без предварительной подготовки, превосходя все существующие открытые и проприетарные модели для этих задач».
Кроме того, его перцептивные способности, по сообщениям, повышают производительность при решении языковых задач.
В сочетании с большой языковой моделью (LLM) кодер, как утверждается, превосходит другие кодеры зрения в таких областях, как визуальный ответ на вопросы (VQA), создание подписей, понимание документов и привязка (связывание текста с конкретными частями изображения). Сообщается, что он также улучшает производительность при выполнении задач, с которыми LLM обычно испытывают трудности, таких как понимание пространственных отношений (например, «если один объект находится за другим») или движение камеры относительно объекта.
«По мере того, как Perception Encoder начинает интегрироваться в новые приложения, мы с нетерпением ждем, чтобы увидеть, как его передовые визуальные возможности будут питать еще более сложные системы искусственного интеллекта», — прокомментировали в Meta.
Модель восприятия языка (PLM): продвижение открытых исследований в области зрения и языка
Вместе с кодировщиком работает Perception Language Model (PLM) — открытая и воспроизводимая модель зрительного восприятия, разработанная для сложных задач визуального распознавания.
PLM была обучена с использованием обширных синтетических данных наряду с открытыми наборами данных по зрению и языку, намеренно избегая знаний, полученных из внешних проприетарных моделей.
Признавая недостатки существующих данных по пониманию видео, команда FAIR собрала 2,5 миллиона новых, помеченных людьми образцов, сосредоточенных на подробных ответах на вопросы по видео и пространственно-временных титрах. Meta утверждает, что это «крупнейший на сегодняшний день набор данных такого рода».
PLM доступен в версиях с 1, 3 и 8 миллиардами параметров, чтобы удовлетворить потребности академических исследований, требующих полной прозрачности.
Наряду с моделями Meta выпускает PLM-VideoBench, новый тест, специально разработанный для проверки возможностей, которые часто упускаются из виду существующими тестами, а именно «детальное понимание деятельности и пространственно-временное обоснованное мышление».
Meta надеется, что предоставление открытых моделей, большого набора данных и сложного теста укрепит сообщество открытого исходного кода.
Meta Locate 3D: обеспечение роботов ситуационной осведомленностью
Meta Locate 3D связывает языковые команды и физические действия. Эта комплексная модель разработана, чтобы позволить роботам точно находить объекты в трехмерном пространстве на основе открытых запросов на естественном языке.
Meta Locate 3D обрабатывает трехмерные облака точек непосредственно с датчиков RGB-D (таких, как те, что установлены на некоторых роботах или камерах с датчиками глубины). Получив текстовый запрос, например «ваза с цветами рядом с телевизором», система анализирует пространственные отношения и контекст, чтобы определить правильный объект, отличая его, например, от «вазы на столе».
Система состоит из трех основных компонентов: этапа предварительной обработки, который преобразует 2D-особенности в 3D-облака точек с особенностями; кодировщика 3D-JEPA (предварительно обученной модели, которая создает контекстуализированное представление 3D-мира); и декодера Locate 3D, который использует 3D-представление и языковой запрос для генерации ограничительных рамок и масок для указанных объектов.
Наряду с моделью Meta выпускает новый обширный набор данных для локализации объектов на основе референциальных выражений. Он включает 130 000 языковых аннотаций в 1346 сценах из наборов данных ARKitScenes, ScanNet и ScanNet++, что фактически удваивает существующие аннотированные данные в этой области.
Meta считает эту технологию необходимой для разработки более способных робототехнических систем, включая собственный проект робота PARTNR, что способствует более естественному взаимодействию человека и робота и совместной работе.
Dynamic Byte Latent Transformer: эффективное и надежное моделирование языка
В соответствии с результатами исследований, опубликованными в конце 2024 года, Meta теперь выпускает веса модели для своего динамического байтового латентного преобразователя с 8 миллиардами параметров.
Эта архитектура отличается от традиционных языковых моделей, основанных на токенизации, и работает непосредственно на уровне байтов. Meta утверждает, что этот метод обеспечивает аналогичную производительность в масштабе, предлагая при этом значительное повышение эффективности и надежности вывода.
Обычные LLM разбивают текст на «токены», что может вызвать проблемы с орфографическими ошибками, новыми словами или враждебными вводными данными. Модели на уровне байтов обрабатывают необработанные байты, что потенциально обеспечивает большую устойчивость.
Meta сообщает, что Dynamic Byte Latent Transformer «превосходит модели на основе токенизаторов по различным задачам, демонстрируя среднее преимущество в надежности +7 баллов (на возмущенном HellaSwag) и достигая до +55 баллов на задачах из теста CUTE по пониманию токенов».
Публикуя веса вместе с ранее предоставленной кодовой базой, Meta поощряет исследовательское сообщество изучать этот альтернативный подход к моделированию языка.
Collaborative Reasoner: продвижение социально-интеллектуальных ИИ-агентов
Последний релиз, Collaborative Reasoner, решает сложную задачу создания ИИ-агентов, которые могут эффективно работать с людьми или другими ИИ.
Meta отмечает, что сотрудничество между людьми часто приводит к лучшим результатам, и стремится наделить ИИ аналогичными способностями для выполнения таких задач, как помощь в выполнении домашних заданий или подготовка к собеседованию.
Такое сотрудничество требует не только решения проблем, но и социальных навыков, таких как коммуникация, эмпатия, предоставление обратной связи и понимание точек зрения других (теория разума), которые обычно раскрываются в ходе нескольких разговоров.
Современные методы обучения и оценки LLM часто упускают из виду эти социальные и коллаборативные аспекты. Кроме того, сбор соответствующих данных о разговорах является дорогостоящим и сложным процессом.
Collaborative Reasoner предоставляет платформу для оценки и улучшения этих навыков. Она включает в себя ориентированные на цель задачи, которые требуют многоэтапного мышления, достигаемого посредством диалога между двумя агентами. Платформа тестирует такие способности, как конструктивное несогласие, убеждение и достижение взаимовыгодного решения.
Оценки Meta показали, что современные модели часто не могут последовательно использовать сотрудничество для улучшения результатов. Для решения этой проблемы они предлагают технику самосовершенствования с использованием синтетических данных взаимодействия, в которой агент LLM сотрудничает сам с собой.
Генерация этих данных в больших объемах стала возможной благодаря новому высокопроизводительному движку обслуживания моделей под названием Matrix. Использование этого метода для задач математического, научного и социального мышления, по сообщениям, привело к улучшению результатов до 29,4% по сравнению со стандартной производительностью «цепочки мыслей» одного LLM.
Путем открытия исходного кода процесса генерации данных и моделирования Meta стремится ускорить исследования в области разработки по-настоящему «социальных агентов, способных сотрудничать с людьми и другими агентами».
В совокупности эти пять релизов подчеркивают продолжающиеся существенные инвестиции Meta в фундаментальные исследования в области ИИ, в частности в создание базовых компонентов для машин, которые могут воспринимать, понимать и взаимодействовать с миром более человекоподобным образом.
См. также: Meta будет обучать модели ИИ с использованием данных пользователей из ЕС
Хотите узнать больше об ИИ и больших данных от лидеров отрасли? Посетите выставку AI & Big Data Expo, которая пройдет в Амстердаме, Калифорнии и Лондоне. Это комплексное мероприятие проходит одновременно с другими крупными событиями, включая конференцию Intelligent Automation Conference, BlockX, Digital Transformation Week и Cyber Security & Cloud Expo.
Узнайте о других предстоящих мероприятиях и вебинарах по корпоративным технологиям, организованных TechForge, здесь.
Связанная статья
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
Рекомендации по связанным специальным темам
Комментарии (1)
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠
Команда Meta Fundamental AI Research (FAIR) представила пять новых проектов, которые продвигают ее работу в области передовых технологий машинного интеллекта (AMI).
Эти последние разработки сосредоточены на улучшении восприятия ИИ — то есть на том, как машины обрабатывают сенсорную информацию — наряду с прогрессом в области языковых моделей, робототехники и совместных ИИ-агентов.
Meta пояснила, что ее цель — создать машины, «способные получать, обрабатывать и интерпретировать сенсорные данные из нашего мира и использовать эту информацию для принятия решений с интеллектом и скоростью, подобными человеческим».
Пять новых инициатив представляют собой ряд взаимосвязанных усилий по достижению этой амбициозной цели.
Perception Encoder: повышение визуального интеллекта ИИ
Краеугольным камнем новых версий является Perception Encoder, крупномасштабный кодер зрения, созданный для исключительной производительности при выполнении различных задач с изображениями и видео.
Визуальные кодировщики действуют как «глаза» систем искусственного интеллекта, позволяя им понимать визуальную информацию.
Meta отмечает растущую сложность создания кодировщиков для передовых систем искусственного интеллекта, которые должны связывать зрение с языком, эффективно обрабатывать как изображения, так и видео, а также оставаться надежными в сложных условиях, включая враждебные атаки.
По мнению Meta, идеальный кодировщик должен распознавать широкий спектр концепций, а также улавливать мелкие детали, например, замечать «скат, спрятанный под морским дном, идентифицировать маленького щегл на фоне изображения или обнаружить быстро движущегося агути на камере ночного видения дикой природы».
Meta заявляет, что Perception Encoder обеспечивает «выдающуюся производительность при классификации и поиске изображений и видео без предварительной подготовки, превосходя все существующие открытые и проприетарные модели для этих задач».
Кроме того, его перцептивные способности, по сообщениям, повышают производительность при решении языковых задач.
В сочетании с большой языковой моделью (LLM) кодер, как утверждается, превосходит другие кодеры зрения в таких областях, как визуальный ответ на вопросы (VQA), создание подписей, понимание документов и привязка (связывание текста с конкретными частями изображения). Сообщается, что он также улучшает производительность при выполнении задач, с которыми LLM обычно испытывают трудности, таких как понимание пространственных отношений (например, «если один объект находится за другим») или движение камеры относительно объекта.
«По мере того, как Perception Encoder начинает интегрироваться в новые приложения, мы с нетерпением ждем, чтобы увидеть, как его передовые визуальные возможности будут питать еще более сложные системы искусственного интеллекта», — прокомментировали в Meta.
Модель восприятия языка (PLM): продвижение открытых исследований в области зрения и языка
Вместе с кодировщиком работает Perception Language Model (PLM) — открытая и воспроизводимая модель зрительного восприятия, разработанная для сложных задач визуального распознавания.
PLM была обучена с использованием обширных синтетических данных наряду с открытыми наборами данных по зрению и языку, намеренно избегая знаний, полученных из внешних проприетарных моделей.
Признавая недостатки существующих данных по пониманию видео, команда FAIR собрала 2,5 миллиона новых, помеченных людьми образцов, сосредоточенных на подробных ответах на вопросы по видео и пространственно-временных титрах. Meta утверждает, что это «крупнейший на сегодняшний день набор данных такого рода».
PLM доступен в версиях с 1, 3 и 8 миллиардами параметров, чтобы удовлетворить потребности академических исследований, требующих полной прозрачности.
Наряду с моделями Meta выпускает PLM-VideoBench, новый тест, специально разработанный для проверки возможностей, которые часто упускаются из виду существующими тестами, а именно «детальное понимание деятельности и пространственно-временное обоснованное мышление».
Meta надеется, что предоставление открытых моделей, большого набора данных и сложного теста укрепит сообщество открытого исходного кода.
Meta Locate 3D: обеспечение роботов ситуационной осведомленностью
Meta Locate 3D связывает языковые команды и физические действия. Эта комплексная модель разработана, чтобы позволить роботам точно находить объекты в трехмерном пространстве на основе открытых запросов на естественном языке.
Meta Locate 3D обрабатывает трехмерные облака точек непосредственно с датчиков RGB-D (таких, как те, что установлены на некоторых роботах или камерах с датчиками глубины). Получив текстовый запрос, например «ваза с цветами рядом с телевизором», система анализирует пространственные отношения и контекст, чтобы определить правильный объект, отличая его, например, от «вазы на столе».
Система состоит из трех основных компонентов: этапа предварительной обработки, который преобразует 2D-особенности в 3D-облака точек с особенностями; кодировщика 3D-JEPA (предварительно обученной модели, которая создает контекстуализированное представление 3D-мира); и декодера Locate 3D, который использует 3D-представление и языковой запрос для генерации ограничительных рамок и масок для указанных объектов.
Наряду с моделью Meta выпускает новый обширный набор данных для локализации объектов на основе референциальных выражений. Он включает 130 000 языковых аннотаций в 1346 сценах из наборов данных ARKitScenes, ScanNet и ScanNet++, что фактически удваивает существующие аннотированные данные в этой области.
Meta считает эту технологию необходимой для разработки более способных робототехнических систем, включая собственный проект робота PARTNR, что способствует более естественному взаимодействию человека и робота и совместной работе.
Dynamic Byte Latent Transformer: эффективное и надежное моделирование языка
В соответствии с результатами исследований, опубликованными в конце 2024 года, Meta теперь выпускает веса модели для своего динамического байтового латентного преобразователя с 8 миллиардами параметров.
Эта архитектура отличается от традиционных языковых моделей, основанных на токенизации, и работает непосредственно на уровне байтов. Meta утверждает, что этот метод обеспечивает аналогичную производительность в масштабе, предлагая при этом значительное повышение эффективности и надежности вывода.
Обычные LLM разбивают текст на «токены», что может вызвать проблемы с орфографическими ошибками, новыми словами или враждебными вводными данными. Модели на уровне байтов обрабатывают необработанные байты, что потенциально обеспечивает большую устойчивость.
Meta сообщает, что Dynamic Byte Latent Transformer «превосходит модели на основе токенизаторов по различным задачам, демонстрируя среднее преимущество в надежности +7 баллов (на возмущенном HellaSwag) и достигая до +55 баллов на задачах из теста CUTE по пониманию токенов».
Публикуя веса вместе с ранее предоставленной кодовой базой, Meta поощряет исследовательское сообщество изучать этот альтернативный подход к моделированию языка.
Collaborative Reasoner: продвижение социально-интеллектуальных ИИ-агентов
Последний релиз, Collaborative Reasoner, решает сложную задачу создания ИИ-агентов, которые могут эффективно работать с людьми или другими ИИ.
Meta отмечает, что сотрудничество между людьми часто приводит к лучшим результатам, и стремится наделить ИИ аналогичными способностями для выполнения таких задач, как помощь в выполнении домашних заданий или подготовка к собеседованию.
Такое сотрудничество требует не только решения проблем, но и социальных навыков, таких как коммуникация, эмпатия, предоставление обратной связи и понимание точек зрения других (теория разума), которые обычно раскрываются в ходе нескольких разговоров.
Современные методы обучения и оценки LLM часто упускают из виду эти социальные и коллаборативные аспекты. Кроме того, сбор соответствующих данных о разговорах является дорогостоящим и сложным процессом.
Collaborative Reasoner предоставляет платформу для оценки и улучшения этих навыков. Она включает в себя ориентированные на цель задачи, которые требуют многоэтапного мышления, достигаемого посредством диалога между двумя агентами. Платформа тестирует такие способности, как конструктивное несогласие, убеждение и достижение взаимовыгодного решения.
Оценки Meta показали, что современные модели часто не могут последовательно использовать сотрудничество для улучшения результатов. Для решения этой проблемы они предлагают технику самосовершенствования с использованием синтетических данных взаимодействия, в которой агент LLM сотрудничает сам с собой.
Генерация этих данных в больших объемах стала возможной благодаря новому высокопроизводительному движку обслуживания моделей под названием Matrix. Использование этого метода для задач математического, научного и социального мышления, по сообщениям, привело к улучшению результатов до 29,4% по сравнению со стандартной производительностью «цепочки мыслей» одного LLM.
Путем открытия исходного кода процесса генерации данных и моделирования Meta стремится ускорить исследования в области разработки по-настоящему «социальных агентов, способных сотрудничать с людьми и другими агентами».
В совокупности эти пять релизов подчеркивают продолжающиеся существенные инвестиции Meta в фундаментальные исследования в области ИИ, в частности в создание базовых компонентов для машин, которые могут воспринимать, понимать и взаимодействовать с миром более человекоподобным образом.
См. также: Meta будет обучать модели ИИ с использованием данных пользователей из ЕС
Хотите узнать больше об ИИ и больших данных от лидеров отрасли? Посетите выставку AI & Big Data Expo, которая пройдет в Амстердаме, Калифорнии и Лондоне. Это комплексное мероприятие проходит одновременно с другими крупными событиями, включая конференцию Intelligent Automation Conference, BlockX, Digital Transformation Week и Cyber Security & Cloud Expo.
Узнайте о других предстоящих мероприятиях и вебинарах по корпоративным технологиям, организованных TechForge, здесь.
Notion превращает свое рабочее пространство в центр для ИИ-агентов
Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим
ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории
Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв
WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи
WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания
So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠





Дом






