Meta FAIR представила пять прорывов, способствующих развитию человекоподобного ИИ

Дом

Новости

28 декабря 2025 г.

BillyAdams

130

# ai # agents # meta # robotics

Команда Meta Fundamental AI Research (FAIR) представила пять новых проектов, которые продвигают ее работу в области передовых технологий машинного интеллекта (AMI).

Эти последние разработки сосредоточены на улучшении восприятия ИИ — то есть на том, как машины обрабатывают сенсорную информацию — наряду с прогрессом в области языковых моделей, робототехники и совместных ИИ-агентов.

Meta пояснила, что ее цель — создать машины, «способные получать, обрабатывать и интерпретировать сенсорные данные из нашего мира и использовать эту информацию для принятия решений с интеллектом и скоростью, подобными человеческим».

Пять новых инициатив представляют собой ряд взаимосвязанных усилий по достижению этой амбициозной цели.

Perception Encoder: повышение визуального интеллекта ИИ

Краеугольным камнем новых версий является Perception Encoder, крупномасштабный кодер зрения, созданный для исключительной производительности при выполнении различных задач с изображениями и видео.

Визуальные кодировщики действуют как «глаза» систем искусственного интеллекта, позволяя им понимать визуальную информацию.

Meta отмечает растущую сложность создания кодировщиков для передовых систем искусственного интеллекта, которые должны связывать зрение с языком, эффективно обрабатывать как изображения, так и видео, а также оставаться надежными в сложных условиях, включая враждебные атаки.

По мнению Meta, идеальный кодировщик должен распознавать широкий спектр концепций, а также улавливать мелкие детали, например, замечать «скат, спрятанный под морским дном, идентифицировать маленького щегл на фоне изображения или обнаружить быстро движущегося агути на камере ночного видения дикой природы».

Meta заявляет, что Perception Encoder обеспечивает «выдающуюся производительность при классификации и поиске изображений и видео без предварительной подготовки, превосходя все существующие открытые и проприетарные модели для этих задач».

Кроме того, его перцептивные способности, по сообщениям, повышают производительность при решении языковых задач.

В сочетании с большой языковой моделью (LLM) кодер, как утверждается, превосходит другие кодеры зрения в таких областях, как визуальный ответ на вопросы (VQA), создание подписей, понимание документов и привязка (связывание текста с конкретными частями изображения). Сообщается, что он также улучшает производительность при выполнении задач, с которыми LLM обычно испытывают трудности, таких как понимание пространственных отношений (например, «если один объект находится за другим») или движение камеры относительно объекта.

«По мере того, как Perception Encoder начинает интегрироваться в новые приложения, мы с нетерпением ждем, чтобы увидеть, как его передовые визуальные возможности будут питать еще более сложные системы искусственного интеллекта», — прокомментировали в Meta.

Модель восприятия языка (PLM): продвижение открытых исследований в области зрения и языка

Вместе с кодировщиком работает Perception Language Model (PLM) — открытая и воспроизводимая модель зрительного восприятия, разработанная для сложных задач визуального распознавания.

PLM была обучена с использованием обширных синтетических данных наряду с открытыми наборами данных по зрению и языку, намеренно избегая знаний, полученных из внешних проприетарных моделей.

Признавая недостатки существующих данных по пониманию видео, команда FAIR собрала 2,5 миллиона новых, помеченных людьми образцов, сосредоточенных на подробных ответах на вопросы по видео и пространственно-временных титрах. Meta утверждает, что это «крупнейший на сегодняшний день набор данных такого рода».

PLM доступен в версиях с 1, 3 и 8 миллиардами параметров, чтобы удовлетворить потребности академических исследований, требующих полной прозрачности.

Наряду с моделями Meta выпускает PLM-VideoBench, новый тест, специально разработанный для проверки возможностей, которые часто упускаются из виду существующими тестами, а именно «детальное понимание деятельности и пространственно-временное обоснованное мышление».

Meta надеется, что предоставление открытых моделей, большого набора данных и сложного теста укрепит сообщество открытого исходного кода.

Meta Locate 3D: обеспечение роботов ситуационной осведомленностью

Meta Locate 3D связывает языковые команды и физические действия. Эта комплексная модель разработана, чтобы позволить роботам точно находить объекты в трехмерном пространстве на основе открытых запросов на естественном языке.

Meta Locate 3D обрабатывает трехмерные облака точек непосредственно с датчиков RGB-D (таких, как те, что установлены на некоторых роботах или камерах с датчиками глубины). Получив текстовый запрос, например «ваза с цветами рядом с телевизором», система анализирует пространственные отношения и контекст, чтобы определить правильный объект, отличая его, например, от «вазы на столе».

Система состоит из трех основных компонентов: этапа предварительной обработки, который преобразует 2D-особенности в 3D-облака точек с особенностями; кодировщика 3D-JEPA (предварительно обученной модели, которая создает контекстуализированное представление 3D-мира); и декодера Locate 3D, который использует 3D-представление и языковой запрос для генерации ограничительных рамок и масок для указанных объектов.

Наряду с моделью Meta выпускает новый обширный набор данных для локализации объектов на основе референциальных выражений. Он включает 130 000 языковых аннотаций в 1346 сценах из наборов данных ARKitScenes, ScanNet и ScanNet++, что фактически удваивает существующие аннотированные данные в этой области.

Meta считает эту технологию необходимой для разработки более способных робототехнических систем, включая собственный проект робота PARTNR, что способствует более естественному взаимодействию человека и робота и совместной работе.

Dynamic Byte Latent Transformer: эффективное и надежное моделирование языка

В соответствии с результатами исследований, опубликованными в конце 2024 года, Meta теперь выпускает веса модели для своего динамического байтового латентного преобразователя с 8 миллиардами параметров.

Эта архитектура отличается от традиционных языковых моделей, основанных на токенизации, и работает непосредственно на уровне байтов. Meta утверждает, что этот метод обеспечивает аналогичную производительность в масштабе, предлагая при этом значительное повышение эффективности и надежности вывода.

Обычные LLM разбивают текст на «токены», что может вызвать проблемы с орфографическими ошибками, новыми словами или враждебными вводными данными. Модели на уровне байтов обрабатывают необработанные байты, что потенциально обеспечивает большую устойчивость.

Meta сообщает, что Dynamic Byte Latent Transformer «превосходит модели на основе токенизаторов по различным задачам, демонстрируя среднее преимущество в надежности +7 баллов (на возмущенном HellaSwag) и достигая до +55 баллов на задачах из теста CUTE по пониманию токенов».

Публикуя веса вместе с ранее предоставленной кодовой базой, Meta поощряет исследовательское сообщество изучать этот альтернативный подход к моделированию языка.

Collaborative Reasoner: продвижение социально-интеллектуальных ИИ-агентов

Последний релиз, Collaborative Reasoner, решает сложную задачу создания ИИ-агентов, которые могут эффективно работать с людьми или другими ИИ.

Meta отмечает, что сотрудничество между людьми часто приводит к лучшим результатам, и стремится наделить ИИ аналогичными способностями для выполнения таких задач, как помощь в выполнении домашних заданий или подготовка к собеседованию.

Такое сотрудничество требует не только решения проблем, но и социальных навыков, таких как коммуникация, эмпатия, предоставление обратной связи и понимание точек зрения других (теория разума), которые обычно раскрываются в ходе нескольких разговоров.

Современные методы обучения и оценки LLM часто упускают из виду эти социальные и коллаборативные аспекты. Кроме того, сбор соответствующих данных о разговорах является дорогостоящим и сложным процессом.

Collaborative Reasoner предоставляет платформу для оценки и улучшения этих навыков. Она включает в себя ориентированные на цель задачи, которые требуют многоэтапного мышления, достигаемого посредством диалога между двумя агентами. Платформа тестирует такие способности, как конструктивное несогласие, убеждение и достижение взаимовыгодного решения.

Оценки Meta показали, что современные модели часто не могут последовательно использовать сотрудничество для улучшения результатов. Для решения этой проблемы они предлагают технику самосовершенствования с использованием синтетических данных взаимодействия, в которой агент LLM сотрудничает сам с собой.

Генерация этих данных в больших объемах стала возможной благодаря новому высокопроизводительному движку обслуживания моделей под названием Matrix. Использование этого метода для задач математического, научного и социального мышления, по сообщениям, привело к улучшению результатов до 29,4% по сравнению со стандартной производительностью «цепочки мыслей» одного LLM.

Путем открытия исходного кода процесса генерации данных и моделирования Meta стремится ускорить исследования в области разработки по-настоящему «социальных агентов, способных сотрудничать с людьми и другими агентами».

В совокупности эти пять релизов подчеркивают продолжающиеся существенные инвестиции Meta в фундаментальные исследования в области ИИ, в частности в создание базовых компонентов для машин, которые могут воспринимать, понимать и взаимодействовать с миром более человекоподобным образом.

См. также: Meta будет обучать модели ИИ с использованием данных пользователей из ЕС

Хотите узнать больше об ИИ и больших данных от лидеров отрасли? Посетите выставку AI & Big Data Expo, которая пройдет в Амстердаме, Калифорнии и Лондоне. Это комплексное мероприятие проходит одновременно с другими крупными событиями, включая конференцию Intelligent Automation Conference, BlockX, Digital Transformation Week и Cyber Security & Cloud Expo.

Узнайте о других предстоящих мероприятиях и вебинарах по корпоративным технологиям, организованных TechForge, здесь.

Связанная статья

Notion превращает свое рабочее пространство в центр для ИИ-агентов Компания Notion, разработчик программного обеспечения для повышения продуктивности, вступает в эру агентов.Во время прямой трансляции анонса продукта в среду компания Notion, наиболее известная своим

ElevenLabs объявила о привлечении в качестве новых инвесторов компаний BlackRock, Джейми Фокса и Евы Лонгории Компания ElevenLabs, занимающаяся разработкой голосовых ИИ-технологий, раскрыла имена дополнительных инвесторов, участвовавших в раунде финансирования серии D на сумму 500 млн долларов, о котором перв

WordPress.com теперь позволяет ИИ-ботам создавать и публиковать посты, а также выполнять другие задачи WordPress.com, популярная платформа для веб-хостинга и публикации контента, теперь внедряет ИИ-агентов — шаг, который может кардинально изменить облик и функциональность Интернета. В пятницу компания

Рекомендации по связанным специальным темам

Редактирование изображений

Генераторы искусства на основе ИИ для сценариев коротких драм: персонажи в жанрах фэнтези и городской романтики

2026 Год: Откройте для себя лучшие генераторы искусства на основе ИИ для создания сценариев к коротким драмам. Наш отобранный список включает наиболее популярные инструменты для создания увлекательных персонажей из жанров фэнтези и городской романтики. Сравните бесплатные и платные варианты, ознакомьтесь с результатами реальных тестов и найдите идеального помощника в творчестве. Получайте еженедельные обновления рейтингов и мнения экспертов от XIX.AI. Начните визуализировать свою историю прямо сегодня!

10 инструментов

xix.ai

письмо

Лучшие инструменты для создания скриптов на основе искусственного интеллекта для радио и подкастинга: написание увлекательных аудиореклам

Откройте для себя лучшие инструменты для создания скриптов на основе искусственного интеллекта в 2026 году, предназначенные для радио- и подкастинга, на сайте XIX.AI. Наш тщательно отобранный список включает мощные решения, способные значительно ускорить процесс создания привлекательных аудиореклам. Сравните бесплатные и платные варианты на основе реальных тестов и еженедельно обновляемых рейтингов. Раскройте свой творческий потенциал уже сегодня!

10 инструментов

xix.ai

Бизнес

Лучшее программное обеспечение для проверки договоров с помощью ИИ: мгновенное выявление юридических лазеек и рисков несоблюдения нормативных требований

Откройте для себя лучшее программное обеспечение 2026 года для анализа договоров с помощью ИИ на сайте XIX.AI. В нашем тщательно отобранном списке лидеров представлены мощные инструменты, которые мгновенно выявляют юридические лазейки и риски несоответствия нормативным требованиям. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Найдите решение, которое кардинально изменит ваш подход к безопасному и эффективному анализу договоров. Ознакомьтесь с исчерпывающим руководством прямо сейчас.

10 инструментов

xix.ai

Создание анимации

Генератор аниме на основе искусственного интеллекта для Donghua: Создание персонажей для веб-романов и аватаров для комиксов

Откройте для себя лучшие генераторы аниме на основе искусственного интеллекта 2026 года для создания донхуа. Наш список, составленный специально для вас, включает мощные инструменты, позволяющие создавать потрясающих персонажей для веб-новелл и комиксов. Сравните бесплатные и платные варианты на основе реальных тестов. Найдите идеального помощника в творчестве и превратите свои истории в жизнь сегодня на сайте XIX.AI.

10 инструментов

xix.ai

Создание комиксов

Лучшие инструменты для автоматической раскраски манги с помощью ИИ: нанесение плоских цветов без ошибок в цветовом решении

Откройте для себя лучшие инструменты для автоматической раскраски манги с помощью ИИ в 2026 году на сайте XIX.AI. В нашем тщательно составленном списке представлены самые популярные и революционные решения, которые наносят плоские цвета без единой ошибки в цветовом соответствии, что значительно повышает вашу продуктивность. Изучите сравнения бесплатных и платных версий, результаты реальных тестов и еженедельно обновляемые рейтинги, чтобы найти идеальный вариант для себя. Воспользуйтесь преимуществами ИИ уже сегодня.

10 инструментов

xix.ai

письмо

Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов

xix.ai

Комментарии (1)

0/500

Пожалуйста, войдите в систему

StevenMartin

1 января 2026 г., 15:30:56 GMT+03:00

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

Лучшие новости

AI Builder и Power Automate Революционизируют Суммирование Документов AI Hosts of Notebooklm подкаста теперь доступны для интервью Китай представляет национальный гуманоидный робот и стандарты воплощенного интеллекта По данным Ramp, корпоративное внедрение ИИ находится на плаву Руководство по создателю изображений Bing: Гайд по генерации искусством ИИ Научитесь создавать музыку ИИ, используя свой голос: пошаговый учебник SUNO iMyFone MagicMic: Обзор и руководство по реальном времени AI изменению голоса Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами DeepSeek V4 становится мультимодальным искусственным интеллектом, меняющим правила игры Компания Embodied Intelligence представляет первый отраслевой стандарт, призванный сдержать неконтролируемый рост

Более

Показан