Генерация видео ИИ движется к полному управлению
18 апреля 2025 г.
RyanLopez
23
Модели видео фонда, такие как Hunyuan и WAN 2.1, добились значительных успехов, но они часто терпят неудачу, когда речь заходит о детальном управлении, необходимым для производства пленки и телевидения, особенно в сфере визуальных эффектов (VFX). В Professional VFX Studios эти модели, наряду с более ранними моделями на основе изображений, таких как стабильная диффузия, Kandinsky и Flux, используются в сочетании с набором инструментов, предназначенных для уточнения их результатов для удовлетворения конкретных творческих требований. Когда режиссер просит настройку, говоря что -то вроде: «Это выглядит великолепно, но можем ли мы сделать его немного больше [n]?», Недостаточно просто указать, что модели не хватает точности, чтобы вносить такие коррективы.
Вместо этого команда AI VFX будет использовать комбинацию традиционных методов CGI и композиции, наряду с пользовательскими рабочими процессами, чтобы дальше продвигать границы синтеза видео. Этот подход сродни использованию веб -браузера по умолчанию, таким как Chrome; Это функционально из коробки, но для того, чтобы по -настоящему адаптировать его к вашим потребностям, вам нужно установить несколько плагинов.
Контролируют уроды
В области синтеза изображения на основе диффузии одной из наиболее важных сторонних систем является ControlNet. Этот метод вводит структурированный элемент управления для генеративных моделей, позволяя пользователям направлять изображения или генерацию видео, используя дополнительные входы, такие как карты краев, карты глубины или информацию о позе.
*Различные методы ControlNet позволяют получить глубину> Изображение (верхняя строка), семантическая сегментация> Изображение (слева внизу) и генерация изображений людей и животных с позами (слева внизу).*
ControlNet не полагается исключительно на текстовые подсказки; Он использует отдельные филиалы нейронной сети или адаптеры для обработки этих сигналов кондиционирования при сохранении генеративных возможностей базовой модели. Это позволяет высоко настраиваемым выходам, которые близко соответствуют спецификациям пользователей, что делает их неоценимыми для приложений, требующих точного управления композицией, структурой или движением.
* С помощью руководящей позы можно получить различные точные выходные типы через ControlNet.* Источник: https://arxiv.org/pdf/2302.05543
Тем не менее, эти системы на основе адаптеров, которые работают извне на наборе внутренних ориентированных на нейронных процессов, поставляются с несколькими недостатками. Адаптеры обучаются независимо, что может привести к конфликтам ветвей, когда объединяются несколько адаптеров, что часто приводит к поколениям более низкого качества. Они также вводят избыточность параметров, требующие дополнительных вычислительных ресурсов и памяти для каждого адаптера, что делает масштабирование неэффективным. Более того, несмотря на их гибкость, адаптеры часто дают неоптимальные результаты по сравнению с моделями, полностью настраиваемыми для генерации нескольких кондиционеров. Эти проблемы могут сделать методы на основе адаптеров менее эффективными для задач, которые требуют бесшовной интеграции множественных контрольных сигналов.
В идеале, возможности ControlNet будет изначально интегрирована в модель модульной формой, что позволяет для будущих инноваций, таких как одновременное видео/поколение видео/аудио или нативные возможности синхронизации губ. В настоящее время каждая дополнительная функция становится либо задачей постпроизводства, либо неродной процедурой, которая должна ориентироваться в чувствительных весах модели фундамента.
Fulldit
Введите Fulldit, новый подход из Китая, который интегрирует функции в стиле ControlNet, непосредственно в генеративную видео-модель во время обучения, а не рассматривать их как запоздалую мысль.
* Из новой статьи: подход Fulldit может включать введение идентификации, глубину и движение камеры в нативное поколение и может вызвать любую комбинацию их одновременно.* Источник: https://arxiv.org/pdf/2503.19907
Fulldit, как описано в статье под названием ** Fulldit: модель с генеративной основой для видео с несколькими задачами с полным вниманием **, интегрирует условия нескольких задач, такие как передача идентификации, отображение глубины и движение камеры в ядро обученной генеративной видео модели. Авторы разработали прототипную модель и сопровождающие видеоклипы, доступные на сайте проекта.
** Нажмите, чтобы играть. Примеры навязывания пользователя в стиле ControlNet только с нативной обученной моделью фундамента. ** Источник: https://fulldit.github.io/
Авторы представляют Fulldit в качестве подтверждения концепции для нативных моделей текста к Video (T2V) и изображения-Video (I2V), которые предлагают пользователям больше управления, чем просто изображение или текстовое приглашение. Поскольку не существует аналогичных моделей, исследователи создали новый эталон под названием ** Fullbench ** для оценки многозадачных видеороликов, претендующих на современные результаты в своих разработанных тестах. Тем не менее, объективность Fullbench, разработанная самими авторами, остается непроверенным, и его набор данных в 1400 случаев может быть слишком ограничен для более широких выводов.
Наиболее интригующим аспектом архитектуры Fulldit является его потенциал для включения новых типов контроля. Авторы примечают:
** В этой работе мы только исследуем условия управления камерой, идентификаторами и глубиной. Мы не изучали другие условия и методы, такие как аудио, речь, точечное облако, ящики с ограничением объектов, оптический поток и т. Д. Хотя дизайн Fulldit может беспрепятственно интегрировать другие модальности с минимальной модификацией архитектуры, как быстро и экономически адаптировать
В то время как Fulldit представляет собой шаг вперед в многозадачном генерации видео, он основан на существующих архитектурах, а не в предложении новой парадигмы. Тем не менее, он выделяется как единственная модель видео фонда с изначально интегрированными функциями в стиле ControlNet, а ее архитектура предназначена для размещения будущих инноваций.
** Нажмите, чтобы играть. Примеры движения камеры, контролируемого пользователем, с сайта проекта. **
Документ, созданный девятью исследователями из Kuaishou Technology и Китайского университета Гонконга, называется ** Fulldit: Multi-Task Video Generative Foundation с полным вниманием **. Страница проекта и новые контрольные данные доступны при обнимании.
Метод
Объединенное механизм внимания Fulldit предназначен для улучшения обучения межмодального представления путем захвата как пространственных, так и временных отношений между условиями.
*Согласно новой статье, Fulldit интегрирует несколько входных условий посредством полного привязанности, преобразуя их в единую последовательность. В отличие от этого, модели на основе адаптеров (самый левый выше) используют отдельные модули для каждого ввода, что приводит к избыточности, конфликтам и более слабой производительности.*
В отличие от настройки на основе адаптеров, которые обрабатывают каждый входной поток отдельно, общая структура внимания Fulldit позволяет избежать конфликтов ветвей и уменьшает накладные расходы параметров. Авторы утверждают, что архитектура может масштабироваться до новых типов ввода без существенного редизайна и что модельная схема показывает признаки обобщения со комбинациями состояния, которые не наблюдаются во время обучения, такие как связывание движения камеры с идентичностью символов.
** Нажмите, чтобы играть. Примеры генерации личности с сайта проекта **.
В архитектуре Fulldit все входы кондиционирования, такие как текст, движение камеры, идентичность и глубина, сначала преобразуются в унифицированный формат токенов. Эти токены затем объединяются в одну длинную последовательность, обрабатывающую через стопку слоев трансформатора с использованием полного примирания. Этот подход следует за предыдущими работами, такими как план с открытым сосором и генерал фильма.
Этот дизайн позволяет модели изучать временные и пространственные отношения совместно во всех условиях. Каждый блок трансформатора работает по всей последовательности, обеспечивая динамические взаимодействия между модальностями, не полагаясь на отдельные модули для каждого входа. Архитектура предназначена для расширения, что облегчает включение дополнительных контрольных сигналов в будущем без серьезных структурных изменений.
Сила трех
Fulldit преобразует каждый управляющий сигнал в стандартизированный формат токена, так что все условия могут быть обработаны вместе в единой структуре внимания. Для движения камеры модель кодирует последовательность внешних параметров, таких как положение и ориентация - для каждого кадра. Эти параметры вмешаются и проецируются в встраивающие векторы, которые отражают временную природу сигнала.
Информация об идентичности рассматривается по -разному, так как она по своей сути пространственная, а не временная. Модель использует идентификационные карты, которые указывают, какие символы присутствуют, в которых части каждого кадра. Эти карты делятся на патчи, причем каждый патч проецируется во внедрение, которое захватывает пространственные сигналы идентичности, позволяя модели связывать конкретные области кадра с определенными объектами.
Глубина - это пространственно -временный сигнал, и модель обрабатывает его путем деления видео на 3D -пятнах, которые охватывают как пространство, так и время. Эти патчи затем встроены таким образом, что сохраняет их структуру в рамках.
После того, как все эти жетоны состояния (камера, идентичность и глубина) объединяются в одну длинную последовательность, что позволяет Fulldit обрабатывать их вместе, используя полное при ее примере. Это общее представление позволяет модели изучать взаимодействия между методами и во времени, не полагаясь на изолированные потоки обработки.
Данные и тесты
Подход к обучению Fulldit основывался на выборочно аннотированных наборах данных, адаптированных к каждому типу кондиционирования, а не требовалось, чтобы все условия присутствовали одновременно.
Для текстовых условий эта инициатива следует за структурированным подходом подписи, изложенным в проекте Miradata.
* Видео сбора и аннотационных трубопроводов из проекта Miradata.* Источник: https://arxiv.org/pdf/2407.06358
Для движения камеры набор данных RealESTATE10K был основным источником данных из-за его высококачественных аннотаций на земле истилах параметров камеры. Тем не менее, авторы заметили, что обучение исключительно для наборов данных камеры статической сцены, таких как RealEState10K, имело тенденцию к снижению динамических объектов и человеческих движений в созданных видео. Чтобы противодействовать этому, они провели дополнительную точную настройку, используя внутренние наборы данных, которые включали более динамические движения камеры.
Аннотации идентификации были получены с использованием конвейера, разработанного для проекта Conceptmaster, который позволял эффективной фильтрации и извлечению мелкозернистой идентификационной информации.
* Структура концептуального мастера предназначена для решения проблем развязки идентификации при сохранении концептуальной верности в индивидуальных видео.* Источник: https://arxiv.org/pdf/2501.04698
Глубинные аннотации были получены из набора данных Panda-70M с использованием глубины.
Оптимизация через заказ данных
Авторы также внедрили прогрессивный график обучения, внедрив более сложные условия ранее в обучении, чтобы модель была получена надежными представлениями, прежде чем были добавлены более простые задачи. Заказ на обучение проходило от условий текста к камере, затем идентичности и, наконец, глубины, с более простыми задачами, обычно представленными позже и с меньшим количеством примеров.
Авторы подчеркивают ценность заказа рабочей нагрузки таким образом:
** «На этапе предварительного обучения мы отметили, что более сложные задачи требуют расширенного времени обучения и должны быть введены ранее в процессе обучения. Эти сложные задачи включают сложные распределения данных, которые значительно отличаются от выходного видео, требуя, чтобы модель обладала достаточной способностью для точного захвата и представления их. **
** «И наоборот, внедрение более простых задач слишком рано может привести к тому, что модель сначала приоритет их обучению, поскольку они обеспечивают более немедленную обратную связь с оптимизацией, которая мешает сходимости более сложных задач». **
*Иллюстрация заказа на обучение данных, принятое исследователями, с красным, указывающим на больший объем данных.*
После начального предварительного обучения окончательная стадия тонкой настройки еще больше уточнила модель для улучшения визуального качества и динамики движения. После этого обучение последовало за обучением стандартной диффузионной структуры: шум, добавленный к видео, и модель обучения для прогнозирования и удаления, используя встроенные токены состояния в качестве руководства.
Чтобы эффективно оценить Fulldit и обеспечить справедливое сравнение с существующими методами, и в отсутствие любого другого уместного эталона авторы ввели ** Fullbench **, кураторный набор, состоящий из 1400 различных тестовых случаев.
* Экземпляр Explorer Data для нового эталона Fullbench.* Источник: https://huggingface.co/datasets/kwaivgi/fullbench
Каждая точка данных предоставляла аннотации истины на основе различных сигналов кондиционирования, включая движение камеры, идентичность и глубину.
Метрики
Авторы оценили Fulldit, используя десять показателей, охватывающих пять основных аспектов производительности: выравнивание текста, управление камерой, сходство идентификации, точность глубины и общее качество видео.
Выравнивание текста измеряли с использованием сходства клипов, в то время как управление камерой оценивали с помощью ошибки вращения (Roterr), ошибки трансляции (трансерс) и согласованности движения камеры (CAMMC), следуя подходу CAMI2V (в проекте CAMERACTRL).
Сходство идентификации оценивали с использованием DINO-I и CLIP-I, а точность управления глубиной была количественно определялась с использованием средней абсолютной ошибки (MAE).
Качество видео было оценено с тремя показателями от Miradata: сходство клипов на уровне кадра для гладкости; Оптическое расстояние движения на основе динамики; и LAION-AESTETICS BACORS для визуальной привлекательности.
Обучение
Авторы обучали Fulldit, используя внутреннюю (нераскрытую) модель диффузии текста до Video, содержащей примерно один миллиард параметров. Они намеренно выбрали скромный размер параметров, чтобы поддерживать справедливость в сравнении с предыдущими методами и обеспечить воспроизводимость.
Поскольку учебные видеоролики различались по длине и разрешению, авторы стандартизировали каждую партию, изменяя размер и заполняя видео с общим разрешением, выборки 77 кадров на последовательность и используя прикладные маски внимания и потери для оптимизации эффективности обучения.
Оптимизатор ADAM использовался с частотой обучения 1 × 10 -5 в кластере из 64 графических процессоров NVIDIA H800, для совокупного общего числа 5120 ГБ VRAM (учитывайте, что в сообществах синтеза энтузиастов 24 ГБ на RTX 3090 все еще считается роскошным стандартом).
Модель была обучена примерно в 32 000 шагов, включающих до трех идентификаторов на видео, а также 20 кадров условий камеры и 21 кадром условий глубины, оба по равномерно отбрасываемым из общего объема 77 кадров.
Для вывода модель сгенерировала видео с разрешением 384 × 672 пикселей (примерно пять секунд в 15 кадрах в секунду) с 50 этапами вывода диффузии и шкалой навыков без классификаторов пяти.
Предыдущие методы
Для оценки с камеры к Video авторы сравнивали Fulldit с MotionCtrl, Cameractrl и Cami2V, со всеми моделями, обученными с использованием набора данных RealEState10K для обеспечения согласованности и справедливости.
В поколении, кондиционированной на личность, поскольку не было сопоставимых моделей с открытым исходным кодом с открытым исходным кодом, модели не было доступно, модель была сравнивана с моделью концептуального мастера 1B-параметра с использованием тех же учебных данных и архитектуры.
Для задач глубины до видео сравнения были проведены с CTRL-адаптером и ControlVideo.
*Количественные результаты для генерации видео с одной задачей. Fulldit сравнивался с MotionCtrl, Cameractrl и Cami2V для генерации от камеры от Video; ConceptMaster (версия параметров 1B) для идентификации-видео; и Ctrl-Adapter и ControlVideo для глубины к Video. Все модели были оценены с использованием их настроек по умолчанию. Для согласованности 16 кадров были одинаково отобраны из каждого метода, что соответствует выходной длине предыдущих моделей.*
Результаты указывают на то, что Fulldit, несмотря на одновременную обработку нескольких сигналов кондиционирования, достигала современной производительности в метрик, связанных с текстом, движением камеры, идентификацией и управлением глубиной.
В общих показателях качества система обычно превзошла другие методы, хотя ее плавность была немного ниже, чем у концептуального мастера. Здесь авторы комментируют:
** «Гладкость Fulldit немного ниже, чем у концептуального мастера, поскольку расчет гладкости основан на сходстве клипов между соседними кадрами. Поскольку Fulldit демонстрирует значительно большую динамику по сравнению с концептуальным мастером, показатель плавности влияет на большие различия между соседними кадрами. **
** для эстетической оценки, поскольку модель рейтинга благоприятствует изображениям в стиле живописи и ControlVideo обычно генерирует видео в этом стиле, она достигает высокой оценки в эстетике. '**
Что касается качественного сравнения, может быть предпочтительно ссылаться на образцы видео на сайте проекта Fulldit, поскольку примеры PDF неизбежно статичны (а также слишком велики, чтобы полностью воспроизводить здесь).
*Первый раздел качественного результата в PDF. Пожалуйста, обратитесь к исходной статье для дополнительных примеров, которые слишком обширны, чтобы воспроизвести здесь.*
Комментарий авторов:
** Fulldit демонстрирует превосходное сохранение идентичности и генерирует видео с лучшей динамикой и визуальным качеством по сравнению с [Conceptmaster]. Поскольку Conceptmaster и Fulldit обучаются на одной основе, это подчеркивает эффективность инъекции состояния с полным вниманием. **
** '… [Другие] результаты демонстрируют превосходную управляемость и качество генерации Fulldit по сравнению с существующими методами глубины до Video и от камеры-видео.' **
*Раздел примеров PDF вывода Fulldit с несколькими сигналами. Пожалуйста, обратитесь к исходной статье и сайту проекта для получения дополнительных примеров.*
Заключение
Fulldit представляет собой захватывающий шаг к более полной модели видео фонда, но остается вопрос, оправдывает ли спрос на функции в стиле ControlNet их реализацию, особенно для проектов с открытым исходным кодом. Эти проекты будут изо всех сил пытаться получить обширную мощность обработки графических процессоров, требуемую без коммерческой поддержки.
Основная задача заключается в том, что использование таких систем, как глубина и поза, обычно требует нетривиального знакомства со сложными пользовательскими интерфейсами, такими как Comfyui. Следовательно, функциональная модель с открытым исходным кодом такого рода, скорее всего, будет разработана небольшими компаниями VFX, которые не имеют ресурсов или мотивации для курирования и обучения такой модели в частном порядке.
С другой стороны, системы API, управляемые API, могут быть хорошо мотивированы для разработки более простых и удобных для пользователя методов интерпретации для моделей с непосредственно обученными системами вспомогательного управления.
** Нажмите, чтобы играть. Глубина+управление текстами, наложенные на генерацию видео с использованием Fulldit. **
*Авторы не указывают ни одной известной базовой модели (т.е., SDXL и т. Д.)*
** Впервые опубликовано в четверг, 27 марта 2025 г. **
Связанная статья
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content
In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT
OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market
ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
Комментарии (0)






Модели видео фонда, такие как Hunyuan и WAN 2.1, добились значительных успехов, но они часто терпят неудачу, когда речь заходит о детальном управлении, необходимым для производства пленки и телевидения, особенно в сфере визуальных эффектов (VFX). В Professional VFX Studios эти модели, наряду с более ранними моделями на основе изображений, таких как стабильная диффузия, Kandinsky и Flux, используются в сочетании с набором инструментов, предназначенных для уточнения их результатов для удовлетворения конкретных творческих требований. Когда режиссер просит настройку, говоря что -то вроде: «Это выглядит великолепно, но можем ли мы сделать его немного больше [n]?», Недостаточно просто указать, что модели не хватает точности, чтобы вносить такие коррективы.
Вместо этого команда AI VFX будет использовать комбинацию традиционных методов CGI и композиции, наряду с пользовательскими рабочими процессами, чтобы дальше продвигать границы синтеза видео. Этот подход сродни использованию веб -браузера по умолчанию, таким как Chrome; Это функционально из коробки, но для того, чтобы по -настоящему адаптировать его к вашим потребностям, вам нужно установить несколько плагинов.
Контролируют уроды
В области синтеза изображения на основе диффузии одной из наиболее важных сторонних систем является ControlNet. Этот метод вводит структурированный элемент управления для генеративных моделей, позволяя пользователям направлять изображения или генерацию видео, используя дополнительные входы, такие как карты краев, карты глубины или информацию о позе.
*Различные методы ControlNet позволяют получить глубину> Изображение (верхняя строка), семантическая сегментация> Изображение (слева внизу) и генерация изображений людей и животных с позами (слева внизу).*
ControlNet не полагается исключительно на текстовые подсказки; Он использует отдельные филиалы нейронной сети или адаптеры для обработки этих сигналов кондиционирования при сохранении генеративных возможностей базовой модели. Это позволяет высоко настраиваемым выходам, которые близко соответствуют спецификациям пользователей, что делает их неоценимыми для приложений, требующих точного управления композицией, структурой или движением.
* С помощью руководящей позы можно получить различные точные выходные типы через ControlNet.* Источник: https://arxiv.org/pdf/2302.05543
Тем не менее, эти системы на основе адаптеров, которые работают извне на наборе внутренних ориентированных на нейронных процессов, поставляются с несколькими недостатками. Адаптеры обучаются независимо, что может привести к конфликтам ветвей, когда объединяются несколько адаптеров, что часто приводит к поколениям более низкого качества. Они также вводят избыточность параметров, требующие дополнительных вычислительных ресурсов и памяти для каждого адаптера, что делает масштабирование неэффективным. Более того, несмотря на их гибкость, адаптеры часто дают неоптимальные результаты по сравнению с моделями, полностью настраиваемыми для генерации нескольких кондиционеров. Эти проблемы могут сделать методы на основе адаптеров менее эффективными для задач, которые требуют бесшовной интеграции множественных контрольных сигналов.
В идеале, возможности ControlNet будет изначально интегрирована в модель модульной формой, что позволяет для будущих инноваций, таких как одновременное видео/поколение видео/аудио или нативные возможности синхронизации губ. В настоящее время каждая дополнительная функция становится либо задачей постпроизводства, либо неродной процедурой, которая должна ориентироваться в чувствительных весах модели фундамента.
Fulldit
Введите Fulldit, новый подход из Китая, который интегрирует функции в стиле ControlNet, непосредственно в генеративную видео-модель во время обучения, а не рассматривать их как запоздалую мысль.
* Из новой статьи: подход Fulldit может включать введение идентификации, глубину и движение камеры в нативное поколение и может вызвать любую комбинацию их одновременно.* Источник: https://arxiv.org/pdf/2503.19907
Fulldit, как описано в статье под названием ** Fulldit: модель с генеративной основой для видео с несколькими задачами с полным вниманием **, интегрирует условия нескольких задач, такие как передача идентификации, отображение глубины и движение камеры в ядро обученной генеративной видео модели. Авторы разработали прототипную модель и сопровождающие видеоклипы, доступные на сайте проекта.
** Нажмите, чтобы играть. Примеры навязывания пользователя в стиле ControlNet только с нативной обученной моделью фундамента. ** Источник: https://fulldit.github.io/
Авторы представляют Fulldit в качестве подтверждения концепции для нативных моделей текста к Video (T2V) и изображения-Video (I2V), которые предлагают пользователям больше управления, чем просто изображение или текстовое приглашение. Поскольку не существует аналогичных моделей, исследователи создали новый эталон под названием ** Fullbench ** для оценки многозадачных видеороликов, претендующих на современные результаты в своих разработанных тестах. Тем не менее, объективность Fullbench, разработанная самими авторами, остается непроверенным, и его набор данных в 1400 случаев может быть слишком ограничен для более широких выводов.
Наиболее интригующим аспектом архитектуры Fulldit является его потенциал для включения новых типов контроля. Авторы примечают:
** В этой работе мы только исследуем условия управления камерой, идентификаторами и глубиной. Мы не изучали другие условия и методы, такие как аудио, речь, точечное облако, ящики с ограничением объектов, оптический поток и т. Д. Хотя дизайн Fulldit может беспрепятственно интегрировать другие модальности с минимальной модификацией архитектуры, как быстро и экономически адаптировать
В то время как Fulldit представляет собой шаг вперед в многозадачном генерации видео, он основан на существующих архитектурах, а не в предложении новой парадигмы. Тем не менее, он выделяется как единственная модель видео фонда с изначально интегрированными функциями в стиле ControlNet, а ее архитектура предназначена для размещения будущих инноваций.
** Нажмите, чтобы играть. Примеры движения камеры, контролируемого пользователем, с сайта проекта. **
Документ, созданный девятью исследователями из Kuaishou Technology и Китайского университета Гонконга, называется ** Fulldit: Multi-Task Video Generative Foundation с полным вниманием **. Страница проекта и новые контрольные данные доступны при обнимании.
Метод
Объединенное механизм внимания Fulldit предназначен для улучшения обучения межмодального представления путем захвата как пространственных, так и временных отношений между условиями.
*Согласно новой статье, Fulldit интегрирует несколько входных условий посредством полного привязанности, преобразуя их в единую последовательность. В отличие от этого, модели на основе адаптеров (самый левый выше) используют отдельные модули для каждого ввода, что приводит к избыточности, конфликтам и более слабой производительности.*
В отличие от настройки на основе адаптеров, которые обрабатывают каждый входной поток отдельно, общая структура внимания Fulldit позволяет избежать конфликтов ветвей и уменьшает накладные расходы параметров. Авторы утверждают, что архитектура может масштабироваться до новых типов ввода без существенного редизайна и что модельная схема показывает признаки обобщения со комбинациями состояния, которые не наблюдаются во время обучения, такие как связывание движения камеры с идентичностью символов.
** Нажмите, чтобы играть. Примеры генерации личности с сайта проекта **.
В архитектуре Fulldit все входы кондиционирования, такие как текст, движение камеры, идентичность и глубина, сначала преобразуются в унифицированный формат токенов. Эти токены затем объединяются в одну длинную последовательность, обрабатывающую через стопку слоев трансформатора с использованием полного примирания. Этот подход следует за предыдущими работами, такими как план с открытым сосором и генерал фильма.
Этот дизайн позволяет модели изучать временные и пространственные отношения совместно во всех условиях. Каждый блок трансформатора работает по всей последовательности, обеспечивая динамические взаимодействия между модальностями, не полагаясь на отдельные модули для каждого входа. Архитектура предназначена для расширения, что облегчает включение дополнительных контрольных сигналов в будущем без серьезных структурных изменений.
Сила трех
Fulldit преобразует каждый управляющий сигнал в стандартизированный формат токена, так что все условия могут быть обработаны вместе в единой структуре внимания. Для движения камеры модель кодирует последовательность внешних параметров, таких как положение и ориентация - для каждого кадра. Эти параметры вмешаются и проецируются в встраивающие векторы, которые отражают временную природу сигнала.
Информация об идентичности рассматривается по -разному, так как она по своей сути пространственная, а не временная. Модель использует идентификационные карты, которые указывают, какие символы присутствуют, в которых части каждого кадра. Эти карты делятся на патчи, причем каждый патч проецируется во внедрение, которое захватывает пространственные сигналы идентичности, позволяя модели связывать конкретные области кадра с определенными объектами.
Глубина - это пространственно -временный сигнал, и модель обрабатывает его путем деления видео на 3D -пятнах, которые охватывают как пространство, так и время. Эти патчи затем встроены таким образом, что сохраняет их структуру в рамках.
После того, как все эти жетоны состояния (камера, идентичность и глубина) объединяются в одну длинную последовательность, что позволяет Fulldit обрабатывать их вместе, используя полное при ее примере. Это общее представление позволяет модели изучать взаимодействия между методами и во времени, не полагаясь на изолированные потоки обработки.
Данные и тесты
Подход к обучению Fulldit основывался на выборочно аннотированных наборах данных, адаптированных к каждому типу кондиционирования, а не требовалось, чтобы все условия присутствовали одновременно.
Для текстовых условий эта инициатива следует за структурированным подходом подписи, изложенным в проекте Miradata.
* Видео сбора и аннотационных трубопроводов из проекта Miradata.* Источник: https://arxiv.org/pdf/2407.06358
Для движения камеры набор данных RealESTATE10K был основным источником данных из-за его высококачественных аннотаций на земле истилах параметров камеры. Тем не менее, авторы заметили, что обучение исключительно для наборов данных камеры статической сцены, таких как RealEState10K, имело тенденцию к снижению динамических объектов и человеческих движений в созданных видео. Чтобы противодействовать этому, они провели дополнительную точную настройку, используя внутренние наборы данных, которые включали более динамические движения камеры.
Аннотации идентификации были получены с использованием конвейера, разработанного для проекта Conceptmaster, который позволял эффективной фильтрации и извлечению мелкозернистой идентификационной информации.
* Структура концептуального мастера предназначена для решения проблем развязки идентификации при сохранении концептуальной верности в индивидуальных видео.* Источник: https://arxiv.org/pdf/2501.04698
Глубинные аннотации были получены из набора данных Panda-70M с использованием глубины.
Оптимизация через заказ данных
Авторы также внедрили прогрессивный график обучения, внедрив более сложные условия ранее в обучении, чтобы модель была получена надежными представлениями, прежде чем были добавлены более простые задачи. Заказ на обучение проходило от условий текста к камере, затем идентичности и, наконец, глубины, с более простыми задачами, обычно представленными позже и с меньшим количеством примеров.
Авторы подчеркивают ценность заказа рабочей нагрузки таким образом:
** «На этапе предварительного обучения мы отметили, что более сложные задачи требуют расширенного времени обучения и должны быть введены ранее в процессе обучения. Эти сложные задачи включают сложные распределения данных, которые значительно отличаются от выходного видео, требуя, чтобы модель обладала достаточной способностью для точного захвата и представления их. **
** «И наоборот, внедрение более простых задач слишком рано может привести к тому, что модель сначала приоритет их обучению, поскольку они обеспечивают более немедленную обратную связь с оптимизацией, которая мешает сходимости более сложных задач». **
*Иллюстрация заказа на обучение данных, принятое исследователями, с красным, указывающим на больший объем данных.*
После начального предварительного обучения окончательная стадия тонкой настройки еще больше уточнила модель для улучшения визуального качества и динамики движения. После этого обучение последовало за обучением стандартной диффузионной структуры: шум, добавленный к видео, и модель обучения для прогнозирования и удаления, используя встроенные токены состояния в качестве руководства.
Чтобы эффективно оценить Fulldit и обеспечить справедливое сравнение с существующими методами, и в отсутствие любого другого уместного эталона авторы ввели ** Fullbench **, кураторный набор, состоящий из 1400 различных тестовых случаев.
* Экземпляр Explorer Data для нового эталона Fullbench.* Источник: https://huggingface.co/datasets/kwaivgi/fullbench
Каждая точка данных предоставляла аннотации истины на основе различных сигналов кондиционирования, включая движение камеры, идентичность и глубину.
Метрики
Авторы оценили Fulldit, используя десять показателей, охватывающих пять основных аспектов производительности: выравнивание текста, управление камерой, сходство идентификации, точность глубины и общее качество видео.
Выравнивание текста измеряли с использованием сходства клипов, в то время как управление камерой оценивали с помощью ошибки вращения (Roterr), ошибки трансляции (трансерс) и согласованности движения камеры (CAMMC), следуя подходу CAMI2V (в проекте CAMERACTRL).
Сходство идентификации оценивали с использованием DINO-I и CLIP-I, а точность управления глубиной была количественно определялась с использованием средней абсолютной ошибки (MAE).
Качество видео было оценено с тремя показателями от Miradata: сходство клипов на уровне кадра для гладкости; Оптическое расстояние движения на основе динамики; и LAION-AESTETICS BACORS для визуальной привлекательности.
Обучение
Авторы обучали Fulldit, используя внутреннюю (нераскрытую) модель диффузии текста до Video, содержащей примерно один миллиард параметров. Они намеренно выбрали скромный размер параметров, чтобы поддерживать справедливость в сравнении с предыдущими методами и обеспечить воспроизводимость.
Поскольку учебные видеоролики различались по длине и разрешению, авторы стандартизировали каждую партию, изменяя размер и заполняя видео с общим разрешением, выборки 77 кадров на последовательность и используя прикладные маски внимания и потери для оптимизации эффективности обучения.
Оптимизатор ADAM использовался с частотой обучения 1 × 10 -5 в кластере из 64 графических процессоров NVIDIA H800, для совокупного общего числа 5120 ГБ VRAM (учитывайте, что в сообществах синтеза энтузиастов 24 ГБ на RTX 3090 все еще считается роскошным стандартом).
Модель была обучена примерно в 32 000 шагов, включающих до трех идентификаторов на видео, а также 20 кадров условий камеры и 21 кадром условий глубины, оба по равномерно отбрасываемым из общего объема 77 кадров.
Для вывода модель сгенерировала видео с разрешением 384 × 672 пикселей (примерно пять секунд в 15 кадрах в секунду) с 50 этапами вывода диффузии и шкалой навыков без классификаторов пяти.
Предыдущие методы
Для оценки с камеры к Video авторы сравнивали Fulldit с MotionCtrl, Cameractrl и Cami2V, со всеми моделями, обученными с использованием набора данных RealEState10K для обеспечения согласованности и справедливости.
В поколении, кондиционированной на личность, поскольку не было сопоставимых моделей с открытым исходным кодом с открытым исходным кодом, модели не было доступно, модель была сравнивана с моделью концептуального мастера 1B-параметра с использованием тех же учебных данных и архитектуры.
Для задач глубины до видео сравнения были проведены с CTRL-адаптером и ControlVideo.
*Количественные результаты для генерации видео с одной задачей. Fulldit сравнивался с MotionCtrl, Cameractrl и Cami2V для генерации от камеры от Video; ConceptMaster (версия параметров 1B) для идентификации-видео; и Ctrl-Adapter и ControlVideo для глубины к Video. Все модели были оценены с использованием их настроек по умолчанию. Для согласованности 16 кадров были одинаково отобраны из каждого метода, что соответствует выходной длине предыдущих моделей.*
Результаты указывают на то, что Fulldit, несмотря на одновременную обработку нескольких сигналов кондиционирования, достигала современной производительности в метрик, связанных с текстом, движением камеры, идентификацией и управлением глубиной.
В общих показателях качества система обычно превзошла другие методы, хотя ее плавность была немного ниже, чем у концептуального мастера. Здесь авторы комментируют:
** «Гладкость Fulldit немного ниже, чем у концептуального мастера, поскольку расчет гладкости основан на сходстве клипов между соседними кадрами. Поскольку Fulldit демонстрирует значительно большую динамику по сравнению с концептуальным мастером, показатель плавности влияет на большие различия между соседними кадрами. **
** для эстетической оценки, поскольку модель рейтинга благоприятствует изображениям в стиле живописи и ControlVideo обычно генерирует видео в этом стиле, она достигает высокой оценки в эстетике. '**
Что касается качественного сравнения, может быть предпочтительно ссылаться на образцы видео на сайте проекта Fulldit, поскольку примеры PDF неизбежно статичны (а также слишком велики, чтобы полностью воспроизводить здесь).
*Первый раздел качественного результата в PDF. Пожалуйста, обратитесь к исходной статье для дополнительных примеров, которые слишком обширны, чтобы воспроизвести здесь.*
Комментарий авторов:
** Fulldit демонстрирует превосходное сохранение идентичности и генерирует видео с лучшей динамикой и визуальным качеством по сравнению с [Conceptmaster]. Поскольку Conceptmaster и Fulldit обучаются на одной основе, это подчеркивает эффективность инъекции состояния с полным вниманием. **
** '… [Другие] результаты демонстрируют превосходную управляемость и качество генерации Fulldit по сравнению с существующими методами глубины до Video и от камеры-видео.' **
*Раздел примеров PDF вывода Fulldit с несколькими сигналами. Пожалуйста, обратитесь к исходной статье и сайту проекта для получения дополнительных примеров.*
Заключение
Fulldit представляет собой захватывающий шаг к более полной модели видео фонда, но остается вопрос, оправдывает ли спрос на функции в стиле ControlNet их реализацию, особенно для проектов с открытым исходным кодом. Эти проекты будут изо всех сил пытаться получить обширную мощность обработки графических процессоров, требуемую без коммерческой поддержки.
Основная задача заключается в том, что использование таких систем, как глубина и поза, обычно требует нетривиального знакомства со сложными пользовательскими интерфейсами, такими как Comfyui. Следовательно, функциональная модель с открытым исходным кодом такого рода, скорее всего, будет разработана небольшими компаниями VFX, которые не имеют ресурсов или мотивации для курирования и обучения такой модели в частном порядке.
С другой стороны, системы API, управляемые API, могут быть хорошо мотивированы для разработки более простых и удобных для пользователя методов интерпретации для моделей с непосредственно обученными системами вспомогательного управления.
** Нажмите, чтобы играть. Глубина+управление текстами, наложенные на генерацию видео с использованием Fulldit. **
*Авторы не указывают ни одной известной базовой модели (т.е., SDXL и т. Д.)*
** Впервые опубликовано в четверг, 27 марта 2025 г. **












