La generación de videos de IA se mueve hacia el control completo

Hogar

Noticias

18 de abril de 2025

RyanLopez

# Video # AI Video

Los modelos de Foundation de Video como Hunyuan y WAN 2.1 han hecho avances significativos, pero a menudo se quedan cortos cuando se trata del control detallado requerido en la producción de cine y televisión, especialmente en el ámbito de los efectos visuales (VFX). En los estudios profesionales de VFX, estos modelos, junto con modelos anteriores basados en imágenes como Difusión Estable, Kandinsky y Flux, se utilizan junto con un conjunto de herramientas diseñadas para refinar su producción para satisfacer demandas creativas específicas. Cuando un director solicita un ajuste, diciendo algo como: "Eso se ve muy bien, pero ¿podemos hacerlo un poco más [n]?", No es suficiente simplemente afirmar que el modelo carece de precisión para hacer tales ajustes.

En cambio, un equipo de AI VFX empleará una combinación de técnicas tradicionales de CGI y composicionales, junto con flujos de trabajo desarrollados a medida, para superar aún más los límites de la síntesis de video. Este enfoque es similar a usar un navegador web predeterminado como Chrome; Es funcional fuera de la caja, pero para adaptarla realmente a sus necesidades, deberá instalar algunos complementos.

Freaks de control

En el campo de la síntesis de imagen basada en difusión, uno de los sistemas de terceros más cruciales es el control de control. Esta técnica introduce un control estructurado a los modelos generativos, lo que permite a los usuarios guiar la generación de imágenes o videos utilizando entradas adicionales como mapas de borde, mapas de profundidad o información de pose.

*Los diversos métodos de Controlnet permiten profundidad> imagen (fila superior), segmentación semántica> imagen (inferior izquierda) y generación de imágenes guiadas por pose de humanos y animales (abajo a la izquierda).*

Controlnet no depende únicamente de las indicaciones de texto; Emplea ramas de redes neuronales separadas, o adaptadores, para procesar estas señales de acondicionamiento mientras mantiene las capacidades generativas del modelo base. Esto permite salidas altamente personalizadas que se alinean estrechamente con las especificaciones del usuario, lo que lo hace invaluable para aplicaciones que requieren un control preciso sobre la composición, la estructura o el movimiento.

* Con una pose guía, se puede obtener una variedad de tipos de salida precisos a través de Controlnet.* Fuente: https://arxiv.org/pdf/2302.05543

Sin embargo, estos sistemas basados en adaptadores, que funcionan externamente en un conjunto de procesos neuronales centrados internos, vienen con varios inconvenientes. Los adaptadores están entrenados de forma independiente, lo que puede conducir a conflictos de ramas cuando se combinan múltiples adaptadores, a menudo dando como resultado generaciones de menor calidad. También introducen redundancia de parámetros, que requieren recursos computacionales y memoria adicionales para cada adaptador, lo que hace que la escala sea ineficiente. Además, a pesar de su flexibilidad, los adaptadores a menudo producen resultados subóptimos en comparación con los modelos completamente ajustados para la generación de múltiples condiciones. Estos problemas pueden hacer que los métodos basados en adaptadores sean menos efectivos para tareas que requieren la integración perfecta de múltiples señales de control.

Idealmente, las capacidades de Controlnet se integrarían de forma nativa en el modelo de manera modular, lo que permite futuras innovaciones como la generación simultánea de video/audio o capacidades nativas de sincronización de labios. Actualmente, cada característica adicional se convierte en una tarea de postproducción o un procedimiento no nativo que debe navegar por los pesos sensibles del modelo de base.

Fuldit

Ingrese a Fulldit, un nuevo enfoque de China que integra las características de estilo ControlNet directamente en un modelo de video generativo durante la capacitación, en lugar de tratarlas como una ocurrencia tardía.

Desde el nuevo artículo: el enfoque FullLdit puede incorporar la imposición de identidad, la profundidad y el movimiento de la cámara en una generación nativa, y puede convocar cualquier combinación de estos a la vez. * Desde el nuevo documento: el enfoque FulLdit puede incorporar la imposición de identidad, la profundidad y el movimiento de la cámara en una generación nativa, y puede convocar cualquier combinación de estos a la vez.* Fuente: https://arxiv.org/pdf/2503.19907

FulLdit, como se describe en el documento titulado ** FulLdit: modelo de base generativa de video de múltiples tareas con toda atención **, integra condiciones de tareas múltiples como transferencia de identidad, mapeo de profundidad y movimiento de la cámara en el núcleo de un modelo de video generativo entrenado. Los autores han desarrollado un modelo prototipo y videoclips acompañantes disponibles en un sitio de proyecto.

** Haga clic para jugar. Ejemplos de imposición de usuarios al estilo Controlnet con solo un modelo de base capacitado nativo. ** Fuente: https://fullldit.github.io//

Los autores presentan FullLdit como una prueba de concepto para los modelos nativos de texto a video (T2V) y imagen a video (I2V) que ofrecen a los usuarios más control que solo una imagen o un mensaje de texto. Como no existen modelos similares, los investigadores crearon un nuevo punto de referencia llamado ** FullBench ** para evaluar videos de tareas múltiples, reclamando el rendimiento de vanguardia en sus pruebas ideadas. Sin embargo, la objetividad de Fullbench, diseñada por los propios autores, permanece sin probar, y su conjunto de datos de 1,400 casos puede ser demasiado limitado para conclusiones más amplias.

El aspecto más intrigante de la arquitectura de Fulldit es su potencial para incorporar nuevos tipos de control. La nota de los autores:

** 'En este trabajo, solo exploramos las condiciones de control de la cámara, las identidades y la información de profundidad. No investigamos más a fondo otras condiciones y modalidades, como audio, habla, nubes de puntos, cuadros de limitación de objetos, flujo óptico, etc., aunque el diseño de FullLdit puede integrar sin problemas otras modalidades con una modificación de arquitectura mínima, cómo adaptar de manera rápida y rentable los modelos existentes a nuevas condiciones y modalidades sigue siendo una pregunta importante que garantiza una mayor exploración.

Si bien FulLdit representa un paso adelante en la generación de videos de varias tareas, se basa en las arquitecturas existentes en lugar de introducir un nuevo paradigma. No obstante, se destaca como el único modelo de Foundation de Video con características de estilo de control de control de forma nativa, y su arquitectura está diseñada para acomodar innovaciones futuras.

** Haga clic para jugar. Ejemplos de movimientos de cámara controlados por el usuario, desde el sitio del proyecto. **

El documento, escrito por nueve investigadores de Kuaishou Technology y la Universidad China de Hong Kong, se titula ** Fulldit: modelo de Fundación Generativa de Video Multi-Task con toda atención **. La página del proyecto y los nuevos datos de referencia están disponibles en Hugging Face.

Método

El mecanismo de atención unificado de Fulldit está diseñado para mejorar el aprendizaje de representación intermodal al capturar relaciones espaciales y temporales en todas las condiciones.

*Según el nuevo documento, FulLDIT integra múltiples condiciones de entrada a través de la autocuración completa, convirtiéndolas en una secuencia unificada. Por el contrario, los modelos basados en adaptadores (más a la izquierda arriba) usan módulos separados para cada entrada, lo que lleva a redundancia, conflictos y un rendimiento más débil.*

A diferencia de las configuraciones basadas en el adaptador que procesan cada flujo de entrada por separado, la estructura de atención compartida de Fulldit evita los conflictos de ramas y reduce la sobrecarga de los parámetros. Los autores afirman que la arquitectura puede escalar a nuevos tipos de entrada sin un rediseño importante y que el esquema del modelo muestra signos de generalización a combinaciones de condición que no se ven durante el entrenamiento, como vincular el movimiento de la cámara con la identidad de los personajes.

** Haga clic para jugar. Ejemplos de generación de identidad del sitio del proyecto **.

En la arquitectura de Fulldit, todas las entradas de acondicionamiento, como texto, movimiento de la cámara, identidad y profundidad, se convierten primero en un formato de token unificado. Estos tokens se concatenan en una sola secuencia larga, procesadas a través de una pila de capas de transformador utilizando la autoatención completa. Este enfoque sigue obras anteriores como el plan de la arera abierta y la generación de películas.

Este diseño permite que el modelo aprenda relaciones temporales y espaciales conjuntamente en todas las condiciones. Cada bloque de transformador funciona en toda la secuencia, lo que permite interacciones dinámicas entre modalidades sin depender de módulos separados para cada entrada. La arquitectura está diseñada para ser extensible, lo que facilita la incorporación de señales de control adicionales en el futuro sin cambios estructurales importantes.

El poder de tres

FulLDIT convierte cada señal de control en un formato de token estandarizado para que todas las condiciones puedan procesarse juntas en un marco de atención unificado. Para el movimiento de la cámara, el modelo codifica una secuencia de parámetros extrínsecos, como la posición y la orientación, para cada cuadro. Estos parámetros son imperdibles y proyectados en vectores de incrustación que reflejan la naturaleza temporal de la señal.

La información de identidad se trata de manera diferente, ya que es inherentemente espacial en lugar de temporal. El modelo utiliza mapas de identidad que indican qué caracteres están presentes en qué partes de cada cuadro. Estos mapas se dividen en parches, con cada parche proyectado en una incrustación que captura señales de identidad espacial, lo que permite que el modelo asocie regiones específicas del marco con entidades específicas.

La profundidad es una señal espacio -temporal, y el modelo la maneja dividiendo videos de profundidad en parches 3D que abarcan tanto el espacio como el tiempo. Estos parches se incrustan de una manera que preserva su estructura a través de los marcos.

Una vez incrustados, todos estos tokens de condición (cámara, identidad y profundidad) se concatenan en una sola secuencia larga, lo que permite que Fulldit los procese juntos utilizando la autocuración completa. Esta representación compartida permite que el modelo aprenda interacciones en las modalidades y a través del tiempo sin depender de las corrientes de procesamiento aisladas.

Datos y pruebas

El enfoque de capacitación de Fulldit se basó en conjuntos de datos anotados selectivamente adaptados a cada tipo de acondicionamiento, en lugar de exigir que todas las condiciones estén presentes simultáneamente.

Para condiciones textuales, la iniciativa sigue el enfoque de subtítulos estructurados descritos en el proyecto Miradata.

Collection de videos y tuberías de anotación del Proyecto Miradata. * COLECCIÓN DE VIDEOS Y ELTATACIÓN DEL PROYECTO MIRADATA.* Fuente: https://arxiv.org/pdf/2407.06358

Para el movimiento de la cámara, el conjunto de datos RealState10K fue la principal fuente de datos, debido a sus anotaciones de verdad de alta calidad de los parámetros de la cámara. Sin embargo, los autores observaron que el entrenamiento exclusivamente en conjuntos de datos de cámaras de escena estática como RealState10k tendía a reducir los movimientos dinámicos de objetos y humanos en videos generados. Para contrarrestar esto, realizaron un ajuste fino adicional utilizando conjuntos de datos internos que incluían movimientos de cámara más dinámicos.

Las anotaciones de identidad se generaron utilizando la tubería desarrollada para el Proyecto ConceptMaster, que permitió un filtrado eficiente y la extracción de información de identidad de grano fino.

* El Marco ConceptMaster está diseñado para abordar los problemas de desacoplamiento de identidad al tiempo que preserva la fidelidad del concepto en videos personalizados.* Fuente: https://arxiv.org/pdf/2501.04698

Las anotaciones de profundidad se obtuvieron del conjunto de datos PANDA-70M usando la profundidad de cualquier cosa.

Optimización a través de la ordenación de datos

Los autores también implementaron un programa de capacitación progresivo, introduciendo condiciones más desafiantes antes en la capacitación para garantizar que el modelo adquiriera representaciones sólidas antes de que se agregaran tareas más simples. La orden de entrenamiento procedió de las condiciones de texto a la cámara, luego identidades y finalmente profundidad, con tareas más fáciles generalmente introducidas más adelante y con menos ejemplos.

Los autores enfatizan el valor de ordenar la carga de trabajo de esta manera:

** 'Durante la fase de pre-entrenamiento, notamos que las tareas más desafiantes exigen un tiempo de entrenamiento prolongado y deben introducirse anteriormente en el proceso de aprendizaje. Estas tareas desafiantes implican distribuciones de datos complejas que difieren significativamente del video de salida, lo que requiere que el modelo posee una capacidad suficiente para capturarlas y representarlas con precisión. **

** 'Por el contrario, la introducción de tareas más fáciles demasiado pronto puede llevar al modelo a priorizar el aprendizaje primero, ya que proporcionan comentarios de optimización más inmediatos, lo que obstaculiza la convergencia de tareas más desafiantes.' **

*Una ilustración de la orden de capacitación de datos adoptada por los investigadores, con rojo que indica un mayor volumen de datos.*

Después de la capacitación inicial, una etapa final de ajuste fino refinó aún más el modelo para mejorar la calidad visual y la dinámica del movimiento. Posteriormente, la capacitación siguió a la de un marco de difusión estándar: el ruido agregado a los latentes de video y el modelo aprendiendo a predecirlo y eliminarlo, utilizando los tokens de condición integrados como guía.

Para evaluar de manera efectiva FULLDIT y proporcionar una comparación justa con los métodos existentes, y en ausencia de cualquier otro punto de referencia apropiado, los autores introdujeron ** FullBench **, un conjunto de referencia curado que consta de 1.400 casos de prueba distintos.

* Una instancia de explorador de datos para el nuevo punto de referencia FullBench.* Fuente: https://huggingface.co/datasets/kwaivgi/fullbench

Cada punto de datos proporcionó anotaciones de verdad del suelo para varias señales de acondicionamiento, incluidos el movimiento de la cámara, la identidad y la profundidad.

Métrica

Los autores evaluaron FulLdit utilizando diez métricas que cubren cinco aspectos principales del rendimiento: alineación de texto, control de la cámara, similitud de identidad, precisión de profundidad y calidad de video general.

La alineación del texto se midió mediante similitud de clip, mientras que el control de la cámara se evaluó a través del error de rotación (ROTERR), el error de traducción (transerr) y la consistencia del movimiento de la cámara (CAMMC), siguiendo el enfoque de CAMI2V (en el proyecto CamerACTRL).

La similitud de identidad se evaluó utilizando Dino-I y CLIP-I, y la precisión del control de profundidad se cuantificó utilizando un error absoluto medio (MAE).

La calidad del video fue juzgada con tres métricas de Miradata: similitud de clip a nivel de marco para la suavidad; Distancia de movimiento óptico basado en flujo para la dinámica; y los puntajes de Laion-Aesthetic para el atractivo visual.

Capacitación

Los autores capacitaron a FullLdit utilizando un modelo de difusión interno (no revelado) de texto a video que contiene aproximadamente mil millones de parámetros. Eligieron intencionalmente un tamaño de parámetro modesto para mantener la equidad en comparaciones con métodos anteriores y garantizar la reproducibilidad.

Dado que los videos de capacitación diferían en longitud y resolución, los autores estandarizaron cada lote cambiando y acolchando videos a una resolución común, muestreando 77 cuadros por secuencia y utilizando máscaras de atención y pérdida aplicadas para optimizar la efectividad del entrenamiento.

El ADAM Optimizer se utilizó a una velocidad de aprendizaje de 1 × 10 ⁻⁵ en un grupo de 64 GPU de NVIDIA H800, para un total combinado de 5,120 GB de VRAM (considere que en las comunidades de síntesis de entusiastas, 24 GB en un RTX 3090 todavía se considera un estándar lujoso).

El modelo fue entrenado para alrededor de 32,000 pasos, incorporando hasta tres identidades por video, junto con 20 cuadros de condiciones de la cámara y 21 cuadros de condiciones de profundidad, ambas muestreadas uniformemente del total de 77 cuadros.

Para inferencia, el modelo generó videos a una resolución de 384 × 672 píxeles (aproximadamente cinco segundos a 15 cuadros por segundo) con 50 pasos de inferencia de difusión y una escala de guía sin clasificadores de cinco.

Métodos previos

Para la evaluación de cámara a video, los autores compararon FULLLDIT con MotionCTRL, CamerACTRL y CAMI2V, con todos los modelos entrenados utilizando el conjunto de datos RealState10K para garantizar la consistencia y la equidad.

En la generación condicionada por identidad, dado que no había modelos de identidad múltiples de código abierto comparables disponibles, el modelo se comparó con el modelo de conceptter ConceptMeter 1b-Parameter, utilizando los mismos datos de entrenamiento y arquitectura.

Para las tareas de profundidad a video, se realizaron comparaciones con CTRL-Adapter y Controlvideo.

*Resultados cuantitativos para la generación de videos de una sola tarea. FulLdit se comparó con MotionCTRL, CamerACTRL y CAMI2V para la generación de cámara a video; ConceptMaster (versión de parámetro 1b) para identidad a video; y Ctrl-Adapter y Controlvideo para profundidad a video. Todos los modelos fueron evaluados utilizando su configuración predeterminada. Para consistencia, 16 cuadros se muestrearon de manera uniforme de cada método, coincidiendo con la longitud de salida de los modelos anteriores.*

Los resultados indican que FulLdit, a pesar de manejar múltiples señales de acondicionamiento simultáneamente, alcanzó el rendimiento de vanguardia en métricas relacionadas con el texto, el movimiento de la cámara, la identidad y los controles de profundidad.

En las métricas de calidad general, el sistema generalmente superó a otros métodos, aunque su suavidad fue ligeramente menor que la de ConceptMaster. Aquí los autores comentan:

** 'La suavidad de FulLdit es ligeramente menor que la del ConceptMaster, ya que el cálculo de la suavidad se basa en la similitud de clip entre los marcos adyacentes. Como FulLdit exhibe una dinámica significativamente mayor en comparación con ConceptMaster, la métrica de suavidad se ve afectada por las grandes variaciones entre los marcos adyacentes. **

** 'Para la puntuación estética, ya que el modelo de calificación favorece las imágenes en estilo de pintura y Controlvideo generalmente genera videos en este estilo, logra una puntuación alta en la estética.' **

Con respecto a la comparación cualitativa, podría ser preferible referirse a los videos de muestra en el sitio del proyecto FullLdit, ya que los ejemplos PDF son inevitablemente estáticos (y demasiado grandes para reproducirse por completo aquí).

*La primera sección de los resultados cualitativos en el PDF. Consulte el documento de origen para ver los ejemplos adicionales, que son demasiado extensos para reproducirse aquí.*

Los autores comentan:

** '' FulLdit demuestra una preservación de identidad superior y genera videos con mejor dinámica y calidad visual en comparación con [ConceptMaster]. Dado que ConceptMaster y Fulldit están entrenados en la misma columna vertebral, esto resalta la efectividad de la inyección de condición con plena atención. **

** '... los [otros] resultados demuestran la controlabilidad superior y la calidad de generación de FullLdit en comparación con los métodos existentes de profundidad a video y cámara a video.

*Una sección de los ejemplos de PDF de salida de Fulldit con múltiples señales. Consulte el documento de origen y el sitio del proyecto para ver ejemplos adicionales.*

Conclusión

FulLdit representa un paso emocionante hacia un modelo de base de video más completo, pero la pregunta sigue siendo si la demanda de características de estilo ControlNet justifica su implementación a escala, especialmente para proyectos de código abierto. Estos proyectos tendrían dificultades para obtener la vasta potencia de procesamiento de GPU requerida sin soporte comercial.

El desafío principal es que el uso de sistemas como la profundidad y la pose generalmente requiere una familiaridad no trivial con interfaces de usuario complejas como Comfyui. Por lo tanto, es más probable que un modelo funcional de código abierto de este tipo sea desarrollado por compañías VFX más pequeñas que carecen de los recursos o la motivación para curar y capacitar a dicho modelo en privado.

Por otro lado, los sistemas 'Rent-An-AI' impulsados por la API pueden estar bien motivados para desarrollar métodos de interpretación más simples y fáciles de usar para modelos con sistemas de control auxiliares directamente capacitados.

** Haga clic para jugar. Profundidad+controles de texto impuestos a una generación de videos usando Fulldit. **

*Los autores no especifican ningún modelo base conocido (es decir, SDXL, etc.)*

** Publicado por primera vez el jueves 27 de marzo de 2025 **