AI 비디오 생성은 완전한 제어로 이동합니다
2025년 4월 18일
RyanLopez
23
Hunyuan 및 WAN 2.1과 같은 비디오 파운데이션 모델은 상당한 진전을 이루었지만 영화 및 TV 제작, 특히 VFX (Visual Effects) 영역에서 필요한 세부 제어에있어 종종 부족합니다. 전문 VFX 스튜디오에서 이러한 모델은 안정적인 확산, Kandinsky 및 Flux와 같은 초기 이미지 기반 모델과 함께 특정 창의적 요구를 충족시키기 위해 출력을 개선하도록 설계된 도구 제품군과 함께 사용됩니다. 감독이 조정을 요청하면서 "멋져 보이지만 조금 더 [n]을 만들 수 있습니까?"와 같은 것을 말할 때, 단순히 모델에 그러한 조정을위한 정밀도가 부족하다는 것을 간단히 말하는 것만으로는 충분하지 않습니다.
대신, AI VFX 팀은 전통적인 CGI와 구성 기술의 조합과 맞춤형 워크 플로우를 사용하여 비디오 합성의 경계를 더욱 활용할 것입니다. 이 접근법은 Chrome과 같은 기본 웹 브라우저를 사용하는 것과 유사합니다. 상자에서 기능적이지만 필요에 맞게 조정하려면 일부 플러그인을 설치해야합니다.
컨트롤 괴물
확산 기반 이미지 합성 분야에서 가장 중요한 타사 시스템 중 하나는 Controlnet입니다. 이 기술은 생성 모델에 구조화 된 제어를 도입하여 사용자가 에지 맵, 깊이 맵 또는 포즈 정보와 같은 추가 입력을 사용하여 이미지 또는 비디오 생성을 안내 할 수 있습니다.
*Controlnet의 다양한 방법은 깊이> 이미지 (상단 행), 시맨틱 세분화> 이미지 (왼쪽 하단) 및 인간과 동물의 포즈 유도 이미지 생성 (왼쪽 아래)을 허용합니다.*
Controlnet은 텍스트 프롬프트에만 의존하지 않습니다. 기본 모델의 생성 기능을 유지하면서 이러한 컨디셔닝 신호를 처리하기 위해 별도의 신경망 브랜치 또는 어댑터를 사용합니다. 이를 통해 사용자 사양과 밀접하게 정렬되는 고도로 사용자 정의 된 출력이 가능하므로 구성, 구조 또는 모션에 대한 정확한 제어가 필요한 응용 프로그램에 매우 중요합니다.
* 안내 자세를 사용하면 Controlnet을 통해 다양한 정확한 출력 유형을 얻을 수 있습니다.* 출처 : https://arxiv.org/pdf/2302.05543
그러나 내부적으로 중심적 인 신경 과정 세트에서 외부에서 작동하는 이러한 어댑터 기반 시스템에는 몇 가지 단점이 있습니다. 어댑터는 독립적으로 훈련되어 여러 어댑터가 결합 될 때 분기 충돌로 이어질 수 있으며 종종 품질이 낮습니다. 또한 매개 변수 중복성을 도입하여 각 어댑터에 추가 계산 자원과 메모리가 필요하므로 스케일링이 비효율적입니다. 또한, 유연성에도 불구하고, 어댑터는 종종 다중 조건 생성을 위해 완전히 미세 조정 된 모델과 비교하여 차선 결과를 산출합니다. 이러한 문제는 다중 제어 신호의 원활한 통합이 필요한 작업에 어댑터 기반 방법을 덜 효과적으로 만들 수 있습니다.
이상적으로는 Controlnet의 기능은 모듈 식 방식으로 기본적으로 모델에 통합되어 동시 비디오/오디오 생성 또는 기본 Lip-Sync 기능과 같은 미래의 혁신이 가능합니다. 현재, 각 추가 기능은 포스트 프로덕션 작업 또는 기초 모델의 민감한 가중치를 탐색 해야하는 비 네이티브 절차가됩니다.
풀 디트
Controlnet 스타일 기능을 훈련 중에 나중에 고려하지 않고 생성 비디오 모델에 직접 통합하는 중국의 새로운 접근 방식 인 Fulldit을 입력하십시오.
* 새 논문에서 : 풀다이트 접근법은 신원 부과, 깊이 및 카메라 움직임을 원시 세대로 통합 할 수 있으며, 이들의 조합을 한 번에 소환 할 수 있습니다.* 출처 : https://arxiv.org/pdf/2503.19907
Fulldit은 ** Fulldit : 전체주의를 기울인 다중 태스크 비디오 생성 기초 모델이라는 논문에 요약 된 바와 같이, 신원 전송, 깊이 매핑 및 카메라 움직임과 같은 다중 작업 조건을 훈련 된 생식 비디오 모델의 핵심으로 통합합니다. 저자는 프로토 타입 모델을 개발하고 프로젝트 사이트에서 사용할 수있는 비디오 클립과 함께 제공되었습니다.
** 클릭하려면 클릭하십시오. 기본 훈련 된 기초 모델 만있는 Controlnet 스타일 사용자 부과의 예. ** 출처 : https://fulldit.github.io/
저자는 FullDit가 이미지 또는 텍스트 프롬프트보다 사용자에게 더 많은 제어를 제공하는 기본 텍스트-비디오 (T2V) 및 IMIDE-TO-VIEDO (I2V) 모델에 대한 개념 증명으로 제시합니다. 비슷한 모델이 존재하지 않기 때문에 연구원들은 멀티 태스킹 비디오를 평가하기 위해 ** 풀 벤치 **라는 새로운 벤치 마크를 만들었습니다. 그러나 저자 자체에 의해 설계된 풀 벤치의 객관성은 테스트되지 않았으며, 1,400 건의 데이터 세트는 더 광범위한 결론을 위해 너무 제한적일 수 있습니다.
Fulldit 아키텍처의 가장 흥미로운 측면은 새로운 유형의 제어를 통합 할 수있는 잠재력입니다. 저자 참고 사항 :
** '이 작업에서는 카메라, 신원 및 깊이 정보의 제어 조건 만 탐색합니다. 우리는 오디오, 음성, 포인트 클라우드, 객체 경계 박스, 광학 흐름 등과 같은 다른 조건과 양식을 더 조사하지 않았지만, 풀 디트의 설계는 기존 모델을 최소한의 아키텍처 수정과 원활하게 통합 할 수 있지만, 기존 모델을 새로운 조건에 빠르고 비용을 효과적으로 조정하는 방법을 신속하고 비용 효율적으로 조정하는 방법과 모형은 여전히 더 많은 탐색을위한 중요한 의문입니다. '**.
FullDit은 멀티 태스킹 비디오 생성의 한 걸음 앞으로 나아가지 만 새로운 패러다임을 도입하기보다는 기존 아키텍처를 기반으로합니다. 그럼에도 불구하고, 그것은 기본적으로 통합 된 Controlnet 스타일 기능을 갖춘 유일한 비디오 파운데이션 모델로, 아키텍처는 미래의 혁신을 수용하도록 설계되었습니다.
** 클릭하려면 클릭하십시오. 프로젝트 사이트에서 사용자 제어 카메라 이동의 예. **
Kuaishou Technology의 9 명의 연구원과 홍콩 중국 대학교 (University of Hong Kong)의 9 명의 연구원이 저술 한이 논문은 ** Fulldit : Multi-Task Video Generative Foundation 모델이 있습니다. 프로젝트 페이지와 새로운 벤치 마크 데이터는 포옹 얼굴에서 사용할 수 있습니다.
방법
Fulldit의 통합주의 메커니즘은 조건에서 공간적 및 시간적 관계를 모두 포착하여 교차 모달 표현 학습을 향상 시키도록 설계되었습니다.
*새 논문에 따르면 FullDit은 완전한 자체 소지를 통해 여러 입력 조건을 통합하여 통합 시퀀스로 변환합니다. 대조적으로, 어댑터 기반 모델 (위의 가장 왼쪽)은 각 입력에 대해 별도의 모듈을 사용하여 중복성, 충돌 및 성능이 약해집니다.*.
각 입력 스트림을 개별적으로 처리하는 어댑터 기반 설정과 달리 FullDit의 공유주의 구조는 분기 충돌을 피하고 매개 변수 오버 헤드를 줄입니다. 저자는 아키텍처가 주요 재 설계없이 새로운 입력 유형으로 확장 할 수 있으며 모델 스키마는 카메라 모션을 문자 아이덴티티와 연결하는 것과 같이 훈련 중에 보이지 않는 조합 조합의 일반화 징후를 보여줍니다.
** 클릭하려면 클릭하십시오. 프로젝트 사이트에서 신원 생성의 예 **.
Fulldit의 아키텍처에서 텍스트, 카메라 모션, 아이덴티티 및 깊이와 같은 모든 컨디셔닝 입력은 먼저 통합 토큰 형식으로 변환됩니다. 이어서,이 토큰은 단일 긴 시퀀스로 연결되며, 완전한 자체 소지를 사용하여 변압기 층 스택을 통해 처리된다. 이 접근법은 Open-Sora Plan 및 영화 Gen과 같은 이전 작품을 따릅니다.
이 설계를 통해 모델은 모든 조건에서 시간적 및 공간 관계를 공동으로 배울 수 있습니다. 각 변압기 블록은 전체 시퀀스에 걸쳐 작동하므로 각 입력에 대해 별도의 모듈에 의존하지 않고도 양식 간의 동적 상호 작용을 가능하게합니다. 이 아키텍처는 확장 가능하도록 설계되어 주요 구조적 변화없이 향후 추가 제어 신호를보다 쉽게 통합 할 수 있습니다.
세 가지 힘
Fulldit은 각 제어 신호를 표준화 된 토큰 형식으로 변환하여 모든 조건을 통합주의 프레임 워크로 함께 처리 할 수 있도록합니다. 카메라 모션의 경우 모델은 각 프레임에 대한 일련의 외적 매개 변수 (위치 및 방향)를 인코딩합니다. 이들 파라미터는 신호의 시간적 특성을 반영하는 임베딩 벡터로 타임 스탬프되고 투사된다.
신원 정보는 시간이 아니라 본질적으로 공간적이므로 다르게 취급됩니다. 이 모델은 각 프레임의 어떤 부분에 어떤 문자가 있는지를 나타내는 ID 맵을 사용합니다. 이 맵은 패치로 나뉘며 각 패치는 공간 아이덴티티 큐를 캡처하는 임베딩으로 투사되어 모델이 프레임의 특정 영역을 특정 엔티티와 연결할 수 있습니다.
깊이는 시공간 신호이며 모델은 깊이 비디오를 공간과 시간에 걸쳐 3D 패치로 나누어 처리합니다. 이 패치는 프레임에 걸쳐 구조를 보존하는 방식으로 내장됩니다.
일단 내장되면, 이러한 모든 조건 토큰 (카메라, 아이덴티티 및 깊이)은 단일 긴 시퀀스로 연결되어 FullDit이 완전한 자체 소지를 사용하여 함께 처리 할 수 있습니다. 이 공유 표현을 통해 모델은 고립 된 처리 스트림에 의존하지 않고 양식과 시간에 걸쳐 상호 작용을 학습 할 수 있습니다.
데이터 및 테스트
Fulldit의 교육 접근법은 모든 조건이 동시에 존재하도록 요구하지 않고 각 컨디셔닝 유형에 맞게 선택적으로 주석이 달린 데이터 세트에 의존했습니다.
텍스트 조건의 경우, 이니셔티브는 Miradata 프로젝트에 요약 된 구조화 된 캡션 접근법을 따릅니다.
* Miradata 프로젝트의 비디오 수집 및 주석 파이프 라인* 출처 : https://arxiv.org/pdf/2407.06358
카메라 모션의 경우 Realestate10K 데이터 세트는 카메라 매개 변수의 고품질 근거 진실 주석으로 인해 주요 데이터 소스였습니다. 그러나 저자는 Realestate10K와 같은 정적 장면 카메라 데이터 세트에 대한 훈련이 생성 된 비디오에서 역동적 인 물체와 인간 움직임을 줄이는 경향이 있음을 관찰했습니다. 이에 대응하기 위해 더 동적 카메라 모션이 포함 된 내부 데이터 세트를 사용하여 추가 미세 조정을 수행했습니다.
Identity Annotation은 ConceptMaster 프로젝트를 위해 개발 된 파이프 라인을 사용하여 생성되었으며, 이는 세분화 된 ID 정보의 효율적인 필터링 및 추출을 허용했습니다.
* ConceptMaster 프레임 워크는 정의 된 비디오에서 개념 충실도를 보존하는 동안 신원 분리 문제를 해결하도록 설계되었습니다.* 출처 : https://arxiv.org/pdf/2501.04698
깊이 주석은 깊이를 사용하여 Panda-70m 데이터 세트에서 얻었습니다.
데이터 주문을 통한 최적화
저자는 또한 진보적 인 교육 일정을 구현하여 더 간단한 작업이 추가되기 전에 모델이 강력한 표현을 획득 할 수 있도록 교육 초기에 더 어려운 조건을 도입했습니다. 교육 순서는 텍스트에서 카메라 조건으로 진행되었으며, 그 다음에 신원 및 최종적으로 깊이가 있으며, 일반적으로 나중에 더 쉬운 작업이 나중에 소개되며 예제가 적습니다.
저자는 이런 방식으로 워크로드를 주문하는 가치를 강조합니다.
** '사전 훈련 단계에서, 우리는 더 어려운 작업이 연장 된 교육 시간을 요구하고 학습 과정에서 일찍 도입되어야한다고 언급했습니다. 이러한 도전적인 작업에는 출력 비디오와 크게 다른 복잡한 데이터 분포가 포함되어있어 모델이이를 정확하게 캡처하고 표현할 수있는 충분한 용량을 보유해야합니다. **
** '반대로, 더 쉬운 작업을 너무 일찍 도입하면 모델이 먼저 학습의 우선 순위를 정할 수 있습니다.보다 즉각적인 최적화 피드백을 제공하여보다 도전적인 작업의 수렴을 방해합니다.'**.
*연구원이 채택한 데이터 훈련 순서의 예시, 빨간색은 데이터 볼륨이 높아집니다.*
초기 사전 훈련 후, 최종 미세 조정 단계는 시각적 품질 및 모션 역학을 향상시키기 위해 모델을 추가로 개선했습니다. 그 후, 훈련은 표준 확산 프레임 워크 : 비디오 잠복에 추가 된 노이즈, 그리고 내장 된 조건 토큰을 지침으로 사용하여 예측하고 제거하는 모델 학습을 따랐습니다.
FullDit을 효과적으로 평가하고 기존 방법에 대한 공정한 비교를 제공하기 위해, 다른 Apposite 벤치 마크가 없으면 저자는 1,400 개의 별개의 테스트 사례로 구성된 선별 된 벤치 마크 스위트 **를 소개했습니다.
* 새로운 풀 벤치 벤치 마크의 데이터 탐색기 인스턴스* 출처 : https://huggingface.co/datasets/kwaivgi/fullbench
각 데이터 포인트는 카메라 모션, 아이덴티티 및 깊이를 포함한 다양한 컨디셔닝 신호에 대한 지상 진실 주석을 제공했습니다.
메트릭
저자는 성능의 5 가지 주요 측면을 다루는 10 가지 메트릭을 사용하여 Fulldit을 평가했습니다. 텍스트 정렬, 카메라 제어, 아이덴티티 유사성, 깊이 정확도 및 일반 비디오 품질.
CAMI2V (카메라 크라트 프로젝트에서)의 접근에 따라 카메라 정렬은 클립 유사성을 사용하여 측정 한 반면 카메라 컨트롤은 회전 오류 (ROTERR), TRANSERR (Translation Error) 및 CAMMC (Camera Motion Alless)를 통해 평가되었습니다.
동일성 유사성은 DINO-I 및 CLIP-I를 사용하여 평가되었고, 평균 절대 오차 (MAE)를 사용하여 깊이 제어 정확도를 정량화 하였다.
비디오 품질은 Miradata의 세 가지 측정 항목으로 판단되었습니다 : 스무드를위한 프레임 레벨 클립 유사성; 역학을위한 광학 흐름 기반 모션 거리; 시각적 매력을위한 Laion-eesthetic 점수.
훈련
저자는 약 10 억 개의 매개 변수를 포함하는 내부 (공개되지 않은) 텍스트-비디오 확산 모델을 사용하여 FullDit을 훈련 시켰습니다. 그들은 의도적으로 이전 방법과 비교하여 공정성을 유지하고 재현성을 보장하기 위해 적절한 매개 변수 크기를 선택했습니다.
훈련 비디오는 길이와 해상도가 다르기 때문에 저자는 비디오를 공통 해상도로 조정하고 패딩하여 각 배치를 표준화하고 시퀀스 당 77 프레임을 샘플링하며 적용된주의 및 손실 마스크를 사용하여 교육 효과를 최적화했습니다.
Adam Optimizer는 총 5,120GB의 VRAM에 대해 64 NVIDIA H800 GPU의 클러스터에 걸쳐 1 × 10 ~ 5 의 학습 속도로 사용되었습니다 (애호가 합성 커뮤니티에서 RTX 3090의 24GB는 여전히 호화로운 표준으로 간주됩니다).
이 모델은 약 32,000 단계로 교육을 받았으며 비디오 당 최대 3 개의 신원을 통합하고 20 개의 카메라 조건 프레임과 21 프레임의 깊이 조건을 통합하여 총 77 프레임에서 균등하게 샘플링했습니다.
추론을 위해, 모델은 50 개의 확산 추론 단계와 분류기가없는 안내 척도가 5 개의 384 × 672 픽셀 (초당 15 프레임에서 약 5 초)의 해상도로 비디오를 생성했습니다.
사전 방법
카메라 간 비디오 평가를 위해 저자는 MotionCtrl, Cameractrl 및 Cami2V와 FullDit을 비교했으며 모든 모델은 Realestate10K 데이터 세트를 사용하여 일관성과 공정성을 보장했습니다.
Identity-Conditioned Generation에서는 비슷한 오픈 소스 다 식별 모델을 사용할 수 없었기 때문에이 모델은 동일한 교육 데이터 및 아키텍처를 사용하여 1B-Parameter Conceptmaster 모델에 대해 벤치마킹되었습니다.
심도-비디오 작업의 경우 Ctrl-Adapter 및 ControlVideo와 비교했습니다.
*단일 작업 비디오 생성에 대한 정량적 결과. Fulldit은 카메라-비디오 생성을 위해 MotionCtrl, Cameractrl 및 Cami2V와 비교되었습니다. Identity-to-Video 용 Conceptmaster (1B 매개 변수 버전); 심도-비디오를위한 Ctrl-Adapter 및 ControlVideo. 모든 모델은 기본 설정을 사용하여 평가되었습니다. 일관성을 위해, 16 프레임은 각 방법에서 균일하게 샘플링하여 이전 모델의 출력 길이와 일치했습니다.*
결과는 여러 컨디셔닝 신호를 동시에 처리하더라도 Fulldit은 텍스트, 카메라 모션, 아이덴티티 및 깊이 제어와 관련된 메트릭에서 최첨단 성능을 달성했음을 나타냅니다.
전반적인 품질 측정 항목에서 시스템은 일반적으로 다른 방법보다 성능이 뛰어 났지만, 부드러움은 Conceptmaster보다 약간 낮았습니다. 여기서 저자는 다음과 같습니다.
** '부드러운 계산은 인접한 프레임 사이의 클립 유사성을 기반으로하기 때문에 Fulldit의 평활도는 ConceptMaster의 평활성보다 약간 낮습니다. Fulldit은 Conceptmaster에 비해 상당히 큰 역학을 나타 내기 때문에 Smoothness Metric은 인접한 프레임 사이의 큰 변화에 영향을받습니다. **
** '미학적 점수의 경우 등급 모델은 그림 스타일로 이미지를 선호하고 ControlVideo는 일반적 으로이 스타일로 비디오를 생성하기 때문에 미학에서 높은 점수를 얻습니다.'**.
질적 비교와 관련하여, PDF 예제는 필연적으로 정적이며 (여기에서 완전히 재현하기에는 너무 크기 때문에) Fulldit 프로젝트 사이트에서 샘플 비디오를 참조하는 것이 바람직 할 수 있습니다.
*질적의 첫 번째 섹션은 PDF를 초래합니다. 추가 예제에 대해서는 소스 용지를 참조하십시오. 여기에서 재현하기에는 너무 광범위합니다.*
저자는 다음과 같습니다.
** 'Fulldit은 우수한 정체성 보존을 보여주고 [Conceptmaster]에 비해 더 나은 역학과 시각적 품질을 가진 비디오를 생성합니다. Conceptmaster와 Fulldit은 동일한 백본으로 훈련되었으므로 조건 주입의 효과를 완전히주의 깊게 강조합니다. **
** '… [기타] 결과는 기존 심도-비디오 및 카메라-비디오 방법에 비해 Fulldit의 우수한 제어 성과 생성 품질을 보여줍니다.'**
*여러 신호를 가진 Fulldit의 출력에 대한 PDF의 예제의 섹션. 추가 예제는 소스 용지 및 프로젝트 사이트를 참조하십시오.*
결론
Fulldit은보다 포괄적 인 비디오 파운데이션 모델을 향한 흥미로운 단계를 나타내지 만, Controlnet 스타일 기능에 대한 수요가 특히 오픈 소스 프로젝트에 대한 규모의 구현을 정당화하는지 여부에 대한 질문은 여전히 남아 있습니다. 이 프로젝트는 상업적 지원없이 필요한 방대한 GPU 처리 힘을 얻기 위해 고군분투 할 것입니다.
주요 과제는 깊이 및 포즈와 같은 시스템을 사용하려면 일반적으로 Comfyui와 같은 복잡한 사용자 인터페이스에 대한 사소한 친숙 함이 필요하다는 것입니다. 따라서 이러한 종류의 기능적 오픈 소스 모델은 소규모 VFX 회사에서 이러한 모델을 개인적으로 선별하고 훈련시키기위한 자원이나 동기 부여가 부족한 소규모 VFX 회사에서 개발 될 가능성이 높습니다.
반면, API 중심의 'Rent-An-AI'시스템은 직접 훈련 된 보조 통제 시스템을 갖춘 모델에 대한보다 간단하고보다 사용자 친화적 인 해석 방법을 개발하기 위해 동기 부여 될 수 있습니다.
** 클릭하려면 클릭하십시오. Fulldit을 사용하여 비디오 생성에 부과 된 깊이+텍스트 컨트롤. **
*저자는 알려진 기본 모델 (예 : SDXL 등)을 지정하지 않습니다.
** 2025 년 3 월 27 일 목요일 첫 번째 출판 **
관련 기사
Unveiling Subtle Yet Impactful AI Modifications in Authentic Video Content
In 2019, a deceptive video of Nancy Pelosi, then Speaker of the US House of Representatives, circulated widely. The video, which was edited to make her appear intoxicated, was a stark reminder of how easily manipulated media can mislead the public. Despite its simplicity, this incident highlighted t
OpenAI plans to bring Sora’s video generator to ChatGPT
OpenAI plans to integrate its AI video generation tool, Sora, into its popular consumer chatbot, ChatGPT. This was revealed by company leaders during a recent office hours session on Discord. Currently, Sora is accessible only through a dedicated web app launched by OpenAI in December, allowing user
ByteDance Joins Deepfake AI Video Market
ByteDance, the folks behind TikTok, have just shown off their latest AI creation, OmniHuman-1, and it's pretty mind-blowing. This new system can whip up super realistic videos, and all it needs is just a single reference image and some audio. What's cool is you can tweak the video's aspect ratio and
의견 (0)
0/200






Hunyuan 및 WAN 2.1과 같은 비디오 파운데이션 모델은 상당한 진전을 이루었지만 영화 및 TV 제작, 특히 VFX (Visual Effects) 영역에서 필요한 세부 제어에있어 종종 부족합니다. 전문 VFX 스튜디오에서 이러한 모델은 안정적인 확산, Kandinsky 및 Flux와 같은 초기 이미지 기반 모델과 함께 특정 창의적 요구를 충족시키기 위해 출력을 개선하도록 설계된 도구 제품군과 함께 사용됩니다. 감독이 조정을 요청하면서 "멋져 보이지만 조금 더 [n]을 만들 수 있습니까?"와 같은 것을 말할 때, 단순히 모델에 그러한 조정을위한 정밀도가 부족하다는 것을 간단히 말하는 것만으로는 충분하지 않습니다.
대신, AI VFX 팀은 전통적인 CGI와 구성 기술의 조합과 맞춤형 워크 플로우를 사용하여 비디오 합성의 경계를 더욱 활용할 것입니다. 이 접근법은 Chrome과 같은 기본 웹 브라우저를 사용하는 것과 유사합니다. 상자에서 기능적이지만 필요에 맞게 조정하려면 일부 플러그인을 설치해야합니다.
컨트롤 괴물
확산 기반 이미지 합성 분야에서 가장 중요한 타사 시스템 중 하나는 Controlnet입니다. 이 기술은 생성 모델에 구조화 된 제어를 도입하여 사용자가 에지 맵, 깊이 맵 또는 포즈 정보와 같은 추가 입력을 사용하여 이미지 또는 비디오 생성을 안내 할 수 있습니다.
*Controlnet의 다양한 방법은 깊이> 이미지 (상단 행), 시맨틱 세분화> 이미지 (왼쪽 하단) 및 인간과 동물의 포즈 유도 이미지 생성 (왼쪽 아래)을 허용합니다.*
Controlnet은 텍스트 프롬프트에만 의존하지 않습니다. 기본 모델의 생성 기능을 유지하면서 이러한 컨디셔닝 신호를 처리하기 위해 별도의 신경망 브랜치 또는 어댑터를 사용합니다. 이를 통해 사용자 사양과 밀접하게 정렬되는 고도로 사용자 정의 된 출력이 가능하므로 구성, 구조 또는 모션에 대한 정확한 제어가 필요한 응용 프로그램에 매우 중요합니다.
* 안내 자세를 사용하면 Controlnet을 통해 다양한 정확한 출력 유형을 얻을 수 있습니다.* 출처 : https://arxiv.org/pdf/2302.05543
그러나 내부적으로 중심적 인 신경 과정 세트에서 외부에서 작동하는 이러한 어댑터 기반 시스템에는 몇 가지 단점이 있습니다. 어댑터는 독립적으로 훈련되어 여러 어댑터가 결합 될 때 분기 충돌로 이어질 수 있으며 종종 품질이 낮습니다. 또한 매개 변수 중복성을 도입하여 각 어댑터에 추가 계산 자원과 메모리가 필요하므로 스케일링이 비효율적입니다. 또한, 유연성에도 불구하고, 어댑터는 종종 다중 조건 생성을 위해 완전히 미세 조정 된 모델과 비교하여 차선 결과를 산출합니다. 이러한 문제는 다중 제어 신호의 원활한 통합이 필요한 작업에 어댑터 기반 방법을 덜 효과적으로 만들 수 있습니다.
이상적으로는 Controlnet의 기능은 모듈 식 방식으로 기본적으로 모델에 통합되어 동시 비디오/오디오 생성 또는 기본 Lip-Sync 기능과 같은 미래의 혁신이 가능합니다. 현재, 각 추가 기능은 포스트 프로덕션 작업 또는 기초 모델의 민감한 가중치를 탐색 해야하는 비 네이티브 절차가됩니다.
풀 디트
Controlnet 스타일 기능을 훈련 중에 나중에 고려하지 않고 생성 비디오 모델에 직접 통합하는 중국의 새로운 접근 방식 인 Fulldit을 입력하십시오.
* 새 논문에서 : 풀다이트 접근법은 신원 부과, 깊이 및 카메라 움직임을 원시 세대로 통합 할 수 있으며, 이들의 조합을 한 번에 소환 할 수 있습니다.* 출처 : https://arxiv.org/pdf/2503.19907
Fulldit은 ** Fulldit : 전체주의를 기울인 다중 태스크 비디오 생성 기초 모델이라는 논문에 요약 된 바와 같이, 신원 전송, 깊이 매핑 및 카메라 움직임과 같은 다중 작업 조건을 훈련 된 생식 비디오 모델의 핵심으로 통합합니다. 저자는 프로토 타입 모델을 개발하고 프로젝트 사이트에서 사용할 수있는 비디오 클립과 함께 제공되었습니다.
** 클릭하려면 클릭하십시오. 기본 훈련 된 기초 모델 만있는 Controlnet 스타일 사용자 부과의 예. ** 출처 : https://fulldit.github.io/
저자는 FullDit가 이미지 또는 텍스트 프롬프트보다 사용자에게 더 많은 제어를 제공하는 기본 텍스트-비디오 (T2V) 및 IMIDE-TO-VIEDO (I2V) 모델에 대한 개념 증명으로 제시합니다. 비슷한 모델이 존재하지 않기 때문에 연구원들은 멀티 태스킹 비디오를 평가하기 위해 ** 풀 벤치 **라는 새로운 벤치 마크를 만들었습니다. 그러나 저자 자체에 의해 설계된 풀 벤치의 객관성은 테스트되지 않았으며, 1,400 건의 데이터 세트는 더 광범위한 결론을 위해 너무 제한적일 수 있습니다.
Fulldit 아키텍처의 가장 흥미로운 측면은 새로운 유형의 제어를 통합 할 수있는 잠재력입니다. 저자 참고 사항 :
** '이 작업에서는 카메라, 신원 및 깊이 정보의 제어 조건 만 탐색합니다. 우리는 오디오, 음성, 포인트 클라우드, 객체 경계 박스, 광학 흐름 등과 같은 다른 조건과 양식을 더 조사하지 않았지만, 풀 디트의 설계는 기존 모델을 최소한의 아키텍처 수정과 원활하게 통합 할 수 있지만, 기존 모델을 새로운 조건에 빠르고 비용을 효과적으로 조정하는 방법을 신속하고 비용 효율적으로 조정하는 방법과 모형은 여전히 더 많은 탐색을위한 중요한 의문입니다. '**.
FullDit은 멀티 태스킹 비디오 생성의 한 걸음 앞으로 나아가지 만 새로운 패러다임을 도입하기보다는 기존 아키텍처를 기반으로합니다. 그럼에도 불구하고, 그것은 기본적으로 통합 된 Controlnet 스타일 기능을 갖춘 유일한 비디오 파운데이션 모델로, 아키텍처는 미래의 혁신을 수용하도록 설계되었습니다.
** 클릭하려면 클릭하십시오. 프로젝트 사이트에서 사용자 제어 카메라 이동의 예. **
Kuaishou Technology의 9 명의 연구원과 홍콩 중국 대학교 (University of Hong Kong)의 9 명의 연구원이 저술 한이 논문은 ** Fulldit : Multi-Task Video Generative Foundation 모델이 있습니다. 프로젝트 페이지와 새로운 벤치 마크 데이터는 포옹 얼굴에서 사용할 수 있습니다.
방법
Fulldit의 통합주의 메커니즘은 조건에서 공간적 및 시간적 관계를 모두 포착하여 교차 모달 표현 학습을 향상 시키도록 설계되었습니다.
*새 논문에 따르면 FullDit은 완전한 자체 소지를 통해 여러 입력 조건을 통합하여 통합 시퀀스로 변환합니다. 대조적으로, 어댑터 기반 모델 (위의 가장 왼쪽)은 각 입력에 대해 별도의 모듈을 사용하여 중복성, 충돌 및 성능이 약해집니다.*.
각 입력 스트림을 개별적으로 처리하는 어댑터 기반 설정과 달리 FullDit의 공유주의 구조는 분기 충돌을 피하고 매개 변수 오버 헤드를 줄입니다. 저자는 아키텍처가 주요 재 설계없이 새로운 입력 유형으로 확장 할 수 있으며 모델 스키마는 카메라 모션을 문자 아이덴티티와 연결하는 것과 같이 훈련 중에 보이지 않는 조합 조합의 일반화 징후를 보여줍니다.
** 클릭하려면 클릭하십시오. 프로젝트 사이트에서 신원 생성의 예 **.
Fulldit의 아키텍처에서 텍스트, 카메라 모션, 아이덴티티 및 깊이와 같은 모든 컨디셔닝 입력은 먼저 통합 토큰 형식으로 변환됩니다. 이어서,이 토큰은 단일 긴 시퀀스로 연결되며, 완전한 자체 소지를 사용하여 변압기 층 스택을 통해 처리된다. 이 접근법은 Open-Sora Plan 및 영화 Gen과 같은 이전 작품을 따릅니다.
이 설계를 통해 모델은 모든 조건에서 시간적 및 공간 관계를 공동으로 배울 수 있습니다. 각 변압기 블록은 전체 시퀀스에 걸쳐 작동하므로 각 입력에 대해 별도의 모듈에 의존하지 않고도 양식 간의 동적 상호 작용을 가능하게합니다. 이 아키텍처는 확장 가능하도록 설계되어 주요 구조적 변화없이 향후 추가 제어 신호를보다 쉽게 통합 할 수 있습니다.
세 가지 힘
Fulldit은 각 제어 신호를 표준화 된 토큰 형식으로 변환하여 모든 조건을 통합주의 프레임 워크로 함께 처리 할 수 있도록합니다. 카메라 모션의 경우 모델은 각 프레임에 대한 일련의 외적 매개 변수 (위치 및 방향)를 인코딩합니다. 이들 파라미터는 신호의 시간적 특성을 반영하는 임베딩 벡터로 타임 스탬프되고 투사된다.
신원 정보는 시간이 아니라 본질적으로 공간적이므로 다르게 취급됩니다. 이 모델은 각 프레임의 어떤 부분에 어떤 문자가 있는지를 나타내는 ID 맵을 사용합니다. 이 맵은 패치로 나뉘며 각 패치는 공간 아이덴티티 큐를 캡처하는 임베딩으로 투사되어 모델이 프레임의 특정 영역을 특정 엔티티와 연결할 수 있습니다.
깊이는 시공간 신호이며 모델은 깊이 비디오를 공간과 시간에 걸쳐 3D 패치로 나누어 처리합니다. 이 패치는 프레임에 걸쳐 구조를 보존하는 방식으로 내장됩니다.
일단 내장되면, 이러한 모든 조건 토큰 (카메라, 아이덴티티 및 깊이)은 단일 긴 시퀀스로 연결되어 FullDit이 완전한 자체 소지를 사용하여 함께 처리 할 수 있습니다. 이 공유 표현을 통해 모델은 고립 된 처리 스트림에 의존하지 않고 양식과 시간에 걸쳐 상호 작용을 학습 할 수 있습니다.
데이터 및 테스트
Fulldit의 교육 접근법은 모든 조건이 동시에 존재하도록 요구하지 않고 각 컨디셔닝 유형에 맞게 선택적으로 주석이 달린 데이터 세트에 의존했습니다.
텍스트 조건의 경우, 이니셔티브는 Miradata 프로젝트에 요약 된 구조화 된 캡션 접근법을 따릅니다.
* Miradata 프로젝트의 비디오 수집 및 주석 파이프 라인* 출처 : https://arxiv.org/pdf/2407.06358
카메라 모션의 경우 Realestate10K 데이터 세트는 카메라 매개 변수의 고품질 근거 진실 주석으로 인해 주요 데이터 소스였습니다. 그러나 저자는 Realestate10K와 같은 정적 장면 카메라 데이터 세트에 대한 훈련이 생성 된 비디오에서 역동적 인 물체와 인간 움직임을 줄이는 경향이 있음을 관찰했습니다. 이에 대응하기 위해 더 동적 카메라 모션이 포함 된 내부 데이터 세트를 사용하여 추가 미세 조정을 수행했습니다.
Identity Annotation은 ConceptMaster 프로젝트를 위해 개발 된 파이프 라인을 사용하여 생성되었으며, 이는 세분화 된 ID 정보의 효율적인 필터링 및 추출을 허용했습니다.
* ConceptMaster 프레임 워크는 정의 된 비디오에서 개념 충실도를 보존하는 동안 신원 분리 문제를 해결하도록 설계되었습니다.* 출처 : https://arxiv.org/pdf/2501.04698
깊이 주석은 깊이를 사용하여 Panda-70m 데이터 세트에서 얻었습니다.
데이터 주문을 통한 최적화
저자는 또한 진보적 인 교육 일정을 구현하여 더 간단한 작업이 추가되기 전에 모델이 강력한 표현을 획득 할 수 있도록 교육 초기에 더 어려운 조건을 도입했습니다. 교육 순서는 텍스트에서 카메라 조건으로 진행되었으며, 그 다음에 신원 및 최종적으로 깊이가 있으며, 일반적으로 나중에 더 쉬운 작업이 나중에 소개되며 예제가 적습니다.
저자는 이런 방식으로 워크로드를 주문하는 가치를 강조합니다.
** '사전 훈련 단계에서, 우리는 더 어려운 작업이 연장 된 교육 시간을 요구하고 학습 과정에서 일찍 도입되어야한다고 언급했습니다. 이러한 도전적인 작업에는 출력 비디오와 크게 다른 복잡한 데이터 분포가 포함되어있어 모델이이를 정확하게 캡처하고 표현할 수있는 충분한 용량을 보유해야합니다. **
** '반대로, 더 쉬운 작업을 너무 일찍 도입하면 모델이 먼저 학습의 우선 순위를 정할 수 있습니다.보다 즉각적인 최적화 피드백을 제공하여보다 도전적인 작업의 수렴을 방해합니다.'**.
*연구원이 채택한 데이터 훈련 순서의 예시, 빨간색은 데이터 볼륨이 높아집니다.*
초기 사전 훈련 후, 최종 미세 조정 단계는 시각적 품질 및 모션 역학을 향상시키기 위해 모델을 추가로 개선했습니다. 그 후, 훈련은 표준 확산 프레임 워크 : 비디오 잠복에 추가 된 노이즈, 그리고 내장 된 조건 토큰을 지침으로 사용하여 예측하고 제거하는 모델 학습을 따랐습니다.
FullDit을 효과적으로 평가하고 기존 방법에 대한 공정한 비교를 제공하기 위해, 다른 Apposite 벤치 마크가 없으면 저자는 1,400 개의 별개의 테스트 사례로 구성된 선별 된 벤치 마크 스위트 **를 소개했습니다.
* 새로운 풀 벤치 벤치 마크의 데이터 탐색기 인스턴스* 출처 : https://huggingface.co/datasets/kwaivgi/fullbench
각 데이터 포인트는 카메라 모션, 아이덴티티 및 깊이를 포함한 다양한 컨디셔닝 신호에 대한 지상 진실 주석을 제공했습니다.
메트릭
저자는 성능의 5 가지 주요 측면을 다루는 10 가지 메트릭을 사용하여 Fulldit을 평가했습니다. 텍스트 정렬, 카메라 제어, 아이덴티티 유사성, 깊이 정확도 및 일반 비디오 품질.
CAMI2V (카메라 크라트 프로젝트에서)의 접근에 따라 카메라 정렬은 클립 유사성을 사용하여 측정 한 반면 카메라 컨트롤은 회전 오류 (ROTERR), TRANSERR (Translation Error) 및 CAMMC (Camera Motion Alless)를 통해 평가되었습니다.
동일성 유사성은 DINO-I 및 CLIP-I를 사용하여 평가되었고, 평균 절대 오차 (MAE)를 사용하여 깊이 제어 정확도를 정량화 하였다.
비디오 품질은 Miradata의 세 가지 측정 항목으로 판단되었습니다 : 스무드를위한 프레임 레벨 클립 유사성; 역학을위한 광학 흐름 기반 모션 거리; 시각적 매력을위한 Laion-eesthetic 점수.
훈련
저자는 약 10 억 개의 매개 변수를 포함하는 내부 (공개되지 않은) 텍스트-비디오 확산 모델을 사용하여 FullDit을 훈련 시켰습니다. 그들은 의도적으로 이전 방법과 비교하여 공정성을 유지하고 재현성을 보장하기 위해 적절한 매개 변수 크기를 선택했습니다.
훈련 비디오는 길이와 해상도가 다르기 때문에 저자는 비디오를 공통 해상도로 조정하고 패딩하여 각 배치를 표준화하고 시퀀스 당 77 프레임을 샘플링하며 적용된주의 및 손실 마스크를 사용하여 교육 효과를 최적화했습니다.
Adam Optimizer는 총 5,120GB의 VRAM에 대해 64 NVIDIA H800 GPU의 클러스터에 걸쳐 1 × 10 ~ 5 의 학습 속도로 사용되었습니다 (애호가 합성 커뮤니티에서 RTX 3090의 24GB는 여전히 호화로운 표준으로 간주됩니다).
이 모델은 약 32,000 단계로 교육을 받았으며 비디오 당 최대 3 개의 신원을 통합하고 20 개의 카메라 조건 프레임과 21 프레임의 깊이 조건을 통합하여 총 77 프레임에서 균등하게 샘플링했습니다.
추론을 위해, 모델은 50 개의 확산 추론 단계와 분류기가없는 안내 척도가 5 개의 384 × 672 픽셀 (초당 15 프레임에서 약 5 초)의 해상도로 비디오를 생성했습니다.
사전 방법
카메라 간 비디오 평가를 위해 저자는 MotionCtrl, Cameractrl 및 Cami2V와 FullDit을 비교했으며 모든 모델은 Realestate10K 데이터 세트를 사용하여 일관성과 공정성을 보장했습니다.
Identity-Conditioned Generation에서는 비슷한 오픈 소스 다 식별 모델을 사용할 수 없었기 때문에이 모델은 동일한 교육 데이터 및 아키텍처를 사용하여 1B-Parameter Conceptmaster 모델에 대해 벤치마킹되었습니다.
심도-비디오 작업의 경우 Ctrl-Adapter 및 ControlVideo와 비교했습니다.
*단일 작업 비디오 생성에 대한 정량적 결과. Fulldit은 카메라-비디오 생성을 위해 MotionCtrl, Cameractrl 및 Cami2V와 비교되었습니다. Identity-to-Video 용 Conceptmaster (1B 매개 변수 버전); 심도-비디오를위한 Ctrl-Adapter 및 ControlVideo. 모든 모델은 기본 설정을 사용하여 평가되었습니다. 일관성을 위해, 16 프레임은 각 방법에서 균일하게 샘플링하여 이전 모델의 출력 길이와 일치했습니다.*
결과는 여러 컨디셔닝 신호를 동시에 처리하더라도 Fulldit은 텍스트, 카메라 모션, 아이덴티티 및 깊이 제어와 관련된 메트릭에서 최첨단 성능을 달성했음을 나타냅니다.
전반적인 품질 측정 항목에서 시스템은 일반적으로 다른 방법보다 성능이 뛰어 났지만, 부드러움은 Conceptmaster보다 약간 낮았습니다. 여기서 저자는 다음과 같습니다.
** '부드러운 계산은 인접한 프레임 사이의 클립 유사성을 기반으로하기 때문에 Fulldit의 평활도는 ConceptMaster의 평활성보다 약간 낮습니다. Fulldit은 Conceptmaster에 비해 상당히 큰 역학을 나타 내기 때문에 Smoothness Metric은 인접한 프레임 사이의 큰 변화에 영향을받습니다. **
** '미학적 점수의 경우 등급 모델은 그림 스타일로 이미지를 선호하고 ControlVideo는 일반적 으로이 스타일로 비디오를 생성하기 때문에 미학에서 높은 점수를 얻습니다.'**.
질적 비교와 관련하여, PDF 예제는 필연적으로 정적이며 (여기에서 완전히 재현하기에는 너무 크기 때문에) Fulldit 프로젝트 사이트에서 샘플 비디오를 참조하는 것이 바람직 할 수 있습니다.
*질적의 첫 번째 섹션은 PDF를 초래합니다. 추가 예제에 대해서는 소스 용지를 참조하십시오. 여기에서 재현하기에는 너무 광범위합니다.*
저자는 다음과 같습니다.
** 'Fulldit은 우수한 정체성 보존을 보여주고 [Conceptmaster]에 비해 더 나은 역학과 시각적 품질을 가진 비디오를 생성합니다. Conceptmaster와 Fulldit은 동일한 백본으로 훈련되었으므로 조건 주입의 효과를 완전히주의 깊게 강조합니다. **
** '… [기타] 결과는 기존 심도-비디오 및 카메라-비디오 방법에 비해 Fulldit의 우수한 제어 성과 생성 품질을 보여줍니다.'**
*여러 신호를 가진 Fulldit의 출력에 대한 PDF의 예제의 섹션. 추가 예제는 소스 용지 및 프로젝트 사이트를 참조하십시오.*
결론
Fulldit은보다 포괄적 인 비디오 파운데이션 모델을 향한 흥미로운 단계를 나타내지 만, Controlnet 스타일 기능에 대한 수요가 특히 오픈 소스 프로젝트에 대한 규모의 구현을 정당화하는지 여부에 대한 질문은 여전히 남아 있습니다. 이 프로젝트는 상업적 지원없이 필요한 방대한 GPU 처리 힘을 얻기 위해 고군분투 할 것입니다.
주요 과제는 깊이 및 포즈와 같은 시스템을 사용하려면 일반적으로 Comfyui와 같은 복잡한 사용자 인터페이스에 대한 사소한 친숙 함이 필요하다는 것입니다. 따라서 이러한 종류의 기능적 오픈 소스 모델은 소규모 VFX 회사에서 이러한 모델을 개인적으로 선별하고 훈련시키기위한 자원이나 동기 부여가 부족한 소규모 VFX 회사에서 개발 될 가능성이 높습니다.
반면, API 중심의 'Rent-An-AI'시스템은 직접 훈련 된 보조 통제 시스템을 갖춘 모델에 대한보다 간단하고보다 사용자 친화적 인 해석 방법을 개발하기 위해 동기 부여 될 수 있습니다.
** 클릭하려면 클릭하십시오. Fulldit을 사용하여 비디오 생성에 부과 된 깊이+텍스트 컨트롤. **
*저자는 알려진 기본 모델 (예 : SDXL 등)을 지정하지 않습니다.
** 2025 년 3 월 27 일 목요일 첫 번째 출판 **












