Tạo video AI chuyển sang kiểm soát hoàn toàn
Ngày 18 tháng 4 năm 2025
RyanLopez
23
Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, các mô hình này, cùng với các mô hình dựa trên hình ảnh trước đó như khuếch tán ổn định, Kandinsky và Flux, được sử dụng cùng với một bộ công cụ được thiết kế để tinh chỉnh đầu ra của chúng để đáp ứng nhu cầu sáng tạo cụ thể. Khi một giám đốc yêu cầu một điều chỉnh, nói điều gì đó như: "Điều đó trông tuyệt vời, nhưng chúng ta có thể làm cho nó nhiều hơn một chút [n] không?", Không đủ để nói rằng mô hình thiếu độ chính xác để thực hiện các điều chỉnh như vậy.
Thay vào đó, một nhóm AI VFX sẽ sử dụng kết hợp các kỹ thuật sáng tác và CGI truyền thống, cùng với các quy trình công việc được phát triển tùy chỉnh, để đẩy các ranh giới tổng hợp video hơn nữa. Cách tiếp cận này giống như sử dụng trình duyệt web mặc định như Chrome; Đó là chức năng ra khỏi hộp, nhưng để thực sự điều chỉnh nó theo nhu cầu của bạn, bạn sẽ cần cài đặt một số plugin.
Kiểm soát những kẻ lập dị
Trong lĩnh vực tổng hợp hình ảnh dựa trên khuếch tán, một trong những hệ thống bên thứ ba quan trọng nhất là ControlNet. Kỹ thuật này giới thiệu điều khiển có cấu trúc cho các mô hình tổng quát, cho phép người dùng hướng dẫn tạo hình ảnh hoặc tạo video bằng cách sử dụng các đầu vào bổ sung như bản đồ cạnh, bản đồ độ sâu hoặc thông tin đặt ra.
*Các phương pháp khác nhau của ControlNet cho phép độ sâu> Hình ảnh (hàng trên cùng), Phân đoạn ngữ nghĩa> Hình ảnh (dưới bên trái) và tạo hình ảnh hướng dẫn của con người và động vật (dưới bên trái).*
ControlNet không chỉ dựa vào lời nhắc văn bản; Nó sử dụng các nhánh mạng thần kinh riêng biệt hoặc bộ điều hợp, để xử lý các tín hiệu điều hòa này trong khi vẫn duy trì các khả năng tổng quát của mô hình cơ sở. Điều này cho phép các đầu ra tùy chỉnh cao phù hợp chặt chẽ với các thông số kỹ thuật của người dùng, làm cho nó vô giá cho các ứng dụng yêu cầu kiểm soát chính xác thành phần, cấu trúc hoặc chuyển động.
* Với tư thế hướng dẫn, có thể thu được nhiều loại đầu ra chính xác thông qua ControlNet.* Nguồn: https://arxiv.org/pdf/2302.05543
Tuy nhiên, các hệ thống dựa trên bộ điều hợp này, hoạt động bên ngoài trên một tập hợp các quá trình thần kinh tập trung vào nội bộ, đi kèm với một số nhược điểm. Bộ điều hợp được đào tạo độc lập, có thể dẫn đến xung đột chi nhánh khi nhiều bộ điều hợp được kết hợp, thường dẫn đến các thế hệ chất lượng thấp hơn. Họ cũng giới thiệu dự phòng tham số, yêu cầu tài nguyên và bộ nhớ tính toán bổ sung cho từng bộ chuyển đổi, làm cho tỷ lệ không hiệu quả. Hơn nữa, mặc dù tính linh hoạt của chúng, các bộ điều hợp thường mang lại kết quả tối ưu dưới mức so với các mô hình được tinh chỉnh hoàn toàn cho việc tạo đa điều kiện. Những vấn đề này có thể làm cho các phương pháp dựa trên bộ điều hợp kém hiệu quả đối với các tác vụ yêu cầu tích hợp liền mạch của nhiều tín hiệu điều khiển.
Lý tưởng nhất, các khả năng của ControlNet sẽ được tích hợp tự nhiên vào mô hình theo kiểu mô-đun, cho phép các đổi mới trong tương lai như tạo video/âm thanh đồng thời hoặc khả năng sync lip bản địa. Hiện tại, mỗi tính năng bổ sung trở thành một nhiệm vụ hậu sản xuất hoặc một quy trình không bản địa phải điều hướng các trọng số nhạy cảm của mô hình nền tảng.
FULLDIT
Enter Fulldit, một cách tiếp cận mới từ Trung Quốc tích hợp các tính năng theo phong cách ControlNet trực tiếp vào một mô hình video tổng quát trong quá trình đào tạo, thay vì coi chúng như một suy nghĩ lại.
* Từ bài báo mới: Cách tiếp cận Fulldit có thể kết hợp áp đặt nhận dạng, độ sâu và chuyển động của camera vào một thế hệ bản địa và có thể triệu tập bất kỳ sự kết hợp nào của chúng cùng một lúc.* Nguồn: https://arxiv.org/pdf/2503.19907
Fulldit, như được nêu trong bài báo có tiêu đề ** Fulldit: Mô hình nền tảng tổng thể video đa tác vụ với sự chú ý đầy đủ **, tích hợp các điều kiện đa tác vụ như chuyển nhận dạng, lập bản đồ độ sâu và chuyển động camera vào cốt lõi của mô hình video phát triển được đào tạo. Các tác giả đã phát triển một mô hình nguyên mẫu và các clip video đi kèm có sẵn tại một trang web dự án.
** Bấm để chơi. Ví dụ về áp đặt người dùng theo kiểu controlNet chỉ với mô hình nền tảng được đào tạo bản địa. ** Nguồn: https://fullldit.github.io/
Các tác giả trình bày FullDit như một bằng chứng về khái niệm cho các mô hình văn bản-to-video gốc (T2V) và hình ảnh (I2V) cung cấp cho người dùng nhiều điều khiển hơn chỉ là một dấu nhắc hình ảnh hoặc văn bản. Vì không có mô hình tương tự nào tồn tại, các nhà nghiên cứu đã tạo ra một điểm chuẩn mới có tên ** Fullbench ** để đánh giá các video đa tác vụ, tuyên bố hiệu suất hiện đại trong các bài kiểm tra phát minh của họ. Tuy nhiên, tính khách quan của Fullbench, được thiết kế bởi chính các tác giả, vẫn chưa được kiểm tra và bộ dữ liệu của nó là 1.400 trường hợp có thể quá hạn chế đối với các kết luận rộng hơn.
Khía cạnh hấp dẫn nhất của kiến trúc của Fulldit là tiềm năng của nó để kết hợp các loại kiểm soát mới. Các tác giả lưu ý:
** 'Trong công việc này, chúng tôi chỉ khám phá các điều kiện điều khiển của máy ảnh, danh tính và thông tin độ sâu. Chúng tôi đã không điều tra thêm các điều kiện và phương thức khác như âm thanh, lời nói, đám mây điểm, hộp giới hạn đối tượng, dòng quang, v.v ... Mặc dù thiết kế FullDit có thể tích hợp liền mạch các phương thức khác với sửa đổi kiến trúc tối thiểu, cách giải thích nhanh chóng và hiệu quả chi phí với các điều kiện mới và phương thức mới.
Mặc dù FullDit đại diện cho một bước tiến trong việc tạo video đa tác vụ, nhưng nó xây dựng dựa trên các kiến trúc hiện có thay vì giới thiệu một mô hình mới. Tuy nhiên, nó nổi bật như là mô hình nền tảng video duy nhất với các tính năng theo phong cách ControlNet tích hợp tự nhiên và kiến trúc của nó được thiết kế để phù hợp với các đổi mới trong tương lai.
** Bấm để chơi. Ví dụ về máy ảnh do người dùng điều khiển di chuyển, từ trang web dự án. **
Bài báo, được tác giả bởi chín nhà nghiên cứu từ Kuaishou Technology và Đại học Trung Quốc Hồng Kông, có tựa đề ** Fulldit: Mô hình nền tảng phát triển video đa tác vụ với sự chú ý đầy đủ **. Trang dự án và dữ liệu điểm chuẩn mới có sẵn tại Hugging Face.
Phương pháp
Cơ chế chú ý thống nhất của FullDit được thiết kế để tăng cường học tập đại diện phương thức chéo bằng cách nắm bắt cả mối quan hệ không gian và thời gian trong các điều kiện.
*Theo bài báo mới, FullDit tích hợp nhiều điều kiện đầu vào thông qua sự tự ý hoàn toàn, chuyển đổi chúng thành một chuỗi thống nhất. Ngược lại, các mô hình dựa trên bộ điều hợp (ngoài cùng bên trên) sử dụng các mô-đun riêng cho từng đầu vào, dẫn đến dự phòng, xung đột và hiệu suất yếu hơn.*
Không giống như các thiết lập dựa trên bộ điều hợp xử lý từng luồng đầu vào một cách riêng biệt, cấu trúc chú ý chung của FullDit tránh được xung đột chi nhánh và giảm chi phí tham số. Các tác giả cho rằng kiến trúc có thể mở rộng thành các loại đầu vào mới mà không cần thiết kế lại chính và lược đồ mô hình cho thấy các dấu hiệu khái quát hóa để kết hợp điều kiện không thấy trong quá trình đào tạo, chẳng hạn như liên kết chuyển động camera với nhận dạng ký tự.
** Bấm để chơi. Ví dụ về việc tạo danh tính từ trang web dự án **.
Trong kiến trúc của FullDit, tất cả các đầu vào điều hòa, chẳng hạn như văn bản, chuyển động camera, danh tính và độ sâu, lần đầu tiên được chuyển đổi thành định dạng mã thông báo thống nhất. Các mã thông báo này sau đó được nối thành một chuỗi dài duy nhất, được xử lý thông qua một chồng các lớp biến áp bằng cách sử dụng sự tự ý hoàn toàn. Cách tiếp cận này theo các tác phẩm trước đây như kế hoạch Open-Sora và Phim Gen.
Thiết kế này cho phép mô hình học các mối quan hệ tạm thời và không gian cùng nhau trong tất cả các điều kiện. Mỗi khối biến áp hoạt động trên toàn bộ chuỗi, cho phép các tương tác động giữa các phương thức mà không dựa vào các mô -đun riêng biệt cho mỗi đầu vào. Kiến trúc được thiết kế để mở rộng, giúp việc kết hợp các tín hiệu điều khiển bổ sung trong tương lai dễ dàng hơn mà không có những thay đổi lớn về cấu trúc.
Sức mạnh của ba
FullDit chuyển đổi từng tín hiệu điều khiển thành định dạng mã thông báo được tiêu chuẩn hóa để tất cả các điều kiện có thể được xử lý cùng nhau trong khung chú ý thống nhất. Đối với chuyển động của camera, mô hình mã hóa một chuỗi các tham số bên ngoài, ví dụ như vị trí và định hướng cho mỗi khung hình. Các tham số này được hẹn giờ và được chiếu vào các vectơ nhúng phản ánh bản chất thời gian của tín hiệu.
Thông tin nhận dạng được đối xử khác nhau, vì nó vốn đã không gian chứ không phải tạm thời. Mô hình sử dụng các bản đồ nhận dạng cho biết ký tự nào có mặt trong phần của mỗi khung hình. Các bản đồ này được chia thành các bản vá, với mỗi bản vá được chiếu vào một nhúng thu thập các tín hiệu nhận dạng không gian, cho phép mô hình liên kết các vùng cụ thể của khung với các thực thể cụ thể.
Độ sâu là một tín hiệu không gian và mô hình xử lý nó bằng cách chia các video độ sâu thành các bản vá 3D trải rộng cả không gian và thời gian. Các bản vá này sau đó được nhúng theo cách bảo tồn cấu trúc của chúng trên các khung.
Sau khi được nhúng, tất cả các mã thông báo điều kiện này (camera, danh tính và độ sâu) được nối thành một chuỗi dài duy nhất, cho phép FullDit xử lý chúng lại với nhau bằng cách sử dụng sự tự ý hoàn toàn. Biểu diễn được chia sẻ này cho phép mô hình học các tương tác qua các phương thức và theo thời gian mà không cần dựa vào các luồng xử lý bị cô lập.
Dữ liệu và kiểm tra
Phương pháp đào tạo của FullDit dựa trên các bộ dữ liệu được chú thích có chọn lọc phù hợp với từng loại điều hòa, thay vì yêu cầu tất cả các điều kiện phải có mặt đồng thời.
Đối với các điều kiện văn bản, sáng kiến tuân theo cách tiếp cận chú thích có cấu trúc được nêu trong dự án Miradata.
* Thu thập video và đường ống chú thích từ dự án Miradata.* Nguồn: https://arxiv.org/pdf/2407.06358
Đối với chuyển động camera, bộ dữ liệu thực tế 10K là nguồn dữ liệu chính, do các chú thích sự thật mặt đất chất lượng cao của các tham số camera. Tuy nhiên, các tác giả đã quan sát thấy rằng đào tạo độc quyền trên các bộ dữ liệu camera static-Scene như Realestate10k có xu hướng giảm các chuyển động động và chuyển động của con người trong các video được tạo. Để chống lại điều này, họ đã tiến hành tinh chỉnh bổ sung bằng cách sử dụng các bộ dữ liệu nội bộ bao gồm các chuyển động camera năng động hơn.
Các chú thích nhận dạng được tạo bằng cách sử dụng đường ống được phát triển cho dự án Khái niệm, cho phép lọc hiệu quả và trích xuất thông tin nhận dạng chi tiết.
* Khung Khái niệm được thiết kế để giải quyết các vấn đề phân tách nhận dạng trong khi bảo tồn độ trung thực của khái niệm trong các video tùy chỉnh.* Nguồn: https://arxiv.org/pdf/2501.04698
Chú thích độ sâu được lấy từ bộ dữ liệu PANDA-70M bằng cách sử dụng độ sâu bất cứ thứ gì.
Tối ưu hóa thông qua đặt hàng dữ liệu
Các tác giả cũng đã thực hiện một lịch trình đào tạo tiến bộ, giới thiệu các điều kiện thách thức hơn trước đó trong đào tạo để đảm bảo mô hình có được các đại diện mạnh mẽ trước khi các nhiệm vụ đơn giản hơn được thêm vào. Lệnh đào tạo được tiến hành từ văn bản đến điều kiện camera, sau đó là danh tính và cuối cùng là độ sâu, với các nhiệm vụ dễ dàng hơn thường được giới thiệu sau và với ít ví dụ hơn.
Các tác giả nhấn mạnh giá trị của việc đặt hàng khối lượng công việc theo cách này:
** 'Trong giai đoạn trước khi đào tạo, chúng tôi lưu ý rằng các nhiệm vụ khó khăn hơn đòi hỏi thời gian đào tạo kéo dài và nên được giới thiệu sớm hơn trong quá trình học tập. Các nhiệm vụ đầy thách thức này liên quan đến các phân phối dữ liệu phức tạp khác biệt đáng kể so với video đầu ra, yêu cầu mô hình sở hữu đủ khả năng để nắm bắt và đại diện chính xác. **
** 'Ngược lại, việc giới thiệu các nhiệm vụ dễ dàng hơn quá sớm có thể khiến mô hình ưu tiên học chúng trước, vì chúng cung cấp phản hồi tối ưu hóa ngay lập tức hơn, điều này cản trở sự hội tụ của các nhiệm vụ khó khăn hơn.' **
*Một minh họa về thứ tự đào tạo dữ liệu được các nhà nghiên cứu áp dụng, với màu đỏ biểu thị khối lượng dữ liệu lớn hơn.*
Sau khi đào tạo trước ban đầu, giai đoạn điều chỉnh cuối cùng đã tinh chỉnh mô hình để cải thiện chất lượng thị giác và động lực chuyển động. Sau đó, khóa đào tạo theo sau của một khung khuếch tán tiêu chuẩn: tiếng ồn được thêm vào các điểm trung tâm của video và mô hình học để dự đoán và loại bỏ nó, sử dụng các mã thông báo điều kiện nhúng làm hướng dẫn.
Để đánh giá hiệu quả FullDit và cung cấp một so sánh công bằng với các phương pháp hiện có và trong trường hợp không có bất kỳ chuẩn mực nào khác, các tác giả đã giới thiệu ** Fullbench **, một bộ điểm chuẩn được quản lý bao gồm 1.400 trường hợp thử nghiệm riêng biệt.
* Một phiên bản trình duyệt dữ liệu cho điểm chuẩn FullBench mới.* Nguồn: https://huggingface.co/datasets/kwaivgi/fullbench
Mỗi điểm dữ liệu cung cấp các chú thích sự thật mặt đất cho các tín hiệu điều hòa khác nhau, bao gồm chuyển động camera, danh tính và độ sâu.
Số liệu
Các tác giả đã đánh giá FullDit bằng mười số liệu bao gồm năm khía cạnh chính của hiệu suất: căn chỉnh văn bản, kiểm soát camera, độ tương tự danh tính, độ chính xác độ sâu và chất lượng video chung.
Căn chỉnh văn bản được đo bằng cách sử dụng độ tương tự clip, trong khi điều khiển camera được đánh giá thông qua lỗi quay (roterr), lỗi dịch (transerr) và tính nhất quán chuyển động của camera (CAMMC), theo cách tiếp cận của CAMI2V (trong dự án Cameractrl).
Độ tương tự danh tính được đánh giá bằng cách sử dụng độ chính xác của Dino-I và Clip-I và độ chính xác kiểm soát độ sâu được định lượng bằng lỗi tuyệt đối trung bình (MAE).
Chất lượng video được đánh giá bằng ba số liệu từ Miradata: độ tương tự clip cấp khung cho độ mịn; Khoảng cách chuyển động dựa trên dòng chảy quang cho động lực học; và điểm số Laion-Aesthetic cho sự hấp dẫn trực quan.
Đào tạo
Các tác giả đã đào tạo FullDit bằng mô hình khuếch tán văn bản bên trong (không được tiết lộ) bên trong chứa khoảng một tỷ tham số. Họ cố tình chọn kích thước tham số khiêm tốn để duy trì sự công bằng trong việc so sánh với các phương pháp trước và đảm bảo khả năng tái tạo.
Do các video đào tạo khác nhau về độ dài và độ phân giải, các tác giả đã chuẩn hóa từng lô bằng cách thay đổi kích thước và đệm các video thành một độ phân giải chung, lấy mẫu 77 khung hình mỗi chuỗi và sử dụng mặt nạ chú ý và mất mát được áp dụng để tối ưu hóa hiệu quả đào tạo.
Trình tối ưu hóa Adam đã được sử dụng với tốc độ học tập 1 × 10 −5 trên một cụm gồm 64 GPU H800 NVIDIA, với tổng số 5.120 GB VRAM (xem xét rằng trong các cộng đồng tổng hợp đam mê, 24GB trên RTX 3090 vẫn được coi là một tiêu chuẩn xa xỉ).
Mô hình được đào tạo cho khoảng 32.000 bước, kết hợp tối đa ba danh tính cho mỗi video, cùng với 20 khung hình của điều kiện camera và 21 khung điều kiện độ sâu, cả hai đều được lấy mẫu đều từ tổng số 77 khung hình.
Để suy luận, mô hình đã tạo ra các video ở độ phân giải 384 × 672 pixel (khoảng năm giây ở 15 khung hình mỗi giây) với 50 bước suy luận khuếch tán và thang đo không có phân loại là năm.
Phương pháp trước
Để đánh giá camera-to-Video, các tác giả đã so sánh FullDit với MotionCtrl, Cameractrl và Cami2V, với tất cả các mô hình được đào tạo bằng cách sử dụng bộ dữ liệu realestate10k để đảm bảo tính nhất quán và công bằng.
Trong thế hệ có điều kiện nhận dạng, vì không có mô hình đa dạng nguồn mở tương đương có thể có sẵn, mô hình được đánh giá điểm so với mô hình khái niệm 1B-tham số, sử dụng cùng một dữ liệu đào tạo và kiến trúc.
Đối với các nhiệm vụ độ sâu đến video, các so sánh được thực hiện với Ctrl-ad CHƯƠNG và controlVideo.
*Kết quả định lượng để tạo video đơn. FullDit được so sánh với MotionCtrl, Cameractrl và Cami2V để tạo camera-to-video; Khái niệmMaster (phiên bản tham số 1B) cho nhận dạng-đến video; và Ctrl-ad CHƯƠNG và controlVideo cho độ sâu đến video. Tất cả các mô hình được đánh giá bằng cách sử dụng cài đặt mặc định của chúng. Đối với tính nhất quán, 16 khung được lấy mẫu đồng đều từ mỗi phương thức, khớp với độ dài đầu ra của các mô hình trước đó.*
Kết quả chỉ ra rằng FullDit, mặc dù xử lý đồng thời nhiều tín hiệu điều hòa, đạt được hiệu suất hiện đại trong các số liệu liên quan đến văn bản, chuyển động camera, nhận dạng và điều khiển độ sâu.
Trong các số liệu chất lượng tổng thể, hệ thống thường vượt trội so với các phương pháp khác, mặc dù độ mịn của nó thấp hơn một chút so với khái niệm. Ở đây các tác giả nhận xét:
** 'Độ mịn của fulldit thấp hơn một chút so với khái niệm vì tính toán độ mịn dựa trên sự tương đồng clip giữa các khung liền kề. Vì Fulldit thể hiện động lực học lớn hơn đáng kể so với Khái niệm, số liệu độ mịn bị ảnh hưởng bởi các biến thể lớn giữa các khung liền kề. **
** 'Đối với điểm số thẩm mỹ, vì mô hình xếp hạng ủng hộ hình ảnh trong phong cách vẽ tranh và controlVideo thường tạo ra các video theo phong cách này, nó đạt được điểm số cao trong thẩm mỹ.' **
Liên quan đến so sánh định tính, có thể tốt hơn là tham khảo các video mẫu tại trang web dự án FullDit, vì các ví dụ PDF chắc chắn là tĩnh (và cũng quá lớn để tái tạo hoàn toàn ở đây).
*Phần đầu tiên của kết quả định tính trong PDF. Vui lòng tham khảo giấy nguồn để biết các ví dụ bổ sung, quá rộng để sao chép ở đây.*
Các tác giả nhận xét:
** 'FullDit thể hiện sự bảo tồn bản sắc vượt trội và tạo video với động lực và chất lượng thị giác tốt hơn so với [Khái niệm]. Vì Khái niệm và Fulldit được đào tạo trên cùng một xương sống, điều này nhấn mạnh hiệu quả của việc tiêm tình trạng với sự chú ý đầy đủ. **
** 'Các kết quả [Khác] cho thấy khả năng điều khiển vượt trội và chất lượng tạo FullDit so với các phương pháp độ sâu đến video và camera trên video hiện có.' **
*Một phần trong các ví dụ của PDF về đầu ra của FullDit với nhiều tín hiệu. Vui lòng tham khảo giấy nguồn và trang web dự án để biết các ví dụ bổ sung.*
Phần kết luận
Fulldit đại diện cho một bước thú vị đối với một mô hình nền tảng video toàn diện hơn, nhưng câu hỏi vẫn là liệu nhu cầu về các tính năng theo phong cách ControlNet biện minh cho việc triển khai của họ ở quy mô, đặc biệt là đối với các dự án nguồn mở. Các dự án này sẽ đấu tranh để có được sức mạnh xử lý GPU rộng lớn cần thiết mà không cần hỗ trợ thương mại.
Thách thức chính là việc sử dụng các hệ thống như độ sâu và tư thế thường đòi hỏi sự quen thuộc không tầm thường với các giao diện người dùng phức tạp như COMFYUI. Do đó, một mô hình nguồn mở chức năng thuộc loại này rất có thể được phát triển bởi các công ty VFX nhỏ hơn, thiếu tài nguyên hoặc động lực để quản lý và đào tạo một mô hình như vậy một cách riêng tư.
Mặt khác, các hệ thống 'Rent-AI' do API điều khiển có thể được thúc đẩy tốt để phát triển các phương pháp diễn giải đơn giản và thân thiện hơn với các mô hình với các hệ thống điều khiển phụ trợ được đào tạo trực tiếp.
** Bấm để chơi. Độ sâu+Điều khiển văn bản áp đặt lên một bản tạo video bằng FullDit. **
*Các tác giả không chỉ định bất kỳ mô hình cơ sở nào đã biết (nghĩa là SDXL, v.v.)**
** Xuất bản lần đầu tiên thứ Năm, ngày 27 tháng 3 năm 2025 **
Bài viết liên quan
Công bố sửa đổi AI tinh tế nhưng có tác động trong nội dung video đích thực
Vào năm 2019, một video lừa đảo của Nancy Pelosi, sau đó là Chủ tịch Hạ viện Hoa Kỳ, lưu hành rộng rãi. Video, được chỉnh sửa để làm cho cô ấy xuất hiện say sưa, là một lời nhắc nhở rõ ràng về việc phương tiện truyền thông dễ dàng có thể đánh lừa công chúng như thế nào. Mặc dù sự đơn giản của nó, sự cố này đã làm nổi bật t
Openai có kế hoạch đưa máy phát video của Sora đến Chatgpt
OpenAI có kế hoạch tích hợp công cụ tạo video AI của mình, Sora, vào Chatbot tiêu dùng phổ biến của nó, Chatgpt. Điều này đã được tiết lộ bởi các nhà lãnh đạo công ty trong một phiên làm việc gần đây về Discord. Hiện tại, Sora chỉ có thể truy cập thông qua một ứng dụng web chuyên dụng do Openai đưa ra vào tháng 12, cho phép người dùng
Bytedance tham gia thị trường video Deepfake AI
Bytedance, những người đứng sau Tiktok, vừa thể hiện sự sáng tạo AI mới nhất của họ, Omnihuman-1, và nó khá tuyệt vời. Hệ thống mới này có thể đánh bật các video siêu thực tế và tất cả những gì nó cần chỉ là một hình ảnh tham chiếu duy nhất và một số âm thanh. Điều tuyệt vời là bạn có thể điều chỉnh tỷ lệ khung hình của video và
Nhận xét (0)
0/200






Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, các mô hình này, cùng với các mô hình dựa trên hình ảnh trước đó như khuếch tán ổn định, Kandinsky và Flux, được sử dụng cùng với một bộ công cụ được thiết kế để tinh chỉnh đầu ra của chúng để đáp ứng nhu cầu sáng tạo cụ thể. Khi một giám đốc yêu cầu một điều chỉnh, nói điều gì đó như: "Điều đó trông tuyệt vời, nhưng chúng ta có thể làm cho nó nhiều hơn một chút [n] không?", Không đủ để nói rằng mô hình thiếu độ chính xác để thực hiện các điều chỉnh như vậy.
Thay vào đó, một nhóm AI VFX sẽ sử dụng kết hợp các kỹ thuật sáng tác và CGI truyền thống, cùng với các quy trình công việc được phát triển tùy chỉnh, để đẩy các ranh giới tổng hợp video hơn nữa. Cách tiếp cận này giống như sử dụng trình duyệt web mặc định như Chrome; Đó là chức năng ra khỏi hộp, nhưng để thực sự điều chỉnh nó theo nhu cầu của bạn, bạn sẽ cần cài đặt một số plugin.
Kiểm soát những kẻ lập dị
Trong lĩnh vực tổng hợp hình ảnh dựa trên khuếch tán, một trong những hệ thống bên thứ ba quan trọng nhất là ControlNet. Kỹ thuật này giới thiệu điều khiển có cấu trúc cho các mô hình tổng quát, cho phép người dùng hướng dẫn tạo hình ảnh hoặc tạo video bằng cách sử dụng các đầu vào bổ sung như bản đồ cạnh, bản đồ độ sâu hoặc thông tin đặt ra.
*Các phương pháp khác nhau của ControlNet cho phép độ sâu> Hình ảnh (hàng trên cùng), Phân đoạn ngữ nghĩa> Hình ảnh (dưới bên trái) và tạo hình ảnh hướng dẫn của con người và động vật (dưới bên trái).*
ControlNet không chỉ dựa vào lời nhắc văn bản; Nó sử dụng các nhánh mạng thần kinh riêng biệt hoặc bộ điều hợp, để xử lý các tín hiệu điều hòa này trong khi vẫn duy trì các khả năng tổng quát của mô hình cơ sở. Điều này cho phép các đầu ra tùy chỉnh cao phù hợp chặt chẽ với các thông số kỹ thuật của người dùng, làm cho nó vô giá cho các ứng dụng yêu cầu kiểm soát chính xác thành phần, cấu trúc hoặc chuyển động.
* Với tư thế hướng dẫn, có thể thu được nhiều loại đầu ra chính xác thông qua ControlNet.* Nguồn: https://arxiv.org/pdf/2302.05543
Tuy nhiên, các hệ thống dựa trên bộ điều hợp này, hoạt động bên ngoài trên một tập hợp các quá trình thần kinh tập trung vào nội bộ, đi kèm với một số nhược điểm. Bộ điều hợp được đào tạo độc lập, có thể dẫn đến xung đột chi nhánh khi nhiều bộ điều hợp được kết hợp, thường dẫn đến các thế hệ chất lượng thấp hơn. Họ cũng giới thiệu dự phòng tham số, yêu cầu tài nguyên và bộ nhớ tính toán bổ sung cho từng bộ chuyển đổi, làm cho tỷ lệ không hiệu quả. Hơn nữa, mặc dù tính linh hoạt của chúng, các bộ điều hợp thường mang lại kết quả tối ưu dưới mức so với các mô hình được tinh chỉnh hoàn toàn cho việc tạo đa điều kiện. Những vấn đề này có thể làm cho các phương pháp dựa trên bộ điều hợp kém hiệu quả đối với các tác vụ yêu cầu tích hợp liền mạch của nhiều tín hiệu điều khiển.
Lý tưởng nhất, các khả năng của ControlNet sẽ được tích hợp tự nhiên vào mô hình theo kiểu mô-đun, cho phép các đổi mới trong tương lai như tạo video/âm thanh đồng thời hoặc khả năng sync lip bản địa. Hiện tại, mỗi tính năng bổ sung trở thành một nhiệm vụ hậu sản xuất hoặc một quy trình không bản địa phải điều hướng các trọng số nhạy cảm của mô hình nền tảng.
FULLDIT
Enter Fulldit, một cách tiếp cận mới từ Trung Quốc tích hợp các tính năng theo phong cách ControlNet trực tiếp vào một mô hình video tổng quát trong quá trình đào tạo, thay vì coi chúng như một suy nghĩ lại.
* Từ bài báo mới: Cách tiếp cận Fulldit có thể kết hợp áp đặt nhận dạng, độ sâu và chuyển động của camera vào một thế hệ bản địa và có thể triệu tập bất kỳ sự kết hợp nào của chúng cùng một lúc.* Nguồn: https://arxiv.org/pdf/2503.19907
Fulldit, như được nêu trong bài báo có tiêu đề ** Fulldit: Mô hình nền tảng tổng thể video đa tác vụ với sự chú ý đầy đủ **, tích hợp các điều kiện đa tác vụ như chuyển nhận dạng, lập bản đồ độ sâu và chuyển động camera vào cốt lõi của mô hình video phát triển được đào tạo. Các tác giả đã phát triển một mô hình nguyên mẫu và các clip video đi kèm có sẵn tại một trang web dự án.
** Bấm để chơi. Ví dụ về áp đặt người dùng theo kiểu controlNet chỉ với mô hình nền tảng được đào tạo bản địa. ** Nguồn: https://fullldit.github.io/
Các tác giả trình bày FullDit như một bằng chứng về khái niệm cho các mô hình văn bản-to-video gốc (T2V) và hình ảnh (I2V) cung cấp cho người dùng nhiều điều khiển hơn chỉ là một dấu nhắc hình ảnh hoặc văn bản. Vì không có mô hình tương tự nào tồn tại, các nhà nghiên cứu đã tạo ra một điểm chuẩn mới có tên ** Fullbench ** để đánh giá các video đa tác vụ, tuyên bố hiệu suất hiện đại trong các bài kiểm tra phát minh của họ. Tuy nhiên, tính khách quan của Fullbench, được thiết kế bởi chính các tác giả, vẫn chưa được kiểm tra và bộ dữ liệu của nó là 1.400 trường hợp có thể quá hạn chế đối với các kết luận rộng hơn.
Khía cạnh hấp dẫn nhất của kiến trúc của Fulldit là tiềm năng của nó để kết hợp các loại kiểm soát mới. Các tác giả lưu ý:
** 'Trong công việc này, chúng tôi chỉ khám phá các điều kiện điều khiển của máy ảnh, danh tính và thông tin độ sâu. Chúng tôi đã không điều tra thêm các điều kiện và phương thức khác như âm thanh, lời nói, đám mây điểm, hộp giới hạn đối tượng, dòng quang, v.v ... Mặc dù thiết kế FullDit có thể tích hợp liền mạch các phương thức khác với sửa đổi kiến trúc tối thiểu, cách giải thích nhanh chóng và hiệu quả chi phí với các điều kiện mới và phương thức mới.
Mặc dù FullDit đại diện cho một bước tiến trong việc tạo video đa tác vụ, nhưng nó xây dựng dựa trên các kiến trúc hiện có thay vì giới thiệu một mô hình mới. Tuy nhiên, nó nổi bật như là mô hình nền tảng video duy nhất với các tính năng theo phong cách ControlNet tích hợp tự nhiên và kiến trúc của nó được thiết kế để phù hợp với các đổi mới trong tương lai.
** Bấm để chơi. Ví dụ về máy ảnh do người dùng điều khiển di chuyển, từ trang web dự án. **
Bài báo, được tác giả bởi chín nhà nghiên cứu từ Kuaishou Technology và Đại học Trung Quốc Hồng Kông, có tựa đề ** Fulldit: Mô hình nền tảng phát triển video đa tác vụ với sự chú ý đầy đủ **. Trang dự án và dữ liệu điểm chuẩn mới có sẵn tại Hugging Face.
Phương pháp
Cơ chế chú ý thống nhất của FullDit được thiết kế để tăng cường học tập đại diện phương thức chéo bằng cách nắm bắt cả mối quan hệ không gian và thời gian trong các điều kiện.
*Theo bài báo mới, FullDit tích hợp nhiều điều kiện đầu vào thông qua sự tự ý hoàn toàn, chuyển đổi chúng thành một chuỗi thống nhất. Ngược lại, các mô hình dựa trên bộ điều hợp (ngoài cùng bên trên) sử dụng các mô-đun riêng cho từng đầu vào, dẫn đến dự phòng, xung đột và hiệu suất yếu hơn.*
Không giống như các thiết lập dựa trên bộ điều hợp xử lý từng luồng đầu vào một cách riêng biệt, cấu trúc chú ý chung của FullDit tránh được xung đột chi nhánh và giảm chi phí tham số. Các tác giả cho rằng kiến trúc có thể mở rộng thành các loại đầu vào mới mà không cần thiết kế lại chính và lược đồ mô hình cho thấy các dấu hiệu khái quát hóa để kết hợp điều kiện không thấy trong quá trình đào tạo, chẳng hạn như liên kết chuyển động camera với nhận dạng ký tự.
** Bấm để chơi. Ví dụ về việc tạo danh tính từ trang web dự án **.
Trong kiến trúc của FullDit, tất cả các đầu vào điều hòa, chẳng hạn như văn bản, chuyển động camera, danh tính và độ sâu, lần đầu tiên được chuyển đổi thành định dạng mã thông báo thống nhất. Các mã thông báo này sau đó được nối thành một chuỗi dài duy nhất, được xử lý thông qua một chồng các lớp biến áp bằng cách sử dụng sự tự ý hoàn toàn. Cách tiếp cận này theo các tác phẩm trước đây như kế hoạch Open-Sora và Phim Gen.
Thiết kế này cho phép mô hình học các mối quan hệ tạm thời và không gian cùng nhau trong tất cả các điều kiện. Mỗi khối biến áp hoạt động trên toàn bộ chuỗi, cho phép các tương tác động giữa các phương thức mà không dựa vào các mô -đun riêng biệt cho mỗi đầu vào. Kiến trúc được thiết kế để mở rộng, giúp việc kết hợp các tín hiệu điều khiển bổ sung trong tương lai dễ dàng hơn mà không có những thay đổi lớn về cấu trúc.
Sức mạnh của ba
FullDit chuyển đổi từng tín hiệu điều khiển thành định dạng mã thông báo được tiêu chuẩn hóa để tất cả các điều kiện có thể được xử lý cùng nhau trong khung chú ý thống nhất. Đối với chuyển động của camera, mô hình mã hóa một chuỗi các tham số bên ngoài, ví dụ như vị trí và định hướng cho mỗi khung hình. Các tham số này được hẹn giờ và được chiếu vào các vectơ nhúng phản ánh bản chất thời gian của tín hiệu.
Thông tin nhận dạng được đối xử khác nhau, vì nó vốn đã không gian chứ không phải tạm thời. Mô hình sử dụng các bản đồ nhận dạng cho biết ký tự nào có mặt trong phần của mỗi khung hình. Các bản đồ này được chia thành các bản vá, với mỗi bản vá được chiếu vào một nhúng thu thập các tín hiệu nhận dạng không gian, cho phép mô hình liên kết các vùng cụ thể của khung với các thực thể cụ thể.
Độ sâu là một tín hiệu không gian và mô hình xử lý nó bằng cách chia các video độ sâu thành các bản vá 3D trải rộng cả không gian và thời gian. Các bản vá này sau đó được nhúng theo cách bảo tồn cấu trúc của chúng trên các khung.
Sau khi được nhúng, tất cả các mã thông báo điều kiện này (camera, danh tính và độ sâu) được nối thành một chuỗi dài duy nhất, cho phép FullDit xử lý chúng lại với nhau bằng cách sử dụng sự tự ý hoàn toàn. Biểu diễn được chia sẻ này cho phép mô hình học các tương tác qua các phương thức và theo thời gian mà không cần dựa vào các luồng xử lý bị cô lập.
Dữ liệu và kiểm tra
Phương pháp đào tạo của FullDit dựa trên các bộ dữ liệu được chú thích có chọn lọc phù hợp với từng loại điều hòa, thay vì yêu cầu tất cả các điều kiện phải có mặt đồng thời.
Đối với các điều kiện văn bản, sáng kiến tuân theo cách tiếp cận chú thích có cấu trúc được nêu trong dự án Miradata.
* Thu thập video và đường ống chú thích từ dự án Miradata.* Nguồn: https://arxiv.org/pdf/2407.06358
Đối với chuyển động camera, bộ dữ liệu thực tế 10K là nguồn dữ liệu chính, do các chú thích sự thật mặt đất chất lượng cao của các tham số camera. Tuy nhiên, các tác giả đã quan sát thấy rằng đào tạo độc quyền trên các bộ dữ liệu camera static-Scene như Realestate10k có xu hướng giảm các chuyển động động và chuyển động của con người trong các video được tạo. Để chống lại điều này, họ đã tiến hành tinh chỉnh bổ sung bằng cách sử dụng các bộ dữ liệu nội bộ bao gồm các chuyển động camera năng động hơn.
Các chú thích nhận dạng được tạo bằng cách sử dụng đường ống được phát triển cho dự án Khái niệm, cho phép lọc hiệu quả và trích xuất thông tin nhận dạng chi tiết.
* Khung Khái niệm được thiết kế để giải quyết các vấn đề phân tách nhận dạng trong khi bảo tồn độ trung thực của khái niệm trong các video tùy chỉnh.* Nguồn: https://arxiv.org/pdf/2501.04698
Chú thích độ sâu được lấy từ bộ dữ liệu PANDA-70M bằng cách sử dụng độ sâu bất cứ thứ gì.
Tối ưu hóa thông qua đặt hàng dữ liệu
Các tác giả cũng đã thực hiện một lịch trình đào tạo tiến bộ, giới thiệu các điều kiện thách thức hơn trước đó trong đào tạo để đảm bảo mô hình có được các đại diện mạnh mẽ trước khi các nhiệm vụ đơn giản hơn được thêm vào. Lệnh đào tạo được tiến hành từ văn bản đến điều kiện camera, sau đó là danh tính và cuối cùng là độ sâu, với các nhiệm vụ dễ dàng hơn thường được giới thiệu sau và với ít ví dụ hơn.
Các tác giả nhấn mạnh giá trị của việc đặt hàng khối lượng công việc theo cách này:
** 'Trong giai đoạn trước khi đào tạo, chúng tôi lưu ý rằng các nhiệm vụ khó khăn hơn đòi hỏi thời gian đào tạo kéo dài và nên được giới thiệu sớm hơn trong quá trình học tập. Các nhiệm vụ đầy thách thức này liên quan đến các phân phối dữ liệu phức tạp khác biệt đáng kể so với video đầu ra, yêu cầu mô hình sở hữu đủ khả năng để nắm bắt và đại diện chính xác. **
** 'Ngược lại, việc giới thiệu các nhiệm vụ dễ dàng hơn quá sớm có thể khiến mô hình ưu tiên học chúng trước, vì chúng cung cấp phản hồi tối ưu hóa ngay lập tức hơn, điều này cản trở sự hội tụ của các nhiệm vụ khó khăn hơn.' **
*Một minh họa về thứ tự đào tạo dữ liệu được các nhà nghiên cứu áp dụng, với màu đỏ biểu thị khối lượng dữ liệu lớn hơn.*
Sau khi đào tạo trước ban đầu, giai đoạn điều chỉnh cuối cùng đã tinh chỉnh mô hình để cải thiện chất lượng thị giác và động lực chuyển động. Sau đó, khóa đào tạo theo sau của một khung khuếch tán tiêu chuẩn: tiếng ồn được thêm vào các điểm trung tâm của video và mô hình học để dự đoán và loại bỏ nó, sử dụng các mã thông báo điều kiện nhúng làm hướng dẫn.
Để đánh giá hiệu quả FullDit và cung cấp một so sánh công bằng với các phương pháp hiện có và trong trường hợp không có bất kỳ chuẩn mực nào khác, các tác giả đã giới thiệu ** Fullbench **, một bộ điểm chuẩn được quản lý bao gồm 1.400 trường hợp thử nghiệm riêng biệt.
* Một phiên bản trình duyệt dữ liệu cho điểm chuẩn FullBench mới.* Nguồn: https://huggingface.co/datasets/kwaivgi/fullbench
Mỗi điểm dữ liệu cung cấp các chú thích sự thật mặt đất cho các tín hiệu điều hòa khác nhau, bao gồm chuyển động camera, danh tính và độ sâu.
Số liệu
Các tác giả đã đánh giá FullDit bằng mười số liệu bao gồm năm khía cạnh chính của hiệu suất: căn chỉnh văn bản, kiểm soát camera, độ tương tự danh tính, độ chính xác độ sâu và chất lượng video chung.
Căn chỉnh văn bản được đo bằng cách sử dụng độ tương tự clip, trong khi điều khiển camera được đánh giá thông qua lỗi quay (roterr), lỗi dịch (transerr) và tính nhất quán chuyển động của camera (CAMMC), theo cách tiếp cận của CAMI2V (trong dự án Cameractrl).
Độ tương tự danh tính được đánh giá bằng cách sử dụng độ chính xác của Dino-I và Clip-I và độ chính xác kiểm soát độ sâu được định lượng bằng lỗi tuyệt đối trung bình (MAE).
Chất lượng video được đánh giá bằng ba số liệu từ Miradata: độ tương tự clip cấp khung cho độ mịn; Khoảng cách chuyển động dựa trên dòng chảy quang cho động lực học; và điểm số Laion-Aesthetic cho sự hấp dẫn trực quan.
Đào tạo
Các tác giả đã đào tạo FullDit bằng mô hình khuếch tán văn bản bên trong (không được tiết lộ) bên trong chứa khoảng một tỷ tham số. Họ cố tình chọn kích thước tham số khiêm tốn để duy trì sự công bằng trong việc so sánh với các phương pháp trước và đảm bảo khả năng tái tạo.
Do các video đào tạo khác nhau về độ dài và độ phân giải, các tác giả đã chuẩn hóa từng lô bằng cách thay đổi kích thước và đệm các video thành một độ phân giải chung, lấy mẫu 77 khung hình mỗi chuỗi và sử dụng mặt nạ chú ý và mất mát được áp dụng để tối ưu hóa hiệu quả đào tạo.
Trình tối ưu hóa Adam đã được sử dụng với tốc độ học tập 1 × 10 −5 trên một cụm gồm 64 GPU H800 NVIDIA, với tổng số 5.120 GB VRAM (xem xét rằng trong các cộng đồng tổng hợp đam mê, 24GB trên RTX 3090 vẫn được coi là một tiêu chuẩn xa xỉ).
Mô hình được đào tạo cho khoảng 32.000 bước, kết hợp tối đa ba danh tính cho mỗi video, cùng với 20 khung hình của điều kiện camera và 21 khung điều kiện độ sâu, cả hai đều được lấy mẫu đều từ tổng số 77 khung hình.
Để suy luận, mô hình đã tạo ra các video ở độ phân giải 384 × 672 pixel (khoảng năm giây ở 15 khung hình mỗi giây) với 50 bước suy luận khuếch tán và thang đo không có phân loại là năm.
Phương pháp trước
Để đánh giá camera-to-Video, các tác giả đã so sánh FullDit với MotionCtrl, Cameractrl và Cami2V, với tất cả các mô hình được đào tạo bằng cách sử dụng bộ dữ liệu realestate10k để đảm bảo tính nhất quán và công bằng.
Trong thế hệ có điều kiện nhận dạng, vì không có mô hình đa dạng nguồn mở tương đương có thể có sẵn, mô hình được đánh giá điểm so với mô hình khái niệm 1B-tham số, sử dụng cùng một dữ liệu đào tạo và kiến trúc.
Đối với các nhiệm vụ độ sâu đến video, các so sánh được thực hiện với Ctrl-ad CHƯƠNG và controlVideo.
*Kết quả định lượng để tạo video đơn. FullDit được so sánh với MotionCtrl, Cameractrl và Cami2V để tạo camera-to-video; Khái niệmMaster (phiên bản tham số 1B) cho nhận dạng-đến video; và Ctrl-ad CHƯƠNG và controlVideo cho độ sâu đến video. Tất cả các mô hình được đánh giá bằng cách sử dụng cài đặt mặc định của chúng. Đối với tính nhất quán, 16 khung được lấy mẫu đồng đều từ mỗi phương thức, khớp với độ dài đầu ra của các mô hình trước đó.*
Kết quả chỉ ra rằng FullDit, mặc dù xử lý đồng thời nhiều tín hiệu điều hòa, đạt được hiệu suất hiện đại trong các số liệu liên quan đến văn bản, chuyển động camera, nhận dạng và điều khiển độ sâu.
Trong các số liệu chất lượng tổng thể, hệ thống thường vượt trội so với các phương pháp khác, mặc dù độ mịn của nó thấp hơn một chút so với khái niệm. Ở đây các tác giả nhận xét:
** 'Độ mịn của fulldit thấp hơn một chút so với khái niệm vì tính toán độ mịn dựa trên sự tương đồng clip giữa các khung liền kề. Vì Fulldit thể hiện động lực học lớn hơn đáng kể so với Khái niệm, số liệu độ mịn bị ảnh hưởng bởi các biến thể lớn giữa các khung liền kề. **
** 'Đối với điểm số thẩm mỹ, vì mô hình xếp hạng ủng hộ hình ảnh trong phong cách vẽ tranh và controlVideo thường tạo ra các video theo phong cách này, nó đạt được điểm số cao trong thẩm mỹ.' **
Liên quan đến so sánh định tính, có thể tốt hơn là tham khảo các video mẫu tại trang web dự án FullDit, vì các ví dụ PDF chắc chắn là tĩnh (và cũng quá lớn để tái tạo hoàn toàn ở đây).
*Phần đầu tiên của kết quả định tính trong PDF. Vui lòng tham khảo giấy nguồn để biết các ví dụ bổ sung, quá rộng để sao chép ở đây.*
Các tác giả nhận xét:
** 'FullDit thể hiện sự bảo tồn bản sắc vượt trội và tạo video với động lực và chất lượng thị giác tốt hơn so với [Khái niệm]. Vì Khái niệm và Fulldit được đào tạo trên cùng một xương sống, điều này nhấn mạnh hiệu quả của việc tiêm tình trạng với sự chú ý đầy đủ. **
** 'Các kết quả [Khác] cho thấy khả năng điều khiển vượt trội và chất lượng tạo FullDit so với các phương pháp độ sâu đến video và camera trên video hiện có.' **
*Một phần trong các ví dụ của PDF về đầu ra của FullDit với nhiều tín hiệu. Vui lòng tham khảo giấy nguồn và trang web dự án để biết các ví dụ bổ sung.*
Phần kết luận
Fulldit đại diện cho một bước thú vị đối với một mô hình nền tảng video toàn diện hơn, nhưng câu hỏi vẫn là liệu nhu cầu về các tính năng theo phong cách ControlNet biện minh cho việc triển khai của họ ở quy mô, đặc biệt là đối với các dự án nguồn mở. Các dự án này sẽ đấu tranh để có được sức mạnh xử lý GPU rộng lớn cần thiết mà không cần hỗ trợ thương mại.
Thách thức chính là việc sử dụng các hệ thống như độ sâu và tư thế thường đòi hỏi sự quen thuộc không tầm thường với các giao diện người dùng phức tạp như COMFYUI. Do đó, một mô hình nguồn mở chức năng thuộc loại này rất có thể được phát triển bởi các công ty VFX nhỏ hơn, thiếu tài nguyên hoặc động lực để quản lý và đào tạo một mô hình như vậy một cách riêng tư.
Mặt khác, các hệ thống 'Rent-AI' do API điều khiển có thể được thúc đẩy tốt để phát triển các phương pháp diễn giải đơn giản và thân thiện hơn với các mô hình với các hệ thống điều khiển phụ trợ được đào tạo trực tiếp.
** Bấm để chơi. Độ sâu+Điều khiển văn bản áp đặt lên một bản tạo video bằng FullDit. **
*Các tác giả không chỉ định bất kỳ mô hình cơ sở nào đã biết (nghĩa là SDXL, v.v.)**
** Xuất bản lần đầu tiên thứ Năm, ngày 27 tháng 3 năm 2025 **












