lựa chọn
Trang chủ Tin tức Công bố sửa đổi AI tinh tế nhưng có tác động trong nội dung video đích thực

Công bố sửa đổi AI tinh tế nhưng có tác động trong nội dung video đích thực

ngày phát hành ngày phát hành Ngày 11 tháng 4 năm 2025
Tác giả Tác giả StevenWalker
quan điểm quan điểm 42

Vào năm 2019, một video lừa đảo của Nancy Pelosi, sau đó là Chủ tịch Hạ viện Hoa Kỳ, lưu hành rộng rãi. Video, được chỉnh sửa để làm cho cô ấy xuất hiện say sưa, là một lời nhắc nhở rõ ràng về việc phương tiện truyền thông dễ dàng có thể đánh lừa công chúng như thế nào. Mặc dù sự đơn giản của nó, sự cố này đã nêu bật thiệt hại tiềm tàng của các chỉnh sửa nghe nhìn cơ bản.

Vào thời điểm đó, cảnh quan Deepfake phần lớn bị chi phối bởi các công nghệ thay thế khuôn mặt dựa trên tự động, đã xuất hiện từ cuối năm 2017.

Khung 'Giám đốc cảm xúc thần kinh' gần đây thay đổi tâm trạng của một khuôn mặt nổi tiếng. Nguồn: https://www.youtube.com/watch?v=LI6W8PRDMJQ Khung của Giám đốc cảm xúc thần kinh năm 2022 thay đổi tâm trạng của một khuôn mặt nổi tiếng. Nguồn: https://www.youtube.com/watch?v=LI6W8PRDMJQ

Chuyển nhanh đến ngày hôm nay, và ngành công nghiệp phim và truyền hình đang ngày càng khám phá các chỉnh sửa hậu kỳ do AI điều khiển. Xu hướng này đã thu hút cả sự quan tâm và chỉ trích, vì AI cho phép một mức độ hoàn hảo mà trước đây không thể đạt được. Đáp lại, cộng đồng nghiên cứu đã phát triển các dự án khác nhau tập trung vào 'các chỉnh sửa địa phương' của các chụp khuôn mặt, chẳng hạn như các bộ điều chỉnh video khuếch tán, khâu nó trong thời gian, chatface, Magicface và vũ trường.

Biểu hiện với dự án Magicface tháng 1 năm 2025. Nguồn: https://arxiv.org/pdf/2501.02260 Biểu hiện với dự án Magicface tháng 1 năm 2025. Nguồn: https://arxiv.org/pdf/2501.02260

Những gương mặt mới, nếp nhăn mới

Tuy nhiên, công nghệ tạo ra các chỉnh sửa tinh tế này đang tiến bộ nhanh hơn nhiều so với khả năng phát hiện chúng của chúng tôi. Hầu hết các phương pháp phát hiện DeepFake đã lỗi thời, tập trung vào các kỹ thuật và bộ dữ liệu cũ hơn. Đó là, cho đến khi một bước đột phá gần đây từ các nhà nghiên cứu ở Ấn Độ.

Phát hiện các chỉnh sửa cục bộ tinh tế trong Deepfakes: Một video thực sự được thay đổi để tạo ra hàng giả với các thay đổi sắc thái như lông mày nâng, đặc điểm giới tính được sửa đổi và chuyển đổi trong biểu hiện về sự ghê tởm (được minh họa ở đây với một khung hình duy nhất). Nguồn: https://arxiv.org/pdf/2503.22121 Phát hiện các chỉnh sửa cục bộ tinh tế trong Deepfakes: Một video thực sự được thay đổi để tạo ra hàng giả với các thay đổi sắc thái như lông mày nâng, đặc điểm giới tính được sửa đổi và chuyển đổi trong biểu hiện về sự ghê tởm (được minh họa ở đây với một khung hình duy nhất). Nguồn: https://arxiv.org/pdf/2503.22121

Nghiên cứu mới này nhắm đến việc phát hiện các thao tác khuôn mặt tinh tế, cục bộ, một loại giả mạo thường bị bỏ qua. Thay vì tìm kiếm sự không nhất quán rộng hoặc sự không phù hợp về nhận dạng, phương thức không theo các chi tiết tốt như dịch chuyển biểu thức nhẹ hoặc chỉnh sửa nhỏ sang các đặc điểm khuôn mặt cụ thể. Nó tận dụng hệ thống mã hóa hành động trên khuôn mặt (FACS), chia các biểu hiện trên khuôn mặt thành 64 khu vực có thể thay đổi.

Một số bộ phận biểu thức 64 cấu thành trong FACS. Nguồn: https://www.cs.cmu.edu/~face/facs.htm Một số bộ phận biểu thức 64 cấu thành trong FACS. Nguồn: https://www.cs.cmu.edu/~face/facs.htm

Các nhà nghiên cứu đã thử nghiệm cách tiếp cận của họ chống lại các phương pháp chỉnh sửa gần đây khác nhau và thấy nó luôn vượt trội so với các giải pháp hiện có, ngay cả với các bộ dữ liệu cũ hơn và các vectơ tấn công mới hơn.

'Bằng cách sử dụng các tính năng dựa trên AU để hướng dẫn các biểu diễn video được học thông qua các bộ điều chỉnh tự động đeo mặt nạ (MAE), phương pháp của chúng tôi nắm bắt một cách hiệu quả các thay đổi cục bộ quan trọng để phát hiện các chỉnh sửa khuôn mặt tinh tế.

'Cách tiếp cận này cho phép chúng tôi xây dựng một biểu diễn tiềm ẩn thống nhất mã hóa cả các chỉnh sửa cục bộ và sự thay đổi rộng hơn trong các video tập trung vào khuôn mặt, cung cấp một giải pháp toàn diện và thích ứng để phát hiện Deepfake.'

Bài viết, có tiêu đề Phát hiện các thao tác Deepfake cục bộ bằng cách sử dụng các biểu diễn video hướng dẫn đơn vị hành động , được các nhà nghiên cứu tại Viện Công nghệ Ấn Độ tại Madras tác giả.

Phương pháp

Phương pháp bắt đầu bằng cách phát hiện các khuôn mặt trong một video và lấy mẫu các khung cách đều nhau tập trung vào các khuôn mặt này. Các khung này sau đó được chia thành các bản vá nhỏ 3D, chụp các chi tiết không gian và thời gian địa phương.

Lược đồ cho phương pháp mới. Video đầu vào được xử lý với phát hiện mặt để trích xuất các khung cách đều nhau, tập trung vào khuôn mặt, sau đó được chia thành các mảng hình ống và được chuyển qua một bộ mã hóa hợp nhất các biểu diễn tiềm ẩn từ hai nhiệm vụ lý do trước. Vectơ kết quả sau đó được sử dụng bởi một trình phân loại để xác định xem video là thật hay giả. Lược đồ cho phương pháp mới. Video đầu vào được xử lý với phát hiện khuôn mặt để trích xuất các khung cách đều nhau, tập trung vào khuôn mặt, sau đó được chia thành các bản vá 'hình ống' và chuyển qua một bộ mã hóa hợp nhất các biểu diễn tiềm ẩn từ hai nhiệm vụ lý do trước. Vectơ kết quả sau đó được sử dụng bởi một trình phân loại để xác định xem video là thật hay giả.

Mỗi bản vá chứa một cửa sổ nhỏ của các pixel từ một vài khung liên tiếp, cho phép mô hình học các thay đổi chuyển động và biểu thức ngắn hạn. Các bản vá này được nhúng và mã hóa vị trí trước khi được đưa vào một bộ mã hóa được thiết kế để phân biệt thực với các video giả.

Thách thức phát hiện các thao tác tinh tế được giải quyết bằng cách sử dụng bộ mã hóa kết hợp hai loại biểu diễn đã học thông qua cơ chế tham gia chéo, nhằm tạo ra một không gian tính năng nhạy cảm và khái quát hơn.

Nhiệm vụ cái cớ

Đại diện đầu tiên đến từ một bộ mã hóa được đào tạo với một nhiệm vụ mã hóa tự động đeo mặt nạ. Bằng cách che giấu hầu hết các bản vá 3D của video, bộ mã hóa học cách xây dựng lại các bộ phận bị thiếu, ghi lại các mẫu không gian quan trọng như chuyển động trên khuôn mặt.

Huấn luyện nhiệm vụ cớ liên quan đến việc che dấu các phần của đầu vào video và sử dụng thiết lập bộ giải mã bộ mã hóa để xây dựng lại các khung ban đầu hoặc bản đồ đơn vị hành động trên mỗi khung, tùy thuộc vào nhiệm vụ. Huấn luyện nhiệm vụ cớ liên quan đến việc che dấu các phần của đầu vào video và sử dụng thiết lập bộ giải mã bộ mã hóa để xây dựng lại các khung ban đầu hoặc bản đồ đơn vị hành động trên mỗi khung, tùy thuộc vào nhiệm vụ.

Tuy nhiên, điều này một mình không đủ để phát hiện các chỉnh sửa hạt mịn. Các nhà nghiên cứu đã giới thiệu một bộ mã hóa thứ hai được đào tạo để phát hiện các đơn vị hành động trên khuôn mặt (AUS), khuyến khích nó tập trung vào hoạt động cơ bắp cục bộ nơi các chỉnh sửa Deepfake tinh tế thường xảy ra.

Các ví dụ khác về các đơn vị hành động trên khuôn mặt (FAU, hoặc AUS). Nguồn: https://www.eiagroup.com/the-facial-action-coding-system/ Các ví dụ khác về các đơn vị hành động trên khuôn mặt (FAU, hoặc AUS). Nguồn: https://www.eiagroup.com/the-facial-action-coding-system/

Sau khi xử lý trước, đầu ra của cả hai bộ mã hóa được kết hợp bằng cách sử dụng sự chú ý chéo, với các tính năng dựa trên AU hướng dẫn sự chú ý qua các tính năng không gian-thời gian. Điều này dẫn đến một đại diện tiềm ẩn được hợp nhất, nắm bắt cả bối cảnh chuyển động rộng hơn và chi tiết biểu thức cục bộ, được sử dụng cho nhiệm vụ phân loại cuối cùng.

Dữ liệu và kiểm tra

Thực hiện

Hệ thống được triển khai bằng cách sử dụng khung phát hiện khuôn mặt dựa trên Facexzoo Pytorch, trích xuất 16 khung hình trung tâm mặt từ mỗi video clip. Các tác vụ cớ đã được đào tạo trên bộ dữ liệu celebv-HQ, bao gồm 35.000 video khuôn mặt chất lượng cao.

Từ giấy nguồn, các ví dụ từ bộ dữ liệu Celebv-HQ được sử dụng trong dự án mới. Nguồn: https://arxiv.org/pdf/2207.12393 Từ giấy nguồn, các ví dụ từ bộ dữ liệu Celebv-HQ được sử dụng trong dự án mới. Nguồn: https://arxiv.org/pdf/2207.12393

Một nửa dữ liệu được che dấu để ngăn chặn quá mức. Đối với nhiệm vụ tái tạo khung đeo mặt nạ, mô hình đã được đào tạo để dự đoán các vùng bị thiếu sử dụng mất L1. Đối với nhiệm vụ thứ hai, nó đã được đào tạo để tạo bản đồ cho 16 đơn vị hành động trên khuôn mặt, được giám sát bởi mất L1.

Sau khi xử lý trước, các bộ mã hóa đã được hợp nhất và tinh chỉnh để phát hiện Deepfake bằng cách sử dụng bộ dữ liệu Faceforensics ++, bao gồm cả các video thực và thao tác.

Bộ dữ liệu Faceforensics ++ là đá cảm ứng trung tâm của phát hiện Deepfake kể từ năm 2017, mặc dù hiện tại nó đã hết hạn, liên quan đến các kỹ thuật tổng hợp khuôn mặt mới nhất. Nguồn: https://www.youtube.com/watch?v=x2G48Q2I2ZQ Bộ dữ liệu Faceforensics ++ là nền tảng của việc phát hiện Deepfake kể từ năm 2017, mặc dù hiện tại nó đã hết hạn, liên quan đến các kỹ thuật tổng hợp khuôn mặt mới nhất. Nguồn: https://www.youtube.com/watch?v=x2G48Q2I2ZQ

Để giải quyết sự mất cân bằng của lớp, các tác giả đã sử dụng tổn thất đầu mối, nhấn mạnh các ví dụ khó khăn hơn trong quá trình đào tạo. Tất cả các khóa đào tạo được thực hiện trên một GPU RTX 4090 duy nhất với 24GB VRAM, sử dụng các điểm kiểm tra được đào tạo trước từ Videomae.

Bài kiểm tra

Phương pháp này được đánh giá dựa trên các kỹ thuật phát hiện Deepfake khác nhau, tập trung vào Deepfakes được chỉnh sửa tại địa phương. Các thử nghiệm bao gồm một loạt các phương pháp chỉnh sửa và bộ dữ liệu DeepFake cũ hơn, sử dụng các số liệu như khu vực dưới đường cong (AUC), độ chính xác trung bình và điểm F1 trung bình.

Từ bài báo: So sánh về Deepfakes địa phương gần đây cho thấy phương pháp được đề xuất vượt trội so với tất cả các phương pháp khác, với mức tăng 15 đến 20 phần trăm trong cả AUC và độ chính xác trung bình so với phương pháp tốt nhất tiếp theo. Từ bài báo: So sánh về Deepfakes địa phương gần đây cho thấy phương pháp được đề xuất vượt trội so với tất cả các phương pháp khác, với mức tăng 15 đến 20 phần trăm trong cả AUC và độ chính xác trung bình so với phương pháp tốt nhất tiếp theo.

Các tác giả đã cung cấp các so sánh trực quan của các video được thao tác cục bộ, cho thấy độ nhạy vượt trội của phương pháp của họ đối với các chỉnh sửa tinh tế.

Một video thực sự đã được thay đổi bằng cách sử dụng ba thao tác cục bộ khác nhau để tạo ra hàng giả vẫn tương tự như bản gốc. Hiển thị ở đây là các khung đại diện cùng với điểm phát hiện giả trung bình cho mỗi phương thức. Trong khi các máy dò hiện tại đấu tranh với các chỉnh sửa tinh tế này, mô hình đề xuất luôn được chỉ định xác suất giả cao, cho thấy độ nhạy cao hơn đối với các thay đổi cục bộ. Một video thực sự đã được thay đổi bằng cách sử dụng ba thao tác cục bộ khác nhau để tạo ra hàng giả vẫn tương tự như bản gốc. Hiển thị ở đây là các khung đại diện cùng với điểm phát hiện giả trung bình cho mỗi phương thức. Trong khi các máy dò hiện tại đấu tranh với các chỉnh sửa tinh tế này, mô hình đề xuất luôn được chỉ định xác suất giả cao, cho thấy độ nhạy cao hơn đối với các thay đổi cục bộ.

Các nhà nghiên cứu lưu ý rằng các phương pháp phát hiện hiện tại hiện tại đấu tranh với các kỹ thuật tạo Deepfake mới nhất, trong khi phương pháp của họ cho thấy sự khái quát hóa mạnh mẽ, đạt được điểm số cao AUC và độ chính xác trung bình.

Hiệu suất trên các bộ dữ liệu Deepfake truyền thống cho thấy phương pháp được đề xuất vẫn cạnh tranh với các phương pháp hàng đầu, cho thấy sự khái quát hóa mạnh mẽ trên một loạt các loại thao tác. Hiệu suất trên các bộ dữ liệu Deepfake truyền thống cho thấy phương pháp được đề xuất vẫn cạnh tranh với các phương pháp hàng đầu, cho thấy sự khái quát hóa mạnh mẽ trên một loạt các loại thao tác.

Các tác giả cũng đã kiểm tra độ tin cậy của mô hình trong các điều kiện trong thế giới thực, tìm thấy sự kiên cường đối với các biến dạng video phổ biến như điều chỉnh độ bão hòa, mờ Gaussian và pixelation.

Một minh họa về cách phát hiện độ chính xác thay đổi theo các biến dạng video khác nhau. Phương pháp mới vẫn kiên cường trong hầu hết các trường hợp, chỉ có một sự suy giảm nhỏ trong AUC. Sự sụt giảm đáng kể nhất xảy ra khi tiếng ồn Gaussian được giới thiệu. Một minh họa về cách phát hiện độ chính xác thay đổi theo các biến dạng video khác nhau. Phương pháp mới vẫn kiên cường trong hầu hết các trường hợp, chỉ có một sự suy giảm nhỏ trong AUC. Sự sụt giảm đáng kể nhất xảy ra khi tiếng ồn Gaussian được giới thiệu.

Phần kết luận

Trong khi công chúng thường nghĩ về Deepfakes là hoán đổi bản sắc, nhưng thực tế của sự thao túng AI có nhiều sắc thái hơn và có khả năng ngấm ngầm hơn. Loại chỉnh sửa địa phương được thảo luận trong nghiên cứu mới này có thể không thu hút sự chú ý của công chúng cho đến khi một sự cố cao cấp khác xảy ra. Tuy nhiên, như diễn viên Nic Cage đã chỉ ra, tiềm năng cho các chỉnh sửa hậu kỳ để thay đổi màn trình diễn là một mối quan tâm mà tất cả chúng ta nên nhận thức được. Chúng tôi tự nhiên nhạy cảm với những thay đổi nhỏ nhất trong biểu cảm khuôn mặt và bối cảnh có thể thay đổi đáng kể tác động của chúng.

Xuất bản lần đầu vào thứ Tư, ngày 2 tháng 4 năm 2025

Bài viết liên quan
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
Nhận xét (25)
0/200
KevinAnderson
KevinAnderson 16:16:26 GMT Ngày 13 tháng 4 năm 2025

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 01:51:07 GMT Ngày 13 tháng 4 năm 2025

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 11:12:26 GMT Ngày 12 tháng 4 năm 2025

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 01:30:55 GMT Ngày 14 tháng 4 năm 2025

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 14:16:16 GMT Ngày 12 tháng 4 năm 2025

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 00:33:37 GMT Ngày 13 tháng 4 năm 2025

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

Quay lại đầu
OR