옵션
소식 정통 비디오 컨텐츠에서 미묘하면서도 영향을 미치는 AI 수정 공개

정통 비디오 컨텐츠에서 미묘하면서도 영향을 미치는 AI 수정 공개

출시일 출시일 2025년 4월 11일
작가 작가 StevenWalker
보기 보기 42

2019 년, 낸시 펠로시 (Nancy Pelosi)의기만적인 비디오 (미국 하원 의원)가 널리 배포되었습니다. 그녀가 술에 취해 보이도록 편집 된 비디오는 미디어가 어떻게 대중을 오도 할 수 있는지에 대한 놀라운 상기시켜주었습니다. 단순성에도 불구 하고이 사건은 기본 시청각 편집의 잠재적 손상을 강조했습니다.

당시 Deepfake 환경은 2017 년 말부터 주변에 있었던 Autoencoder 기반의 얼굴 교체 기술에 의해 주로 지배적이었습니다.이 초기 시스템은 Pelosi 비디오에서 미묘한 변화를 만들기 위해 고군분투하여 더 많은 얼굴 스왑에 중점을 두었습니다.

최근의 '신경 감정 감독'프레임 워크는 유명한 얼굴의 분위기를 변화시킵니다. 출처 : https://www.youtube.com/watch?v=li6w8prdmjq 2022 년 '신경 감정 감독'프레임 워크는 유명한 얼굴의 분위기를 변화시킵니다. 출처 : https://www.youtube.com/watch?v=li6w8prdmjq

오늘으로 빨리 전달하고 영화 및 TV 산업은 AI 중심 후반 편집을 점점 더 많이 탐구하고 있습니다. AI가 이전에는 달성 할 수 없었던 수준의 완벽주의를 가능하게하기 때문에 이러한 추세는 관심과 비판을 일으켰습니다. 이에 대한 이에 대한 이에 대한 연구 커뮤니티는 확산 비디오 자동 코더, 스티치 시간, Chatface, Magicface 및 Disco와 같은 얼굴 캡처의 '로컬 편집'에 중점을 둔 다양한 프로젝트를 개발했습니다.

2025 년 1 월 프로젝트 Magicface와의 표현 편집. 출처 : https://arxiv.org/pdf/2501.02260 2025 년 1 월 프로젝트 Magicface와의 표현 편집. 출처 : https://arxiv.org/pdf/2501.02260

새로운 얼굴, 새로운 주름

그러나 이러한 미묘한 편집을 만드는 기술은 우리가이를 감지하는 능력보다 훨씬 빠르게 발전하고 있습니다. 대부분의 심해 탐지 방법은 오래된 기술과 데이터 세트에 중점을 둡니다. 즉, 최근 인도 연구원들의 획기적인 발전이 될 때까지.

DeepFakes에서 미묘한 로컬 편집의 탐지 : 실제 비디오는 눈썹을 높이고, 성적 특성을 수정하고, 혐오로 향하는 표현의 변화 (여기서 단일 프레임으로 설명)를 생성하도록 변경됩니다. 출처 : https://arxiv.org/pdf/2503.22121 DeepFakes에서 미묘한 로컬 편집의 탐지 : 실제 비디오는 눈썹을 높이고, 성적 특성을 수정하고, 혐오로 향하는 표현의 변화 (여기서 단일 프레임으로 설명)를 생성하도록 변경됩니다. 출처 : https://arxiv.org/pdf/2503.22121

이 새로운 연구는 미묘하고 현지화 된 얼굴 조작을 탐지하는 것을 목표로하며, 종종 간과되는 위조 유형입니다. 광범위한 불일치 또는 신원 불일치를 찾는 대신,이 방법은 약간의 표현식 이동 또는 특정 얼굴 특징에 대한 약간의 편집과 같은 미세한 세부 사항을 사용합니다. FACS (Facial Action Coding System)를 활용하여 얼굴 표정을 64 개의 변이 가능한 영역으로 분해합니다.

성분 64 표현 부분 중 일부. 출처 : https://www.cs.cmu.edu/~face/facs.htm 성분 64 표현 부분 중 일부. 출처 : https://www.cs.cmu.edu/~face/facs.htm

연구원들은 최근의 다양한 편집 방법에 대한 접근 방식을 테스트했으며 이전 데이터 세트와 새로운 공격 벡터에서도 기존 솔루션을 지속적으로 능가했습니다.

'MAE (Masked Autoencoders)를 통해 학습 된 비디오 표현을 안내하기 위해 AU 기반 기능을 사용함으로써, 우리의 방법은 미묘한 얼굴 편집을 감지하는 데 중요한 국소화 된 변화를 효과적으로 캡처합니다.

'이 접근법을 통해 우리는 페이스 중심 비디오에서 현지화 된 편집과 광범위한 변경을 인코딩하는 통일 된 잠재적 표현을 구성 할 수 있습니다.

Action Unit-Guided 비디오 표현을 사용하여 현지화 된 Deepfake 조작 감지 라는 제목 의이 논문은 Madras의 Indian Institute of Technology의 연구원들이 저술했습니다.

방법

이 방법은 비디오에서 얼굴을 감지하고 이러한 얼굴을 중심으로 한 균등 한 간격의 프레임을 샘플링하여 시작합니다. 그런 다음이 프레임은 작은 3D 패치로 분해되어 로컬 공간 및 시간적 세부 사항을 캡처합니다.

새로운 방법에 대한 스키마. 입력 비디오는 얼굴 감지로 처리되어 균등 한 간격의 얼굴 중심 프레임을 추출한 다음 관형 패치로 나누어 진 2 개의 사전 텍스트 작업에서 잠재적 표현을 융합시키는 인코더를 통과합니다. 그런 다음 결과 벡터를 분류기에 의해 사용하여 비디오가 실제인지 가짜인지 확인합니다. 새로운 방법에 대한 스키마. 입력 비디오는 얼굴 감지로 처리되어 균등 한 간격의 얼굴 중심 프레임을 추출한 다음 '관형'패치로 나뉘어 두 개의 사전에 사전 된 구실 작업에서 잠재적 인 표현을 융합시키는 인코더를 통과합니다. 그런 다음 결과 벡터를 분류기에 의해 사용하여 비디오가 실제인지 가짜인지 확인합니다.

각 패치에는 몇 가지 연속 프레임에서 작은 픽셀 창이 포함되어있어 모델이 단기 운동 및 표현 변경을 학습 할 수 있습니다. 이 패치는 가짜 비디오와 실제와 구별되도록 설계된 인코더에 공급되기 전에 내장 및 위치로 인코딩됩니다.

미묘한 조작을 감지하는 데 어려움은보다 민감하고 일반화 가능한 피처 공간을 만들기 위해 두 가지 유형의 학습 된 표현을 결합한 인코더를 사용하여 해결됩니다.

구실 작업

첫 번째 표현은 마스크 된 자동 인코딩 작업으로 훈련 된 인코더에서 나옵니다. 대부분의 비디오의 3D 패치를 숨겨서 인코더는 누락 된 부분을 재구성하여 얼굴 모션과 같은 중요한 시공간 패턴을 캡처하는 법을 배웁니다.

프리트 텍스트 작업 교육에는 비디오 입력의 일부를 마스킹하고 인코더 디코더 설정을 사용하여 작업에 따라 원래 프레임 또는 프레임당 액션 장치 맵을 재구성하는 것이 포함됩니다. 프리트 텍스트 작업 교육에는 비디오 입력의 일부를 마스킹하고 인코더 디코더 설정을 사용하여 작업에 따라 원래 프레임 또는 프레임당 액션 장치 맵을 재구성하는 것이 포함됩니다.

그러나 이것만으로는 세분화 된 편집을 감지하기에 충분하지 않습니다. 연구원들은 안면 행동 단위 (AUS)를 감지하도록 훈련 된 두 번째 인코더를 소개하여 미묘한 심해 편집이 종종 발생하는 현지화 된 근육 활동에 집중하도록 장려했습니다.

안면 행동 단위 (FAU 또는 AUS)의 추가 예. 출처 : https://www.eiagroup.com/the-pacial-action-coding-system/ 안면 행동 단위 (FAU 또는 AUS)의 추가 예. 출처 : https://www.eiagroup.com/the-pacial-action-coding-system/

사전 조절 후, 두 인코더의 출력은 교차 변호를 사용하여 결합되며, AU 기반 기능은 공간-시간 특징에 대한 관심을 안내합니다. 이로 인해 최종 분류 작업에 사용되는 광범위한 모션 컨텍스트와 국소화 된 표현 세부 사항을 모두 포착하는 융합 잠재 표현이 발생합니다.

데이터 및 테스트

구현

이 시스템은 Facexzoo Pytorch 기반 Face Detection Framework를 사용하여 구현되어 각 비디오 클립에서 16 개의 얼굴 중심 프레임을 추출했습니다. 구실 작업은 CeleBV-HQ 데이터 세트에서 35,000 개의 고품질 얼굴 비디오를 포함하여 교육을 받았습니다.

소스 논문에서 새 프로젝트에 사용 된 CeleBV-HQ 데이터 세트의 예. 출처 : https://arxiv.org/pdf/2207.12393 소스 논문에서 새 프로젝트에 사용 된 CeleBV-HQ 데이터 세트의 예. 출처 : https://arxiv.org/pdf/2207.12393

지나치게 적합성을 방지하기 위해 데이터의 절반이 마스킹되었습니다. 마스크 된 프레임 재구성 작업의 경우, 모델은 L1 손실을 사용하여 누락 된 영역을 예측하도록 훈련되었습니다. 두 번째 작업의 경우 L1 손실로 감독되는 16 개의 얼굴 액션 장치에 대한지도를 생성하도록 훈련되었습니다.

사전 조정 후, 인코더는 실제 비디오 및 조작 된 비디오를 모두 포함하는 FaceForensics ++ 데이터 세트를 사용하여 딥 페이크 감지를 위해 융합되고 미세 조정되었습니다.

FaceForensics ++ 데이터 세트는 2017 년 이래로 Deepfake 감지의 중심 터치 스톤 이었지만 최신 얼굴 합성 기술과 관련하여 현재는 상당히 오래되었습니다. 출처 : https://www.youtube.com/watch?v=x2g48q2i2zq FaceForensics ++ 데이터 세트는 2017 년 이후 Deepfake 탐지의 초석이되었지만 최신 얼굴 합성 기술과 관련하여 현재는 상당히 오래되었습니다. 출처 : https://www.youtube.com/watch?v=x2g48q2i2zq

클래스 불균형을 해결하기 위해 저자는 초점 손실을 사용하여 훈련 중에 더 어려운 사례를 강조했습니다. 모든 훈련은 Videomae의 미리 훈련 된 체크 포인트를 사용하여 24GB의 VRAM을 갖춘 단일 RTX 4090 GPU에서 수행되었습니다.

테스트

이 방법은 로컬에서 편집 된 심해에 중점을 둔 다양한 Deepfake 검출 기술에 대해 평가되었다. 테스트에는 AUC (Area Under Curve), 평균 정밀도 및 평균 F1 점수와 같은 메트릭을 사용하여 다양한 편집 방법과 구형 Deepfake 데이터 세트가 포함되었습니다.

논문에서 : 최근 현지화 된 심해에 대한 비교는 제안 된 방법이 다른 모든 방법을 능가했으며, AUC에서 15 ~ 20 %의 이득과 다음 최고 접근법에 대한 평균 정밀도 모두를 능가한다는 것을 보여줍니다. 논문에서 : 최근 현지화 된 심해에 대한 비교는 제안 된 방법이 다른 모든 방법을 능가했으며, AUC에서 15 ~ 20 %의 이득과 다음 최고 접근법에 대한 평균 정밀도 모두를 능가한다는 것을 보여줍니다.

저자는 로컬로 조작 된 비디오의 시각적 비교를 제공하여 미묘한 편집에 대한 방법의 우수한 민감도를 보여줍니다.

실제 비디오는 세 가지 다른 현지화 된 조작을 사용하여 원본과 시각적으로 유사하게 유지되는 가짜를 생산했습니다. 여기에는 각 방법에 대한 평균 가짜 탐지 점수와 함께 대표 프레임이 표시됩니다. 기존 탐지기는 이러한 미묘한 편집으로 어려움을 겪었지만 제안 된 모델은 일관되게 높은 가짜 확률을 할당하여 현지화 된 변화에 대한 민감도가 높아졌습니다. 실제 비디오는 세 가지 다른 현지화 된 조작을 사용하여 원본과 시각적으로 유사하게 유지되는 가짜를 생산했습니다. 여기에는 각 방법에 대한 평균 가짜 탐지 점수와 함께 대표 프레임이 표시됩니다. 기존 탐지기는 이러한 미묘한 편집으로 어려움을 겪었지만 제안 된 모델은 일관되게 높은 가짜 확률을 할당하여 현지화 된 변화에 대한 민감도가 높아졌습니다.

연구원들은 기존의 최첨단 탐지 방법이 최신 심해 세대 기술로 어려움을 겪고 있었으며,이 방법은 강력한 일반화를 보여 주었고, 높은 AUC 및 평균 정밀 점수를 달성했습니다.

전통적인 Deepfake 데이터 세트의 성능은 제안 된 방법이 주요 접근 방식과 경쟁력을 유지하여 다양한 조작 유형에 걸쳐 강력한 일반화를 나타냅니다. 전통적인 Deepfake 데이터 세트의 성능은 제안 된 방법이 주요 접근 방식과 경쟁력을 유지하여 다양한 조작 유형에 걸쳐 강력한 일반화를 나타냅니다.

저자는 또한 실제 조건에서 모델의 신뢰성을 테스트하여 포화 조정, 가우시안 블러 및 픽셀 화과 같은 일반적인 비디오 왜곡에 탄력적 인 것을 발견했습니다.

다른 비디오 왜곡에서 감지 정확도가 어떻게 변하는지를 보여줍니다. 새로운 방법은 대부분의 경우 탄력성으로 유지되었으며 AUC는 약간만 감소했습니다. 가우스 소음이 도입되었을 때 가장 중요한 하락이 발생했습니다. 다른 비디오 왜곡에서 감지 정확도가 어떻게 변하는지를 보여줍니다. 새로운 방법은 대부분의 경우 탄력성으로 유지되었으며 AUC는 약간만 감소했습니다. 가우스 소음이 도입되었을 때 가장 중요한 하락이 발생했습니다.

결론

대중은 종종 심해를 정체성 교환으로 생각하지만 AI 조작의 현실은 더 미묘하고 잠재적으로 더 교활합니다. 이 새로운 연구에서 논의 된 종류의 지역 편집은 또 다른 유명한 사건이 발생할 때까지 대중의 관심을 끌지 못할 수 있습니다. 그러나 배우 Nic Cage가 지적했듯이, 공연을 변경하기 위해 사후 제작 편집 가능성은 우리 모두에게 알아야 할 우려입니다. 우리는 얼굴 표정의 작은 변화조차도 자연스럽게 민감하며 상황은 그 영향을 극적으로 바꿀 수 있습니다.

2025 년 4 월 2 일 수요일에 처음 출판되었습니다

관련 기사
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
의견 (25)
0/200
KevinAnderson
KevinAnderson 2025년 4월 13일 오후 4시 16분 26초 GMT

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 2025년 4월 13일 오전 1시 51분 7초 GMT

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 2025년 4월 12일 오전 11시 12분 26초 GMT

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 2025년 4월 14일 오전 1시 30분 55초 GMT

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 2025년 4월 12일 오후 2시 16분 16초 GMT

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 2025년 4월 13일 오전 12시 33분 37초 GMT

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

위로 돌아갑니다
OR