opção
Lar Notícias Revelando modificações sutis, porém impactantes, no conteúdo de vídeo autêntico

Revelando modificações sutis, porém impactantes, no conteúdo de vídeo autêntico

Data de lançamento Data de lançamento 11 de Abril de 2025
Autor Autor StevenWalker
visualizações visualizações 42

Em 2019, um vídeo enganoso de Nancy Pelosi, então orador da Câmara dos Deputados dos EUA, circulava amplamente. O vídeo, que foi editado para fazê -la parecer intoxicado, foi um lembrete gritante de quão facilmente manipulou a mídia pode enganar o público. Apesar de sua simplicidade, esse incidente destacou os danos potenciais de edições audiovisuais básicas.

Na época, o cenário de Deepfake era amplamente dominado pelas tecnologias de substituição de rosto baseadas em autoencoder, que existiam desde o final de 2017. Esses primeiros sistemas lutaram para fazer as alterações diferenciadas observadas no vídeo de Pelosi, concentrando-se em mais swaps de rosto evidente.

A recente estrutura de 'diretor de emoção neural' muda o humor de um rosto famoso. Fonte: https://www.youtube.com/watch?v=li6w8prdmjq A estrutura do diretor de emoção neural de 2022 muda o humor de um rosto famoso. Fonte: https://www.youtube.com/watch?v=li6w8prdmjq

Avanço rápido de hoje, e a indústria de cinema e TV está explorando cada vez mais edições pós-produção orientadas pela IA. Essa tendência provocou interesse e críticas, pois a IA permite um nível de perfeccionismo que antes era inatingível. Em resposta, a comunidade de pesquisa desenvolveu vários projetos focados em 'edições locais' de capturas faciais, como autoencoders de vídeo de difusão, costure -o no tempo, chatface, magicface e disco.

Edição de expressão com o Projeto Magicface de janeiro de 2025. Fonte: https://arxiv.org/pdf/2501.02260 Edição de expressão com o Projeto Magicface de janeiro de 2025. Fonte: https://arxiv.org/pdf/2501.02260

Novos rostos, novas rugas

No entanto, a tecnologia para criar essas edições sutis está avançando muito mais rápido que a nossa capacidade de detectá -las. A maioria dos métodos de detecção do DeepFake está desatualizada, concentrando -se em técnicas e conjuntos de dados mais antigos. Ou seja, até um avanço recente de pesquisadores da Índia.

Detecção de edições locais sutis em DeepFakes: Um vídeo real é alterado para produzir falsificações com alterações diferenciadas, como sobrancelhas levantadas, características de gênero modificadas e mudanças de expressão em relação ao nojo (ilustrado aqui com um único quadro). Fonte: https://arxiv.org/pdf/2503.22121 Detecção de edições locais sutis em DeepFakes: Um vídeo real é alterado para produzir falsificações com alterações diferenciadas, como sobrancelhas levantadas, características de gênero modificadas e mudanças de expressão em relação ao nojo (ilustrado aqui com um único quadro). Fonte: https://arxiv.org/pdf/2503.22121

Esta nova pesquisa tem como alvo a detecção de manipulações faciais sutis e localizadas, um tipo de falsificação frequentemente esquecida. Em vez de procurar amplas inconsistências ou incompatibilidades de identidade, o método zero em detalhes finos, como pequenas mudanças de expressão ou edições menores para recursos faciais específicos. Ele aproveita o sistema de codificação de ação facial (FACS), que divide as expressões faciais em 64 áreas mutáveis.

Algumas das peças de expressão constituintes 64 em FACS. Fonte: https://www.cs.cmu.edu/~face/facs.htm Algumas das peças de expressão constituintes 64 em FACS. Fonte: https://www.cs.cmu.edu/~face/facs.htm

Os pesquisadores testaram sua abordagem contra vários métodos recentes de edição e descobriram que ele superou consistentemente as soluções existentes, mesmo com conjuntos de dados mais antigos e vetores de ataque mais novos.

'Usando os recursos baseados em Au para orientar as representações de vídeo aprendidas através de autoencoders mascarados (MAE), nosso método captura efetivamente as mudanças localizadas cruciais para detectar edições faciais sutis.

"Essa abordagem nos permite construir uma representação latente unificada que codifica edições localizadas e alterações mais amplas em vídeos centrados em face, fornecendo uma solução abrangente e adaptável para a detecção de deepfake".

O artigo, intitulado Detectando Manipulações de Deepfake localizado usando representações de vídeo guiadas por unidade de ação , foi de autoria de pesquisadores do Instituto Indiano de Tecnologia de Madras.

Método

O método começa detectando rostos em um vídeo e amostragem quadros uniformemente espaçados centrados nessas faces. Esses quadros são então divididos em pequenos remendos 3D, capturando detalhes espaciais e temporais locais.

Esquema para o novo método. O vídeo de entrada é processado com a detecção de face para extrair quadros uniformemente espaçados e centrados na face, que são divididos em manchas tubulares e passadas por um codificador que funde representações latentes de duas tarefas de pretexto pré-teatro. O vetor resultante é então usado por um classificador para determinar se o vídeo é real ou falso. Esquema para o novo método. O vídeo de entrada é processado com a detecção de face para extrair quadros uniformemente espaçados e centrados na face, que são divididos em manchas 'tubulares' e passadas por um codificador que funde representações latentes de duas tarefas de pretexto pré-traçado. O vetor resultante é então usado por um classificador para determinar se o vídeo é real ou falso.

Cada patch contém uma pequena janela de pixels de alguns quadros sucessivos, permitindo que o modelo aprenda mudanças de movimento e expressão de curto prazo. Esses patches são incorporados e codificados posicionalmente antes de serem alimentados em um codificador projetado para distinguir vídeos reais de falsos.

O desafio de detectar manipulações sutis é abordado usando um codificador que combina dois tipos de representações aprendidas por meio de um mecanismo de atendimento cruzado, com o objetivo de criar um espaço de recursos mais sensível e generalizável.

Tarefas de pretexto

A primeira representação vem de um codificador treinado com uma tarefa de autoencodificação mascarada. Ao ocultar a maioria dos patches 3D do vídeo, o codificador aprende a reconstruir as partes ausentes, capturando importantes padrões espaço -temporais, como o movimento facial.

O treinamento de tarefas pretexto envolve o mascaramento de partes da entrada de vídeo e o uso de uma configuração de codificador-decodificador para reconstruir os mapas originais da unidade de quadros ou de ação por quadro, dependendo da tarefa. O treinamento de tarefas pretexto envolve o mascaramento de partes da entrada de vídeo e o uso de uma configuração de codificador-decodificador para reconstruir os mapas originais da unidade de quadros ou de ação por quadro, dependendo da tarefa.

No entanto, isso por si só não é suficiente para detectar edições de grão fino. Os pesquisadores introduziram um segundo codificador treinado para detectar unidades de ação facial (AUS), incentivando -o a se concentrar na atividade muscular localizada, onde as edições sutis de Deepfake ocorrem geralmente.

Outros exemplos de unidades de ação facial (FAUS, ou AUS). Fonte: https://www.eiagroup.com/the-facial-action-coding-system/ Outros exemplos de unidades de ação facial (FAUS, ou AUS). Fonte: https://www.eiagroup.com/the-facial-action-coding-system/

Após o pré-treinamento, as saídas de ambos os codificadores são combinadas usando a participação cruzada, com os recursos baseados em Au orientando a atenção sobre os recursos espaciais-temporais. Isso resulta em uma representação latente fundida que captura o contexto de movimento mais amplo e os detalhes da expressão localizada, usados ​​para a tarefa de classificação final.

Dados e testes

Implementação

O sistema foi implementado usando a estrutura de detecção de rosto baseada em FaceXZoo Pytorch, extraindo 16 quadros centrados na face de cada videoclipe. As tarefas de pretexto foram treinadas no conjunto de dados do CelebV-HQ, que inclui 35.000 vídeos faciais de alta qualidade.

No artigo de origem, exemplos do conjunto de dados Celebv-HQ usado no novo projeto. Fonte: https://arxiv.org/pdf/2207.12393 No artigo de origem, exemplos do conjunto de dados Celebv-HQ usado no novo projeto. Fonte: https://arxiv.org/pdf/2207.12393

Metade dos dados foi mascarada para evitar o excesso de ajuste. Para a tarefa de reconstrução de quadros mascarada, o modelo foi treinado para prever regiões ausentes usando perda de L1. Para a segunda tarefa, foi treinado para gerar mapas para 16 unidades de ação facial, supervisionadas pela perda de L1.

Após o pré-treinamento, os codificadores foram fundidos e ajustados para a detecção de DeepFake usando o conjunto de dados Faceforensics ++, que inclui vídeos reais e manipulados.

O conjunto de dados FaceSforensics ++ tem sido a pedra de toque central da DeepFake Detection desde 2017, embora agora esteja consideravelmente desatualizado, em relação às mais recentes técnicas de síntese facial. Fonte: https://www.youtube.com/watch?v=X2G48Q2i2ZQ O conjunto de dados FaceSforensics ++ tem sido a pedra angular da DeepFake Detection desde 2017, embora agora esteja consideravelmente desatualizada, em relação às mais recentes técnicas de síntese facial. Fonte: https://www.youtube.com/watch?v=X2G48Q2i2ZQ

Para abordar o desequilíbrio da classe, os autores usaram a perda focal, enfatizando exemplos mais desafiadores durante o treinamento. Todo o treinamento foi realizado em uma única GPU RTX 4090 com 24 GB de VRAM, usando pontos de verificação pré-treinados da Videomae.

Testes

O método foi avaliado em relação a várias técnicas de detecção do DeepFake, concentrando-se em deepFakes de profundidade localmente. Os testes incluíram uma variedade de métodos de edição e conjuntos de dados de DeepFake mais antigos, usando métricas como área sob curva (AUC), precisão média e pontuação média de F1.

A partir do artigo: a comparação em recentesfases localizadas de DeepFakes mostra que o método proposto superou todos os outros, com um ganho de 15 a 20 % na AUC e na precisão média sobre a próxima melhor abordagem. A partir do artigo: a comparação em recentesfases localizadas de DeepFakes mostra que o método proposto superou todos os outros, com um ganho de 15 a 20 % na AUC e na precisão média sobre a próxima melhor abordagem.

Os autores forneceram comparações visuais de vídeos manipulados localmente, mostrando a sensibilidade superior de seu método a edições sutis.

Um vídeo real foi alterado usando três manipulações localizadas diferentes para produzir falsificações que permaneceram visualmente semelhantes ao original. Aqui são mostrados os quadros representativos, juntamente com as pontuações médias de detecção falsa para cada método. Enquanto os detectores existentes lutavam com essas edições sutis, o modelo proposto atribuiu consistentemente altas probabilidades falsas, indicando maior sensibilidade às mudanças localizadas. Um vídeo real foi alterado usando três manipulações localizadas diferentes para produzir falsificações que permaneceram visualmente semelhantes ao original. Aqui são mostrados os quadros representativos, juntamente com as pontuações médias de detecção falsa para cada método. Enquanto os detectores existentes lutavam com essas edições sutis, o modelo proposto atribuiu consistentemente altas probabilidades falsas, indicando maior sensibilidade às mudanças localizadas.

Os pesquisadores observaram que os métodos de detecção de última geração existentes lutavam com as mais recentes técnicas de geração do DeepFake, enquanto seu método mostrou generalização robusta, alcançando altos escores de precisão de AUC e média.

O desempenho nos conjuntos de dados tradicionais de DeepFake mostra que o método proposto permaneceu competitivo com as abordagens principais, indicando uma forte generalização em uma série de tipos de manipulação. O desempenho nos conjuntos de dados tradicionais de DeepFake mostra que o método proposto permaneceu competitivo com as abordagens principais, indicando uma forte generalização em uma série de tipos de manipulação.

Os autores também testaram a confiabilidade do modelo em condições do mundo real, achando-a resiliente a distorções em vídeo comuns, como ajustes de saturação, desfoque gaussiano e pixelação.

Uma ilustração de como a precisão da detecção muda sob diferentes distorções de vídeo. O novo método permaneceu resiliente na maioria dos casos, com apenas um pequeno declínio na AUC. A queda mais significativa ocorreu quando o ruído gaussiano foi introduzido. Uma ilustração de como a precisão da detecção muda sob diferentes distorções de vídeo. O novo método permaneceu resiliente na maioria dos casos, com apenas um pequeno declínio na AUC. A queda mais significativa ocorreu quando o ruído gaussiano foi introduzido.

Conclusão

Enquanto o público geralmente pensa em deepfakes como trocas de identidade, a realidade da manipulação da IA ​​é mais sutil e potencialmente mais insidiosa. O tipo de edição local discutida nesta nova pesquisa pode não capturar a atenção do público até que ocorra outro incidente de alto perfil. No entanto, como o ator Nic Cage apontou, o potencial de edições de pós-produção para alterar as performances é uma preocupação de que todos devemos estar cientes. Somos naturalmente sensíveis às menores mudanças nas expressões faciais, e o contexto pode alterar drasticamente seu impacto.

Publicado pela primeira vez quarta -feira, 2 de abril de 2025

Artigo relacionado
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
Comentários (25)
0/200
KevinAnderson
KevinAnderson 13 de Abril de 2025 à26 16:16:26 GMT

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 13 de Abril de 2025 à7 01:51:07 GMT

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 12 de Abril de 2025 à26 11:12:26 GMT

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 14 de Abril de 2025 à55 01:30:55 GMT

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 12 de Abril de 2025 à16 14:16:16 GMT

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 13 de Abril de 2025 à37 00:33:37 GMT

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

De volta ao topo
OR