Lar Notícias Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial

Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial

25 de Abril de 2025
KennethKing
0

Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas nas imagens de vigilância de vídeo do mundo real.

A equipe desenvolveu um módulo de síntese de face controlável (CFSM) que pode regenerar faces em um estilo que reflete as falhas típicas dos sistemas de CCTV, como desfoque facial, baixa resolução e ruído do sensor. Essa abordagem difere do uso de imagens de celebridades de alta qualidade de conjuntos de dados populares, que não capturam os desafios do mundo real enfrentados pelos sistemas de reconhecimento facial.

Arquitetura conceitual para o módulo de síntese de face controlável (CFSM). Fonte: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * Arquitetura conceitual para o módulo de síntese de face controlável (CFSM).

Diferentemente dos sistemas DeepFake que se concentram na replicação de poses e expressões da cabeça, o CFSM visa gerar visualizações alternativas que correspondem ao estilo do sistema de reconhecimento de destino através da transferência de estilo. Este módulo é particularmente útil para se adaptar aos sistemas herdados que dificilmente serão atualizados devido a restrições de custo, mas ainda precisam contribuir para as modernas tecnologias de reconhecimento facial.

Ao testar o CFSM, os pesquisadores observaram melhorias significativas nos sistemas de reconhecimento de imagens que tratam de dados de baixa qualidade. Eles também descobriram um benefício inesperado: a capacidade de caracterizar e comparar conjuntos de dados de destino, que simplifica o processo de benchmarking e criação de conjuntos de dados personalizados para vários sistemas de CCTV.

Treinar os modelos de reconhecimento facial para se adaptar às limitações dos sistemas de destino. Fonte: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * Treinando os modelos de reconhecimento facial para se adaptar às limitações dos sistemas de destino.

O método também pode ser aplicado aos conjuntos de dados existentes, executando efetivamente a adaptação do domínio para torná -los mais adequados para o reconhecimento facial. A pesquisa, intitulada ** síntese de face controlável e guiada para reconhecimento de rosto irrestrito **, é parcialmente apoiado pelo Escritório dos EUA do Diretor de Inteligência Nacional (ODNI, na IARPA) e envolve quatro pesquisadores do Departamento de Ciência e Engenharia de Computação da MSU.

Reconhecimento facial de baixa qualidade: um campo em crescimento

Nos últimos anos, o reconhecimento facial de baixa qualidade (LQFR) surgiu como uma área de estudo significativa. Muitos sistemas de vigilância por vídeo mais antigos, construídos para serem duráveis ​​e duradouros, tornaram-se desatualizados e lutam para servir como fontes de dados eficazes para o aprendizado de máquina devido à dívida técnica.

Níveis variados de resolução facial em uma variedade de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf Níveis variados de resolução facial em uma variedade de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf

Felizmente, os modelos de difusão e outros modelos baseados em ruído são adequados para resolver esse problema. Muitos dos mais recentes sistemas de síntese de imagem incluem as imagens de baixa resolução como parte de seu processo, o que também é crucial para as técnicas de compressão neural.

O desafio no reconhecimento facial é maximizar a precisão com o menor número de recursos possíveis extraídos de imagens de baixa resolução. Isso não é apenas útil para identificar faces em baixa resolução, mas também necessário devido a limitações no tamanho da imagem no espaço latente dos modelos de treinamento.

Na visão computacional, os 'recursos' referem -se a características distintas de qualquer imagem, não apenas faces. Com o avanço nos algoritmos de aumento da escala, vários métodos foram propostos para melhorar as filmagens de vigilância de baixa resolução, potencialmente tornando-o utilizável para fins legais, como investigações de cenas do crime.

No entanto, existe um risco de identificação incorreta e, idealmente, os sistemas de reconhecimento facial não devem exigir imagens de alta resolução para fazer identificações precisas. Tais transformações são caras e levantam questões sobre sua validade e legalidade.

A necessidade de mais celebridades de 'baixo na heal

Seria mais benéfico se os sistemas de reconhecimento facial pudessem extrair recursos diretamente da saída de sistemas herdados sem a necessidade de transformar as imagens. Isso requer uma melhor compreensão da relação entre identidades de alta resolução e imagens degradadas dos sistemas de vigilância existentes.

O problema está nos padrões: conjuntos de dados como MS-CELEB-1M e WebFace260M são amplamente utilizados porque fornecem benchmarks consistentes. No entanto, os autores argumentam que os algoritmos de reconhecimento facial treinados nesses conjuntos de dados não são adequados para os domínios visuais de sistemas de vigilância mais antigos.

Exemplos do popular conjunto de dados MS-CELEB1M da Microsoft. Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrity-real-world/ * Exemplos do popular conjunto de dados MS-CELEB1M da Microsoft.

O artigo destaca que os modelos de reconhecimento facial de ponta lutam com imagens de vigilância do mundo real devido a problemas de mudança de domínio. Esses modelos são treinados em conjuntos de dados semi-restritos que não possuem as variações encontradas em cenários do mundo real, como ruído do sensor e desfoque de movimento.

Métodos anteriores tentaram corresponder aos resultados de sistemas de vigilância histórica ou de baixo custo, mas esses foram aumentados "cegos". Por outro lado, o CFSM usa feedback direto do sistema de destino durante o treinamento e os adaptados por meio de transferência de estilo para imitar esse domínio.

A atriz Natalie Portman, sem estranho para o punhado de conjuntos de dados que dominam a comunidade de visão computacional, características entre as identidades neste exemplo de CFSM executando a adaptação de domínio correspondente ao estilo com base no feedback do domínio do modelo de destino real. *Atriz Natalie Portman, nenhum estranho para o punhado de conjuntos de dados que dominam a comunidade de visão computacional, características entre as identidades neste exemplo do CFSM executando a adaptação de domínio correspondente ao estilo com base no feedback do domínio do modelo de destino real.*

A arquitetura dos autores usa o método de sinal de gradiente rápido (FGSM) para importar estilos e características da saída do sistema de destino. À medida que o treinamento avança, a parte da geração de imagens do pipeline se torna mais fiel ao sistema de destino, melhorando o desempenho do reconhecimento facial e as capacidades de generalização.

Testes e resultados

Os pesquisadores testaram o CFSM usando o trabalho anterior da MSU como modelo, empregando MS-CELEB-1M e MS1M-V2 como conjuntos de dados de treinamento. Os dados de destino eram o conjunto de dados mais amplo da Universidade Chinesa de Hong Kong, projetada para detecção de rosto em situações desafiadoras.

O sistema foi avaliado em relação a quatro benchmarks de reconhecimento de rosto: IJB-B, IJB-C, IJB-S e Tinyface. O CFSM foi treinado com cerca de 10% dos dados MS-CELEB-1M, cerca de 0,4 milhão de imagens, para 125.000 iterações em um tamanho de lotes de 32 usando o otimizador Adam com uma taxa de aprendizado de 1E-4.

O modelo de reconhecimento facial de destino usou um resNet-50 modificado com a função de perda de arcface. Um modelo adicional foi treinado com CFSM para comparação, rotulado como 'arcface' nos resultados.

Resultados dos testes primários para CFSM. Números mais altos são melhores. *Resultados dos testes primários para CFSM. Números mais altos são melhores.*

Os resultados mostraram que o modelo ARCFace, aprimorado pelo CFSM, superou todas as linhas de base nas tarefas de identificação e verificação do rosto, alcançando um novo desempenho de ponta.

A capacidade de extrair domínios de várias características dos sistemas de vigilância herdada também permite comparar e avaliar a similaridade da distribuição entre esses sistemas, apresentando cada um em termos de um estilo visual que pode ser alavancado em trabalhos futuros.

Exemplos de vários conjuntos de dados exibem diferenças claras de estilo. *Exemplos de vários conjuntos de dados exibem diferenças claras de estilo.*

Os autores também observaram que o CFSM demonstra como a manipulação adversária pode ser usada para aumentar as precisões de reconhecimento nas tarefas de visão. Eles introduziram uma métrica de similaridade do conjunto de dados com base em bases de estilo aprendidas, capturando diferenças de estilo em uma etiqueta ou maneira preditora-agnóstica.

A pesquisa ressalta o potencial de modelos de síntese de face controláveis ​​e guiados para o reconhecimento facial irrestrito e fornece informações sobre as diferenças de conjunto de dados.

Artigo relacionado
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Comentários (0)
0/200
OR