Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan desenvolveram uma maneira inovadora de usar rostos sintéticos para uma causa nobre — melhorar a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno das deepfakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas em filmagens de vigilância por vídeo do mundo real.
A equipe desenvolveu um Módulo de Síntese de Rostos Controlável (CFSM) que pode regenerar rostos em um estilo que reflete as falhas típicas dos sistemas de CFTV, como desfoque facial, baixa resolução e ruído do sensor. Essa abordagem difere do uso de imagens de celebridades de alta qualidade de conjuntos de dados populares, que não capturam os desafios do mundo real enfrentados pelos sistemas de reconhecimento facial.
*Arquitetura conceitual para o Módulo de Síntese de Rostos Controlável (CFSM).* Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
Diferentemente dos sistemas de deepfake que focam em replicar poses de cabeça e expressões, o CFSM visa gerar visões alternativas que correspondam ao estilo do sistema de reconhecimento alvo por meio de transferência de estilo. Este módulo é particularmente útil para adaptar sistemas legados que provavelmente não serão atualizados devido a restrições de custo, mas ainda precisam contribuir para tecnologias modernas de reconhecimento facial.
Ao testar o CFSM, os pesquisadores observaram melhorias significativas em sistemas de reconhecimento de imagens lidando com dados de baixa qualidade. Eles também descobriram um benefício inesperado: a capacidade de caracterizar e comparar conjuntos de dados alvo, simplificando o processo de benchmarking e criação de conjuntos de dados personalizados para vários sistemas de CFTV.
*Treinamento de modelos de reconhecimento facial para se adaptarem às limitações dos sistemas alvo.* Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
O método também pode ser aplicado a conjuntos de dados existentes, realizando adaptação de domínio para torná-los mais adequados para reconhecimento facial. A pesquisa, intitulada **Síntese de Rostos Controlável e Guiada para Reconhecimento Facial Irrestrito**, é parcialmente apoiada pelo Escritório do Diretor de Inteligência Nacional dos EUA (ODNI, na IARPA) e envolve quatro pesquisadores do departamento de Ciência da Computação e Engenharia da MSU.
Reconhecimento Facial de Baixa Qualidade: Um Campo em Crescimento
Nos últimos anos, o reconhecimento facial de baixa qualidade (LQFR) emergiu como uma área significativa de estudo. Muitos sistemas de vigilância por vídeo mais antigos, construídos para serem duráveis e de longa duração, tornaram-se obsoletos e lutam para servir como fontes de dados eficazes para aprendizado de máquina devido a dívidas técnicas.
Níveis variados de resolução facial em uma gama de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf
Felizmente, modelos de difusão e outros modelos baseados em ruído são adequados para abordar esse problema. Muitos dos mais recentes sistemas de síntese de imagens incluem a ampliação de imagens de baixa resolução como parte de seu processo, o que também é crucial para técnicas de compressão neural.
O desafio no reconhecimento facial é maximizar a precisão com o menor número possível de características extraídas de imagens de baixa resolução. Isso não é útil apenas para identificar rostos em baixa resolução, mas também necessário devido às limitações no tamanho da imagem no espaço latente dos modelos de treinamento.
Em visão computacional, 'características' referem-se a características distintivas de qualquer imagem, não apenas rostos. Com o avanço nos algoritmos de ampliação, várias métodos foram propostos para melhorar filmagens de vigilância de baixa resolução, potencialmente tornando-as utilizáveis para fins legais, como investigações de cenas de crime.
No entanto, há um risco de identificação errada, e idealmente, os sistemas de reconhecimento facial não deveriam exigir imagens de alta resolução para fazer identificações precisas. Essas transformações são custosas e levantam questões sobre sua validade e legalidade.
A Necessidade de Mais Celebridades 'Desgastadas'
Seria mais benéfico se os sistemas de reconhecimento facial pudessem extrair características diretamente da saída de sistemas legados sem a necessidade de transformar as imagens. Isso requer um melhor entendimento da relação entre identidades de alta resolução e as imagens degradadas de sistemas de vigilância existentes.
O problema está nos padrões: conjuntos de dados como MS-Celeb-1M e WebFace260M são amplamente utilizados porque fornecem referências consistentes. No entanto, os autores argumentam que algoritmos de reconhecimento facial treinados nesses conjuntos de dados não são adequados para os domínios visuais de sistemas de vigilância mais antigos.
*Exemplos do popular conjunto de dados MS-Celeb1m da Microsoft.* Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
O artigo destaca que modelos de reconhecimento facial de ponta lutam com imagens de vigilância do mundo real devido a problemas de mudança de domínio. Esses modelos são treinados em conjuntos de dados semi-restritos que carecem das variações encontradas em cenários do mundo real, como ruído do sensor e desfoque de movimento.
Métodos anteriores tentaram corresponder às saídas de sistemas de vigilância históricos ou de baixo custo, mas essas eram ampliações 'cegas'. Em contraste, o CFSM usa feedback direto do sistema alvo durante o treinamento e adapta-se por meio de transferência de estilo para imitar esse domínio.
*Atriz Natalie Portman, não estranha aos poucos conjuntos de dados que dominam a comunidade de visão computacional, aparece entre as identidades neste exemplo de CFSM realizando adaptação de domínio correspondente ao estilo com base no feedback do domínio do modelo alvo real.*
A arquitetura dos autores usa o Método do Sinal de Gradiente Rápido (FGSM) para importar estilos e características da saída do sistema alvo. À medida que o treinamento avança, a parte de geração de imagens do pipeline torna-se mais fiel ao sistema alvo, melhorando o desempenho e as capacidades de generalização do reconhecimento facial.
Testes e Resultados
Os pesquisadores testaram o CFSM usando trabalhos anteriores da MSU como modelo, empregando MS-Celeb-1m e MS1M-V2 como conjuntos de dados de treinamento. Os dados alvo foram o conjunto WiderFace da Universidade Chinesa de Hong Kong, projetado para detecção de rostos em situações desafiadoras.
O sistema foi avaliado contra quatro referências de reconhecimento facial: IJB-B, IJB-C, IJB-S e TinyFace. O CFSM foi treinado com cerca de 10% dos dados do MS-Celeb-1m, cerca de 0,4 milhão de imagens, por 125.000 iterações com um tamanho de lote de 32 usando o otimizador Adam com uma taxa de aprendizado de 1e-4.
O modelo de reconhecimento facial alvo usou um ResNet-50 modificado com a função de perda ArcFace. Um modelo adicional foi treinado com CFSM para comparação, rotulado como 'ArcFace' nos resultados.
*Resultados dos testes primários para o CFSM. Números mais altos são melhores.*
Os resultados mostraram que o modelo ArcFace, aprimorado pelo CFSM, superou todas as linhas de base em tarefas de identificação e verificação facial, alcançando um novo desempenho de ponta.
A capacidade de extrair domínios de várias características de sistemas de vigilância legados também permite comparar e avaliar a similaridade de distribuição entre esses sistemas, apresentando cada um em termos de um estilo visual que pode ser aproveitado em trabalhos futuros.
*Exemplos de vários conjuntos de dados exibem diferenças claras de estilo.*
Os autores também observaram que o CFSM demonstra como a manipulação adversária pode ser usada para aumentar as precisões de reconhecimento em tarefas de visão. Eles introduziram uma métrica de similaridade de conjunto de dados baseada em bases de estilo aprendidas, capturando diferenças de estilo de maneira agnóstica a rótulos ou preditores.
A pesquisa destaca o potencial de modelos de síntese de rostos controláveis e guiados para reconhecimento facial irrestrito e fornece insights sobre diferenças de conjuntos de dados.
Artigo relacionado
Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software
Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA ge
Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono
Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi
Novo Estudo Revela Quanto Dados os LLMs Realmente Memorizam
Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights SurpreendentesTodos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos
Comentários (10)
0/200
LarryWilliams
27 de Abril de 2025 à26 08:58:26 WEST
C'est une initiative fascinante pour améliorer la reconnaissance faciale. Utiliser des visages synthétiques plutôt que de contribuer aux deepfakes est une bonne chose. J'espère qu'ils y arriveront bien. 😊🧐
0
CharlesJohnson
27 de Abril de 2025 à41 08:57:41 WEST
¡Qué genial usar caras sintéticas para mejorar el reconocimiento facial! Me encanta que la tecnología se use para algo bueno y no para deepfakes. Lo único es que podría ser más fácil de usar, pero de todos modos, ¡innovación de primera! 👌
0
MatthewGonzalez
26 de Abril de 2025 à32 21:27:32 WEST
Que ideia genial usar faces sintéticas para melhorar o reconhecimento facial! Adoro que a tecnologia esteja sendo usada para o bem, e não para deepfakes. A única coisa é que poderia ser mais fácil de usar, mas ainda assim, inovação top! 👍
0
FrankSmith
26 de Abril de 2025 à1 17:19:01 WEST
미시간 주립대 연구진이 하는 이 작업은 정말 멋져 보입니다. 인공 얼굴을 이용해 이미지 인식 기술을 개선하려는 목적 자체가 놀랍네요. 실용성 검증이 필요할 것 같아요. 😎💡
0
FrankJackson
26 de Abril de 2025 à26 15:20:26 WEST
合成顔を使って顔認識技術を向上させるなんて、素晴らしいアイデアだと思う!深偽ではなく、良い目的に使われる技術は嬉しいね。ただ、もう少し使いやすければ完璧だったのに。でも、革新性には拍手を送りたい!👏
0
SebastianAnderson
26 de Abril de 2025 à27 14:00:27 WEST
¡Es una idea muy interesante! Usar caras sintéticas para mejorar el reconocimiento facial parece un gran avance. Sin embargo, espero que no genere más problemas de privacidad. 🌟🤔
0
Pesquisadores da Universidade Estadual de Michigan desenvolveram uma maneira inovadora de usar rostos sintéticos para uma causa nobre — melhorar a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno das deepfakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas em filmagens de vigilância por vídeo do mundo real.
A equipe desenvolveu um Módulo de Síntese de Rostos Controlável (CFSM) que pode regenerar rostos em um estilo que reflete as falhas típicas dos sistemas de CFTV, como desfoque facial, baixa resolução e ruído do sensor. Essa abordagem difere do uso de imagens de celebridades de alta qualidade de conjuntos de dados populares, que não capturam os desafios do mundo real enfrentados pelos sistemas de reconhecimento facial.
*Arquitetura conceitual para o Módulo de Síntese de Rostos Controlável (CFSM).* Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf
Diferentemente dos sistemas de deepfake que focam em replicar poses de cabeça e expressões, o CFSM visa gerar visões alternativas que correspondam ao estilo do sistema de reconhecimento alvo por meio de transferência de estilo. Este módulo é particularmente útil para adaptar sistemas legados que provavelmente não serão atualizados devido a restrições de custo, mas ainda precisam contribuir para tecnologias modernas de reconhecimento facial.
Ao testar o CFSM, os pesquisadores observaram melhorias significativas em sistemas de reconhecimento de imagens lidando com dados de baixa qualidade. Eles também descobriram um benefício inesperado: a capacidade de caracterizar e comparar conjuntos de dados alvo, simplificando o processo de benchmarking e criação de conjuntos de dados personalizados para vários sistemas de CFTV.
*Treinamento de modelos de reconhecimento facial para se adaptarem às limitações dos sistemas alvo.* Fonte: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf
O método também pode ser aplicado a conjuntos de dados existentes, realizando adaptação de domínio para torná-los mais adequados para reconhecimento facial. A pesquisa, intitulada **Síntese de Rostos Controlável e Guiada para Reconhecimento Facial Irrestrito**, é parcialmente apoiada pelo Escritório do Diretor de Inteligência Nacional dos EUA (ODNI, na IARPA) e envolve quatro pesquisadores do departamento de Ciência da Computação e Engenharia da MSU.
Reconhecimento Facial de Baixa Qualidade: Um Campo em Crescimento
Nos últimos anos, o reconhecimento facial de baixa qualidade (LQFR) emergiu como uma área significativa de estudo. Muitos sistemas de vigilância por vídeo mais antigos, construídos para serem duráveis e de longa duração, tornaram-se obsoletos e lutam para servir como fontes de dados eficazes para aprendizado de máquina devido a dívidas técnicas.
Níveis variados de resolução facial em uma gama de sistemas de vigilância por vídeo históricos e mais recentes. Fonte: https://arxiv.org/pdf/1805.11519.pdf
Felizmente, modelos de difusão e outros modelos baseados em ruído são adequados para abordar esse problema. Muitos dos mais recentes sistemas de síntese de imagens incluem a ampliação de imagens de baixa resolução como parte de seu processo, o que também é crucial para técnicas de compressão neural.
O desafio no reconhecimento facial é maximizar a precisão com o menor número possível de características extraídas de imagens de baixa resolução. Isso não é útil apenas para identificar rostos em baixa resolução, mas também necessário devido às limitações no tamanho da imagem no espaço latente dos modelos de treinamento.
Em visão computacional, 'características' referem-se a características distintivas de qualquer imagem, não apenas rostos. Com o avanço nos algoritmos de ampliação, várias métodos foram propostos para melhorar filmagens de vigilância de baixa resolução, potencialmente tornando-as utilizáveis para fins legais, como investigações de cenas de crime.
No entanto, há um risco de identificação errada, e idealmente, os sistemas de reconhecimento facial não deveriam exigir imagens de alta resolução para fazer identificações precisas. Essas transformações são custosas e levantam questões sobre sua validade e legalidade.
A Necessidade de Mais Celebridades 'Desgastadas'
Seria mais benéfico se os sistemas de reconhecimento facial pudessem extrair características diretamente da saída de sistemas legados sem a necessidade de transformar as imagens. Isso requer um melhor entendimento da relação entre identidades de alta resolução e as imagens degradadas de sistemas de vigilância existentes.
O problema está nos padrões: conjuntos de dados como MS-Celeb-1M e WebFace260M são amplamente utilizados porque fornecem referências consistentes. No entanto, os autores argumentam que algoritmos de reconhecimento facial treinados nesses conjuntos de dados não são adequados para os domínios visuais de sistemas de vigilância mais antigos.
*Exemplos do popular conjunto de dados MS-Celeb1m da Microsoft.* Fonte: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/
O artigo destaca que modelos de reconhecimento facial de ponta lutam com imagens de vigilância do mundo real devido a problemas de mudança de domínio. Esses modelos são treinados em conjuntos de dados semi-restritos que carecem das variações encontradas em cenários do mundo real, como ruído do sensor e desfoque de movimento.
Métodos anteriores tentaram corresponder às saídas de sistemas de vigilância históricos ou de baixo custo, mas essas eram ampliações 'cegas'. Em contraste, o CFSM usa feedback direto do sistema alvo durante o treinamento e adapta-se por meio de transferência de estilo para imitar esse domínio.
*Atriz Natalie Portman, não estranha aos poucos conjuntos de dados que dominam a comunidade de visão computacional, aparece entre as identidades neste exemplo de CFSM realizando adaptação de domínio correspondente ao estilo com base no feedback do domínio do modelo alvo real.*
A arquitetura dos autores usa o Método do Sinal de Gradiente Rápido (FGSM) para importar estilos e características da saída do sistema alvo. À medida que o treinamento avança, a parte de geração de imagens do pipeline torna-se mais fiel ao sistema alvo, melhorando o desempenho e as capacidades de generalização do reconhecimento facial.
Testes e Resultados
Os pesquisadores testaram o CFSM usando trabalhos anteriores da MSU como modelo, empregando MS-Celeb-1m e MS1M-V2 como conjuntos de dados de treinamento. Os dados alvo foram o conjunto WiderFace da Universidade Chinesa de Hong Kong, projetado para detecção de rostos em situações desafiadoras.
O sistema foi avaliado contra quatro referências de reconhecimento facial: IJB-B, IJB-C, IJB-S e TinyFace. O CFSM foi treinado com cerca de 10% dos dados do MS-Celeb-1m, cerca de 0,4 milhão de imagens, por 125.000 iterações com um tamanho de lote de 32 usando o otimizador Adam com uma taxa de aprendizado de 1e-4.
O modelo de reconhecimento facial alvo usou um ResNet-50 modificado com a função de perda ArcFace. Um modelo adicional foi treinado com CFSM para comparação, rotulado como 'ArcFace' nos resultados.
*Resultados dos testes primários para o CFSM. Números mais altos são melhores.*
Os resultados mostraram que o modelo ArcFace, aprimorado pelo CFSM, superou todas as linhas de base em tarefas de identificação e verificação facial, alcançando um novo desempenho de ponta.
A capacidade de extrair domínios de várias características de sistemas de vigilância legados também permite comparar e avaliar a similaridade de distribuição entre esses sistemas, apresentando cada um em termos de um estilo visual que pode ser aproveitado em trabalhos futuros.
*Exemplos de vários conjuntos de dados exibem diferenças claras de estilo.*
Os autores também observaram que o CFSM demonstra como a manipulação adversária pode ser usada para aumentar as precisões de reconhecimento em tarefas de visão. Eles introduziram uma métrica de similaridade de conjunto de dados baseada em bases de estilo aprendidas, capturando diferenças de estilo de maneira agnóstica a rótulos ou preditores.
A pesquisa destaca o potencial de modelos de síntese de rostos controláveis e guiados para reconhecimento facial irrestrito e fornece insights sobre diferenças de conjuntos de dados.



C'est une initiative fascinante pour améliorer la reconnaissance faciale. Utiliser des visages synthétiques plutôt que de contribuer aux deepfakes est une bonne chose. J'espère qu'ils y arriveront bien. 😊🧐




¡Qué genial usar caras sintéticas para mejorar el reconocimiento facial! Me encanta que la tecnología se use para algo bueno y no para deepfakes. Lo único es que podría ser más fácil de usar, pero de todos modos, ¡innovación de primera! 👌




Que ideia genial usar faces sintéticas para melhorar o reconhecimento facial! Adoro que a tecnologia esteja sendo usada para o bem, e não para deepfakes. A única coisa é que poderia ser mais fácil de usar, mas ainda assim, inovação top! 👍




미시간 주립대 연구진이 하는 이 작업은 정말 멋져 보입니다. 인공 얼굴을 이용해 이미지 인식 기술을 개선하려는 목적 자체가 놀랍네요. 실용성 검증이 필요할 것 같아요. 😎💡




合成顔を使って顔認識技術を向上させるなんて、素晴らしいアイデアだと思う!深偽ではなく、良い目的に使われる技術は嬉しいね。ただ、もう少し使いやすければ完璧だったのに。でも、革新性には拍手を送りたい!👏




¡Es una idea muy interesante! Usar caras sintéticas para mejorar el reconocimiento facial parece un gran avance. Sin embargo, espero que no genere más problemas de privacidad. 🌟🤔












