Maison Nouvelles Les visages synthétiques «dégradés» peuvent améliorer la technologie de reconnaissance faciale

Les visages synthétiques «dégradés» peuvent améliorer la technologie de reconnaissance faciale

25 avril 2025
KennethKing
0

Des chercheurs de la Michigan State University ont trouvé une façon innovante d'utiliser des visages synthétiques pour une cause noble - améliorant la précision des systèmes de reconnaissance d'image. Au lieu de contribuer au phénomène Deepfakes, ces visages synthétiques sont conçus pour imiter les imperfections trouvées dans des images de vidéosurveillance du monde réel.

L'équipe a développé un module de synthèse de visage contrôlable (CFSM) qui peut régénérer les faces dans un style qui reflète les défauts typiques des systèmes de vidéosurveillance, tels que le flou facial, la basse résolution et le bruit du capteur. Cette approche diffère de l'utilisation d'images de célébrités de haute qualité des ensembles de données populaires, qui ne saisissent pas les défis du monde réel auxquels sont confrontés les systèmes de reconnaissance faciale.

Architecture conceptuelle pour le module de synthèse du visage contrôlable (CFSM). Source: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * Architecture conceptuelle pour le module de synthèse face contrôlable (CFSM). * Source: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf

Contrairement aux systèmes DeepFake qui se concentrent sur la réplication des poses et des expressions de la tête, CFSM vise à générer des vues alternatives qui correspondent au style du système de reconnaissance cible grâce au transfert de style. Ce module est particulièrement utile pour s'adapter aux systèmes hérités qui sont peu susceptibles d'être mis à niveau en raison de contraintes de coûts mais doivent toujours contribuer aux technologies de reconnaissance faciale modernes.

Lors du test de CFSM, les chercheurs ont observé des améliorations significatives des systèmes de reconnaissance d'image traitant de données de faible qualité. Ils ont également découvert un avantage inattendu: la possibilité de caractériser et de comparer les ensembles de données cibles, ce qui simplifie le processus de comparaison et de création de ensembles de données sur mesure pour divers systèmes de vidéosurveillance.

Formation des modèles de reconnaissance faciale à s'adapter aux limites des systèmes cibles. Source: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * Formation des modèles de reconnaissance faciale pour s'adapter aux limites des systèmes cibles. * Source: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf

La méthode peut également être appliquée aux ensembles de données existants, effectuant efficacement l'adaptation du domaine pour les rendre plus adaptés à la reconnaissance faciale. La recherche, intitulée ** Contrôlable et Guided Face Synthesis pour la reconnaissance faciale sans contrainte **, est partiellement soutenue par le Bureau américain du directeur du renseignement national (ODNI, à l'IARPA) et implique quatre chercheurs du département informatique et génie de MSU.

Reconnaissance faciale de basse qualité: un champ croissant

Au cours des dernières années, la reconnaissance faciale de faible qualité (LQFR) est devenue un domaine d'étude important. De nombreux systèmes de surveillance vidéo plus anciens, conçus pour être durables et durables, sont devenus obsolètes et ont du mal à servir de sources de données efficaces pour l'apprentissage automatique en raison de la dette technique.

Des niveaux variables de résolution faciale à travers une gamme de systèmes de surveillance vidéo historiques et plus récents. Source: https://arxiv.org/pdf/1805.11519.pdf Des niveaux variables de résolution faciale à travers une gamme de systèmes de surveillance vidéo historiques et plus récents. Source: https://arxiv.org/pdf/1805.11519.pdf

F Heureusement, les modèles de diffusion et d'autres modèles basés sur le bruit sont bien adaptés pour résoudre ce problème. Bon nombre des derniers systèmes de synthèse d'images incluent une augmentation des images à basse résolution dans le cadre de leur processus, qui est également crucial pour les techniques de compression neuronale.

Le défi de la reconnaissance faciale est de maximiser la précision avec le moins de caractéristiques possibles extraites des images à basse résolution. Ceci est non seulement utile pour identifier les visages à faible résolution, mais également nécessaires en raison de limitations de taille de l'image dans l'espace latent des modèles d'entraînement.

Dans la vision par ordinateur, les «fonctionnalités» se réfèrent aux caractéristiques distinctives de toute image, pas seulement des visages. Avec l'avancement des algorithmes d'amélioration des algorithmes, diverses méthodes ont été proposées pour améliorer les images de surveillance à basse résolution, ce qui le rend potentiellement utilisable à des fins juridiques comme les enquêtes sur les lieux du crime.

Cependant, il existe un risque d'identification, et idéalement, les systèmes de reconnaissance faciale ne devraient pas nécessiter des images haute résolution pour faire des identifications précises. Ces transformations sont coûteuses et soulèvent des questions sur leur validité et leur légalité.

La nécessité de plus de célébrités «en bas à tachet»

Il serait plus bénéfique si les systèmes de reconnaissance faciale pouvaient extraire les caractéristiques directement de la sortie des systèmes hérités sans avoir besoin de transformer les images. Cela nécessite une meilleure compréhension de la relation entre les identités haute résolution et les images dégradées des systèmes de surveillance existants.

Le problème réside dans les normes: des ensembles de données comme MS-Celeb-1m et WebFace260m sont largement utilisés car ils fournissent des repères cohérents. Cependant, les auteurs soutiennent que les algorithmes de reconnaissance faciale formés sur ces ensembles de données ne conviennent pas aux domaines visuels des anciens systèmes de surveillance.

Exemples de l'ensemble de données MS-Celeb1m populaire de Microsoft. Source: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognising-one-million-celebrities-real-world/ * Exemples de l'ensemble de données MS-CELEB1M populaire de Microsoft. * Source: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognising-one-million-celebrities-real-world/

L'article souligne que les modèles de reconnaissance faciale de pointe ont du mal avec l'imagerie de surveillance du monde réel en raison de problèmes de décalage de domaine. Ces modèles sont formés sur des ensembles de données semi-limités qui n'ont pas les variations trouvées dans les scénarios du monde réel, tels que le bruit du capteur et le flou de mouvement.

Les méthodes précédentes ont tenté de correspondre aux sorties des systèmes de surveillance historiques ou à faible coût, mais ce sont des augmentations «aveugles». En revanche, CFSM utilise la rétroaction directe du système cible pendant la formation et s'adapte via le transfert de style pour imiter ce domaine.

L'actrice Natalie Portman, pas étrangère à la poignée d'ensembles de données qui dominent la communauté de la vision par ordinateur, figure parmi les identités de cet exemple de l'adaptation de domaine CFSM, approuvant le style, basée sur les commentaires du domaine du modèle cible réel. * L'actrice Natalie Portman, pas étrangère à la poignée d'ensembles de données qui dominent la communauté de la vision par ordinateur, figure parmi les identités de cet exemple de l'adaptation de domaine CFSM, approuvant le style basé sur les commentaires du domaine du modèle cible réel. *

L'architecture des auteurs utilise la méthode de signe du gradient rapide (FGSM) pour importer des styles et des caractéristiques à partir de la sortie du système cible. Au fur et à mesure que la formation progresse, la partie de la génération d'images du pipeline devient plus fidèle au système cible, améliorant les capacités de performance et de généralisation de la reconnaissance faciale.

Tests et résultats

Les chercheurs ont testé CFSM en utilisant le travail antérieur de MSU comme modèle, utilisant MS-Celeb-1M et MS1M-V2 comme ensembles de données de formation. Les données cibles étaient l'ensemble de données Widerface de l'Université chinoise de Hong Kong, conçue pour la détection du visage dans des situations difficiles.

Le système a été évalué par rapport à quatre références de reconnaissance faciale: IJB-B, IJB-C, IJB-S et Tinyface. Le CFSM a été formé avec environ 10% des données MS-Celeb-1M, environ 0,4 million d'images, pour 125 000 itérations à une taille de lot de 32 en utilisant l'optimiseur ADAM avec un taux d'apprentissage de 1E-4.

Le modèle de reconnaissance faciale cible a utilisé une Resnet-50 modifiée avec une fonction de perte d'arc. Un modèle supplémentaire a été formé avec CFSM pour comparaison, étiqueté comme «Arcface» dans les résultats.

Résultats des tests primaires pour CFSM. Les nombres plus élevés sont meilleurs. * Résultats des tests primaires pour CFSM. Les nombres plus élevés sont meilleurs. *

Les résultats ont montré que le modèle d'arc, amélioré par CFSM, a surpassé toutes les lignes de base dans les tâches d'identification et de vérification du visage, atteignant de nouvelles performances de pointe.

La capacité d'extraire des domaines de diverses caractéristiques des systèmes de surveillance héritée permet également de comparer et d'évaluer la similitude de la distribution entre ces systèmes, se présentant chacun en termes de style visuel qui peut être exploité dans les travaux futurs.

Des exemples de divers ensembles de données présentent des différences de style claires. * Des exemples de divers ensembles de données présentent des différences de style claires. *

Les auteurs ont également noté que CFSM montre comment la manipulation adversaire peut être utilisée pour augmenter les précisions de reconnaissance dans les tâches de vision. Ils ont introduit une métrique de similitude de jeu de données basée sur des bases de style apprises, capturant les différences de style dans une étiquette ou une manière prédictive-agnostique.

La recherche souligne le potentiel des modèles de synthèse du visage contrôlables et guidés pour la reconnaissance faciale non contrainte et donne un aperçu des différences de jeu de données.

Article connexe
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Commentaires (0)
0/200
OR