Hogar Noticias Las caras sintéticas 'degradadas' pueden mejorar la tecnología de reconocimiento facial

Las caras sintéticas 'degradadas' pueden mejorar la tecnología de reconocimiento facial

25 de abril de 2025
KennethKing
0

Los investigadores de la Universidad Estatal de Michigan han presentado una forma innovadora de usar caras sintéticas para una causa noble, lo que aumenta la precisión de los sistemas de reconocimiento de imágenes. En lugar de contribuir al fenómeno de Deepfakes, estas caras sintéticas están diseñadas para imitar las imperfecciones que se encuentran en las imágenes de video vigilancia del mundo real.

El equipo ha desarrollado un módulo de síntesis de cara controlable (CFSM) que puede regenerar caras en un estilo que refleja los defectos típicos de los sistemas de CCTV, como el desenfoque facial, la baja resolución y el ruido del sensor. Este enfoque difiere del uso de imágenes de celebridades de alta calidad de conjuntos de datos populares, que no capturan los desafíos del mundo real que enfrentan los sistemas de reconocimiento facial.

Arquitectura conceptual para el módulo de síntesis de cara controlable (CFSM). Fuente: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * Arquitectura conceptual para el módulo de síntesis de cara controlable (CFSM).* Fuente: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf

A diferencia de los sistemas Deepfake que se centran en replicar las posturas y las expresiones de la cabeza, CFSM tiene como objetivo generar vistas alternativas que coincidan con el estilo del sistema de reconocimiento de objetivos a través de la transferencia de estilo. Este módulo es particularmente útil para adaptarse a los sistemas heredados que es poco probable que se actualicen debido a limitaciones de costos, pero que aún necesitan contribuir a las tecnologías modernas de reconocimiento facial.

Al probar CFSM, los investigadores observaron mejoras significativas en los sistemas de reconocimiento de imágenes que tratan con datos de baja calidad. También descubrieron un beneficio inesperado: la capacidad de caracterizar y comparar conjuntos de datos de objetivos, lo que simplifica el proceso de evaluación comparativa y creación de conjuntos de datos a medida para varios sistemas de CCTV.

Entrenamiento de los modelos de reconocimiento facial para adaptarse a las limitaciones de los sistemas objetivo. Fuente: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * Entrenamiento de los modelos de reconocimiento facial para adaptarse a las limitaciones de los sistemas de destino.* Fuente: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf

El método también se puede aplicar a los conjuntos de datos existentes, realizando efectivamente la adaptación del dominio para que sean más adecuados para el reconocimiento facial. La investigación, titulada ** Síntesis de la cara controlable y guiada para el reconocimiento facial sin restricciones **, cuenta parcialmente apoyada por la Oficina de los Estados Unidos del Director de Inteligencia Nacional (ODNI, AT IARPA) e involucra a cuatro investigadores del Departamento de Ciencias e Ingeniería de la Computación de MSU.

Reconocimiento facial de baja calidad: un campo en crecimiento

En los últimos años, el reconocimiento facial de baja calidad (LQFR) ha surgido como un área significativa de estudio. Muchos sistemas de videovigilancia más antiguos, creados para ser duraderos y duraderos, se han vuelto anticuados y luchan por servir como fuentes de datos efectivas para el aprendizaje automático debido a la deuda técnica.

Varios niveles de resolución facial en una variedad de sistemas de videovigilancia históricos y más recientes. Fuente: https://arxiv.org/pdf/1805.11519.pdf Varios niveles de resolución facial en una variedad de sistemas de videovigilancia históricos y más recientes. Fuente: https://arxiv.org/pdf/1805.11519.pdf

F Afortunadamente, los modelos de difusión y otros modelos basados ​​en ruido son adecuados para abordar este problema. Muchos de los últimos sistemas de síntesis de imágenes incluyen imágenes de baja resolución de alta resolución como parte de su proceso, que también es crucial para las técnicas de compresión neural.

El desafío en el reconocimiento facial es maximizar la precisión con la menor cantidad de características posibles extraídas de imágenes de baja resolución. Esto no solo es útil para identificar caras a baja resolución, sino también necesaria debido a las limitaciones en el tamaño de la imagen en el espacio latente de los modelos de entrenamiento.

En la visión por computadora, las 'características' se refieren a distinguir las características de cualquier imagen, no solo caras. Con el avance en los algoritmos de escalada, se han propuesto varios métodos para mejorar las imágenes de vigilancia de baja resolución, lo que puede ser utilizable para fines legales como las investigaciones de la escena del crimen.

Sin embargo, existe un riesgo de identificación errónea, e idealmente, los sistemas de reconocimiento facial no deberían requerir imágenes de alta resolución para hacer identificaciones precisas. Tales transformaciones son costosas y plantean preguntas sobre su validez y legalidad.

La necesidad de más celebridades 'bajas'

Sería más beneficioso si los sistemas de reconocimiento facial podrían extraer características directamente de la salida de sistemas heredados sin necesidad de transformar las imágenes. Esto requiere una mejor comprensión de la relación entre las identidades de alta resolución y las imágenes degradadas de los sistemas de vigilancia existentes.

El problema radica en los estándares: los conjuntos de datos como MS-Celeb-1M y Webface260m se usan ampliamente porque proporcionan puntos de referencia consistentes. Sin embargo, los autores argumentan que los algoritmos de reconocimiento facial capacitados en estos conjuntos de datos no son adecuados para los dominios visuales de los sistemas de vigilancia más antiguos.

Ejemplos del popular conjunto de datos MS-CELEB1M de Microsoft. Fuente: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge---recognizing-one-million-celebrities-real-world/ * Ejemplos del popular conjunto de datos MS-Celeb1M de Microsoft.* Fuente: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

El artículo destaca que los modelos de reconocimiento facial de última generación luchan con las imágenes de vigilancia del mundo real debido a problemas de cambio de dominio. Estos modelos están entrenados en conjuntos de datos semi-limitados que carecen de las variaciones que se encuentran en los escenarios del mundo real, como el ruido del sensor y el desenfoque de movimiento.

Los métodos anteriores han tratado de coincidir con los resultados de los sistemas de vigilancia histórica o de bajo costo, pero estos fueron aumentos 'ciegos'. Por el contrario, CFSM utiliza retroalimentación directa del sistema objetivo durante el entrenamiento y se adapta a través de la transferencia de estilo a MIMIC ese dominio.

La actriz Natalie Portman, no ajena al puñado de conjuntos de datos que dominan la comunidad de visión por computadora, aparece entre las identidades en este ejemplo de CFSM que realiza una adaptación de dominio de estilo de estilo basada en la retroalimentación del dominio del modelo objetivo real. *La actriz Natalie Portman, no ajena al puñado de conjuntos de datos que dominan la comunidad de visión por computadora, aparece entre las identidades en este ejemplo de CFSM que realiza la adaptación de dominio de estilo CFSM basada en la retroalimentación del dominio del modelo objetivo real*.

La arquitectura de los autores utiliza el método de signo de gradiente rápido (FGSM) para importar estilos y características desde la salida del sistema de destino. A medida que avanza la capacitación, la parte de la generación de imágenes de la tubería se vuelve más fiel al sistema objetivo, mejorando el rendimiento del reconocimiento facial y las capacidades de generalización.

Pruebas y resultados

Los investigadores probaron CFSM utilizando el trabajo previo de MSU como plantilla, empleando MS-CELEB-1M y MS1M-V2 como conjuntos de datos de capacitación. Los datos objetivo eran el conjunto de datos de cara más amplia de la Universidad China de Hong Kong, diseñado para la detección de cara en situaciones desafiantes.

El sistema se evaluó contra cuatro puntos de referencia de reconocimiento facial: IJB-B, IJB-C, IJB-S y Tinyface. El CFSM fue entrenado con aproximadamente el 10% de los datos de MS-Celeb-1M, alrededor de 0,4 millones de imágenes, para 125,000 iteraciones a un tamaño por lotes de 32 utilizando el Optimizer Adam con una tasa de aprendizaje de 1E-4.

El modelo de reconocimiento facial de destino utilizó un resnet-50 modificado con la función de pérdida de la cara arc. Un modelo adicional fue entrenado con CFSM para comparación, etiquetado como 'Arcface' en los resultados.

Resultados de las pruebas primarias para CFSM. Los números más altos son mejores. *Resultados de las pruebas primarias para CFSM. Los números más altos son mejores.*

Los resultados mostraron que el modelo ARCFace, mejorado por CFSM, superó a todas las líneas de base en tareas de identificación y verificación de la cara, logrando un nuevo rendimiento de última generación.

La capacidad de extraer dominios de diversas características de los sistemas de vigilancia heredada también permite comparar y evaluar la similitud de distribución entre estos sistemas, presentando cada uno en términos de un estilo visual que puede aprovecharse en el trabajo futuro.

Los ejemplos de varios conjuntos de datos exhiben diferencias claras en el estilo. *Ejemplos de varios conjuntos de datos exhiben diferencias claras en el estilo.*

Los autores también señalaron que CFSM demuestra cómo se puede usar la manipulación adversaria para aumentar las precisiones de reconocimiento en las tareas de visión. Introducieron una métrica de similitud de conjunto de datos basada en bases de estilo aprendidas, capturando las diferencias de estilo de una etiqueta o una forma predictor-agnóstica.

La investigación subraya el potencial de los modelos de síntesis de la cara controlable y guiada para el reconocimiento facial no restringido y proporciona información sobre las diferencias de conjuntos de datos.

Artículo relacionado
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Comentario (0)
0/200
OR