Heim Nachricht 'Erniedrigte' synthetische Gesichter können die Gesichtserkennungstechnologie verbessern

'Erniedrigte' synthetische Gesichter können die Gesichtserkennungstechnologie verbessern

25. April 2025
KennethKing
0

Forscher der Michigan State University haben eine innovative Möglichkeit, synthetische Gesichter für eine edle Sache zu verwenden - die Genauigkeit von Bilderkennungssystemen zu verbessern. Anstatt zum Phänomen der Deepfakes beizutragen, sind diese synthetischen Gesichter so ausgelegt, dass sie die Unvollkommenheiten im realen Videoüberwachungsmaterial nachahmen.

Das Team hat ein kontrollierbares Gesichtssynthesemodul (CFSM) entwickelt, das Gesichter in einem Stil regenerieren kann, der die typischen Fehler von CCTV -Systemen wie Gesichtsunschärfe, geringe Auflösung und Sensorrauschen widerspiegelt. Dieser Ansatz unterscheidet sich von der Verwendung hochwertiger Promi-Bilder aus beliebten Datensätzen, die die realen Herausforderungen nicht erfassen, denen sich Gesichtserkennungssysteme gegenübersehen.

Konzeptionelle Architektur für das kontrollierbare Gesichtssynthesemodul (CFSM). Quelle: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * Konzeptuelle Architektur für das kontrollierbare Gesichtssynthesemodul (CFSM).* Quelle: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf

Im Gegensatz zu DeepFake -Systemen, die sich auf die Replikation von Kopfposen und Ausdrücken konzentrieren, zielt CFSM darauf ab, alternative Ansichten zu generieren, die dem Stil des Zielerkennungssystems durch Style Transfer entsprechen. Dieses Modul ist besonders nützlich, um sich an Legacy -Systeme anzupassen, die aufgrund von Kostenbeschränkungen unwahrscheinlich sind, aber dennoch zu modernen Technologien der Gesichtserkennung beitragen müssen.

Beim Testen von CFSM beobachteten die Forscher signifikante Verbesserungen der Bilderkennungssysteme, die sich mit Daten von geringer Qualität befassten. Sie entdeckten auch einen unerwarteten Vorteil: die Fähigkeit, Zieldatensätze zu charakterisieren und zu vergleichen, was den Prozess des Benchmarkierens und das Erstellen maßgeschneiderter Datensätze für verschiedene CCTV -Systeme vereinfacht.

Schulung der Gesichtserkennungsmodelle, um sich an die Grenzen der Zielsysteme anzupassen. Quelle: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * Schulung der Gesichtserkennungsmodelle, um sich an die Einschränkungen der Zielsysteme anzupassen.* Quelle: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf

Die Methode kann auch auf vorhandene Datensätze angewendet werden, um die Domänenanpassung effektiv durchzuführen, um sie für die Gesichtserkennung besser geeignet zu machen. Die Forschung mit dem Titel ** Controllable und Guided Face Synthese für nicht eingeschränkte Gesichtserkennung ** wird teilweise vom US -amerikanischen Büro des Direktors der nationalen Intelligenz (ODNI bei IARPA) unterstützt und umfasst vier Forscher der Abteilung für Informatik- und Ingenieurwesen der MSU.

Minderwertige Gesichtserkennung: Ein wachsendes Feld

In den letzten Jahren hat sich eine minderwertige Gesichtserkennung (LQFR) als bedeutende Untersuchungsgebiet herausgestellt. Viele ältere Videoüberwachungssysteme, die als langlebig und langlebig gebaut wurden, sind veraltet und haben sich aufgrund technischer Schulden als effektive Datenquellen für maschinelles Lernen kämpfen.

Variierende Maßnahmen der Gesichtsauflösung in einer Reihe historischer und neuerer Videoüberwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdf Variierende Maßnahmen der Gesichtsauflösung in einer Reihe historischer und neuerer Videoüberwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdf

Zum Glück sind Diffusionsmodelle und andere rauschbasierte Modelle gut geeignet, um dieses Problem anzugehen. Viele der neuesten Bildsynthesesysteme umfassen im Rahmen ihres Prozesses hochauflösende Bilder mit niedriger Auflösung, was auch für neuronale Komprimierungstechniken von entscheidender Bedeutung ist.

Die Herausforderung bei der Gesichtserkennung besteht darin, die Genauigkeit mit den wenigsten möglichen Merkmalen zu maximieren, die aus Bildern mit niedriger Auflösung extrahiert werden. Dies ist nicht nur nützlich, um Gesichter bei niedriger Auflösung zu identifizieren, sondern auch aufgrund der Einschränkungen der Bildgröße im latenten Raum der Trainingsmodelle erforderlich.

In Computer Vision beziehen sich 'Features' auf die Unterscheidung von Eigenschaften von jedem Bild, nicht nur auf Gesichter. Angesichts der Weiterentwicklung von Hochskalierungsalgorithmen wurden verschiedene Methoden vorgeschlagen, um das Überwachungsmaterial mit geringer Auflösung zu verbessern, was möglicherweise für rechtliche Zwecke wie Ermittlungen des Tatorts verwendet werden kann.

Es besteht jedoch das Risiko einer Fehlidentifizierung, und im Idealfall sollten Gesichtserkennungssysteme keine hochauflösenden Bilder erfordern, um genaue Identifikationen zu erstellen. Solche Transformationen sind teuer und werfen Fragen zu ihrer Gültigkeit und Legalität auf.

Die Notwendigkeit mehr 'Down-at-Heel' Prominente

Es wäre vorteilhafter, wenn Gesichtserkennungssysteme Merkmale direkt aus der Ausgabe von Legacy -Systemen extrahieren könnten, ohne die Bilder zu transformieren. Dies erfordert ein besseres Verständnis der Beziehung zwischen hochauflösenden Identitäten und den erniedrigten Bildern aus vorhandenen Überwachungssystemen.

Das Problem liegt in den Standards: Datensätze wie MS-CELEB-1M und Webface260M werden häufig verwendet, da sie konsistente Benchmarks bieten. Die Autoren argumentieren jedoch, dass Gesichtserkennungsalgorithmen, die auf diesen Datensätzen geschult wurden, nicht für die visuellen Bereiche älterer Überwachungssysteme geeignet sind.

Beispiele aus Microsofts beliebtem MS-CELEB1M-Datensatz. Quelle: https://www.microsoft.com/en-us/research/project/ms-celeb-calenge-recognizing-one-million-celebities-real-world/ * Beispiele aus Microsofts beliebtem MS-Celeb1m-Datensatz.

Das Papier zeigt, dass modernste Gesichtserkennungsmodelle aufgrund von Domänenverschiebungsproblemen mit realen Überwachungsbildern zu kämpfen haben. Diese Modelle werden auf halbbeschränkten Datensätzen geschult, denen die Variationen in realen Szenarien wie Sensorgeräuschen und Bewegungsunschärfe fehlen.

Frühere Methoden haben versucht, die Ausgänge historischer oder kostengünstiger Überwachungssysteme abzustimmen, aber diese waren "blinde" Augmentationen. Im Gegensatz dazu verwendet CFSM während des Trainings ein direktes Feedback aus dem Zielsystem und passt sich durch den Stiltransfer an diese Domäne an.

Die Schauspielerin Natalie Portman, kein Fremder für die Handvoll Datensätze, die die Computer-Vision-Community dominieren, zeigt in diesem Beispiel in diesem Beispiel von CFSM, die stilleichte Domänenanpassung basierend auf der Rückmeldung aus der Domäne des tatsächlichen Zielmodells durchführt. *Die Schauspielerin Natalie Portman, kein Fremder für die Handvoll Datensätze, die die Computer-Vision-Community dominieren, fasst sich in diesem Beispiel in diesem Beispiel von CFSM um, um eine stilbezogene Domänenanpassung basierend auf der Feedback aus der Domäne des tatsächlichen Zielmodells auszuführen.**

Die Architektur der Autoren verwendet die Fast Gradient Sign Method (FGSM), um Stile und Eigenschaften aus der Ausgabe des Zielsystems zu importieren. Im Laufe des Trainings wird der Teil der Pipeline im Bildgenerierung dem Zielsystem treu und verbessert die Funktionen der Gesichtserkennung und die Verallgemeinerungsfunktionen.

Tests und Ergebnisse

Die Forscher testeten CFSM mit früheren Arbeiten von MSU als Vorlage unter Verwendung von MS-CELEB-1M und MS1M-V2 als Trainingsdatensätze. Die Zieldaten waren der umfassendere Datensatz der chinesischen Universität Hongkong, das für die Erkennung von Gesicht in herausfordernden Situationen ausgelegt ist.

Das System wurde gegen vier Gesichtserkennungsbenchmarks bewertet: IJB-B, IJB-C, IJB-S und Tinyface. CFSM wurde mit etwa 10% der MS-Celeb-1M-Daten, rund 0,4 Millionen Bilder, für 125.000 Iterationen mit einer Chargengröße von 32 ausgebildet, wobei der Adam-Optimierer mit einer Lernrate von 1E-4 verwendet wurde.

Das Ziel-Gesichtserkennungsmodell verwendete eine modifizierte Resnet-50 mit Arcface-Verlustfunktion. Ein zusätzliches Modell wurde zum Vergleich mit CFSM trainiert, das in den Ergebnissen als "Arcface" bezeichnet wurde.

Ergebnisse aus den Primärtests für CFSM. Höhere Zahlen sind besser. *Ergebnisse aus den Primärtests für CFSM. Höhere Zahlen sind besser.*

Die Ergebnisse zeigten, dass das durch CFSM verbesserte Arcface-Modell alle Baselines sowohl bei der Gesichtsidentifizierung als auch bei Überprüfungsaufgaben übertroffen hat und neue hochmoderne Leistung erzielte.

Die Fähigkeit, Domänen aus verschiedenen Merkmalen von Legacy -Überwachungssystemen zu extrahieren, ermöglicht auch den Vergleich und Bewertung der Verteilungsähnlichkeit zwischen diesen Systemen, wobei sie jeweils in Bezug auf einen visuellen Stil darstellen, der in zukünftigen Arbeiten genutzt werden kann.

Beispiele aus verschiedenen Datensätzen zeigen klare Stilunterschiede. *Beispiele aus verschiedenen Datensätzen zeigen klare Stilunterschiede.*

Die Autoren stellten auch fest, dass CFSM demonstriert, wie kontrovers manipuliert werden kann, um die Erkennungsgenauigkeiten bei Sichtaufgaben zu erhöhen. Sie führten eine Datensatz-Ähnlichkeitsmetrik ein, die auf gelernten Stilbasen basiert und Stilunterschiede in einer Etikett- oder Prädiktor-agnostische Weise erfasst.

Die Forschung unterstreicht das Potenzial für kontrollierbare und geführte Gesichtssynthesemodelle für die Erkennung nicht eingeschränkter Gesicht und bietet Einblicke in Datensatzunterschiede.

Verwandter Artikel
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Kommentare (0)
0/200
OR