Option
Heim
Nachricht
'Erniedrigte' synthetische Gesichter können die Gesichtserkennungstechnologie verbessern

'Erniedrigte' synthetische Gesichter können die Gesichtserkennungstechnologie verbessern

25. April 2025
87

Forscher an der Michigan State University haben einen innovativen Ansatz entwickelt, um synthetische Gesichter für einen edlen Zweck zu nutzen – die Verbesserung der Genauigkeit von Bilderkennungssystemen. Anstatt zum Phänomen der Deepfakes beizutragen, sind diese synthetischen Gesichter darauf ausgelegt, die Unvollkommenheiten nachzuahmen, die in realen Videoüberwachungsaufnahmen vorkommen.

Das Team hat ein Kontrollierbares Gesichtssynthese-Modul (CFSM) entwickelt, das Gesichter in einem Stil regenerieren kann, der die typischen Mängel von CCTV-Systemen widerspiegelt, wie Gesichtsunschärfe, niedrige Auflösung und Sensorauschen. Dieser Ansatz unterscheidet sich von der Verwendung hochqualitativer Prominentenbilder aus populären Datensätzen, die die realen Herausforderungen von Gesichtserkennungssystemen nicht abbilden.

Konzeptionelle Architektur für das Kontrollierbare Gesichtssynthese-Modul (CFSM). Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf*Konzeptionelle Architektur für das Kontrollierbare Gesichtssynthese-Modul (CFSM).* Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

Im Gegensatz zu Deepfake-Systemen, die sich auf die Nachbildung von Kopfhaltungen und Ausdrücken konzentrieren, zielt CFSM darauf ab, alternative Ansichten zu generieren, die dem Stil des Zielerkennungssystems durch Stilübertragung entsprechen. Dieses Modul ist besonders nützlich, um sich an ältere Systeme anzupassen, die aufgrund von Kostenbeschränkungen wahrscheinlich nicht aufgerüstet werden, aber dennoch zu modernen Gesichtserkennungstechnologien beitragen müssen.

Bei der Erprobung von CFSM stellten die Forscher signifikante Verbesserungen bei Bilderkennungssystemen fest, die mit Daten niedriger Qualität arbeiten. Sie entdeckten auch einen unerwarteten Vorteil: die Fähigkeit, Zieldatensätze zu charakterisieren und zu vergleichen, was den Prozess der Leistungsbewertung und Erstellung maßgeschneiderter Datensätze für verschiedene CCTV-Systeme vereinfacht.

Training der Gesichtserkennungsmodelle, um sich an die Einschränkungen der Zielsysteme anzupassen. Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf*Training der Gesichtserkennungsmodelle, um sich an die Einschränkungen der Zielsysteme anzupassen.* Quelle: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Die Methode kann auch auf bestehende Datensätze angewendet werden, um eine effektive Domänenanpassung durchzuführen und sie für die Gesichtserkennung geeigneter zu machen. Die Forschung, betitelt **Kontrollierte und geführte Gesichtssynthese für uneingeschränkte Gesichtserkennung**, wird teilweise vom US Office of the Director of National Intelligence (ODNI, bei IARPA) unterstützt und umfasst vier Forscher aus der Abteilung für Informatik und Ingenieurwissenschaften der MSU.

Gesichtserkennung bei niedriger Qualität: Ein wachsendes Forschungsfeld

In den letzten Jahren hat die Gesichtserkennung bei niedriger Qualität (LQFR) als bedeutendes Studiengebiet an Bedeutung gewonnen. Viele ältere Videoüberwachungssysteme, die auf Langlebigkeit ausgelegt sind, sind veraltet und können aufgrund technischer Schulden nur schwer als effektive Datenquellen für maschinelles Lernen dienen.

Unterschiedliche Stufen der Gesichtsauflösung bei einer Reihe historischer und neuerer Videoüberwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdfUnterschiedliche Stufen der Gesichtsauflösung bei einer Reihe historischer und neuerer Videoüberwachungssysteme. Quelle: https://arxiv.org/pdf/1805.11519.pdf

Glücklicherweise sind Diffusionsmodelle und andere rausbasierte Modelle gut geeignet, dieses Problem anzugehen. Viele der neuesten Bildsynthesesysteme beinhalten das Hochskalieren von Bildern niedriger Auflösung als Teil ihres Prozesses, was auch für neuronale Kompressionstechniken entscheidend ist.

Die Herausforderung bei der Gesichtserkennung besteht darin, die Genauigkeit mit möglichst wenigen aus Bildern niedriger Auflösung extrahierten Merkmalen zu maximieren. Dies ist nicht nur nützlich für die Identifizierung von Gesichtern bei niedriger Auflösung, sondern auch notwendig aufgrund von Einschränkungen der Bildgröße im latenten Raum der Trainingsmodelle.

In der Computer Vision beziehen sich 'Merkmale' auf unterscheidende Charakteristika eines beliebigen Bildes, nicht nur von Gesichtern. Mit Fortschritten bei Hochskalierungsalgorithmen wurden verschiedene Methoden vorgeschlagen, um Videoüberwachungsaufnahmen niedriger Auflösung zu verbessern, was sie potenziell für rechtliche Zwecke wie Tatortuntersuchungen nutzbar macht.

Es besteht jedoch das Risiko einer Fehlidentifikation, und idealerweise sollten Gesichtserkennungssysteme keine hochauflösenden Bilder benötigen, um genaue Identifikationen durchzuführen. Solche Transformationen sind kostspielig und werfen Fragen nach ihrer Gültigkeit und Legalität auf.

Die Notwendigkeit für mehr 'heruntergekommene' Prominente

Es wäre vorteilhafter, wenn Gesichtserkennungssysteme Merkmale direkt aus der Ausgabe älterer Systeme extrahieren könnten, ohne die Bilder transformieren zu müssen. Dies erfordert ein besseres Verständnis der Beziehung zwischen hochauflösenden Identitäten und den degradierten Bildern bestehender Überwachungssysteme.

Das Problem liegt in den Standards: Datensätze wie MS-Celeb-1M und WebFace260M werden weitgehend verwendet, weil sie konsistente Benchmarks bieten. Die Autoren argumentieren jedoch, dass auf diesen Datensätzen trainierte Gesichtserkennungsalgorithmen nicht für die visuellen Domänen älterer Überwachungssysteme geeignet sind.

Beispiele aus Microsofts populärem MS-Celeb1m-Datensatz. Quelle: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/*Beispiele aus Microsofts populärem MS-Celeb1m-Datensatz.* Quelle: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Das Papier hebt hervor, dass hochmoderne Gesichtserkennungsmodelle mit realen Überwachungsbildern aufgrund von Domänenverschiebungsproblemen Schwierigkeiten haben. Diese Modelle werden auf halb-eingeschränkten Datensätzen trainiert, die die in realen Szenarien vorkommenden Variationen wie Sensorauschen und Bewegungsunschärfe nicht abbilden.

Frühere Methoden haben versucht, die Ausgaben historischer oder kostengünstiger Überwachungssysteme anzugleichen, aber dies waren 'blinde' Erweiterungen. Im Gegensatz dazu nutzt CFSM direktes Feedback vom Zielsystem während des Trainings und passt sich durch Stilübertragung an diese Domäne an.

Schauspielerin Natalie Portman, keine Unbekannte in den wenigen Datensätzen, die die Computer-Vision-Community dominieren, gehört zu den Identitäten in diesem Beispiel von CFSM, das eine stilangepasste Domänenanpassung basierend auf Feedback aus der Domäne des tatsächlichen Zielmodells durchführt.*Schauspielerin Natalie Portman, keine Unbekannte in den wenigen Datensätzen, die die Computer-Vision-Community dominieren, gehört zu den Identitäten in diesem Beispiel von CFSM, das eine stilangepasste Domänenanpassung basierend auf Feedback aus der Domäne des tatsächlichen Zielmodells durchführt.*

Die Architektur der Autoren verwendet die Fast Gradient Sign Method (FGSM), um Stile und Charakteristika aus der Ausgabe des Zielsystems zu importieren. Mit fortschreitendem Training wird der Bildgenerierungsteil der Pipeline dem Zielsystem treuer, was die Leistung und Verallgemeinerungsfähigkeit der Gesichtserkennung verbessert.

Tests und Ergebnisse

Die Forscher testeten CFSM unter Verwendung früherer Arbeiten der MSU als Vorlage und nutzten MS-Celeb-1m und MS1M-V2 als Trainingsdatensätze. Die Zieldaten waren der WiderFace-Datensatz der Chinese University of Hong Kong, der für die Gesichtserkennung in anspruchsvollen Situationen entwickelt wurde.

Das System wurde anhand von vier Gesichtserkennungs-Benchmarks bewertet: IJB-B, IJB-C, IJB-S und TinyFace. CFSM wurde mit etwa 10% der MS-Celeb-1m-Daten, rund 0,4 Millionen Bildern, für 125.000 Iterationen bei einer Batchgröße von 32 mit dem Adam-Optimierer und einer Lernrate von 1e-4 trainiert.

Das Zielgesichtserkennungsmodell verwendete ein modifiziertes ResNet-50 mit ArcFace-Verlustfunktion. Ein zusätzliches Modell wurde mit CFSM trainiert, um einen Vergleich zu ermöglichen, in den Ergebnissen als 'ArcFace' bezeichnet.

Ergebnisse der Haupttests für CFSM. Höhere Zahlen sind besser.*Ergebnisse der Haupttests für CFSM. Höhere Zahlen sind besser.*

Die Ergebnisse zeigten, dass das durch CFSM verbesserte ArcFace-Modell alle Basislinien sowohl bei der Gesichtsidentifikation als auch bei der Verifikation übertraf und eine neue Spitzenleistung erreichte.

Die Fähigkeit, Domänen aus verschiedenen Charakteristika älterer Überwachungssysteme zu extrahieren, ermöglicht auch den Vergleich und die Bewertung der Verteilungsgleichheit zwischen diesen Systemen und stellt sie jeweils in Form eines visuellen Stils dar, der in zukünftigen Arbeiten genutzt werden kann.

Beispiele aus verschiedenen Datensätzen zeigen klare Stilunterschiede.*Beispiele aus verschiedenen Datensätzen zeigen klare Stilunterschiede.*

Die Autoren stellten auch fest, dass CFSM zeigt, wie adversariale Manipulation genutzt werden kann, um die Erkennungsgenauigkeit bei visuellen Aufgaben zu erhöhen. Sie führten eine Datensatzähnlichkeitsmetrik basierend auf gelernten Stilbasen ein, die Stilunterschiede auf eine label- oder prädiktorunabhängige Weise erfasst.

Die Forschung unterstreicht das Potenzial kontrollierter und geführter Gesichtssynthesemodelle für uneingeschränkte Gesichtserkennung und liefert Einblicke in Datensatzunterschiede.

Verwandter Artikel
Microsoft-Studie zeigt die Grenzen von KI-Modellen beim Software-Debugging Microsoft-Studie zeigt die Grenzen von KI-Modellen beim Software-Debugging KI-Modelle von OpenAI, Anthropic und anderen führenden KI-Laboren werden zunehmend für Programmieraufgaben eingesetzt. Google-CEO Sundar Pichai bemerkte im Oktober, dass KI 25 % des neuen Codes im Unt
KI-gestützte Lösungen könnten globale Kohlenstoffemissionen erheblich reduzieren KI-gestützte Lösungen könnten globale Kohlenstoffemissionen erheblich reduzieren Eine kürzlich veröffentlichte Studie der London School of Economics und Systemiq zeigt, dass künstliche Intelligenz die globalen Kohlenstoffemissionen erheblich senken könnte, ohne moderne Annehmlichk
Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern Neue Studie enthüllt, wie viel Daten LLMs tatsächlich speichern Wie viel speichern AI-Modelle tatsächlich? Neue Forschung enthüllt überraschende ErkenntnisseWir alle wissen, dass große Sprachmodelle (LLMs) wie ChatGPT, Claude und Gemini auf riesigen Datensätzen tr
Kommentare (10)
0/200
LarryWilliams
LarryWilliams 27. April 2025 09:58:26 MESZ

C'est une initiative fascinante pour améliorer la reconnaissance faciale. Utiliser des visages synthétiques plutôt que de contribuer aux deepfakes est une bonne chose. J'espère qu'ils y arriveront bien. 😊🧐

CharlesJohnson
CharlesJohnson 27. April 2025 09:57:41 MESZ

¡Qué genial usar caras sintéticas para mejorar el reconocimiento facial! Me encanta que la tecnología se use para algo bueno y no para deepfakes. Lo único es que podría ser más fácil de usar, pero de todos modos, ¡innovación de primera! 👌

MatthewGonzalez
MatthewGonzalez 26. April 2025 22:27:32 MESZ

Que ideia genial usar faces sintéticas para melhorar o reconhecimento facial! Adoro que a tecnologia esteja sendo usada para o bem, e não para deepfakes. A única coisa é que poderia ser mais fácil de usar, mas ainda assim, inovação top! 👍

FrankSmith
FrankSmith 26. April 2025 18:19:01 MESZ

미시간 주립대 연구진이 하는 이 작업은 정말 멋져 보입니다. 인공 얼굴을 이용해 이미지 인식 기술을 개선하려는 목적 자체가 놀랍네요. 실용성 검증이 필요할 것 같아요. 😎💡

FrankJackson
FrankJackson 26. April 2025 16:20:26 MESZ

合成顔を使って顔認識技術を向上させるなんて、素晴らしいアイデアだと思う!深偽ではなく、良い目的に使われる技術は嬉しいね。ただ、もう少し使いやすければ完璧だったのに。でも、革新性には拍手を送りたい!👏

SebastianAnderson
SebastianAnderson 26. April 2025 15:00:27 MESZ

¡Es una idea muy interesante! Usar caras sintéticas para mejorar el reconocimiento facial parece un gran avance. Sin embargo, espero que no genere más problemas de privacidad. 🌟🤔

Zurück nach oben
OR