вариант
Дом
Новости
«Униженные» синтетические лица могут улучшить технологию распознавания лиц

«Униженные» синтетические лица могут улучшить технологию распознавания лиц

25 апреля 2025 г.
87

Исследователи Университета штата Мичиган разработали инновационный способ использования синтетических лиц для благородной цели — повышения точности систем распознавания изображений. Вместо способствования феномену дипфейков, эти синтетические лица созданы для имитации несовершенств, встречающихся в реальных видеозаписях с камер наблюдения.

Команда разработала модуль контролируемого синтеза лиц (CFSM), который может генерировать лица в стиле, отражающем типичные дефекты систем видеонаблюдения, такие как размытость лиц, низкое разрешение и шум датчиков. Этот подход отличается от использования высококачественных изображений знаменитостей из популярных наборов данных, которые не отражают реальных проблем, с которыми сталкиваются системы распознавания лиц.

Концептуальная архитектура модуля контролируемого синтеза лиц (CFSM). Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf*Концептуальная архитектура модуля контролируемого синтеза лиц (CFSM).* Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

В отличие от систем дипфейков, которые сосредоточены на воспроизведении поз головы и выражений, CFSM стремится генерировать альтернативные виды, соответствующие стилю целевой системы распознавания через перенос стиля. Этот модуль особенно полезен для адаптации к устаревшим системам, которые вряд ли будут модернизированы из-за ограничений бюджета, но всё ещё должны поддерживать современные технологии распознавания лиц.

При тестировании CFSM исследователи отметили значительные улучшения в системах распознавания изображений, работающих с данными низкого качества. Они также обнаружили неожиданное преимущество: возможность характеризовать и сравнивать целевые наборы данных, что упрощает процесс бенчмаркинга и создания специализированных наборов данных для различных систем видеонаблюдения.

Обучение моделей распознавания лиц для адаптации к ограничениям целевых систем. Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf*Обучение моделей распознавания лиц для адаптации к ограничениям целевых систем.* Источник: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

Этот метод также может быть применён к существующим наборам данных, эффективно выполняя адаптацию домена, чтобы сделать их более подходящими для распознавания лиц. Исследование, озаглавленное **Контролируемый и направляемый синтез лиц для неограниченного распознавания лиц**, частично поддержано Управлением директора национальной разведки США (ODNI, в IARPA) и включает четырёх исследователей из департамента компьютерных наук и инженерии MSU.

Распознавание лиц низкого качества: растущая область

За последние несколько лет распознавание лиц низкого качества (LQFR) стало важной областью исследований. Многие старые системы видеонаблюдения, созданные для долговечности, устарели и с трудом служат эффективными источниками данных для машинного обучения из-за технического долга.

Различные уровни разрешения лиц в диапазоне исторических и более современных систем видеонаблюдения. Источник: https://arxiv.org/pdf/1805.11519.pdfРазличные уровни разрешения лиц в диапазоне исторических и более современных систем видеонаблюдения. Источник: https://arxiv.org/pdf/1805.11519.pdf

К счастью, диффузионные модели и другие модели, основанные на шуме, хорошо подходят для решения этой проблемы. Многие из последних систем синтеза изображений включают масштабирование изображений низкого разрешения в свой процесс, что также важно для техник нейронной компрессии.

Задача распознавания лиц заключается в максимизации точности при минимальном количестве признаков, извлечённых из изображений низкого разрешения. Это полезно не только для идентификации лиц при низком разрешении, но и необходимо из-за ограничений на размер изображений в латентном пространстве обучающих моделей.

В компьютерном зрении «признаки» означают отличительные характеристики любого изображения, а не только лиц. С развитием алгоритмов масштабирования предложены различные методы для улучшения видеозаписей низкого разрешения, что потенциально делает их пригодными для юридических целей, таких как расследование мест преступлений.

Однако существует риск ошибочной идентификации, и в идеале системы распознавания лиц не должны требовать изображений высокого разрешения для точной идентификации. Такие преобразования дорогостоящи и вызывают вопросы о их достоверности и законности.

Потребность в более «потрёпанных» знаменитостях

Было бы полезнее, если бы системы распознавания лиц могли извлекать признаки непосредственно из выходных данных устаревших систем без необходимости преобразования изображений. Это требует лучшего понимания связи между идентичностями высокого разрешения и деградированными изображениями из существующих систем наблюдения.

Проблема заключается в стандартах: наборы данных, такие как MS-Celeb-1M и WebFace260M, широко используются, поскольку предоставляют согласованные эталоны. Однако авторы утверждают, что алгоритмы распознавания лиц, обученные на этих наборах данных, не подходят для визуальных доменов старых систем наблюдения.

Примеры из популярного набора данных MS-Celeb1m от Microsoft. Источник: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/*Примеры из популярного набора данных MS-Celeb1m от Microsoft.* Источник: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

В статье подчёркивается, что современные модели распознавания лиц сталкиваются с трудностями при работе с реальными изображениями видеонаблюдения из-за проблем смещения домена. Эти модели обучены на частично ограниченных наборах данных, которые не содержат вариаций, встречающихся в реальных сценариях, таких как шум датчиков и размытие движения.

Предыдущие методы пытались соответствовать выходным данным исторических или недорогих систем наблюдения, но это были «слепые» дополнения. В отличие от них, CFSM использует прямую обратную связь от целевой системы во время обучения и адаптируется через перенос стиля, чтобы имитировать этот домен.

Актриса Натали Портман, хорошо знакомая с несколькими наборами данных, доминирующими в сообществе компьютерного зрения, фигурирует среди идентичностей в этом примере CFSM, выполняющего адаптацию домена с учётом стиля на основе обратной связи от домена целевой модели.*Актриса Натали Портман, хорошо знакомая с несколькими наборами данных, доминирующими в сообществе компьютерного зрения, фигурирует среди идентичностей в этом примере CFSM, выполняющего адаптацию домена с учётом стиля на основе обратной связи от домена целевой модели.*

Архитектура авторов использует метод быстрого градиентного знака (FGSM) для импорта стилей и характеристик из выходных данных целевой системы. По мере обучения часть генерации изображений становится более точной по отношению к целевой системе, улучшая производительность распознавания лиц и возможности обобщения.

Тесты и результаты

Исследователи протестировали CFSM, используя предыдущие работы MSU в качестве шаблона, с наборами данных MS-Celeb-1m и MS1M-V2 для обучения. Целевые данные представляли собой набор WiderFace от Китайского университета Гонконга, предназначенный для обнаружения лиц в сложных условиях.

Система была оценена по четырём эталонам распознавания лиц: IJB-B, IJB-C, IJB-S и TinyFace. CFSM обучался на примерно 10% данных MS-Celeb-1m, около 0,4 миллиона изображений, в течение 125 000 итераций с размером пакета 32, используя оптимизатор Adam с шагом обучения 1e-4.

Целевая модель распознавания лиц использовала модифицированный ResNet-50 с функцией потерь ArcFace. Дополнительная модель была обучена с CFSM для сравнения, обозначенная как «ArcFace» в результатах.

Результаты основных тестов для CFSM. Более высокие значения лучше.*Результаты основных тестов для CFSM. Более высокие значения лучше.*

Результаты показали, что модель ArcFace, улучшенная с помощью CFSM, превзошла все базовые показатели как в задачах идентификации, так и в верификации лиц, достигнув нового уровня производительности.

Способность извлекать домены из различных характеристик устаревших систем наблюдения также позволяет сравнивать и оценивать сходство распределений среди этих систем, представляя каждую в терминах визуального стиля, который может быть использован в будущих работах.

Примеры из различных наборов данных демонстрируют явные различия в стиле.*Примеры из различных наборов данных демонстрируют явные различия в стиле.*

Авторы также отметили, что CFSM демонстрирует, как адверсарная манипуляция может быть использована для повышения точности распознавания в задачах компьютерного зрения. Они ввели метрику сходства наборов данных, основанную на изученных стилевых базах, фиксирующую различия в стиле независимо от меток или предикторов.

Исследование подчёркивает потенциал моделей контролируемого и направляемого синтеза лиц для неограниченного распознавания лиц и предоставляет понимание различий между наборами данных.

Связанная статья
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% новог
AI-мощные решения могут значительно сократить глобальные выбросы углерода AI-мощные решения могут значительно сократить глобальные выбросы углерода Недавнее исследование Лондонской школы экономики и Systemiq показывает, что искусственный интеллект может существенно снизить глобальные выбросы углерода без ущерба для современных удобств, позиционир
Новая статья раскрывает, сколько данных на самом деле запоминают LLM Новая статья раскрывает, сколько данных на самом деле запоминают LLM Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводыВсе мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных
Комментарии (10)
LarryWilliams
LarryWilliams 27 апреля 2025 г., 10:58:26 GMT+03:00

C'est une initiative fascinante pour améliorer la reconnaissance faciale. Utiliser des visages synthétiques plutôt que de contribuer aux deepfakes est une bonne chose. J'espère qu'ils y arriveront bien. 😊🧐

CharlesJohnson
CharlesJohnson 27 апреля 2025 г., 10:57:41 GMT+03:00

¡Qué genial usar caras sintéticas para mejorar el reconocimiento facial! Me encanta que la tecnología se use para algo bueno y no para deepfakes. Lo único es que podría ser más fácil de usar, pero de todos modos, ¡innovación de primera! 👌

MatthewGonzalez
MatthewGonzalez 26 апреля 2025 г., 23:27:32 GMT+03:00

Que ideia genial usar faces sintéticas para melhorar o reconhecimento facial! Adoro que a tecnologia esteja sendo usada para o bem, e não para deepfakes. A única coisa é que poderia ser mais fácil de usar, mas ainda assim, inovação top! 👍

FrankSmith
FrankSmith 26 апреля 2025 г., 19:19:01 GMT+03:00

미시간 주립대 연구진이 하는 이 작업은 정말 멋져 보입니다. 인공 얼굴을 이용해 이미지 인식 기술을 개선하려는 목적 자체가 놀랍네요. 실용성 검증이 필요할 것 같아요. 😎💡

FrankJackson
FrankJackson 26 апреля 2025 г., 17:20:26 GMT+03:00

合成顔を使って顔認識技術を向上させるなんて、素晴らしいアイデアだと思う!深偽ではなく、良い目的に使われる技術は嬉しいね。ただ、もう少し使いやすければ完璧だったのに。でも、革新性には拍手を送りたい!👏

SebastianAnderson
SebastianAnderson 26 апреля 2025 г., 16:00:27 GMT+03:00

¡Es una idea muy interesante! Usar caras sintéticas para mejorar el reconocimiento facial parece un gran avance. Sin embargo, espero que no genere más problemas de privacidad. 🌟🤔

Вернуться к вершине
OR