Дом Новости «Униженные» синтетические лица могут улучшить технологию распознавания лиц

«Униженные» синтетические лица могут улучшить технологию распознавания лиц

25 апреля 2025 г.
KennethKing
0

Исследователи из Университета штата Мичиган придумали инновационный способ использовать синтетические лица для благородного дела - повышение точности систем распознавания изображений. Вместо того, чтобы вносить свой вклад в явление DeepFakes, эти синтетические лица предназначены для имитации недостатков, обнаруженных в реальных кадрах наблюдения за видео.

Команда разработала контролируемый модуль синтеза лица (CFSM), который может регенерировать лица в стиле, который отражает типичные недостатки систем видеонаблюдения, таких как размытие лица, низкое разрешение и шум датчика. Этот подход отличается от использования высококачественных изображений знаменитостей из популярных наборов данных, которые не отражают реальные проблемы, с которыми сталкиваются системы распознавания лиц.

Концептуальная архитектура для модуля управляемого синтеза лица (CFSM). Источник: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf * Концептуальная архитектура для контролируемого модуля синтеза лица (CFSM).* Источник: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf

В отличие от систем DeepFake, которые фокусируются на репликации поза и выражения головы, CFSM стремится создать альтернативные представления, которые соответствуют стилю системы распознавания целей посредством переноса стиля. Этот модуль особенно полезен для адаптации к устаревшим системам, которые вряд ли будут обновлены из -за ограничений затрат, но все же необходимо вносить вклад в современные технологии распознавания лица.

При тестировании CFSM исследователи наблюдали значительные улучшения в системах распознавания изображений, касающихся низкокачественных данных. Они также обнаружили неожиданное преимущество: способность характеризовать и сравнивать целевые наборы данных, что упрощает процесс сравнительного анализа и создания индивидуальных наборов данных для различных систем видеонаблюдения.

Обучение моделей распознавания лица для адаптации к ограничениям целевых систем. Источник: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf * Обучение моделей распознавания лица для адаптации к ограничениям целевых систем.* Источник: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf

Метод также может быть применен к существующим наборам данных, эффективно выполняя адаптацию домены, чтобы сделать их более подходящими для распознавания лиц. Исследование под названием ** Синтез управляемого и управляемого лица для неограниченного распознавания лица **, частично поддерживается Управлением директора национальной разведки США (ODNI, в IARPA) и включает в себя четырех исследователей из департамента компьютерных наук и инженерии МГУ.

Низкокачественное распознавание лица: растущая поле

За последние несколько лет низкокачественное распознавание лиц (LQFR) стало важной областью исследования. Многие старые системы наблюдения за видео, созданные для того, чтобы быть долговечными и долговечными, устарели и борются за то, чтобы служить эффективными источниками данных для машинного обучения из-за технического долга.

Различные уровни разрешения лица в ряде исторических и более поздних систем видеонаблюдения. Источник: https://arxiv.org/pdf/1805.11519.pdf Различные уровни разрешения лица в ряде исторических и более поздних систем видеонаблюдения. Источник: https://arxiv.org/pdf/1805.11519.pdf

К счастью, диффузионные модели и другие модели на основе шума хорошо подходят для решения этой проблемы. Многие из новейших систем синтеза изображений включают в себя масштабирующие изображения с низким разрешением в рамках их процесса, что также имеет решающее значение для методов сжатия нервной системы.

Задача в распознавании лица заключается в максимизации точности с наименьшими возможными функциями, извлеченными из изображений с низким разрешением. Это не только полезно для выявления лиц с низким разрешением, но также и необходимо из -за ограничений размера изображения в скрытом пространстве тренировочных моделей.

В компьютерном зрении «функции» относятся к отличительным характеристикам от любого изображения, а не только для лиц. С развитием в алгоритмах масштабирования были предложены различные методы для улучшения кадров наблюдения с низким разрешением, что может сделать его полезным для юридических целей, таких как расследования на месте преступления.

Тем не менее, существует риск неправильной идентификации, и в идеале системы распознавания лиц не должны требовать изображений с высоким разрешением для проведения точных идентификаций. Такие преобразования являются дорогостоящими и поднимают вопросы об их достоверности и законности.

Потребность в более знаменитостях «на кальку»

Было бы более полезно, если бы системы распознавания лиц могли бы извлекать функции непосредственно из вывода устаревших систем без необходимости преобразования изображений. Это требует лучшего понимания взаимосвязи между идентичностями высокого разрешения и деградированными изображениями из существующих систем наблюдения.

Проблема заключается в стандартах: широко используются наборы данных, такие как MS-CELEB-1 и WebFace260M, потому что они обеспечивают последовательные тесты. Тем не менее, авторы утверждают, что алгоритмы распознавания лиц, обученные этим наборам данных, не подходят для визуальных областей старых систем наблюдения.

Примеры из популярного набора данных MSCELEB1M от Microsoft. Источник: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/ * Примеры из популярного набора данных MSCELEB1M от Microsoft.

В документе подчеркивается, что современные модели распознавания лиц борются с реальными изображениями наблюдения из-за проблем смены домена. Эти модели обучаются на полусвященных наборах данных, в которых отсутствуют вариации, обнаруженные в реальных сценариях, таких как шум датчика и размытие движения.

Предыдущие методы пытались сопоставить выходы исторических или недорогих систем наблюдения, но это были «слепые» дополнения. Напротив, CFSM использует прямую обратную связь от целевой системы во время обучения и адаптируется посредством переноса стиля, чтобы имитировать этот домен.

Актриса Натали Портман, не привыкая к горстке наборов данных, которые доминируют в сообществе компьютерных зрений, функции среди идентичностей в этом примере CFSM, выполняющей адаптацию, соответствующую домену, основанную на обратной связи из домена фактической целевой модели. *Актриса Натали Портман, не привыкать к горстке наборов данных, которые доминируют в сообществе компьютерного зрения, функции среди идентичностей в этом примере CFSM, выполняющей адаптацию, соответствующую домену в стиле, на основе отзывов из домена фактической целевой модели.*

Архитектура авторов использует метод знака быстрого градиента (FGSM) для импорта стилей и характеристик с вывода целевой системы. По мере продвижения обучения, генерация изображений, часть трубопровода становится более верной целевой системе, улучшая эффективность распознавания лица и возможности обобщения.

Тесты и результаты

Исследователи тестировали CFSM, используя предыдущую работу MSU в качестве шаблона, используя MS-CELEB-1M и MS1M-V2 в качестве наборов данных. Целевые данные представляли собой набор данных Widerface от Китайского университета Гонконга, предназначенного для обнаружения лица в сложных ситуациях.

Система была оценена по четырем критериям распознавания лица: IJB-B, IJB-C, IJB-S и Tinyface. CFSM обучался примерно 10% данных MS-CELEB-1, около 0,4 миллиона изображений, для 125 000 итераций при размере пакетного размера 32 с использованием оптимизатора ADAM с уровнем обучения 1E-4.

Целевая модель распознавания лица использовала модифицированную функцию RESNET-50 с потерей дуги. Дополнительная модель была обучена с помощью CFSM для сравнения, помеченная как «Arcface» в результатах.

Результаты основных тестов для CFSM. Более высокие числа лучше. *Результаты первичных тестов для CFSM. Более высокие числа лучше.*

Результаты показали, что модель Arcface, улучшенная CFSM, превзошла все базовые показатели как в задачах идентификации, так и проверки, достигнув новой современной производительности.

Способность извлекать домены из различных характеристик устаревших систем наблюдения также позволяет сравнивать и оценивать сходство распределения между этими системами, представляя каждый с точки зрения визуального стиля, который можно использовать в будущей работе.

Примеры из различных наборов данных демонстрируют четкие различия в стиле. *Примеры из различных наборов данных демонстрируют четкие различия в стиле.*

Авторы также отметили, что CFSM демонстрирует, как состязательные манипуляции можно использовать для повышения точности распознавания в задачах зрения. Они представили метрику сходства наборов данных, основанную на основаниях обученных стилей, захватывая различия в стиле в марке или предикторе.

Исследование подчеркивает потенциал контролируемых и управляемых моделей синтеза лица для неограниченного распознавания лиц и дает представление о различиях на наборах данных.

Связанная статья
DeepSeek's AIs Uncover True Human Desires DeepSeek's AIs Uncover True Human Desires DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model DeepCoder Achieves High Coding Efficiency with 14B Open Model Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Лучшие новости
ИИ может быть ключом к разблокировке более эффективного государственного сектора Великобритании 8 инновационных способов использования LIDAR на iPhone и iPad раскрыли «Группы призывают Swift мера по снижению экологического воздействия AI» Google.org раскрывает гранты на обучение AI за 15 миллионов долларов для государственных работников 7 причин, по которым Kindles остается отличной покупкой, даже без загрузок Telli, выпускник YC, обеспечивает предварительное финансирование для голосовых агентов AI Nvidia представляет графические процессоры следующего поколения: Blackwell Ultra, Vera Rubin, Feynman Sneak Peek: в последних проектах Adobe представлены продвинутые агенты искусственного интеллекта Tinder исследует совпадение искусственного интеллекта на фоне упадка пользователей

5 простых шагов для восстановления конфиденциальности данных в Интернете - начните сегодня

Более
OR