'저하 된'합성면은 얼굴 인식 기술을 향상시킬 수 있습니다

집

뉴스

2025년 4월 25일

KennethKing

# research

미시간 주립대학교의 연구자들은 합성 얼굴을 고귀한 목적으로 사용하기 위한 혁신적인 방법을 고안했습니다—이미지 인식 시스템의 정확도를 높이는 것입니다. 딥페이크 현상에 기여하는 대신, 이 합성 얼굴들은 실세계 비디오 감시 영상에서 발견되는 불완전함을 모방하도록 설계되었습니다.

연구팀은 CCTV 시스템의 전형적인 결함, 예를 들어 얼굴 흐림, 저해상도, 센서 노이즈 등을 반영하는 스타일로 얼굴을 재생성할 수 있는 제어 가능한 얼굴 합성 모듈(CFSM)을 개발했습니다. 이 접근법은 인기 있는 데이터셋에서 고품질 연예인 이미지를 사용하는 것과 달리, 얼굴 인식 시스템이 직면한 실세계의 도전 과제를 포착하지 않습니다.

*제어 가능한 얼굴 합성 모듈(CFSM)의 개념적 구조.* 출처: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022.pdf

딥페이크 시스템이 머리 포즈와 표정을 복제하는 데 초점을 맞춘 것과 달리, CFSM은 스타일 전이를 통해 대상 인식 시스템의 스타일과 일치하는 대체 뷰를 생성하는 것을 목표로 합니다. 이 모듈은 비용 제약으로 인해 업그레이드될 가능성이 낮은 레거시 시스템에 적응하여 현대 얼굴 인식 기술에 기여하는 데 특히 유용합니다.

CFSM을 테스트했을 때, 연구자들은 저품질 데이터 처리에서 이미지 인식 시스템의 상당한 개선을 관찰했습니다. 또한 예상치 못한 이점으로, 대상 데이터셋을 특성화하고 비교할 수 있는 능력을 발견했으며, 이는 다양한 CCTV 시스템에 맞춘 데이터셋을 벤치마킹하고 생성하는 과정을 단순화합니다.

*대상 시스템의 한계에 적응하도록 얼굴 인식 모델을 훈련시키는 과정.* 출처: http://cvlab.cse.msu.edu/pdfs/Liu_Kim_Jain_Liu_ECCV2022_supp.pdf

이 방법은 기존 데이터셋에도 적용될 수 있으며, 도메인 적응을 효과적으로 수행하여 얼굴 인식에 더 적합하게 만듭니다. **제어 가능하고 안내된 얼굴 합성을 통한 제약 없는 얼굴 인식**이라는 제목의 이 연구는 미국 국립정보국(ODNI, at IARPA)의 부분적 지원을 받았으며, MSU의 컴퓨터 과학 및 공학 부서의 네 명의 연구자가 참여했습니다.

저품질 얼굴 인식: 성장하는 분야

지난 몇 년 동안 저품질 얼굴 인식(LQFR)은 중요한 연구 분야로 떠올랐습니다. 내구성과 장기 사용을 목표로 구축된 많은 오래된 비디오 감시 시스템은 기술적 부채로 인해 구식이 되었으며, 기계 학습에 효과적인 데이터 소스로 기능하기에 어려움을 겪고 있습니다.

과거 및 최근 비디오 감시 시스템에 걸친 다양한 얼굴 해상도 수준. 출처: https://arxiv.org/pdf/1805.11519.pdf

다행히도, 확산 모델 및 기타 노이즈 기반 모델은 이 문제를 해결하는 데 적합합니다. 최신 이미지 합성 시스템의 많은 부분은 저해상도 이미지를 업스케일링하는 과정을 포함하며, 이는 신경 압축 기술에도 중요합니다.

얼굴 인식의 과제는 저해상도 이미지에서 추출된 최소한의 특징으로 정확도를 극대화하는 것입니다. 이는 저해상도에서 얼굴을 식별하는 데 유용할 뿐만 아니라, 훈련 모델의 잠재 공간에서 이미지 크기 제한으로 인해 필요합니다.

컴퓨터 비전에서 '특징'은 얼굴이 아닌 모든 이미지에서 구별되는 특성을 의미합니다. 업스케일링 알고리즘의 발전으로, 저해상도 감시 영상을 향상시키는 다양한 방법이 제안되었으며, 이는 범죄 현장 조사와 같은 법적 목적으로 사용 가능할 수 있습니다.

그러나 오인식의 위험이 있으며, 이상적으로 얼굴 인식 시스템은 정확한 식별을 위해 고해상도 이미지를 요구하지 않아야 합니다. 이러한 변환은 비용이 많이 들고, 그 유효성과 법적 문제에 대한 의문을 제기합니다.

더 '낡은' 연예인 데이터의 필요성

얼굴 인식 시스템이 이미지를 변환하지 않고 레거시 시스템의 출력에서 직접 특징을 추출할 수 있다면 더 유익할 것입니다. 이를 위해서는 고해상도 신원과 기존 감시 시스템에서 나온 저하된 이미지 간의 관계를 더 잘 이해해야 합니다.

문제는 표준에 있습니다: MS-Celeb-1M 및 WebFace260M과 같은 데이터셋은 일관된 벤치마크를 제공하기 때문에 널리 사용됩니다. 그러나 저자들은 이러한 데이터셋으로 훈련된 얼굴 인식 알고리즘은 오래된 감시 시스템의 시각적 도메인에 적합하지 않다고 주장합니다.

*마이크로소프트의 인기 있는 MS-Celeb1m 데이터셋의 예시.* 출처: https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

논문은 최첨단 얼굴 인식 모델이 도메인 이동 문제로 인해 실세계 감시 영상에서 어려움을 겪는다고 강조합니다. 이러한 모델은 센서 노이즈나 모션 블러와 같은 실세계 시나리오에서 발견되는 변화를 포함하지 않는 반제약적 데이터셋으로 훈련됩니다.

이전 방법들은 역사적 또는 저비용 감시 시스템의 출력과 일치시키려 했지만, 이는 '맹목적' 증강이었습니다. 반면, CFSM은 훈련 중 대상 시스템의 직접적인 피드백을 사용하고 스타일 전이를 통해 해당 도메인을 모방하도록 적응합니다.

*컴퓨터 비전 커뮤니티를 지배하는 소수의 데이터셋에 익숙한 배우 나탈리 포트먼이, 실제 대상 모델의 도메인 피드백을 기반으로 CFSM이 스타일 매칭 도메인 적응을 수행하는 이 예시에서 신원 중 하나로 등장합니다.*

저자들의 구조는 빠른 그래디언트 사인 방법(FGSM)을 사용하여 대상 시스템 출력에서 스타일과 특성을 가져옵니다. 훈련이 진행됨에 따라 파이프라인의 이미지 생성 부분은 대상 시스템에 더 충실해지며, 얼굴 인식 성능과 일반화 능력을 향상시킵니다.

테스트 및 결과

연구자들은 MSU의 이전 작업을 템플릿으로 사용하여 CFSM을 테스트했으며, MS-Celeb-1m 및 MS1M-V2를 훈련 데이터셋으로 사용했습니다. 대상 데이터는 홍콩 중문대학교의 WiderFace 데이터셋으로, 도전적인 상황에서 얼굴 탐지를 위해 설계되었습니다.

이 시스템은 IJB-B, IJB-C, IJB-S, TinyFace 등 네 가지 얼굴 인식 벤치마크를 기준으로 평가되었습니다. CFSM은 MS-Celeb-1m 데이터의 약 10%, 약 40만 장의 이미지로, 배치 크기 32, 학습률 1e-4인 Adam 옵티마이저를 사용하여 125,000번의 반복으로 훈련되었습니다.

대상 얼굴 인식 모델은 ArcFace 손실 함수를 사용한 수정된 ResNet-50을 사용했습니다. 비교를 위해 CFSM으로 훈련된 추가 모델이 결과에서 'ArcFace'로 표시되었습니다.

*CFSM의 주요 테스트 결과. 숫자가 높을수록 좋습니다.*

결과는 CFSM으로 강화된 ArcFace 모델이 얼굴 식별 및 검증 작업 모두에서 모든 기준선을 초과하여 새로운 최첨단 성능을 달성했음을 보여주었습니다.

레거시 감시 시스템의 다양한 특성에서 도메인을 추출하는 능력은 또한 이러한 시스템 간의 분포 유사성을 비교하고 평가할 수 있게 하여, 향후 작업에서 활용할 수 있는 시각적 스타일로 각 시스템을 표현합니다.

*다양한 데이터셋의 예시는 스타일에서 명확한 차이를 보여줍니다.*

저자들은 또한 CFSM이 비전 작업에서 인식 정확도를 높이기 위해 적대적 조작을 사용할 수 있음을 보여줍니다. 그들은 학습된 스타일 기반을 기반으로 데이터셋 유사성 메트릭을 도입하여 라벨 또는 예측자에 구애받지 않는 방식으로 스타일 차이를 포착했습니다.

이 연구는 제약 없는 얼굴 인식을 위한 제어 가능하고 안내된 얼굴 합성 모델의 잠재력을 강조하며, 데이터셋 차이에 대한 통찰을 제공합니다.

관련 기사

Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다 OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.그러나

AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 런던 경제 학교와 Systemiq의 최근 연구에 따르면, 인공지능은 현대적 편의를 희생하지 않으면서 글로벌 탄소 배출을 상당히 줄일 수 있으며, 기후 변화 대응에서 AI를 중요한 동맹으로 자리매김하고 있습니다.이 연구는 단 세 개의 산업에서 지능형 AI 응용 프로그램을 통해 2035년까지 매년 32억에서 54억 톤의 온실가스 배출을 줄일 수 있다고 강조합니

새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘 AI 모델은 실제로 얼마나 많이 기억할까? 새로운 연구가 놀라운 통찰을 제공우리 모두는 ChatGPT, Claude, Gemini와 같은 대형 언어 모델(LLM)이 책, 웹사이트, 코드, 심지어 이미지와 오디오 같은 멀티미디어에서 나온 수조 개의 단어로 훈련된다는 것을 알고 있습니다. 하지만 이 모든 데이터는 어떻게 되는 걸까요? 이 모델들은 언어를 정말로

의견 (10)

0/200

제출하다

LarryWilliams

2025년 4월 27일 오후 4시 58분 26초 GMT+09:00

C'est une initiative fascinante pour améliorer la reconnaissance faciale. Utiliser des visages synthétiques plutôt que de contribuer aux deepfakes est une bonne chose. J'espère qu'ils y arriveront bien. 😊🧐

CharlesJohnson

2025년 4월 27일 오후 4시 57분 41초 GMT+09:00

¡Qué genial usar caras sintéticas para mejorar el reconocimiento facial! Me encanta que la tecnología se use para algo bueno y no para deepfakes. Lo único es que podría ser más fácil de usar, pero de todos modos, ¡innovación de primera! 👌

MatthewGonzalez

2025년 4월 27일 오전 5시 27분 32초 GMT+09:00

Que ideia genial usar faces sintéticas para melhorar o reconhecimento facial! Adoro que a tecnologia esteja sendo usada para o bem, e não para deepfakes. A única coisa é que poderia ser mais fácil de usar, mas ainda assim, inovação top! 👍

FrankSmith

2025년 4월 27일 오전 1시 19분 1초 GMT+09:00

미시간 주립대 연구진이 하는 이 작업은 정말 멋져 보입니다. 인공 얼굴을 이용해 이미지 인식 기술을 개선하려는 목적 자체가 놀랍네요. 실용성 검증이 필요할 것 같아요. 😎💡

FrankJackson

2025년 4월 26일 오후 11시 20분 26초 GMT+09:00

合成顔を使って顔認識技術を向上させるなんて、素晴らしいアイデアだと思う！深偽ではなく、良い目的に使われる技術は嬉しいね。ただ、もう少し使いやすければ完璧だったのに。でも、革新性には拍手を送りたい！👏

SebastianAnderson

2025년 4월 26일 오후 10시 0분 27초 GMT+09:00

¡Es una idea muy interesante! Usar caras sintéticas para mejorar el reconocimiento facial parece un gran avance. Sin embargo, espero que no genere más problemas de privacidad. 🌟🤔

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. 창립자는 2026 년까지 여러 NYC의 전력을 소비하기위한 AI 컴퓨팅 AI 보이스 클로닝: 음성 변환 마스터 가이드 AI- 힘의 I/O 크로스 워드 경험 : 클래식 워드 게임의 현대적인 트위스트 Nvidia CEO는 DeepSeek의 시장 영향에 대한 오해를 분명히합니다

더