'저하 된'합성면은 얼굴 인식 기술을 향상시킬 수 있습니다
2025년 4월 25일
KennethKing
0
미시간 주립 대학의 연구원들은 이미지 인식 시스템의 정확성을 강화하는 고귀한 원인을 위해 합성 얼굴을 사용하는 혁신적인 방법을 제시했습니다. Deepfakes 현상에 기여하는 대신, 이러한 합성 얼굴은 실제 비디오 감시 영상에서 발견되는 결함을 모방하도록 설계되었습니다.
이 팀은 얼굴 블러, 저해 저해 및 센서 노이즈와 같은 CCTV 시스템의 전형적인 결함을 반영하는 스타일로 얼굴을 재생할 수있는 제어 가능한 얼굴 합성 모듈 (CFSM)을 개발했습니다. 이 접근법은 인기있는 데이터 세트의 고품질 유명 인사 이미지를 사용하는 것과 다릅니다. 인기있는 데이터 세트에서 얼굴 인식 시스템이 직면 한 실제 문제를 캡처하지 않습니다.
* 제어 가능한 얼굴 합성 모듈 (CFSM)에 대한 개념 아키텍처* 출처 : http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf
CFSM은 헤드 포즈 및 표현을 복제하는 데 중점을 둔 Deepfake 시스템과 달리 스타일 전송을 통해 대상 인식 시스템의 스타일과 일치하는 대체 뷰를 생성하는 것을 목표로합니다. 이 모듈은 비용 제약으로 인해 업그레이드되지는 않지만 여전히 현대적인 얼굴 인식 기술에 기여 해야하는 레거시 시스템에 적응하는 데 특히 유용합니다.
CFSM을 테스트 할 때 연구원들은 저품질 데이터를 다루는 이미지 인식 시스템의 상당한 개선을 관찰했습니다. 또한 다양한 CCTV 시스템에 대한 벤치마킹 및 맞춤형 데이터 세트 생성 프로세스를 단순화하는 대상 데이터 세트를 특성화하고 비교할 수있는 예상치 못한 이점을 발견했습니다.
* 대상 시스템의 한계에 적응하기 위해 얼굴 인식 모델 교육.* 출처 : http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf.
이 방법은 또한 기존 데이터 세트에 적용될 수 있으며, 도메인 적응을 효과적으로 수행하여 얼굴 인식에 더 적합합니다. ** 제조 가능한 얼굴 인식 **에 대한 ** 제어 가능 및 가이드 얼굴 합성이라는 제목의 연구는 IARPA에있는 National Intelligence (ODNI)의 미국 사무소에서 부분적으로 지원되며 MSU의 컴퓨터 과학 및 엔지니어링 부서의 4 명의 연구원을 포함합니다.
저품질 얼굴 인식 : 성장하는 분야
지난 몇 년 동안 LQFR (저품질 얼굴 인식)은 중요한 연구 영역으로 부상했습니다. 내구성이 뛰어나고 오래 지속되도록 구축 된 많은 오래된 비디오 감시 시스템은 구식이되어 기술 부채로 인한 기계 학습을위한 효과적인 데이터 소스 역할을하는 데 어려움을 겪고 있습니다.
다양한 역사적 및 최근 비디오 감시 시스템에 걸쳐 다양한 수준의 안면 해상도. 출처 : https://arxiv.org/pdf/1805.11519.pdf
다행스럽게도 확산 모델 및 기타 노이즈 기반 모델은이 문제를 해결하기에 적합합니다. 최신 이미지 합성 시스템의 많은 부분에는 프로세스의 일부로 고상한 저해상도 이미지가 포함되어 있으며, 이는 신경 압축 기술에도 중요합니다.
안면 인식의 과제는 저해상도 이미지에서 추출한 가능한 가장 적은 기능으로 정확도를 최대화하는 것입니다. 이는 저해상도에서면을 식별하는 데 유용 할뿐만 아니라 교육 모델의 잠재 공간에서 이미지 크기에 대한 제한으로 인해 필요합니다.
컴퓨터 비전에서 '기능'은 얼굴뿐만 아니라 모든 이미지와의 특성을 구별하는 것을 나타냅니다. 업 스케일링 알고리즘의 발전으로 저해상도 감시 영상을 향상시키기위한 다양한 방법이 제안되어 범죄 현장 조사와 같은 법적 목적으로 사용할 수 있습니다.
그러나 잘못 식별의 위험이 있으며, 얼굴 인식 시스템은 정확한 식별을 위해 고해상도 이미지가 필요하지 않아야합니다. 이러한 변화는 비용이 많이 들고 그들의 타당성과 합법성에 대한 의문을 제기합니다.
더 많은 '다운 힐'유명인이 필요합니다
얼굴 인식 시스템이 이미지를 변환 할 필요없이 레거시 시스템의 출력에서 직접 기능을 추출 할 수 있다면 더 유리합니다. 이를 위해서는 고해상도 아이덴티티와 기존 감시 시스템의 저하 된 이미지 간의 관계에 대한 이해가 필요합니다.
문제는 표준에 있습니다. MS-Celeb-1M 및 WebFace260M과 같은 데이터 세트는 일관된 벤치 마크를 제공하기 때문에 널리 사용됩니다. 그러나 저자는 이러한 데이터 세트에 대해 훈련 된 얼굴 인식 알고리즘이 구형 감시 시스템의 시각적 영역에 적합하지 않다고 주장합니다.
* Microsoft의 인기있는 MS-Celeb1m 데이터 세트의 예.* 출처 : https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recenge-necon-million-celebrities-real-world/
이 논문은 도메인 시프트 문제로 인해 최첨단 얼굴 인식 모델이 실제 감시 이미지로 어려움을 겪고 있음을 강조합니다. 이 모델은 센서 노이즈 및 모션 블러와 같은 실제 시나리오에서 발견되는 변형이없는 반 제한 데이터 세트에 대해 교육을받습니다.
이전의 방법은 역사적 또는 저렴한 감시 시스템의 출력과 일치하려고 시도했지만 이는 '맹인'확대였습니다. 대조적으로, CFSM은 훈련 중에 대상 시스템의 직접적인 피드백을 사용하고 스타일 전송을 통해 해당 도메인을 모방하여 적응합니다.
*여배우 Natalie Portman, 컴퓨터 비전 커뮤니티를 지배하는 소수의 데이터 세트에 익숙하지 않은이 CFSM 의이 예에서는 실제 대상 모델의 도메인의 피드백을 기반으로 스타일 일치 스타일 매칭 도메인 적응의 예에서 정체성들 사이의 특징입니다.*.
저자의 아키텍처는 FGSM (Fast Gradient Sign Method)을 사용하여 대상 시스템의 출력에서 스타일과 특성을 가져옵니다. 훈련이 진행됨에 따라 파이프 라인의 이미지 생성 부분은 대상 시스템에 더 충실하여 얼굴 인식 성능과 일반화 기능을 향상시킵니다.
테스트 및 결과
연구원들은 MSU의 이전 작업을 템플릿으로 사용하여 MS-CELEB-1M 및 MS1M-V2를 교육 데이터 세트로 사용하여 CFSM을 테스트했습니다. 대상 데이터는 중국 홍콩 대학교의 더 넓은 표면 데이터 세트였으며, 어려운 상황에서 얼굴 감지를 위해 설계되었습니다.
이 시스템은 IJB-B, IJB-C, IJB-S 및 Tinyface의 4 가지 얼굴 인식 벤치 마크에 대해 평가되었습니다. CFSM은 학습 속도가 1e-4 인 Adam Optimizer를 사용하여 32의 배치 크기로 125,000 개의 반복에 대해 약 0.4 백만 이미지의 MS-CELEB-1M 데이터의 약 10%로 훈련되었습니다.
대상 안면 인식 모델은 Arcface 손실 함수가있는 수정 된 RESNET-50을 사용했습니다. 추가 모델은 결과에서 '아크 페이스'로 표시된 비교를 위해 CFSM으로 교육을 받았습니다.
*CFSM의 1 차 테스트 결과. 더 높은 숫자가 더 좋습니다.*
결과는 CFSM에 의해 향상된 Arcface 모델이 얼굴 식별 및 검증 작업에서 모든 기준선을 능가하여 새로운 최첨단 성능을 달성 함을 보여주었습니다.
레거시 감시 시스템의 다양한 특성에서 도메인을 추출하는 기능을 통해 이러한 시스템 간의 분포 유사성을 비교하고 평가할 수 있으며, 향후 작업에서 활용할 수있는 시각적 스타일의 관점에서 각각을 제시합니다.
*다양한 데이터 세트의 예는 스타일의 명확한 차이를 보여줍니다.*
저자는 또한 CFSM이 비전 작업에서 인식 정확도를 높이기 위해 적대적 조작을 사용하는 방법을 보여줍니다. 그들은 학습 된 스타일베이스를 기반으로 데이터 세트 유사성 메트릭을 도입하여 레이블 또는 예측 변수에 대한 스타일 차이를 캡처했습니다.
이 연구는 제한되지 않은 얼굴 인식을위한 제어 가능하고 안내 된 얼굴 합성 모델의 잠재력을 강조하고 데이터 세트 차이에 대한 통찰력을 제공합니다.
관련 기사
DeepSeek's AIs Uncover True Human Desires
DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response
Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model
Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning
If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
의견 (0)
0/200






미시간 주립 대학의 연구원들은 이미지 인식 시스템의 정확성을 강화하는 고귀한 원인을 위해 합성 얼굴을 사용하는 혁신적인 방법을 제시했습니다. Deepfakes 현상에 기여하는 대신, 이러한 합성 얼굴은 실제 비디오 감시 영상에서 발견되는 결함을 모방하도록 설계되었습니다.
이 팀은 얼굴 블러, 저해 저해 및 센서 노이즈와 같은 CCTV 시스템의 전형적인 결함을 반영하는 스타일로 얼굴을 재생할 수있는 제어 가능한 얼굴 합성 모듈 (CFSM)을 개발했습니다. 이 접근법은 인기있는 데이터 세트의 고품질 유명 인사 이미지를 사용하는 것과 다릅니다. 인기있는 데이터 세트에서 얼굴 인식 시스템이 직면 한 실제 문제를 캡처하지 않습니다.
* 제어 가능한 얼굴 합성 모듈 (CFSM)에 대한 개념 아키텍처* 출처 : http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf
CFSM은 헤드 포즈 및 표현을 복제하는 데 중점을 둔 Deepfake 시스템과 달리 스타일 전송을 통해 대상 인식 시스템의 스타일과 일치하는 대체 뷰를 생성하는 것을 목표로합니다. 이 모듈은 비용 제약으로 인해 업그레이드되지는 않지만 여전히 현대적인 얼굴 인식 기술에 기여 해야하는 레거시 시스템에 적응하는 데 특히 유용합니다.
CFSM을 테스트 할 때 연구원들은 저품질 데이터를 다루는 이미지 인식 시스템의 상당한 개선을 관찰했습니다. 또한 다양한 CCTV 시스템에 대한 벤치마킹 및 맞춤형 데이터 세트 생성 프로세스를 단순화하는 대상 데이터 세트를 특성화하고 비교할 수있는 예상치 못한 이점을 발견했습니다.
* 대상 시스템의 한계에 적응하기 위해 얼굴 인식 모델 교육.* 출처 : http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf.
이 방법은 또한 기존 데이터 세트에 적용될 수 있으며, 도메인 적응을 효과적으로 수행하여 얼굴 인식에 더 적합합니다. ** 제조 가능한 얼굴 인식 **에 대한 ** 제어 가능 및 가이드 얼굴 합성이라는 제목의 연구는 IARPA에있는 National Intelligence (ODNI)의 미국 사무소에서 부분적으로 지원되며 MSU의 컴퓨터 과학 및 엔지니어링 부서의 4 명의 연구원을 포함합니다.
저품질 얼굴 인식 : 성장하는 분야
지난 몇 년 동안 LQFR (저품질 얼굴 인식)은 중요한 연구 영역으로 부상했습니다. 내구성이 뛰어나고 오래 지속되도록 구축 된 많은 오래된 비디오 감시 시스템은 구식이되어 기술 부채로 인한 기계 학습을위한 효과적인 데이터 소스 역할을하는 데 어려움을 겪고 있습니다.
다양한 역사적 및 최근 비디오 감시 시스템에 걸쳐 다양한 수준의 안면 해상도. 출처 : https://arxiv.org/pdf/1805.11519.pdf
다행스럽게도 확산 모델 및 기타 노이즈 기반 모델은이 문제를 해결하기에 적합합니다. 최신 이미지 합성 시스템의 많은 부분에는 프로세스의 일부로 고상한 저해상도 이미지가 포함되어 있으며, 이는 신경 압축 기술에도 중요합니다.
안면 인식의 과제는 저해상도 이미지에서 추출한 가능한 가장 적은 기능으로 정확도를 최대화하는 것입니다. 이는 저해상도에서면을 식별하는 데 유용 할뿐만 아니라 교육 모델의 잠재 공간에서 이미지 크기에 대한 제한으로 인해 필요합니다.
컴퓨터 비전에서 '기능'은 얼굴뿐만 아니라 모든 이미지와의 특성을 구별하는 것을 나타냅니다. 업 스케일링 알고리즘의 발전으로 저해상도 감시 영상을 향상시키기위한 다양한 방법이 제안되어 범죄 현장 조사와 같은 법적 목적으로 사용할 수 있습니다.
그러나 잘못 식별의 위험이 있으며, 얼굴 인식 시스템은 정확한 식별을 위해 고해상도 이미지가 필요하지 않아야합니다. 이러한 변화는 비용이 많이 들고 그들의 타당성과 합법성에 대한 의문을 제기합니다.
더 많은 '다운 힐'유명인이 필요합니다
얼굴 인식 시스템이 이미지를 변환 할 필요없이 레거시 시스템의 출력에서 직접 기능을 추출 할 수 있다면 더 유리합니다. 이를 위해서는 고해상도 아이덴티티와 기존 감시 시스템의 저하 된 이미지 간의 관계에 대한 이해가 필요합니다.
문제는 표준에 있습니다. MS-Celeb-1M 및 WebFace260M과 같은 데이터 세트는 일관된 벤치 마크를 제공하기 때문에 널리 사용됩니다. 그러나 저자는 이러한 데이터 세트에 대해 훈련 된 얼굴 인식 알고리즘이 구형 감시 시스템의 시각적 영역에 적합하지 않다고 주장합니다.
* Microsoft의 인기있는 MS-Celeb1m 데이터 세트의 예.* 출처 : https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recenge-necon-million-celebrities-real-world/
이 논문은 도메인 시프트 문제로 인해 최첨단 얼굴 인식 모델이 실제 감시 이미지로 어려움을 겪고 있음을 강조합니다. 이 모델은 센서 노이즈 및 모션 블러와 같은 실제 시나리오에서 발견되는 변형이없는 반 제한 데이터 세트에 대해 교육을받습니다.
이전의 방법은 역사적 또는 저렴한 감시 시스템의 출력과 일치하려고 시도했지만 이는 '맹인'확대였습니다. 대조적으로, CFSM은 훈련 중에 대상 시스템의 직접적인 피드백을 사용하고 스타일 전송을 통해 해당 도메인을 모방하여 적응합니다.
*여배우 Natalie Portman, 컴퓨터 비전 커뮤니티를 지배하는 소수의 데이터 세트에 익숙하지 않은이 CFSM 의이 예에서는 실제 대상 모델의 도메인의 피드백을 기반으로 스타일 일치 스타일 매칭 도메인 적응의 예에서 정체성들 사이의 특징입니다.*.
저자의 아키텍처는 FGSM (Fast Gradient Sign Method)을 사용하여 대상 시스템의 출력에서 스타일과 특성을 가져옵니다. 훈련이 진행됨에 따라 파이프 라인의 이미지 생성 부분은 대상 시스템에 더 충실하여 얼굴 인식 성능과 일반화 기능을 향상시킵니다.
테스트 및 결과
연구원들은 MSU의 이전 작업을 템플릿으로 사용하여 MS-CELEB-1M 및 MS1M-V2를 교육 데이터 세트로 사용하여 CFSM을 테스트했습니다. 대상 데이터는 중국 홍콩 대학교의 더 넓은 표면 데이터 세트였으며, 어려운 상황에서 얼굴 감지를 위해 설계되었습니다.
이 시스템은 IJB-B, IJB-C, IJB-S 및 Tinyface의 4 가지 얼굴 인식 벤치 마크에 대해 평가되었습니다. CFSM은 학습 속도가 1e-4 인 Adam Optimizer를 사용하여 32의 배치 크기로 125,000 개의 반복에 대해 약 0.4 백만 이미지의 MS-CELEB-1M 데이터의 약 10%로 훈련되었습니다.
대상 안면 인식 모델은 Arcface 손실 함수가있는 수정 된 RESNET-50을 사용했습니다. 추가 모델은 결과에서 '아크 페이스'로 표시된 비교를 위해 CFSM으로 교육을 받았습니다.
*CFSM의 1 차 테스트 결과. 더 높은 숫자가 더 좋습니다.*
결과는 CFSM에 의해 향상된 Arcface 모델이 얼굴 식별 및 검증 작업에서 모든 기준선을 능가하여 새로운 최첨단 성능을 달성 함을 보여주었습니다.
레거시 감시 시스템의 다양한 특성에서 도메인을 추출하는 기능을 통해 이러한 시스템 간의 분포 유사성을 비교하고 평가할 수 있으며, 향후 작업에서 활용할 수있는 시각적 스타일의 관점에서 각각을 제시합니다.
*다양한 데이터 세트의 예는 스타일의 명확한 차이를 보여줍니다.*
저자는 또한 CFSM이 비전 작업에서 인식 정확도를 높이기 위해 적대적 조작을 사용하는 방법을 보여줍니다. 그들은 학습 된 스타일베이스를 기반으로 데이터 세트 유사성 메트릭을 도입하여 레이블 또는 예측 변수에 대한 스타일 차이를 캡처했습니다.
이 연구는 제한되지 않은 얼굴 인식을위한 제어 가능하고 안내 된 얼굴 합성 모델의 잠재력을 강조하고 데이터 세트 차이에 대한 통찰력을 제공합니다.


온라인 데이터 개인 정보를 되 찾는 5 가지 쉬운 단계 - 오늘 시작하십시오.









