“退化”合成面可能會增強面部識別技術
2025年04月25日
KennethKing
0
密歇根州立大學的研究人員提出了一種創新的方式,將合成面孔用於崇高的原因 - 增強圖像識別系統的準確性。這些合成面部旨在模仿現實世界視頻監視鏡頭中發現的缺陷,而不是為深層現像做出貢獻。
該團隊開發了一個可控的面部合成模塊(CFSM),該模塊可以以一種反映CCTV系統典型缺陷的樣式再生面,例如面部模糊,低分辨率和傳感器噪聲。這種方法不同於使用流行數據集的高質量名人圖像,而流行數據集並未捕捉面部識別系統所面臨的現實挑戰。
*可控面合成模塊(CFSM)的概念架構。 *來源:http://cvlab.cse.msu.edu/pdfs/liu_kim_kim_jain_jain_liu_eccv2022.pdf
與側重於復制頭部姿勢和表達式的DeepFake系統不同,CFSM旨在生成替代視圖,以通過樣式轉移來匹配目標識別系統的樣式。該模塊對於適應不太可能因成本限製而升級但仍需要為現代面部識別技術做出貢獻的舊系統特別有用。
在測試CFSM時,研究人員觀察到有關低質量數據的圖像識別系統的顯著改善。他們還發現了一個意外的好處:表徵和比較目標數據集的能力,這簡化了基準測試和為各種CCTV系統創建量身定制的數據集的過程。
*培訓面部識別模型以適應目標系統的局限性。
該方法也可以應用於現有數據集,有效地執行域的適應性,使其更適合面部識別。這項名為“無限制面部識別**的可控和有指導性的面部合成”的研究得到了美國國家情報總監辦公室(ODNI,IARPA的ODNI)辦公室的支持,並參與了MSU計算機科學與工程系的四名研究人員。
低品質的面部識別:一個不斷增長的領域
在過去的幾年中,低品質的面部識別(LQFR)已成為重要的研究領域。許多較舊的視頻監視系統,耐用且持久,已經過時了,並且由於技術債務而難以作為機器學習的有效數據源。
在一系列歷史性和最新視頻監視系統中,面部分辨率的不同水平。資料來源:https://arxiv.org/pdf/1805.11519.pdf
幸運的是,擴散模型和其他基於噪聲的模型非常適合解決此問題。許多最新的圖像合成系統包括將低分辨率圖像作為其過程的一部分,這對於神經壓縮技術也至關重要。
面部識別的挑戰是,從低分辨率圖像中提取的最大可能功能最大化精度。這不僅對於識別低分辨率的面孔,而且由於訓練模型的潛在空間中圖像大小的限製而有用。
在計算機視覺中,“功能”是指區分特徵與任何圖像,而不僅僅是面孔。隨著展望算法的進步,已經提出了各種方法來增強低分辨率監視錄像,這可能使其可用於諸如犯罪現場調查之類的法律目的。
但是,存在錯誤識別的風險,理想情況下,面部識別系統不應需要高分辨率圖像來進行準確的識別。這種轉變是昂貴的,並提出了有關其有效性和合法性的疑問。
需要更多的“跟頭”名人
如果面部識別系統可以直接從傳統系統的輸出中提取功能而無需轉換圖像,則將更加有益。這需要更好地了解高分辨率身份與現有監視系統退化的圖像之間的關係。
問題在於標準:MS-CELEB-1M和WebFace260M之類的數據集被廣泛使用,因為它們提供了一致的基準測試。但是,作者認為,在這些數據集上訓練的面部識別算法不適用於舊監視系統的視覺域。
*來自Microsoft流行的MS-CELEB1M數據集的示例。 *來源:https://www.microsoft.com/en-us/research/project/project/mms-celeb-celeb-1m-challenge-nenge-recognizing-noge--one-one-million-celebrities-celebrities-real-world/
該論文強調了,由於域轉移問題,最先進的面部識別模型與現實世界監視圖像相比。這些模型是在缺乏現實世界情景(例如傳感器噪聲和運動模糊)中缺乏變化的半約束數據集中訓練的。
以前的方法試圖匹配歷史或低成本監視系統的產出,但這些是“盲目”的增強。相比之下,CFSM在訓練過程中使用目標系統的直接反饋,並通過樣式轉移對模擬該域進行調整。
*女演員娜塔莉·波特曼(Natalie Portman),對統治計算機視覺社區的少數數據集並不陌生。
作者的體系結構使用快速梯度符號方法(FGSM)從目標系統的輸出中導入樣式和特徵。隨著培訓的進行,管道的圖像生成部分變得更加忠實於目標系統,從而提高了面部識別性能和泛化功能。
測試和結果
研究人員使用MSU的先前工作作為模板測試了CFSM,並採用MS-CELEB-1M和MS1M-V2作為培訓數據集測試了CFSM。目標數據是香港中文大學的寬麵數據集,該數據集是在具有挑戰性的情況下設計的。
對四個面部識別基准進行了評估:IJB-B,IJB-C,IJB-S和TinyFace。使用ADAM Optimizer使用ADAM Optimizer,學習率為1E-4,對CFSM進行了約10%的MS-CELEB-1M數據,大約40萬次圖像,批量迭代量為32。
目標面部識別模型使用了帶有Arcface損耗函數的修改後的Resnet-50。使用CFSM培訓了一個其他模型,以進行比較,並在結果中標記為“ Arcface”。
*由CFSM的主要測試結果。較高的數字更好。 *
結果表明,通過CFSM增強的Arcface模型在面部識別和驗證任務中都優於所有基線,從而實現了新的最新性能。
從傳統監視系統的各種特徵中提取域的能力還可以比較和評估這些系統之間的分佈相似性,從而以視覺方式呈現各種視覺樣式,這些樣式可以在未來的工作中利用。
*來自各個數據集的示例在樣式上表現出明顯的差異。 *
作者還指出,CFSM演示瞭如何使用對抗性操縱來提高視力任務中的識別精度。他們基於學習的樣式基礎引入了一個數據集相似性度量,以標籤或預測範圍的方式捕獲樣式差異。
該研究強調了可控和指導的面部合成模型的潛力,以實現面部識別的不受約束,並提供了對數據集差異的見解。
相關文章
DeepSeek's AIs Uncover True Human Desires
DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response
Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model
Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning
If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
評論 (0)
0/200






密歇根州立大學的研究人員提出了一種創新的方式,將合成面孔用於崇高的原因 - 增強圖像識別系統的準確性。這些合成面部旨在模仿現實世界視頻監視鏡頭中發現的缺陷,而不是為深層現像做出貢獻。
該團隊開發了一個可控的面部合成模塊(CFSM),該模塊可以以一種反映CCTV系統典型缺陷的樣式再生面,例如面部模糊,低分辨率和傳感器噪聲。這種方法不同於使用流行數據集的高質量名人圖像,而流行數據集並未捕捉面部識別系統所面臨的現實挑戰。
*可控面合成模塊(CFSM)的概念架構。 *來源:http://cvlab.cse.msu.edu/pdfs/liu_kim_kim_jain_jain_liu_eccv2022.pdf
與側重於復制頭部姿勢和表達式的DeepFake系統不同,CFSM旨在生成替代視圖,以通過樣式轉移來匹配目標識別系統的樣式。該模塊對於適應不太可能因成本限製而升級但仍需要為現代面部識別技術做出貢獻的舊系統特別有用。
在測試CFSM時,研究人員觀察到有關低質量數據的圖像識別系統的顯著改善。他們還發現了一個意外的好處:表徵和比較目標數據集的能力,這簡化了基準測試和為各種CCTV系統創建量身定制的數據集的過程。
*培訓面部識別模型以適應目標系統的局限性。
該方法也可以應用於現有數據集,有效地執行域的適應性,使其更適合面部識別。這項名為“無限制面部識別**的可控和有指導性的面部合成”的研究得到了美國國家情報總監辦公室(ODNI,IARPA的ODNI)辦公室的支持,並參與了MSU計算機科學與工程系的四名研究人員。
低品質的面部識別:一個不斷增長的領域
在過去的幾年中,低品質的面部識別(LQFR)已成為重要的研究領域。許多較舊的視頻監視系統,耐用且持久,已經過時了,並且由於技術債務而難以作為機器學習的有效數據源。
在一系列歷史性和最新視頻監視系統中,面部分辨率的不同水平。資料來源:https://arxiv.org/pdf/1805.11519.pdf
幸運的是,擴散模型和其他基於噪聲的模型非常適合解決此問題。許多最新的圖像合成系統包括將低分辨率圖像作為其過程的一部分,這對於神經壓縮技術也至關重要。
面部識別的挑戰是,從低分辨率圖像中提取的最大可能功能最大化精度。這不僅對於識別低分辨率的面孔,而且由於訓練模型的潛在空間中圖像大小的限製而有用。
在計算機視覺中,“功能”是指區分特徵與任何圖像,而不僅僅是面孔。隨著展望算法的進步,已經提出了各種方法來增強低分辨率監視錄像,這可能使其可用於諸如犯罪現場調查之類的法律目的。
但是,存在錯誤識別的風險,理想情況下,面部識別系統不應需要高分辨率圖像來進行準確的識別。這種轉變是昂貴的,並提出了有關其有效性和合法性的疑問。
需要更多的“跟頭”名人
如果面部識別系統可以直接從傳統系統的輸出中提取功能而無需轉換圖像,則將更加有益。這需要更好地了解高分辨率身份與現有監視系統退化的圖像之間的關係。
問題在於標準:MS-CELEB-1M和WebFace260M之類的數據集被廣泛使用,因為它們提供了一致的基準測試。但是,作者認為,在這些數據集上訓練的面部識別算法不適用於舊監視系統的視覺域。
*來自Microsoft流行的MS-CELEB1M數據集的示例。 *來源:https://www.microsoft.com/en-us/research/project/project/mms-celeb-celeb-1m-challenge-nenge-recognizing-noge--one-one-million-celebrities-celebrities-real-world/
該論文強調了,由於域轉移問題,最先進的面部識別模型與現實世界監視圖像相比。這些模型是在缺乏現實世界情景(例如傳感器噪聲和運動模糊)中缺乏變化的半約束數據集中訓練的。
以前的方法試圖匹配歷史或低成本監視系統的產出,但這些是“盲目”的增強。相比之下,CFSM在訓練過程中使用目標系統的直接反饋,並通過樣式轉移對模擬該域進行調整。
*女演員娜塔莉·波特曼(Natalie Portman),對統治計算機視覺社區的少數數據集並不陌生。
作者的體系結構使用快速梯度符號方法(FGSM)從目標系統的輸出中導入樣式和特徵。隨著培訓的進行,管道的圖像生成部分變得更加忠實於目標系統,從而提高了面部識別性能和泛化功能。
測試和結果
研究人員使用MSU的先前工作作為模板測試了CFSM,並採用MS-CELEB-1M和MS1M-V2作為培訓數據集測試了CFSM。目標數據是香港中文大學的寬麵數據集,該數據集是在具有挑戰性的情況下設計的。
對四個面部識別基准進行了評估:IJB-B,IJB-C,IJB-S和TinyFace。使用ADAM Optimizer使用ADAM Optimizer,學習率為1E-4,對CFSM進行了約10%的MS-CELEB-1M數據,大約40萬次圖像,批量迭代量為32。
目標面部識別模型使用了帶有Arcface損耗函數的修改後的Resnet-50。使用CFSM培訓了一個其他模型,以進行比較,並在結果中標記為“ Arcface”。
*由CFSM的主要測試結果。較高的數字更好。 *
結果表明,通過CFSM增強的Arcface模型在面部識別和驗證任務中都優於所有基線,從而實現了新的最新性能。
從傳統監視系統的各種特徵中提取域的能力還可以比較和評估這些系統之間的分佈相似性,從而以視覺方式呈現各種視覺樣式,這些樣式可以在未來的工作中利用。
*來自各個數據集的示例在樣式上表現出明顯的差異。 *
作者還指出,CFSM演示瞭如何使用對抗性操縱來提高視力任務中的識別精度。他們基於學習的樣式基礎引入了一個數據集相似性度量,以標籤或預測範圍的方式捕獲樣式差異。
該研究強調了可控和指導的面部合成模型的潛力,以實現面部識別的不受約束,並提供了對數據集差異的見解。


恢復在線數據隱私的5個簡單步驟 - 從今天開始









