Khuôn mặt tổng hợp 'xuống cấp' có thể tăng cường công nghệ nhận dạng khuôn mặt
Ngày 25 tháng 4 năm 2025
KennethKing
0
Các nhà nghiên cứu tại Đại học bang Michigan đã đưa ra một cách sáng tạo để sử dụng các khuôn mặt tổng hợp cho một nguyên nhân cao quý, tăng cường tính chính xác của các hệ thống nhận dạng hình ảnh. Thay vì đóng góp vào hiện tượng Deepfakes, những khuôn mặt tổng hợp này được thiết kế để bắt chước những sự không hoàn hảo được tìm thấy trong các cảnh quay video trong thế giới thực.
Nhóm nghiên cứu đã phát triển một mô -đun tổng hợp khuôn mặt có thể kiểm soát (CFSM) có thể tái tạo các khuôn mặt theo phong cách phản ánh các sai sót điển hình của các hệ thống camera quan sát, chẳng hạn như mờ mặt, độ phân giải thấp và nhiễu cảm biến. Cách tiếp cận này khác với việc sử dụng hình ảnh người nổi tiếng chất lượng cao từ các bộ dữ liệu phổ biến, không nắm bắt được những thách thức trong thế giới thực mà các hệ thống nhận dạng khuôn mặt phải đối mặt.
* Kiến trúc khái niệm cho mô -đun tổng hợp khuôn mặt có thể kiểm soát (CFSM).* Nguồn: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf
Không giống như các hệ thống Deepfake tập trung vào việc sao chép các vị trí và biểu thức đầu, CFSM nhằm mục đích tạo ra các chế độ xem thay thế phù hợp với phong cách của hệ thống nhận dạng mục tiêu thông qua chuyển kiểu. Mô -đun này đặc biệt hữu ích để thích ứng với các hệ thống kế thừa khó có thể được nâng cấp do hạn chế về chi phí nhưng vẫn cần đóng góp vào các công nghệ nhận dạng khuôn mặt hiện đại.
Khi thử nghiệm CFSM, các nhà nghiên cứu đã quan sát thấy những cải tiến đáng kể trong các hệ thống nhận dạng hình ảnh liên quan đến dữ liệu chất lượng thấp. Họ cũng đã phát hiện ra một lợi ích bất ngờ: khả năng đặc trưng và so sánh các bộ dữ liệu mục tiêu, giúp đơn giản hóa quá trình điểm chuẩn và tạo bộ dữ liệu phù hợp cho các hệ thống camera quan sát khác nhau.
* Đào tạo các mô hình nhận dạng khuôn mặt để thích ứng với các hạn chế của các hệ thống đích.* Nguồn: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf
Phương pháp này cũng có thể được áp dụng cho các bộ dữ liệu hiện có, thực hiện hiệu quả sự thích ứng miền để làm cho chúng phù hợp hơn để nhận dạng khuôn mặt. Nghiên cứu, có tiêu đề ** Tổng hợp khuôn mặt có thể kiểm soát và có hướng dẫn để nhận dạng khuôn mặt không bị ràng buộc **, được hỗ trợ một phần bởi Văn phòng Giám đốc Tình báo Quốc gia Hoa Kỳ (ODNI, tại IARPA) và liên quan đến bốn nhà nghiên cứu từ Khoa Khoa học & Kỹ thuật Máy tính của MSU.
Nhận dạng khuôn mặt chất lượng thấp: Một lĩnh vực đang phát triển
Trong vài năm qua, nhận dạng khuôn mặt chất lượng thấp (LQFR) đã nổi lên như một lĩnh vực nghiên cứu quan trọng. Nhiều hệ thống giám sát video cũ, được xây dựng để bền và lâu dài, đã trở nên lỗi thời và đấu tranh để làm nguồn dữ liệu hiệu quả cho việc học máy do nợ kỹ thuật.
Các mức độ phân giải khuôn mặt khác nhau trên một loạt các hệ thống giám sát video lịch sử và gần đây hơn. Nguồn: https://arxiv.org/pdf/1805.11519.pdf
May mắn thay, các mô hình khuếch tán và các mô hình dựa trên tiếng ồn khác rất phù hợp để giải quyết vấn đề này. Nhiều hệ thống tổng hợp hình ảnh mới nhất bao gồm các hình ảnh độ phân giải thấp nâng cấp như một phần của quá trình của chúng, điều này cũng rất quan trọng đối với các kỹ thuật nén thần kinh.
Thách thức trong nhận dạng khuôn mặt là tối đa hóa độ chính xác với ít tính năng nhất có thể được trích xuất từ hình ảnh độ phân giải thấp. Điều này không chỉ hữu ích để xác định các khuôn mặt ở độ phân giải thấp mà còn cần thiết do những hạn chế về kích thước hình ảnh trong không gian tiềm ẩn của các mô hình đào tạo.
Trong tầm nhìn máy tính, 'tính năng' đề cập đến các đặc điểm phân biệt với bất kỳ hình ảnh nào, không chỉ khuôn mặt. Với sự tiến bộ trong các thuật toán nâng cấp, các phương pháp khác nhau đã được đề xuất để tăng cường các cảnh quay giám sát độ phân giải thấp, có khả năng làm cho nó có thể sử dụng được cho các mục đích pháp lý như điều tra hiện trường vụ án.
Tuy nhiên, có nguy cơ xác định sai và lý tưởng nhất, các hệ thống nhận dạng khuôn mặt không nên yêu cầu hình ảnh độ phân giải cao để đưa ra nhận dạng chính xác. Những biến đổi như vậy là tốn kém và đặt ra câu hỏi về tính hợp lệ và tính hợp pháp của chúng.
Nhu cầu về những người nổi tiếng 'Down-at-Sheel'
Sẽ có lợi hơn nếu các hệ thống nhận dạng khuôn mặt có thể trích xuất các tính năng trực tiếp từ đầu ra của các hệ thống kế thừa mà không cần phải biến đổi hình ảnh. Điều này đòi hỏi sự hiểu biết tốt hơn về mối quan hệ giữa danh tính độ phân giải cao và hình ảnh xuống cấp từ các hệ thống giám sát hiện có.
Vấn đề nằm ở các tiêu chuẩn: các bộ dữ liệu như MS-CELEB-1M và WebFACE260M được sử dụng rộng rãi vì chúng cung cấp các điểm chuẩn nhất quán. Tuy nhiên, các tác giả lập luận rằng các thuật toán nhận dạng khuôn mặt được đào tạo trên các bộ dữ liệu này không phù hợp với các miền trực quan của các hệ thống giám sát cũ hơn.
* Ví dụ từ bộ dữ liệu MS-CELEB1M phổ biến của Microsoft.
Bài viết nhấn mạnh rằng các mô hình nhận dạng khuôn mặt hiện đại đấu tranh với hình ảnh giám sát trong thế giới thực do các vấn đề thay đổi miền. Các mô hình này được đào tạo trên các bộ dữ liệu bán hạn chế thiếu các biến thể được tìm thấy trong các kịch bản trong thế giới thực, như nhiễu cảm biến và mờ chuyển động.
Các phương pháp trước đây đã cố gắng phù hợp với các đầu ra của các hệ thống giám sát lịch sử hoặc chi phí thấp, nhưng đây là những sự gia tăng 'mù'. Ngược lại, CFSM sử dụng phản hồi trực tiếp từ hệ thống mục tiêu trong quá trình đào tạo và thích nghi thông qua việc chuyển kiểu để bắt chước tên miền đó.
*Nữ diễn viên Natalie Portman, không xa lạ gì với một số bộ dữ liệu thống trị cộng đồng tầm nhìn máy tính, các tính năng trong số các danh tính trong ví dụ này về sự thích ứng miền phù hợp với kiểu CFSM này dựa trên phản hồi từ miền của mô hình mục tiêu thực tế.*
Kiến trúc của các tác giả sử dụng phương pháp ký hiệu gradient nhanh (FGSM) để nhập các kiểu và đặc điểm từ đầu ra của hệ thống đích. Khi đào tạo tiến triển, phần tạo hình ảnh của đường ống trở nên trung thành hơn với hệ thống mục tiêu, cải thiện hiệu suất nhận dạng khuôn mặt và khả năng khái quát hóa.
Kiểm tra và kết quả
Các nhà nghiên cứu đã thử nghiệm CFSM bằng cách sử dụng công việc trước đây của MSU làm mẫu, sử dụng MS-CELEB-1M và MS1M-V2 làm bộ dữ liệu đào tạo. Dữ liệu mục tiêu là bộ dữ liệu rộng rãi từ Đại học Trung Quốc Hồng Kông, được thiết kế để phát hiện khuôn mặt trong các tình huống đầy thách thức.
Hệ thống được đánh giá so với bốn điểm chuẩn nhận dạng khuôn mặt: IJB-B, IJB-C, IJB-S và Tinyface. CFSM đã được đào tạo với khoảng 10% dữ liệu MS-CELEB-1M, khoảng 0,4 triệu hình ảnh, với 125.000 lần lặp với kích thước hàng loạt là 32 sử dụng trình tối ưu hóa Adam với tỷ lệ học tập là 1E-4.
Mô hình nhận dạng khuôn mặt mục tiêu đã sử dụng Resnet-50 được sửa đổi với chức năng mất arcface. Một mô hình bổ sung đã được đào tạo với CFSM để so sánh, được dán nhãn là 'arcface' trong kết quả.
*Kết quả từ các thử nghiệm chính cho CFSM. Số cao hơn tốt hơn.*
Kết quả cho thấy mô hình arcface, được tăng cường bởi CFSM, vượt trội hơn tất cả các đường cơ sở trong cả các tác vụ xác định và xác minh khuôn mặt, đạt được hiệu suất hiện đại mới.
Khả năng trích xuất các miền từ các đặc điểm khác nhau của các hệ thống giám sát kế thừa cũng cho phép so sánh và đánh giá sự tương đồng phân phối giữa các hệ thống này, trình bày từng loại theo phong cách thị giác có thể được tận dụng trong công việc trong tương lai.
*Ví dụ từ các bộ dữ liệu khác nhau thể hiện sự khác biệt rõ ràng về phong cách.*
Các tác giả cũng lưu ý rằng CFSM chứng minh cách thao tác đối nghịch có thể được sử dụng để tăng độ chính xác nhận biết trong các nhiệm vụ tầm nhìn. Họ đã giới thiệu một số liệu tương tự của bộ dữ liệu dựa trên các cơ sở phong cách đã học, nắm bắt sự khác biệt về kiểu theo cách hoặc cách dự đoán-bất khả tri.
Nghiên cứu nhấn mạnh tiềm năng của các mô hình tổng hợp khuôn mặt có thể kiểm soát và có hướng dẫn để nhận dạng khuôn mặt không bị ràng buộc và cung cấp những hiểu biết về sự khác biệt của bộ dữ liệu.
Bài viết liên quan
DeepSeek's AIs Uncover True Human Desires
DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response
Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model
Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning
If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
Nhận xét (0)
0/200






Các nhà nghiên cứu tại Đại học bang Michigan đã đưa ra một cách sáng tạo để sử dụng các khuôn mặt tổng hợp cho một nguyên nhân cao quý, tăng cường tính chính xác của các hệ thống nhận dạng hình ảnh. Thay vì đóng góp vào hiện tượng Deepfakes, những khuôn mặt tổng hợp này được thiết kế để bắt chước những sự không hoàn hảo được tìm thấy trong các cảnh quay video trong thế giới thực.
Nhóm nghiên cứu đã phát triển một mô -đun tổng hợp khuôn mặt có thể kiểm soát (CFSM) có thể tái tạo các khuôn mặt theo phong cách phản ánh các sai sót điển hình của các hệ thống camera quan sát, chẳng hạn như mờ mặt, độ phân giải thấp và nhiễu cảm biến. Cách tiếp cận này khác với việc sử dụng hình ảnh người nổi tiếng chất lượng cao từ các bộ dữ liệu phổ biến, không nắm bắt được những thách thức trong thế giới thực mà các hệ thống nhận dạng khuôn mặt phải đối mặt.
* Kiến trúc khái niệm cho mô -đun tổng hợp khuôn mặt có thể kiểm soát (CFSM).* Nguồn: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022.pdf
Không giống như các hệ thống Deepfake tập trung vào việc sao chép các vị trí và biểu thức đầu, CFSM nhằm mục đích tạo ra các chế độ xem thay thế phù hợp với phong cách của hệ thống nhận dạng mục tiêu thông qua chuyển kiểu. Mô -đun này đặc biệt hữu ích để thích ứng với các hệ thống kế thừa khó có thể được nâng cấp do hạn chế về chi phí nhưng vẫn cần đóng góp vào các công nghệ nhận dạng khuôn mặt hiện đại.
Khi thử nghiệm CFSM, các nhà nghiên cứu đã quan sát thấy những cải tiến đáng kể trong các hệ thống nhận dạng hình ảnh liên quan đến dữ liệu chất lượng thấp. Họ cũng đã phát hiện ra một lợi ích bất ngờ: khả năng đặc trưng và so sánh các bộ dữ liệu mục tiêu, giúp đơn giản hóa quá trình điểm chuẩn và tạo bộ dữ liệu phù hợp cho các hệ thống camera quan sát khác nhau.
* Đào tạo các mô hình nhận dạng khuôn mặt để thích ứng với các hạn chế của các hệ thống đích.* Nguồn: http://cvlab.cse.msu.edu/pdfs/liu_kim_jain_liu_eccv2022_supp.pdf
Phương pháp này cũng có thể được áp dụng cho các bộ dữ liệu hiện có, thực hiện hiệu quả sự thích ứng miền để làm cho chúng phù hợp hơn để nhận dạng khuôn mặt. Nghiên cứu, có tiêu đề ** Tổng hợp khuôn mặt có thể kiểm soát và có hướng dẫn để nhận dạng khuôn mặt không bị ràng buộc **, được hỗ trợ một phần bởi Văn phòng Giám đốc Tình báo Quốc gia Hoa Kỳ (ODNI, tại IARPA) và liên quan đến bốn nhà nghiên cứu từ Khoa Khoa học & Kỹ thuật Máy tính của MSU.
Nhận dạng khuôn mặt chất lượng thấp: Một lĩnh vực đang phát triển
Trong vài năm qua, nhận dạng khuôn mặt chất lượng thấp (LQFR) đã nổi lên như một lĩnh vực nghiên cứu quan trọng. Nhiều hệ thống giám sát video cũ, được xây dựng để bền và lâu dài, đã trở nên lỗi thời và đấu tranh để làm nguồn dữ liệu hiệu quả cho việc học máy do nợ kỹ thuật.
Các mức độ phân giải khuôn mặt khác nhau trên một loạt các hệ thống giám sát video lịch sử và gần đây hơn. Nguồn: https://arxiv.org/pdf/1805.11519.pdf
May mắn thay, các mô hình khuếch tán và các mô hình dựa trên tiếng ồn khác rất phù hợp để giải quyết vấn đề này. Nhiều hệ thống tổng hợp hình ảnh mới nhất bao gồm các hình ảnh độ phân giải thấp nâng cấp như một phần của quá trình của chúng, điều này cũng rất quan trọng đối với các kỹ thuật nén thần kinh.
Thách thức trong nhận dạng khuôn mặt là tối đa hóa độ chính xác với ít tính năng nhất có thể được trích xuất từ hình ảnh độ phân giải thấp. Điều này không chỉ hữu ích để xác định các khuôn mặt ở độ phân giải thấp mà còn cần thiết do những hạn chế về kích thước hình ảnh trong không gian tiềm ẩn của các mô hình đào tạo.
Trong tầm nhìn máy tính, 'tính năng' đề cập đến các đặc điểm phân biệt với bất kỳ hình ảnh nào, không chỉ khuôn mặt. Với sự tiến bộ trong các thuật toán nâng cấp, các phương pháp khác nhau đã được đề xuất để tăng cường các cảnh quay giám sát độ phân giải thấp, có khả năng làm cho nó có thể sử dụng được cho các mục đích pháp lý như điều tra hiện trường vụ án.
Tuy nhiên, có nguy cơ xác định sai và lý tưởng nhất, các hệ thống nhận dạng khuôn mặt không nên yêu cầu hình ảnh độ phân giải cao để đưa ra nhận dạng chính xác. Những biến đổi như vậy là tốn kém và đặt ra câu hỏi về tính hợp lệ và tính hợp pháp của chúng.
Nhu cầu về những người nổi tiếng 'Down-at-Sheel'
Sẽ có lợi hơn nếu các hệ thống nhận dạng khuôn mặt có thể trích xuất các tính năng trực tiếp từ đầu ra của các hệ thống kế thừa mà không cần phải biến đổi hình ảnh. Điều này đòi hỏi sự hiểu biết tốt hơn về mối quan hệ giữa danh tính độ phân giải cao và hình ảnh xuống cấp từ các hệ thống giám sát hiện có.
Vấn đề nằm ở các tiêu chuẩn: các bộ dữ liệu như MS-CELEB-1M và WebFACE260M được sử dụng rộng rãi vì chúng cung cấp các điểm chuẩn nhất quán. Tuy nhiên, các tác giả lập luận rằng các thuật toán nhận dạng khuôn mặt được đào tạo trên các bộ dữ liệu này không phù hợp với các miền trực quan của các hệ thống giám sát cũ hơn.
* Ví dụ từ bộ dữ liệu MS-CELEB1M phổ biến của Microsoft.
Bài viết nhấn mạnh rằng các mô hình nhận dạng khuôn mặt hiện đại đấu tranh với hình ảnh giám sát trong thế giới thực do các vấn đề thay đổi miền. Các mô hình này được đào tạo trên các bộ dữ liệu bán hạn chế thiếu các biến thể được tìm thấy trong các kịch bản trong thế giới thực, như nhiễu cảm biến và mờ chuyển động.
Các phương pháp trước đây đã cố gắng phù hợp với các đầu ra của các hệ thống giám sát lịch sử hoặc chi phí thấp, nhưng đây là những sự gia tăng 'mù'. Ngược lại, CFSM sử dụng phản hồi trực tiếp từ hệ thống mục tiêu trong quá trình đào tạo và thích nghi thông qua việc chuyển kiểu để bắt chước tên miền đó.
*Nữ diễn viên Natalie Portman, không xa lạ gì với một số bộ dữ liệu thống trị cộng đồng tầm nhìn máy tính, các tính năng trong số các danh tính trong ví dụ này về sự thích ứng miền phù hợp với kiểu CFSM này dựa trên phản hồi từ miền của mô hình mục tiêu thực tế.*
Kiến trúc của các tác giả sử dụng phương pháp ký hiệu gradient nhanh (FGSM) để nhập các kiểu và đặc điểm từ đầu ra của hệ thống đích. Khi đào tạo tiến triển, phần tạo hình ảnh của đường ống trở nên trung thành hơn với hệ thống mục tiêu, cải thiện hiệu suất nhận dạng khuôn mặt và khả năng khái quát hóa.
Kiểm tra và kết quả
Các nhà nghiên cứu đã thử nghiệm CFSM bằng cách sử dụng công việc trước đây của MSU làm mẫu, sử dụng MS-CELEB-1M và MS1M-V2 làm bộ dữ liệu đào tạo. Dữ liệu mục tiêu là bộ dữ liệu rộng rãi từ Đại học Trung Quốc Hồng Kông, được thiết kế để phát hiện khuôn mặt trong các tình huống đầy thách thức.
Hệ thống được đánh giá so với bốn điểm chuẩn nhận dạng khuôn mặt: IJB-B, IJB-C, IJB-S và Tinyface. CFSM đã được đào tạo với khoảng 10% dữ liệu MS-CELEB-1M, khoảng 0,4 triệu hình ảnh, với 125.000 lần lặp với kích thước hàng loạt là 32 sử dụng trình tối ưu hóa Adam với tỷ lệ học tập là 1E-4.
Mô hình nhận dạng khuôn mặt mục tiêu đã sử dụng Resnet-50 được sửa đổi với chức năng mất arcface. Một mô hình bổ sung đã được đào tạo với CFSM để so sánh, được dán nhãn là 'arcface' trong kết quả.
*Kết quả từ các thử nghiệm chính cho CFSM. Số cao hơn tốt hơn.*
Kết quả cho thấy mô hình arcface, được tăng cường bởi CFSM, vượt trội hơn tất cả các đường cơ sở trong cả các tác vụ xác định và xác minh khuôn mặt, đạt được hiệu suất hiện đại mới.
Khả năng trích xuất các miền từ các đặc điểm khác nhau của các hệ thống giám sát kế thừa cũng cho phép so sánh và đánh giá sự tương đồng phân phối giữa các hệ thống này, trình bày từng loại theo phong cách thị giác có thể được tận dụng trong công việc trong tương lai.
*Ví dụ từ các bộ dữ liệu khác nhau thể hiện sự khác biệt rõ ràng về phong cách.*
Các tác giả cũng lưu ý rằng CFSM chứng minh cách thao tác đối nghịch có thể được sử dụng để tăng độ chính xác nhận biết trong các nhiệm vụ tầm nhìn. Họ đã giới thiệu một số liệu tương tự của bộ dữ liệu dựa trên các cơ sở phong cách đã học, nắm bắt sự khác biệt về kiểu theo cách hoặc cách dự đoán-bất khả tri.
Nghiên cứu nhấn mạnh tiềm năng của các mô hình tổng hợp khuôn mặt có thể kiểm soát và có hướng dẫn để nhận dạng khuôn mặt không bị ràng buộc và cung cấp những hiểu biết về sự khác biệt của bộ dữ liệu.


5 bước dễ dàng để đòi lại quyền riêng tư dữ liệu trực tuyến của bạn - Bắt đầu ngay hôm nay









