「分解された」合成面は、顔認識技術を強化する可能性があります
2025年4月25日
KennethKing
0
ミシガン州立大学の研究者は、画像認識システムの精度を強化するために、高貴な大義のために合成面を使用する革新的な方法を思いつきました。ディープフェイクの現象に貢献する代わりに、これらの合成面は、実際のビデオ監視映像に見られる欠陥を模倣するように設計されています。
チームは、顔のぼかし、低解像度、センサーノイズなどのCCTVシステムの典型的な欠陥を反映するスタイルで顔を再生できる制御可能なフェイス合成モジュール(CFSM)を開発しました。このアプローチは、人気のあるデータセットから高品質の有名人の画像を使用することとは異なります。これは、顔認識システムが直面する実際の課題を把握していません。
*制御可能なフェイス合成モジュール(CFSM)の概念アーキテクチャ。
ヘッドポーズや表現の複製に焦点を当てたディープファークシステムとは異なり、CFSMは、スタイル転送を通じてターゲット認識システムのスタイルに一致する代替ビューを生成することを目指しています。このモジュールは、コストの制約のためにアップグレードされる可能性が低いが、現代の顔認識技術に貢献する必要があるレガシーシステムへの適応に特に役立ちます。
CFSMをテストするとき、研究者は、低品質のデータを扱う画像認識システムの大幅な改善を観察しました。また、予期せぬ利点も発見しました。これにより、ターゲットデータセットを特徴付けて比較する能力があります。これにより、さまざまなCCTVシステムのベンチマークとテーラードデータセットの作成プロセスが簡素化されます。
*ターゲットシステムの制限に適応するための顔認識モデルのトレーニング
この方法は、既存のデータセットにも適用し、顔面認識に適したドメイン適応を効果的に実行することもできます。コントロール可能であり、制約不能な顔認識のためのガイド付きフェイス合成**というタイトルの研究は、米国国家情報局長(ODNI、IARPA)によって部分的にサポートされており、MSUのコンピューターサイエンス&エンジニアリング部門の4人の研究者が関与しています。
低品質の顔認識:成長分野
過去数年にわたって、低品質の顔認識(LQFR)は重要な研究分野として浮上してきました。耐久性があり、長持ちするように構築された多くの古いビデオ監視システムは時代遅れになり、技術的な負債により機械学習の効果的なデータソースとして役立つことに苦労しています。
さまざまな歴史的および最近のビデオ監視システムにわたるさまざまなレベルの顔の解像度。出典:https://arxiv.org/pdf/1805.11519.pdf
幸いなことに、拡散モデルやその他のノイズベースのモデルは、この問題に対処するのに適しています。最新の画像合成システムの多くには、プロセスの一部として低解像度画像のアップスケーリングが含まれています。これは、神経圧縮技術にも重要です。
顔認識の課題は、低解像度の画像から抽出された可能な限り少ない機能を使用して精度を最大化することです。これは、低解像度で顔を識別するのに役立つだけでなく、トレーニングモデルの潜在スペースの画像サイズの制限のために必要です。
コンピュータービジョンでは、「特徴」とは、顔だけでなく、任意の画像からの特性を区別することを指します。アップスケーリングアルゴリズムの進歩により、低解像度の監視映像を強化するためのさまざまな方法が提案されており、犯罪現場の調査などの法的目的で使用できる可能性があります。
ただし、誤認のリスクがあり、理想的には、顔認識システムは正確な識別を行うために高解像度の画像を必要としないはずです。このような変換は費用がかかり、その有効性と合法性について疑問を投げかけます。
より多くの「かかとの」有名人の必要性
顔認識システムが画像を変換する必要なく、レガシーシステムの出力から直接機能を抽出できる場合、より有益です。これには、高解像度のアイデンティティと既存の監視システムからの劣化した画像との関係をよりよく理解する必要があります。
問題は標準にあります。MS-CELEB-1MやWebface260Mなどのデータセットは、一貫したベンチマークを提供するため、広く使用されています。ただし、著者らは、これらのデータセットで訓練された顔の認識アルゴリズムは、古い監視システムの視覚ドメインには適していないと主張しています。
* Microsoftの人気のMS-CELEB1Mデータセットの例
この論文は、最先端の顔認識モデルがドメインシフトの問題による実世界の監視画像と闘っていることを強調しています。これらのモデルは、センサーノイズやモーションブラーなど、実際のシナリオに見られるバリエーションがない半構成データセットでトレーニングされています。
以前の方法では、履歴または低コストの監視システムの出力と一致しようとしましたが、これらは「盲目」の増強でした。対照的に、CFSMはトレーニング中にターゲットシステムからの直接フィードバックを使用し、スタイル転送を介してそのドメインを模倣して適応します。
*女優のナタリー・ポートマンは、コンピュータービジョンコミュニティを支配する少数のデータセットに慣れていないため、実際のターゲットモデルのドメインからのフィードバックに基づいて、CFSMを実行するスタイルが一致したドメイン適応を実行するこの例のアイデンティティの1つです。
著者のアーキテクチャは、高速グラデーションサイン法(FGSM)を使用して、ターゲットシステムの出力からスタイルと特性をインポートします。トレーニングが進むにつれて、パイプラインの画像生成部分はターゲットシステムに対してより忠実になり、顔認識のパフォーマンスと一般化機能が向上します。
テストと結果
研究者は、MSUの以前の研究をテンプレートとして使用してCFSMをテストし、MS-CELEB-1MおよびMS1M-V2をトレーニングデータセットとして採用しました。ターゲットデータは、香港の中国大学のより広いフェイスデータセットで、困難な状況で顔を検出するために設計されていました。
このシステムは、IJB-B、IJB-C、IJB-S、およびTinyfaceの4つの顔認識ベンチマークに対して評価されました。 CFSMは、MS-CELEB-1Mデータの約10%、約440万枚の画像でトレーニングされ、Adam Optimizerを使用して1E-4の学習率を使用して32のバッチサイズで125,000回の反復を訓練しました。
ターゲットの顔認識モデルは、ARCFACE損失関数を備えた修正されたResNet-50を使用しました。比較のためにCFSMで追加のモデルをトレーニングし、結果で「アークフェイス」とラベル付けされました。
*CFSMの主要なテストの結果。より多くの数が優れています。*
結果は、CFSMによって強化されたアークフェイスモデルが、顔の識別タスクと検証タスクの両方ですべてのベースラインを上回り、新しい最先端のパフォーマンスを達成することを示しました。
レガシーサーベイランスシステムのさまざまな特性からドメインを抽出する機能により、これらのシステム間の分布類似性を比較および評価することもでき、将来の作業でレバレッジできる視覚スタイルの観点からそれぞれを提示します。
*さまざまなデータセットの例は、スタイルの明確な違いを示しています。*
著者らはまた、CFSMが視覚タスクの認識精度を高めるために敵対的な操作をどのように使用できるかを示していることを指摘しました。彼らは、学習したスタイルのベースに基づいてデータセットの類似性メトリックを導入し、ラベルまたは予測因子に依存しない方法でスタイルの違いをキャプチャしました。
この研究は、制約不能な顔認識のための制御可能なガイド付きフェイス合成モデルの可能性を強調し、データセットの違いに関する洞察を提供します。
関連記事
DeepSeek's AIs Uncover True Human Desires
DeepSeek's Breakthrough in AI Reward Models: Enhancing AI Reasoning and Response
Chinese AI startup DeepSeek, in collaboration with Tsinghua University, has achieved a significant milestone in AI research. Their innovative approach to AI reward models promises to revolutionize how AI systems learn
DeepCoder Achieves High Coding Efficiency with 14B Open Model
Introducing DeepCoder-14B: A New Frontier in Open-Source Coding ModelsThe teams at Together AI and Agentica have unveiled DeepCoder-14B, a groundbreaking coding model that stands shoulder-to-shoulder with top-tier proprietary models like OpenAI's o3-mini. This exciting development is built on the fo
Uncovering Our ‘Hidden Visits’ With Cell Phone Data and Machine Learning
If you've ever wondered how researchers track our movements across a country without relying solely on phone calls, a fascinating study by researchers from China and the United States offers some insight. Their collaborative work delves into the use of machine learning to uncover the 'hidden visits'
コメント (0)
0/200






ミシガン州立大学の研究者は、画像認識システムの精度を強化するために、高貴な大義のために合成面を使用する革新的な方法を思いつきました。ディープフェイクの現象に貢献する代わりに、これらの合成面は、実際のビデオ監視映像に見られる欠陥を模倣するように設計されています。
チームは、顔のぼかし、低解像度、センサーノイズなどのCCTVシステムの典型的な欠陥を反映するスタイルで顔を再生できる制御可能なフェイス合成モジュール(CFSM)を開発しました。このアプローチは、人気のあるデータセットから高品質の有名人の画像を使用することとは異なります。これは、顔認識システムが直面する実際の課題を把握していません。
*制御可能なフェイス合成モジュール(CFSM)の概念アーキテクチャ。
ヘッドポーズや表現の複製に焦点を当てたディープファークシステムとは異なり、CFSMは、スタイル転送を通じてターゲット認識システムのスタイルに一致する代替ビューを生成することを目指しています。このモジュールは、コストの制約のためにアップグレードされる可能性が低いが、現代の顔認識技術に貢献する必要があるレガシーシステムへの適応に特に役立ちます。
CFSMをテストするとき、研究者は、低品質のデータを扱う画像認識システムの大幅な改善を観察しました。また、予期せぬ利点も発見しました。これにより、ターゲットデータセットを特徴付けて比較する能力があります。これにより、さまざまなCCTVシステムのベンチマークとテーラードデータセットの作成プロセスが簡素化されます。
*ターゲットシステムの制限に適応するための顔認識モデルのトレーニング
この方法は、既存のデータセットにも適用し、顔面認識に適したドメイン適応を効果的に実行することもできます。コントロール可能であり、制約不能な顔認識のためのガイド付きフェイス合成**というタイトルの研究は、米国国家情報局長(ODNI、IARPA)によって部分的にサポートされており、MSUのコンピューターサイエンス&エンジニアリング部門の4人の研究者が関与しています。
低品質の顔認識:成長分野
過去数年にわたって、低品質の顔認識(LQFR)は重要な研究分野として浮上してきました。耐久性があり、長持ちするように構築された多くの古いビデオ監視システムは時代遅れになり、技術的な負債により機械学習の効果的なデータソースとして役立つことに苦労しています。
さまざまな歴史的および最近のビデオ監視システムにわたるさまざまなレベルの顔の解像度。出典:https://arxiv.org/pdf/1805.11519.pdf
幸いなことに、拡散モデルやその他のノイズベースのモデルは、この問題に対処するのに適しています。最新の画像合成システムの多くには、プロセスの一部として低解像度画像のアップスケーリングが含まれています。これは、神経圧縮技術にも重要です。
顔認識の課題は、低解像度の画像から抽出された可能な限り少ない機能を使用して精度を最大化することです。これは、低解像度で顔を識別するのに役立つだけでなく、トレーニングモデルの潜在スペースの画像サイズの制限のために必要です。
コンピュータービジョンでは、「特徴」とは、顔だけでなく、任意の画像からの特性を区別することを指します。アップスケーリングアルゴリズムの進歩により、低解像度の監視映像を強化するためのさまざまな方法が提案されており、犯罪現場の調査などの法的目的で使用できる可能性があります。
ただし、誤認のリスクがあり、理想的には、顔認識システムは正確な識別を行うために高解像度の画像を必要としないはずです。このような変換は費用がかかり、その有効性と合法性について疑問を投げかけます。
より多くの「かかとの」有名人の必要性
顔認識システムが画像を変換する必要なく、レガシーシステムの出力から直接機能を抽出できる場合、より有益です。これには、高解像度のアイデンティティと既存の監視システムからの劣化した画像との関係をよりよく理解する必要があります。
問題は標準にあります。MS-CELEB-1MやWebface260Mなどのデータセットは、一貫したベンチマークを提供するため、広く使用されています。ただし、著者らは、これらのデータセットで訓練された顔の認識アルゴリズムは、古い監視システムの視覚ドメインには適していないと主張しています。
* Microsoftの人気のMS-CELEB1Mデータセットの例
この論文は、最先端の顔認識モデルがドメインシフトの問題による実世界の監視画像と闘っていることを強調しています。これらのモデルは、センサーノイズやモーションブラーなど、実際のシナリオに見られるバリエーションがない半構成データセットでトレーニングされています。
以前の方法では、履歴または低コストの監視システムの出力と一致しようとしましたが、これらは「盲目」の増強でした。対照的に、CFSMはトレーニング中にターゲットシステムからの直接フィードバックを使用し、スタイル転送を介してそのドメインを模倣して適応します。
*女優のナタリー・ポートマンは、コンピュータービジョンコミュニティを支配する少数のデータセットに慣れていないため、実際のターゲットモデルのドメインからのフィードバックに基づいて、CFSMを実行するスタイルが一致したドメイン適応を実行するこの例のアイデンティティの1つです。
著者のアーキテクチャは、高速グラデーションサイン法(FGSM)を使用して、ターゲットシステムの出力からスタイルと特性をインポートします。トレーニングが進むにつれて、パイプラインの画像生成部分はターゲットシステムに対してより忠実になり、顔認識のパフォーマンスと一般化機能が向上します。
テストと結果
研究者は、MSUの以前の研究をテンプレートとして使用してCFSMをテストし、MS-CELEB-1MおよびMS1M-V2をトレーニングデータセットとして採用しました。ターゲットデータは、香港の中国大学のより広いフェイスデータセットで、困難な状況で顔を検出するために設計されていました。
このシステムは、IJB-B、IJB-C、IJB-S、およびTinyfaceの4つの顔認識ベンチマークに対して評価されました。 CFSMは、MS-CELEB-1Mデータの約10%、約440万枚の画像でトレーニングされ、Adam Optimizerを使用して1E-4の学習率を使用して32のバッチサイズで125,000回の反復を訓練しました。
ターゲットの顔認識モデルは、ARCFACE損失関数を備えた修正されたResNet-50を使用しました。比較のためにCFSMで追加のモデルをトレーニングし、結果で「アークフェイス」とラベル付けされました。
*CFSMの主要なテストの結果。より多くの数が優れています。*
結果は、CFSMによって強化されたアークフェイスモデルが、顔の識別タスクと検証タスクの両方ですべてのベースラインを上回り、新しい最先端のパフォーマンスを達成することを示しました。
レガシーサーベイランスシステムのさまざまな特性からドメインを抽出する機能により、これらのシステム間の分布類似性を比較および評価することもでき、将来の作業でレバレッジできる視覚スタイルの観点からそれぞれを提示します。
*さまざまなデータセットの例は、スタイルの明確な違いを示しています。*
著者らはまた、CFSMが視覚タスクの認識精度を高めるために敵対的な操作をどのように使用できるかを示していることを指摘しました。彼らは、学習したスタイルのベースに基づいてデータセットの類似性メトリックを導入し、ラベルまたは予測因子に依存しない方法でスタイルの違いをキャプチャしました。
この研究は、制約不能な顔認識のための制御可能なガイド付きフェイス合成モデルの可能性を強調し、データセットの違いに関する洞察を提供します。


オンラインデータプライバシーを取り戻すための5つの簡単な手順 - 今日開始









