オプション
ニュース 本物のビデオコンテンツにおける微妙でありながら影響力のあるAIの変更を発表する

本物のビデオコンテンツにおける微妙でありながら影響力のあるAIの変更を発表する

発売日 発売日 2025年4月11日
著者 著者 StevenWalker
ビュー ビュー 42

2019年、米国下院議長であったナンシー・ペロシの欺ceptiveビデオが広く流通していました。彼女が中毒に見えるように編集されたこのビデオは、操作されたメディアがどれほど簡単に誤解を招く可能性があるかを思い出させるものでした。その単純さにもかかわらず、このインシデントは、基本的な視聴覚編集の潜在的な損害を強調しました。

当時、ディープファークの風景は、2017年後半から存在していた自動エンコーダーベースのフェイス置換技術によって主に支配されていました。これらの初期のシステムは、ペロシのビデオで見られる微妙な変更を行うのに苦労し、代わりにより明白な顔のスワップに焦点を当てました。

最近の「ニューラル感情ディレクター」フレームワークは、有名な顔の雰囲気を変えます。出典:https://www.youtube.com/watch?v=li6w8prdmjq 2022年の「ニューラル感情ディレクター」フレームワークは、有名な顔の雰囲気を変えます。出典: https://www.youtube.com/watch?v =li6w8prdmjq

今日に早送りすると、映画やテレビ業界はAI主導のポストプロダクションの編集をますます探求しています。この傾向は、AIが以前は達成不可能だったレベルの完璧主義を可能にするため、関心と批判の両方を引き起こしました。これに応じて、研究コミュニティは、Diffusion Video Autoencoders、Stitch It In Time、Chatface、Magicface、Discoなど、フェイシャルキャプチャの「ローカル編集」に焦点を当てたさまざまなプロジェクトを開発しました。

2025年1月のプロジェクトマジックフェイスでの表現編集。出典:https://arxiv.org/pdf/2501.02260 2025年1月のプロジェクトマジックフェイスでの表現編集。出典: https://arxiv.org/pdf/2501.02260

新しい顔、新しいしわ

ただし、これらの微妙な編集を作成するための技術は、それらを検出する能力よりもはるかに速く進歩しています。ほとんどのディープフェイク検出方法は時代遅れで、古いテクニックとデータセットに焦点を当てています。つまり、インドの研究者からの最近のブレークスルーまでです。

ディープフェイクでの微妙なローカル編集の検出:実際のビデオが変更され、眉をひそめたり、性別の特性を修正したり、嫌悪感に向かって表現のシフトなどの微妙な変化を伴って偽物を生み出したりします(ここでは、単一のフレームで説明されています)。出典:https://arxiv.org/pdf/2503.22121ディープフェイクでの微妙なローカル編集の検出:実際のビデオが変更され、眉をひそめたり、性別の特性を修正したり、嫌悪感に向かって表現のシフトなどの微妙な変化を伴って偽物を生み出したりします(ここでは、単一のフレームで説明されています)。出典: https://arxiv.org/pdf/2503.22121

この新しい研究は、しばしば見落とされがちな偽造の一種である、微妙で局所的な顔の操作の検出を対象としています。広範な矛盾やアイデンティティの不一致を探す代わりに、この方法は、特定の顔の特徴へのわずかな式シフトやマイナーな編集などの細かい詳細についてゼロになります。顔のアクションコーディングシステム(FACS)を活用し、表情を64の可変領域に分解します。

FACSの構成64の発現部分の一部。出典:https://www.cs.cmu.edu/~face/facs.htm FACSの構成64の発現部分の一部。出典: https://www.cs.cmu.edu/~face/facs.htm

研究者たちは、最近のさまざまな編集方法に対してアプローチをテストし、古いデータセットや新しい攻撃ベクトルを使用しても、既存のソリューションを一貫して上回ることがわかりました。

'AUベースの機能を使用して、マスクされた自動エンコーダー(MAE)を介して学習したビデオ表現をガイドすることにより、当社の方法は、微妙な顔の編集を検出するために重要なローカライズされた変更を効果的にキャプチャします。

「このアプローチにより、局所的な編集と顔中心のビデオのより広範な変更の両方をコードする統一された潜在表現を構築し、ディープフェイク検出のための包括的で適応性のあるソリューションを提供します。」

アクションユニット誘導ビデオ表現を使用したローカライズされたディープファーク操作の検出というタイトルのこの論文は、マドラスのインド工科大学の研究者によって執筆されました。

方法

この方法は、ビデオで顔を検出し、これらの顔を中心とした均等に間隔を空けたフレームをサンプリングすることから始まります。これらのフレームは、小さな3Dパッチに分解され、ローカルの空間的および時間的詳細をキャプチャします。

新しい方法のスキーマ。入力ビデオは顔検出で処理されて、均等に間隔を空けた顔中心のフレームを抽出します。これは、管状パッチに分割され、2つの前提条件の口実タスクから潜在的な表現を融合するエンコーダーを通過します。結果のベクトルは、分類子によって使用され、ビデオが本物か偽物かを判断します。新しい方法のスキーマ。入力ビデオは顔検出で処理され、均等に間隔を空けた顔中心のフレームを抽出し、「管状」パッチに分割され、2つの前提条件の入り口タスクから潜在的な表現を融合するエンコーダーを通過します。結果のベクトルは、分類子によって使用され、ビデオが本物か偽物かを判断します。

各パッチには、いくつかの連続したフレームからのピクセルの小さなウィンドウが含まれているため、モデルは短期の動きと式の変化を学習できます。これらのパッチは埋め込まれており、実際のビデオを区別するように設計されたエンコーダーに供給される前に、位置的にエンコードされています。

微妙な操作を検出するという課題は、より敏感で一般化可能な特徴空間を作成することを目的とした、2種類の学習表現を交差するメカニズムを介して組み合わせたエンコーダーを使用することにより対処されます。

事前タスク

最初の表現は、マスクされた自動エンコードタスクでトレーニングされたエンコーダーからのものです。ビデオの3Dパッチのほとんどを隠すことにより、エンコーダは欠落している部分を再構築することを学び、顔の動きのような重要な時空パターンをキャプチャします。

口論タスクトレーニングには、ビデオ入力の一部をマスキングし、エンコーダーデコーダーセットアップを使用して、タスクに応じて元のフレームまたはフレームごとのアクションユニットマップを再構築することが含まれます。口論タスクトレーニングには、ビデオ入力の一部をマスキングし、エンコーダーデコーダーセットアップを使用して、タスクに応じて元のフレームまたはフレームごとのアクションユニットマップを再構築することが含まれます。

ただし、これだけでは、細粒の編集を検出するのに十分ではありません。研究者は、顔面アクションユニット(AUS)を検出するためにトレーニングされた2番目のエンコーダを導入し、微妙なディープファークの編集が頻繁に発生する局所的な筋肉活動に焦点を合わせるよう奨励しました。

顔面アクションユニット(FAU、またはAUS)のさらなる例。出典:https://www.eiagroup.com/the-facial-action-coding-system/顔面アクションユニット(FAU、またはAUS)のさらなる例。出典: https://www.eiagroup.com/the-facial-action-coding-system/

事前に取引後、両方のエンコーダの出力は、通過を使用して組み合わされ、AUベースの機能は空間的特徴に注意を向けます。これにより、最終的な分類タスクに使用される、より広いモーションコンテキストとローカライズされた式の詳細の両方をキャプチャする融合潜在表現が生じます。

データとテスト

実装

このシステムは、FaceXzooo Pytorchベースのフェイス検出フレームワークを使用して実装され、各ビデオクリップから16の顔中心のフレームを抽出しました。口実は、35,000の高品質のフェイシャルビデオを含むcelebv-hqデータセットで訓練されました。

ソースペーパーから、新しいプロジェクトで使用されているcelebv-hqデータセットの例。出典:https://arxiv.org/pdf/2207.12393ソースペーパーから、新しいプロジェクトで使用されているcelebv-hqデータセットの例。出典: https://arxiv.org/pdf/2207.12393

データの半分は、過剰適合を防ぐためにマスクされました。マスクされたフレーム再構成タスクの場合、モデルはL1損失を使用して欠落領域を予測するように訓練されました。 2番目のタスクでは、L1損失が監督した16のフェイシャルアクションユニットのマップを生成するように訓練されました。

事前トレーニング後、エンコーダは、実際のビデオと操作されたビデオの両方を含むFaceForensics ++データセットを使用して、ディープフェイク検出のために融合し、微調整されました。

FaceForensics ++データセットは、2017年以来、Deepfake Detectionの中心的な試金石でしたが、最新のフェイシャル合成技術に関してはかなり古くなっています。出典:https://www.youtube.com/watch?v=x2g48q2i2zq Faceforensics ++データセットは、2017年以来のDeepfake Detectionの基礎となっていますが、最新のフェイシャル統合技術に関してはかなり古くなっています。出典: https://www.youtube.com/watch?v =x2g48q2i2zq

クラスの不均衡に対処するために、著者は焦点損失を使用し、トレーニング中により挑戦的な例を強調しました。すべてのトレーニングは、VideOMAMEの事前に訓練されたチェックポイントを使用して、24GBのVRAMを使用した単一のRTX 4090 GPUで実施されました。

テスト

この方法は、地元で編集されたディープフェイクに焦点を当てた、さまざまなディープフェイク検出技術に対して評価されました。このテストには、さまざまな編集方法と古いディープファークデータセットが含まれており、エリアアンダーカーブ(AUC)、平均精度、平均F1スコアなどのメトリックを使用しています。

論文から:最近のローカライズされたディープフェイクの比較は、提案された方法が他のすべてを上回ったことを示しており、次のベストアプローチでAUCと平均精度の両方で15〜20%の増加を示しています。論文から:最近のローカライズされたディープフェイクの比較は、提案された方法が他のすべてを上回ったことを示しており、次のベストアプローチでAUCと平均精度の両方で15〜20%の増加を示しています。

著者は、ローカルで操作されたビデオの視覚的な比較を提供し、微妙な編集に対する方法の優れた感度を示しました。

3つの異なる局所操作を使用して実際のビデオが変更され、オリジナルと視覚的に類似したままの偽物が生成されました。ここに示されているのは、各方法の平均偽の検出スコアとともに代表的なフレームです。既存の検出器はこれらの微妙な編集に苦労していましたが、提案されたモデルは一貫して高い偽の確率を割り当て、ローカライズされた変化に対する感度が高いことを示しています。 3つの異なる局所操作を使用して実際のビデオが変更され、オリジナルと視覚的に類似したままの偽物が生成されました。ここに示されているのは、各方法の平均偽の検出スコアとともに代表的なフレームです。既存の検出器はこれらの微妙な編集に苦労していましたが、提案されたモデルは一貫して高い偽の確率を割り当て、ローカライズされた変化に対する感度が高いことを示しています。

研究者たちは、既存の最先端の検出方法が最新のディープファーク生成技術に苦労し、その方法が堅牢な一般化を示し、高いAUCと平均精度スコアを達成することを指摘しました。

従来のディープフェイクデータセットのパフォーマンスは、提案された方法が主要なアプローチと競争力があることを示しており、さまざまな操作タイプにわたって強い一般化を示しています。従来のディープフェイクデータセットのパフォーマンスは、提案された方法が主要なアプローチと競争力があることを示しており、さまざまな操作タイプにわたって強い一般化を示しています。

著者はまた、実際の条件下でモデルの信頼性をテストし、飽和調整、ガウスぼかし、ピクセル化などの一般的なビデオの歪みに復元されることを発見しました。

さまざまなビデオの歪みの下で検出精度がどのように変化するかの図。ほとんどの場合、新しい方法は回復力があり、AUCのわずかな減少しかありませんでした。ガウスノイズが導入されたときに、最も重要な低下が発生しました。さまざまなビデオの歪みの下で検出精度がどのように変化するかの図。ほとんどの場合、新しい方法は回復力があり、AUCのわずかな減少しかありませんでした。ガウスノイズが導入されたときに、最も重要な低下が発生しました。

結論

国民はしばしばディープフェイクをアイデンティティを交換すると考えていますが、AI操作の現実はより微妙で、潜在的に潜在的に潜在的に潜在的に潜在的になります。この新しい研究で議論されている一種のローカル編集は、別の注目度の高い事件が発生するまで世間の注目を集めない可能性があります。しかし、俳優のニック・ケージが指摘したように、ポストプロダクションの編集がパフォーマンスを変更する可能性は、私たち全員が注意すべき懸念です。私たちは、表情のわずかな変化でさえも自然に敏感であり、コンテキストはその影響を劇的に変える可能性があります。

2025年4月2日水曜日に最初に公開されました

関連記事
Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai tăng cường các quy định của Deepfake trong bối cảnh áp lực từ Thẻ Mastercard và Visa Civitai, một trong những kho lưu trữ mô hình AI nổi bật nhất trên Internet, gần đây đã thực hiện những thay đổi đáng kể đối với các chính sách của mình về nội dung NSFW, đặc biệt liên quan đến người nổi tiếng Loras. Những thay đổi này đã được thúc đẩy bởi áp lực từ MasterCard và Visa của người hỗ trợ thanh toán. Người nổi tiếng Loras, đó là bạn
Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google sử dụng AI để đình chỉ hơn 39 triệu tài khoản AD vì bị nghi ngờ gian lận Google đã công bố vào thứ Tư rằng họ đã có một bước quan trọng trong việc chống gian lận quảng cáo bằng cách đình chỉ một tài khoản nhà quảng cáo đáng kinh ngạc 39,2 triệu trên nền tảng của mình vào năm 2024.
Tạo video AI chuyển sang kiểm soát hoàn toàn Tạo video AI chuyển sang kiểm soát hoàn toàn Các mô hình nền tảng video như Hunyuan và WAN 2.1 đã có những bước tiến đáng kể, nhưng chúng thường bị thiếu hụt khi nói đến điều khiển chi tiết cần thiết trong sản xuất phim và TV, đặc biệt là trong lĩnh vực hiệu ứng hình ảnh (VFX). Trong VFX Studios chuyên nghiệp, những mô hình này, cùng với hình ảnh trước đó
コメント (25)
0/200
KevinAnderson
KevinAnderson 2025年4月13日 16:16:26 GMT

The Nancy Pelosi video was a wake-up call! It's scary how easily AI can manipulate videos. I appreciate the app for showing how subtle changes can have big impacts. But it's also a bit unsettling; makes you question what's real. Needs more transparency, I think.

NicholasYoung
NicholasYoung 2025年4月13日 1:51:07 GMT

ナンシー・ペロシのビデオは目覚まし時計のようなものでした!AIがどれだけ簡単にビデオを操作できるかは恐ろしいです。このアプリが微妙な変更が大きな影響を与えることを示してくれたのは良かったです。でも、ちょっと不気味ですね。本物が何か疑問に思います。もっと透明性が必要だと思います。

MichaelDavis
MichaelDavis 2025年4月12日 11:12:26 GMT

O vídeo da Nancy Pelosi foi um alerta! É assustador como a IA pode manipular vídeos tão facilmente. Gosto do app por mostrar como mudanças sutis podem ter grandes impactos. Mas também é um pouco perturbador; faz você questionar o que é real. Precisa de mais transparência, acho eu.

JustinNelson
JustinNelson 2025年4月14日 1:30:55 GMT

नैन्सी पेलोसी का वीडियो एक जागृति कॉल था! यह डरावना है कि AI कितनी आसानी से वीडियो को मैनिपुलेट कर सकता है। मुझे ऐप पसंद है कि यह दिखाता है कि सूक्ष्म परिवर्तन कैसे बड़े प्रभाव डाल सकते हैं। लेकिन यह भी थोड़ा असहज है; आपको यह सोचने पर मजबूर करता है कि क्या सच है। मुझे लगता है कि इसमें और पारदर्शिता की जरूरत है।

MarkLopez
MarkLopez 2025年4月12日 14:16:16 GMT

La vidéo de Nancy Pelosi a été un signal d'alarme ! C'est effrayant de voir à quel point l'IA peut facilement manipuler des vidéos. J'apprécie l'application pour montrer comment des changements subtils peuvent avoir un grand impact. Mais c'est aussi un peu dérangeant ; ça vous fait douter de ce qui est réel. Il faudrait plus de transparence, je pense.

RogerMartinez
RogerMartinez 2025年4月13日 0:33:37 GMT

The Nancy Pelosi video was a wake-up call on how AI can subtly change videos to mislead us. It's scary how simple it was to make her look intoxicated. This app really shows the power of AI in media manipulation. Needs to be more accessible though, so more people can understand the risks!

トップに戻ります
OR