オプション
ニュース
AIは、強化されたビデオ批評を提供することを学びます

AIは、強化されたビデオ批評を提供することを学びます

2025年4月19日
71

AI研究におけるビデオコンテンツ評価の課題

コンピュータビジョン文献の世界に飛び込む際、Large Vision-Language Models (LVLMs)は複雑な提出物の解釈に非常に役立ちます。しかし、科学論文に付随するビデオ例の品質や価値を評価する際には、大きな障害に直面します。これは、研究プロジェクトにおける主張を検証し、興奮を呼び起こすために、魅力的なビジュアルがテキストと同じくらい重要であるため、非常に重要な側面です。

特にビデオ合成プロジェクトは、却下されないために実際のビデオ出力を示すことに大きく依存しています。これらのデモンストレーションにおいて、プロジェクトの実世界でのパフォーマンスが本当の意味で評価され、しばしばプロジェクトの大胆な主張と実際の能力とのギャップが明らかになります。

本を読んだが、映画は見ていない

現在、APIベースの人気のLarge Language Models (LLMs)やLarge Vision-Language Models (LVLMs)は、ビデオコンテンツを直接分析する能力を備えていません。それらの能力は、ビデオに関連するトランスクリプトやその他のテキストベースの資料の分析に限定されています。この限界は、これらのモデルにビデオコンテンツを直接分析するよう求められたときに明らかです。

GPT-4o、Google Gemini、Perplexityが、トランスクリプトや他のテキストベースのソースに頼らずにビデオを直接分析するよう求められた際の多様な反論。*GPT-4o、Google Gemini、Perplexityが、トランスクリプトや他のテキストベースのソースに頼らずにビデオを直接分析するよう求められた際の多様な反論。*

ChatGPT-4oのような一部のモデルは、ビデオの主観的な評価を試みることがありますが、最終的にはビデオを直接見ることができないことを認めます。

新しい研究論文に関連するビデオの主観的な評価を求められ、実際の意見を偽った後、ChatGPT-4oは最終的にビデオを直接見ることができないと告白する。*新しい研究論文に関連するビデオの主観的な評価を求められ、実際の意見を偽った後、ChatGPT-4oは最終的にビデオを直接見ることができないと告白する。*

これらのモデルはマルチモーダルであり、ビデオから抽出されたフレームなどの個々の写真を分析できますが、質的な意見を提供する能力には疑問が残ります。LLMsはしばしば「人々に好まれる」応答を提供する傾向があり、誠実な批評とは言えません。さらに、ビデオの多くの問題は時間的なものであり、単一のフレームを分析するだけでは本質を見逃します。

LLMがビデオに対して「価値判断」を下す唯一の方法は、ディープフェイク画像や美術史などのテキストベースの知識を活用し、人間の洞察に基づく学習済みの埋め込みと視覚的品質を関連付けることです。

FakeVLMプロジェクトは、専門のマルチモーダルビジョン言語モデルを介してターゲット化されたディープフェイク検出を提供する。出典:https://arxiv.org/pdf/2503.14905*FakeVLMプロジェクトは、専門のマルチモーダルビジョン言語モデルを介してターゲット化されたディープフェイク検出を提供する。* 出典:https://arxiv.org/pdf/2503.14905

LLMは、YOLOのような補助AIシステムの助けを借りてビデオ内のオブジェクトを特定できますが、人間の意見を反映する損失関数ベースのメトリックがなければ、主観的な評価は依然として困難です。

条件付きビジョン

損失関数は、モデルのトレーニングにおいて不可欠であり、予測が正しい答えからどれだけ離れているかを測定し、モデルがエラーを減らすように導きます。これらはまた、フォトリアリスティックなビデオなどのAI生成コンテンツの評価にも使用されます。

一般的なメトリックの一つはFréchet Inception Distance (FID)であり、生成された画像と実際の画像の分布の類似性を測定します。FIDはInception v3ネットワークを使用して統計的差異を計算し、スコアが低いほど視覚的品質と多様性が高いことを示します。

しかし、FIDは自己参照的かつ比較的です。2021年に導入されたConditional Fréchet Distance (CFD)は、生成された画像がクラスラベルや入力画像などの追加条件にどれだけ適合しているかも考慮することで、この問題に対処します。

2021年のCFDの例。出典:https://github.com/Michael-Soloveitchik/CFID/*2021年のCFDの例。* 出典:https://github.com/Michael-Soloveitchik/CFID/

CFDは質的な人間の解釈をメトリックに統合することを目指していますが、このアプローチは潜在的なバイアス、頻繁な更新の必要性、予算の制約などの課題を導入し、時間の経過とともに評価の一貫性と信頼性に影響を与える可能性があります。

cFreD

米国からの最近の論文では、視覚的品質とテキスト-画像の整合性の両方を評価することで、人の好みをより良く反映するように設計された新しいメトリックConditional Fréchet Distance (cFreD)が紹介されています。

新しい論文からの部分的な結果:プロンプト「ソファとソファに置かれたラップトップコンピュータのあるリビングルーム」に対する異なるメトリックによる画像ランキング(1~9)。緑は人間が最も高く評価したモデル(FLUX.1-dev)を強調し、紫は最も低く評価されたモデル(SDv1.5)を示す。cFreDだけが人間のランキングと一致する。完全な結果については、スペースの都合上ここでは再現できないため、元の論文を参照してください。出典:https://arxiv.org/pdf/2503.21721*新しい論文からの部分的な結果:プロンプト「ソファとソファに置かれたラップトップコンピュータのあるリビングルーム」に対する異なるメトリックによる画像ランキング(1~9)。緑は人間が最も高く評価したモデル(FLUX.1-dev)を強調し、紫は最も低く評価されたモデル(SDv1.5)を示す。cFreDだけが人間のランキングと一致する。完全な結果については、スペースの都合上ここでは再現できないため、元の論文を参照してください。* 出典:https://arxiv.org/pdf/2503.21721

著者らは、Inception Score (IS)やFIDなどの従来のメトリックは、画像の品質のみに焦点を当て、画像がプロンプトにどれだけ適合しているかを考慮しないため不十分であると主張しています。彼らは、cFreDが画像の品質と入力テキストの条件付けの両方を捉え、人間の好みとの高い相関をもたらすと提案しています。

論文のテストは、著者が提案するメトリックcFreDが、3つのベンチマークデータセット(PartiPrompts、HPDv2、COCO)において、FID、FDDINOv2、CLIPScore、CMMDよりも一貫して人間の好みと高い相関を示すことを示している。*論文のテストは、著者が提案するメトリックcFreDが、3つのベンチマークデータセット(PartiPrompts、HPDv2、COCO)において、FID、FDDINOv2、CLIPScore、CMMDよりも一貫して人間の好みと高い相関を示すことを示している。*

コンセプトと方法

テキストから画像へのモデルの評価のゴールドスタンダードは、クラウドソーシングによる比較を通じて収集された人間の好みデータであり、大規模言語モデルに使用される方法と似ています。しかし、これらの方法はコストがかかり、遅いため、一部のプラットフォームは更新を停止しています。

生成ビジュアルAIの現在の推定リーダーをランク付けするArtificial Analysis Image Arena Leaderboard。出典:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*生成ビジュアルAIの現在の推定リーダーをランク付けするArtificial Analysis Image Arena Leaderboard。* 出典:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

FID、CLIPScore、cFreDなどの自動メトリックは、人間の好みが進化する中で、将来のモデルを評価するために重要です。cFreDは、実際の画像と生成された画像がともにガウス分布に従うと仮定し、プロンプト全体でのFréchet距離の期待値を測定し、リアリズムとテキストの一貫性の両方を評価します。

データとテスト

cFreDの人間の好みとの相関を評価するために、著者は同じテキストプロンプトを使用した複数のモデルからの画像ランキングを使用しました。彼らはHuman Preference Score v2 (HPDv2)テストセットとPartiPrompts Arenaを活用し、データを単一のデータセットに統合しました。

新しいモデルに対しては、HPDv2と重複しないCOCOのトレーニングおよび検証セットから1,000のプロンプトを使用し、Arena Leaderboardの9つのモデルを使用して画像を生成しました。cFreDは、複数の統計的および学習済みメトリックに対して評価され、人間の判断と強い整合性を示しました。

HPDv2テストセットにおける統計的メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、HPSv2、MPS)を使用したモデルランキングとスコア。最高の結果は太字で、2番目は下線で示される。*HPDv2テストセットにおける統計的メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、HPSv2、MPS)を使用したモデルランキングとスコア。最高の結果は太字で、2番目は下線で示される。*

cFreDは、0.97の相関と91.1%のランキング精度で、人間の好みとの最も高い整合性を達成し、人間の好みに基づいてトレーニングされたメトリックを含む他のメトリックを上回り、多様なモデルでの信頼性を示しました。

PartiPromptsにおける統計的メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、MPS)を使用したモデルランキングとスコア。最高の結果は太字で、2番目は下線で示される。*PartiPromptsにおける統計的メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、MPS)を使用したモデルランキングとスコア。最高の結果は太字で、2番目は下線で示される。*

PartiPrompts Arenaでは、cFreDは0.73で人間の評価と最も高い相関を示し、FIDとFDDINOv2がそれに続きました。しかし、人間の好みに基づいてトレーニングされたHPSv2は、0.83で最も強い整合性を示しました。

ランダムにサンプリングされたCOCOプロンプトにおける自動メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、HPSv2、MPS)を使用したモデルランキング。0.5未満のランキング精度は、調和しないペアが調和するペアよりも多いことを示し、最高の結果は太字で、2番目は下線で示される。*ランダムにサンプリングされたCOCOプロンプトにおける自動メトリック(FID、FDDINOv2、CLIPScore、CMMD、cFreD)および人間の好みに基づいてトレーニングされたメトリック(Aesthetic Score、ImageReward、HPSv2、MPS)を使用したモデルランキング。0.5未満のランキング精度は、調和しないペアが調和するペアよりも多いことを示し、最高の結果は太字で、2番目は下線で示される。*

COCOデータセットの評価では、cFreDは0.33の相関と66.67%のランキング精度を達成し、人間の好みとの整合性で3位にランクされ、人間データでトレーニングされたメトリックに次ぐ結果でした。

COCOデータセットにおける各画像バックボーンのランキングが本当の人間由来のランキングと一致した頻度を示す勝率。*COCOデータセットにおける各画像バックボーンのランキングが本当の人間由来のランキングと一致した頻度を示す勝率。*

著者はまた、Inception V3をテストし、DINOv2-L/14やViT-L/16などのトランスフォーマーベースのバックボーンに比べ、人間のランキングとの整合性が一貫して優れていることを発見しました。

結論

人間が関与するソリューションは、メトリックと損失関数の開発において最適なアプローチですが、更新の規模と頻度により実際的ではありません。cFreDの信頼性は、間接的ではあるものの、人間の判断との整合性に依存しています。このメトリックの正当性は人間の好みデータに依存しており、そのようなベンチマークがなければ、人間のような評価の主張は証明できないでしょう。

生成出力の「リアリズム」に関する現在の基準をメトリック関数に組み込むことは、生成AIシステムの新しい波によって推進されるリアリズムの理解の進化を考慮すると、長期的な誤りとなる可能性があります。

*この時点で、通常なら最近の学術提出物からの例示的なビデオ例を含めるでしょうが、それは意地悪になるでしょう。Arxivの生成AI出力を10~15分以上調べた人なら、関連する提出物が画期的な論文として称賛されないことを示す、主観的に品質の低い補足ビデオにすでに出会っているはずです。*

*実験では合計46の画像バックボーンモデルが使用され、グラフ化された結果にはすべてが含まれていません。完全なリストについては論文の付録を参照してください。表と図に記載されているものが取り上げられています。*

2025年4月1日火曜日に初公開

関連記事
ブリトニー・スピアーズの赤いキャットスーツ:ポップファッションの決定的瞬間 ブリトニー・スピアーズの赤いキャットスーツ:ポップファッションの決定的瞬間 ブリトニー・スピアーズ、ポップの女王は、常に大胆なスタイルで観客を魅了してきました。彼女のミュージックビデオは音楽的ヒットだけでなく、ファッションのマイルストーンでもあります。この記事では、『Oops!...I Did It Again』のミュージックビデオで忘れられない赤いキャットスーツに焦点を当て、2000年代初頭のスタイルを定義したこのルックを探ります。この鮮やかな衣装がどのように文化的タッ
聖なる献身の探求:信仰、愛、霊的自由 聖なる献身の探求:信仰、愛、霊的自由 混沌と気晴らしに満ちた世界で、霊的つながりのための平和な瞬間を切り開くことは、人生を変革することができます。この記事では、イエスを崇敬する深い行為に踏み込み、信仰、神の愛、そして霊的解放への個人的な探求のテーマを探ります。この献身が生活のさまざまな側面をどのように形成し、慰め、回復力、そして新たな目的を提供するかを考察します。信仰を深め、神聖なつながりの人生を変える力を取り入れたいと願う人々に最適
AI駆動のSQL管理:2025年にデータベースを効率化 AI駆動のSQL管理:2025年にデータベースを効率化 人工知能はSQLによるデータベース管理を変革し、自動化と効率性を高める革新的なツールを導入しています。データコンテキストを理解し、スマートな推奨を提供し、繰り返しのタスクを自動化し、問題を予測することで、AIはSQL操作を簡素化します。このガイドでは、AI駆動のソリューションが効率性、精度、プロアクティブなデータベース管理をどのように向上させるかを探ります。主なポイントAIは自然言語入力からSQL
コメント (6)
0/200
RalphMartínez
RalphMartínez 2025年7月22日 10:25:03 JST

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 2025年4月25日 11:29:53 JST

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 2025年4月23日 20:09:01 JST

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 2025年4月22日 18:56:13 JST

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025年4月22日 17:55:54 JST

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 2025年4月20日 11:22:28 JST

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

トップに戻ります
OR