オプション
ニュース
AIは、強化されたビデオ批評を提供することを学びます

AIは、強化されたビデオ批評を提供することを学びます

2025年4月19日
55

AI研究におけるビデオコンテンツを評価するという課題

コンピュータービジョンの文献の世界に飛び込むと、複雑な提出物を解釈するために、大きなビジョン言語モデル(LVLMS)が非常に貴重です。しかし、科学論文に伴うビデオ例の品質とメリットを評価することになると、彼らは重要な障害に衝突しました。これは重要な側面です。なぜなら、説得力のあるビジュアルは、興奮を生み出し、研究プロジェクトで行われた主張を検証する際のテキストと同じくらい重要だからです。

特に、ビデオ統合プロジェクトは、却下されないように実際のビデオ出力を実証することに大きく依存しています。プロジェクトの実際のパフォーマンスを真に評価できるのは、これらのデモンストレーションにあり、プロジェクトの大胆な主張とその実際の能力とのギャップをしばしば明らかにします。

私は本を​​読んだが、映画は見なかった

現在、人気のあるAPIベースの大手言語モデル(LLMS)および大規模なビジョン言語モデル(LVLMS)は、ビデオコンテンツを直接分析するために装備されていません。それらの機能は、ビデオに関連する成績証明書やその他のテキストベースの資料の分析に限定されています。この制限は、これらのモデルがビデオコンテンツを直接分析するように求められたときに明らかです。

GPT-4O、Google Gemini、および困惑の多様な異議は、トランスクリプトやその他のテキストベースのソースに頼ることなく、ビデオを直接分析するように求められたときです。 *GPT-4O、Google Gemini、および困惑の多様な異議は、トランスクリプトやその他のテキストベースのソースに頼ることなく、ビデオを直接分析するように求められたとき。*

ChatGPT-4Oのような一部のモデルは、ビデオの主観的な評価を提供しようとさえするかもしれませんが、最終的には、押されたときにビデオを直接表示できないことを認めます。

新しい研究論文に関連するビデオの主観的な評価を提供するように求められ、本当の意見を偽造したため、ChatGPT-4oは最終的にビデオを直接見ることができないことを告白します。 *新しい研究論文に関連するビデオの主観的な評価を提供するように求められ、本当の意見を偽造したため、ChatGPT-4oは最終的にビデオを直接見ることができないことを告白します。

これらのモデルはマルチモーダルであり、ビデオから抽出されたフレームなどの個々の写真を分析できますが、定性的な意見を提供する能力は疑わしいです。 LLMは、多くの場合、誠実な批判ではなく、「人々を喜ばせる」反応を与える傾向があります。さらに、ビデオの多くの問題は一時的なものです。つまり、単一のフレームを分析するとポイントが完全に見逃されます。

LLMがビデオで「価値判断」を提供できる唯一の方法は、ディープフェイクイメージやアート履歴を理解するなどのテキストベースの知識を活用して、視覚的性質を人間の洞察に基づいて学習した埋め込みと相関させることです。

FakeVLMプロジェクトは、特殊なマルチモーダルビジョン言語モデルを介してターゲットを絞ったディープファーケート検出を提供します。出典:https://arxiv.org/pdf/2503.14905 * FakeVLMプロジェクトは、専門化されたマルチモーダルビジョン言語モデルを介してターゲットを絞ったDeepFake検出を提供します。*出典: https://arxiv.org/pdf/2503.14905

LLMはYoloのような補助AIシステムの助けを借りてビデオ内のオブジェクトを識別できますが、主観的評価は、人間の意見を反映する損失関数ベースのメトリックなしではとらえどころのないままです。

条件付きビジョン

損失機能は、トレーニングモデルに不可欠であり、正解からの予測がどれだけ遠いかを測定し、エラーを減らすためにモデルを導きます。また、フォトリアリスティックなビデオなどのAIに生成されたコンテンツを評価するためにも使用されます。

人気のあるメトリックの1つは、生成された画像の分布と実際の画像の分布との類似性を測定するFréchetInception距離(FID)です。 FIDは、Inception V3ネットワークを使用して統計的な違いを計算します。スコアの低下は、視覚の質と多様性が高いことを示します。

ただし、FIDは自己参照的で比較です。 2021年に導入された条件付きFréchet距離(CFD)は、クラスラベルや入力画像などの追加条件にどの程度うまく生成された条件に一致するかを考慮して、これに対処します。

2021 CFDの外出の例。出典:https://github.com/michael-soloveitchik/cfid/ * 2021 CFDの外出

CFDは、定性的な人間の解釈をメトリックに統合することを目的としていますが、このアプローチは、潜在的なバイアス、頻繁な更新の必要性、および時間の経過に伴う評価の一貫性と信頼性に影響を与える可能性のある予算の制約などの課題を導入します。

cfred

米国からの最近の論文では、条件付きFréchet距離(CFRED)を導入します。これは、視覚的な品質とテキストイメージの両方のアライメントの両方を評価することにより、人間の好みをよりよく反映するように設計された新しいメトリックです。

新しい論文の部分的な結果:プロンプトのさまざまなメトリックによる画像ランキング(1〜9)「ソファとラップトップコンピューターがソファにあるリビングルーム」。 Greenは、トップヒューマンレートモデル(Flux.1-dev)を強調し、紫が最低(SDV1.5)を強調しています。 CFREDのみが人間のランキングと一致します。完全な結果については、ソースペーパーを参照してください。ここでは再現する余地がありません。出典:https://arxiv.org/pdf/2503.21721 *新しい論文からの部分的な結果:プロンプトの「ソファとラップトップコンピューターを備えたリビングルーム」のさまざまなメトリックによる画像ランキング(1〜9)。 Greenは、トップヒューマンレートモデル(Flux.1-dev)を強調し、紫が最低(SDV1.5)を強調しています。 CFREDのみが人間のランキングと一致します。完全な結果については、ここで再現する余地がないソースペーパーを参照してください。*出典: https ://arxiv.org/pdf/2503.21721

著者は、画像がプロンプトと一致する方法を考慮せずに画像のみに焦点を当てているため、インセプションスコア(IS)やFIDなどの従来の指標が不足していると主張しています。彼らは、CFREDが入力テキストの画質とコンディショニングの両方をキャプチャし、人間の好みとのより高い相関関係につながることを提案しています。

論文のテストは、著者の提案されたメトリックであるCFREDが、3つのベンチマークデータセット(Partiprompts、HPDV2、およびCOCO)で、FID、FDDINOV2、Clipscore、およびCMMDよりも人間の好みとの相関が一貫して一貫して達成されることを示しています。 *論文のテストは、著者の提案されたメトリックであるCFREDが、3つのベンチマークデータセット(Partiprompts、HPDV2、およびCOCO)でFID、FDDINOV2、ClipsCore、およびCMMDよりも人間の好みとの相関が一貫して一貫して達成されることを示しています。

概念と方法

テキスト間モデルを評価するためのゴールドスタンダードは、大規模な言語モデルに使用される方法と同様に、クラウドソースの比較を通じて収集された人間の好みのデータです。ただし、これらの方法は費用がかかり、遅いため、一部のプラットフォームが更新を停止するようになります。

人工分析画像アリーナリーダーボードは、現在推定されている生成視覚AIのリーダーをランク付けしています。出典:https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard *人工分析画像アリーナリーダーボード。これは、生成視覚AIで現在推定されているリーダーランク付けしています。

FID、Clipscore、CFREDなどの自動化されたメトリックは、特に人間の好みが進化するにつれて、将来のモデルを評価するために重要です。 CFREDは、実際の画像と生成された画像の両方がガウス分布に従い、プロンプト全体で予想されるフレシェット距離を測定し、リアリズムとテキストの両方の一貫性を評価すると想定しています。

データとテスト

CFREDと人間の好みとの相関を評価するために、著者は同じテキストプロンプトを持つ複数のモデルの画像ランキングを使用しました。彼らは、Human Preference Score V2(HPDV2)テストセットとPartiprompts Arenaを描き、データを単一のデータセットに統合しました。

新しいモデルでは、Cocoの列車と検証セットから1,000個のプロンプトを使用し、HPDV2とのオーバーラップを確保し、Arena Leaderboardの9つのモデルを使用して画像を生成しました。 CFREDは、いくつかの統計的および学習した指標に対して評価され、人間の判断との強い整合性を示しました。

統計メトリック(FID、FDDINOV2、CLIPSCORE、CMMD、およびCFRED)および人間の嗜好訓練を受けたメトリック(審美スコア、イメージャーワード、HPSV2、およびMPS)を使用したHPDV2テストセットのモデルランキングとスコア。最良の結果は大胆で、2番目に最高の結果が下線を引いています。 *統計的メトリック(FID、FDDINOV2、Clipscore、CMMD、およびCFRED)および人間の嗜好訓練を受けたメトリック(美的スコア、イメージャーワード、HPSV2、およびMPS)を使用して、HPDV2テストセットのモデルランキングとスコア。最良の結果は太字で示されており、2番目のベストは下線が引かれています。*

CFREDは人間の好みと最高の整合性を達成し、0.97の相関と91.1%のランク精度に達しました。人間の好みデータで訓練されたメトリックを含む他のメトリックを上回り、多様なモデル全体でその信頼性を示しました。

統計メトリック(FID、FDDINOV2、Clipscore、CMMD、およびCFRED)および人間の優先訓練を受けたメトリック(審美的スコア、イメージャーワード、およびMPS)を使用して、パルチプロムのモデルランキングとスコア。最良の結果は大胆で、2番目に最高の結果が下線を引いています。 *統計メトリック(FID、FDDINOV2、ClipsCore、CMMD、およびCFRED)および人間の優先訓練を受けたメトリック(審美的スコア、イマージャーワード、およびMPS)を使用して、パルチプロムのモデルランキングとスコア。最良の結果は大胆で、2番目に最高の結果が下線にあります。*

PARTIPROMPTSアリーナでは、CFREDは0.73で人間の評価と最高の相関関係を示し、FIDとFDDINOV2が密接に続きました。ただし、人間の好みについて訓練されたHPSV2は、0.83で最も強いアライメントを示しました。

自動メトリック(FID、FDDINOV2、CLIPSCORE、CMMD、およびCFRED)および人間の優先訓練を受けたメトリック(審美スコア、イマージャーワード、HPSV2、およびMPS)を使用して、ランダムにサンプリングされたCOCOプロンプトのモデルランキング。 0.5未満のランクの精度は、一致するペアよりも不一致を示しており、最良の結果が大胆で、2番目に最高の結果が下線にあります。 *自動メトリック(FID、FDDINOV2、CLIPSCORE、CMMD、およびCFRED)および人間の優先訓練を受けたメトリック(美的スコア、イメージャーワード、HPSV2、およびMPS)を使用して、ランダムにサンプリングされたCOCOプロンプトのモデルランキング。 0.5未満のランクの精度は、一致のペアよりも不一致を示しており、最良の結果は大胆で、2番目に最高の結果が下線が引かれています。*

COCOデータセットの評価では、CFREDは0.33の相関と66.67%のランク精度を達成し、人間のデータでトレーニングされたメトリックのみに背を向けて、人間の好みと一致して3位にランクされました。

各画像のバックボーンのランキングが、CoCoデータセットの真の人間由来のランキングと一致する頻度を示す勝利。 *各画像バックボーンのランキングが、CoCoデータセットの真の人間由来のランキングと一致する頻度を示す勝利。*

著者はまた、Inception V3をテストし、Dinov2-L/14やVIT-L/16などの変圧器ベースのバックボーンに勝っていることがわかりました。

結論

人間のループソリューションは、メトリックおよび損失関数を開発するための最適なアプローチのままですが、更新のスケールと頻度はそれらを非現実的にします。 Cfredの信頼性は、間接的にはあるが、人間の判断との整合性にかかっています。メトリックの正当性は、そのようなベンチマークがなければ、人間のような評価の主張が承認できないため、人間の好みデータに依存しています。

生成AIシステムの新しい波によって駆動されるリアリズムの理解の進化する性質を考えると、メトリック関数への生成出力における「リアリズム」の現在の基準を長期的な間違いにすることは、長期的な間違いである可能性があります。

*この時点で、私は通常、おそらく最近の学術的な提出から模範的な説明的なビデオ例を含めます。しかし、それは意地悪なことです。Arxivの生成的AI出力を10〜15分以上トロールしている人は誰でも、主観的に低い品質がランドマークの論文として歓迎されないことを主観的に低いことを示している補足ビデオにすでに遭遇しているでしょう。

*実験では合計46の画像バックボーンモデルが使用されましたが、そのすべてがグラフ化された結果で考慮されるわけではありません。完全なリストについては、論文の付録を参照してください。テーブルや図に掲載されているものがリストされています。*

2025年4月1日火曜日に最初に公開されました

関連記事
AI in Medical Advisories: Transforming Healthcare AI in Medical Advisories: Transforming Healthcare 人工知能は医療の風景を急速に変革しており、その理由は明らかです。技術の進歩の速さは、以前は不可能と思われていた可能性を開きました。この記事では、医療アドバイザリーにおけるAIの変革的潜在能力を探り、患者ケアを向上させつつ、倫理的ジレンマや実際の課題に対処します。AIが医療システムにシームレスに統合される方法を理解することで、より良く、効率的な医療実践への道を開くことができます。医療アドバイザリーに
アウラニ、ディズニーのリゾート&スパ:家族のための究極のハワイアンゲートウェイ アウラニ、ディズニーのリゾート&スパ:家族のための究極のハワイアンゲートウェイ アウラニを発見:ディズニーの魔法が息づくハワイの楽園ディズニーの魔法とハワイの美しい自然が融合した家族旅行を夢見ていますか?オアフ島コオリナにあるアウラニ、ディズニーリゾート&スパへどうぞ。これは典型的なディズニー目的地ではありません。リラクゼーション、文化体験、ディズニーの魅力がハワイの楽園に融合したユニークな場所です。アウラニに足を踏み入れた瞬間から、アロハの温かい精神とディズニーの一流のサー
Airbnbが米国でAIカスタマーサービスボットを静かに展開 Airbnbが米国でAIカスタマーサービスボットを静かに展開 AirbnbがAI駆動のカスタマーサービスを新たな高みへ先月、Airbnbの第1四半期決算発表で、CEOのブライアン・チェスキーは、米国でAI駆動のカスタマーサービスボットの展開を開始したと発表しました。昨年、Airbnbがこの技術を特定の問い合わせに限定してテストしていた時から、大きな進展を遂げています。現在、チェスキーは、米国のAirbnbユーザーの50%がすでにカスタマーサービスのニーズにA
コメント (5)
0/200
GaryGarcia
GaryGarcia 2025年4月23日 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 2025年4月20日 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 2025年4月25日 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 2025年4月22日 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025年4月22日 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

トップに戻ります
OR