AI lernt, verbesserte Videokritiken zu liefern
Die Herausforderung der Bewertung von Videoinhalten in der KI-Forschung
Beim Eintauchen in die Welt der Computer-Vision-Literatur können Large Vision-Language Models (LVLMs) unschätzbare Dienste bei der Interpretation komplexer Einreichungen leisten. Sie stoßen jedoch auf ein erhebliches Hindernis, wenn es darum geht, die Qualität und den Wert von Video-Beispielen zu bewerten, die wissenschaftliche Arbeiten begleiten. Dies ist ein entscheidender Aspekt, da überzeugende Visuals genauso wichtig sind wie der Text, um Begeisterung zu erzeugen und die in Forschungsprojekten gemachten Behauptungen zu validieren.
Videoprojekte zur Synthese sind besonders darauf angewiesen, tatsächliche Videoausgaben zu demonstrieren, um nicht abgelehnt zu werden. In diesen Demonstrationen kann die reale Leistung eines Projekts wirklich bewertet werden, was oft die Kluft zwischen den kühnen Behauptungen des Projekts und seinen tatsächlichen Fähigkeiten offenlegt.
Ich habe das Buch gelesen, den Film aber nicht gesehen
Derzeit sind populäre API-basierte Large Language Models (LLMs) und Large Vision-Language Models (LVLMs) nicht in der Lage, Videoinhalte direkt zu analysieren. Ihre Fähigkeiten beschränken sich auf die Analyse von Transkripten und anderen textbasierten Materialien, die mit dem Video zusammenhängen. Diese Einschränkung wird deutlich, wenn diese Modelle aufgefordert werden, Videoinhalte direkt zu analysieren.
*Die vielfältigen Einwände von GPT-4o, Google Gemini und Perplexity, wenn sie aufgefordert werden, Videos direkt zu analysieren, ohne auf Transkripte oder andere textbasierte Quellen zurückzugreifen.*
Einige Modelle, wie ChatGPT-4o, könnten sogar versuchen, eine subjektive Bewertung eines Videos zu liefern, geben aber letztendlich zu, dass sie Videos nicht direkt ansehen können, wenn sie darauf gedrängt werden.
*Nach der Aufforderung, eine subjektive Bewertung der zugehörigen Videos eines neuen Forschungspapiers zu geben und eine echte Meinung vorgetäuscht zu haben, gibt ChatGPT-4o schließlich zu, dass es Videos nicht direkt ansehen kann.*
Obwohl diese Modelle multimodal sind und einzelne Fotos analysieren können, wie z. B. ein aus einem Video extrahierter Frame, ist ihre Fähigkeit, qualitative Meinungen abzugeben, fraglich. LLMs neigen oft dazu, „menschenfreundliche“ Antworten zu geben, anstatt aufrichtige Kritiken. Zudem sind viele Probleme in einem Video zeitlicher Natur, was bedeutet, dass die Analyse eines einzelnen Frames den Punkt völlig verfehlt.
Die einzige Möglichkeit, wie ein LLM ein „Werturteil“ über ein Video abgeben kann, besteht darin, textbasiertes Wissen zu nutzen, wie z. B. das Verständnis von Deepfake-Bildern oder Kunstgeschichte, um visuelle Qualitäten mit gelernten Einbettungen basierend auf menschlichen Erkenntnissen zu korrelieren.
*Das FakeVLM-Projekt bietet gezielte Deepfake-Erkennung über ein spezialisiertes multimodales Vision-Language-Modell.* Quelle: https://arxiv.org/pdf/2503.14905
Während ein LLM mit Hilfe von ergänzenden KI-Systemen wie YOLO Objekte in einem Video identifizieren kann, bleibt eine subjektive Bewertung schwer fassbar, ohne eine auf Verlustfunktionen basierende Metrik, die menschliche Meinungen widerspiegelt.
Bedingte Vision
Verlustfunktionen sind essenziell für das Training von Modellen, messen, wie weit Vorhersagen von korrekten Antworten entfernt sind, und leiten das Modell an, Fehler zu reduzieren. Sie werden auch verwendet, um KI-generierte Inhalte, wie fotorealistische Videos, zu bewerten.
Eine populäre Metrik ist die Fréchet-Inception-Distanz (FID), die die Ähnlichkeit zwischen der Verteilung generierter Bilder und echter Bilder misst. FID verwendet das Inception v3-Netzwerk, um statistische Unterschiede zu berechnen, und ein niedrigerer Wert deutet auf höhere visuelle Qualität und Vielfalt hin.
FID ist jedoch selbstreferenziell und vergleichend. Die 2021 eingeführte Conditional Fréchet Distance (CFD) adressiert dies, indem sie auch berücksichtigt, wie gut generierte Bilder zusätzlichen Bedingungen entsprechen, wie z. B. Klassenlabels oder Eingabebildern.
*Beispiele aus dem CFD-Ausflug 2021.* Quelle: https://github.com/Michael-Soloveitchik/CFID/
CFD zielt darauf ab, qualitative menschliche Interpretation in Metriken zu integrieren, bringt jedoch Herausforderungen wie potenzielle Voreingenommenheit, die Notwendigkeit häufiger Aktualisierungen und Budgetbeschränkungen mit sich, die die Konsistenz und Zuverlässigkeit von Bewertungen im Laufe der Zeit beeinflussen können.
cFreD
Ein kürzlich erschienenes Paper aus den USA stellt Conditional Fréchet Distance (cFreD) vor, eine neue Metrik, die entwickelt wurde, um menschliche Präferenzen besser widerzuspiegeln, indem sie sowohl die visuelle Qualität als auch die Text-Bild-Ausrichtung bewertet.
*Teilergebnisse aus dem neuen Paper: Bild-Rankings (1–9) nach verschiedenen Metriken für die Aufforderung "Ein Wohnzimmer mit einem Sofa und einem Laptop, der auf dem Sofa liegt." Grün hebt das am besten von Menschen bewertete Modell (FLUX.1-dev) hervor, lila das schlechteste (SDv1.5). Nur cFreD entspricht den menschlichen Rankings. Bitte beziehen Sie sich auf das Quellenpapier für vollständige Ergebnisse, die wir hier aus Platzgründen nicht reproduzieren können.* Quelle: https://arxiv.org/pdf/2503.21721
Die Autoren argumentieren, dass traditionelle Metriken wie Inception Score (IS) und FID zu kurz greifen, da sie sich ausschließlich auf die Bildqualität konzentrieren, ohne zu berücksichtigen, wie gut Bilder ihren Aufforderungen entsprechen. Sie schlagen vor, dass cFreD sowohl die Bildqualität als auch die Bedingung durch den Eingabetext erfasst, was zu einer höheren Korrelation mit menschlichen Präferenzen führt.
*Die Tests des Papers zeigen, dass die vorgeschlagene Metrik, cFreD, durchweg eine höhere Korrelation mit menschlichen Präferenzen erzielt als FID, FDDINOv2, CLIPScore und CMMD bei drei Benchmark-Datensätzen (PartiPrompts, HPDv2 und COCO).*
Konzept und Methode
Der Goldstandard für die Bewertung von Text-zu-Bild-Modellen sind menschliche Präferenzdaten, die durch Crowd-Sourcing-Vergleiche gesammelt werden, ähnlich wie bei großen Sprachmodellen. Diese Methoden sind jedoch kostspielig und langsam, was einige Plattformen dazu veranlasst hat, Aktualisierungen einzustellen.
*Die Artificial Analysis Image Arena Leaderboard, die die derzeit geschätzten Führer im generativen visuellen KI-Bereich einordnet.* Quelle: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Automatisierte Metriken wie FID, CLIPScore und cFreD sind entscheidend für die Bewertung zukünftiger Modelle, insbesondere da sich menschliche Präferenzen weiterentwickeln. cFreD geht davon aus, dass sowohl echte als auch generierte Bilder Gauß-Verteilungen folgen und misst die erwartete Fréchet-Distanz über Aufforderungen hinweg, wobei sowohl Realismus als auch Textkonsistenz bewertet werden.
Daten und Tests
Um die Korrelation von cFreD mit menschlichen Präferenzen zu bewerten, verwendeten die Autoren Bild-Rankings von mehreren Modellen mit denselben Textaufforderungen. Sie stützten sich auf den Human Preference Score v2 (HPDv2) Testdatensatz und die PartiPrompts Arena und konsolidierten die Daten in einen einzigen Datensatz.
Für neuere Modelle verwendeten sie 1.000 Aufforderungen aus den Trainings- und Validierungsdatensätzen von COCO, wobei keine Überschneidungen mit HPDv2 bestanden, und generierten Bilder mit neun Modellen aus der Arena Leaderboard. cFreD wurde gegen mehrere statistische und gelernte Metriken evaluiert und zeigte eine starke Übereinstimmung mit menschlichen Urteilen.
*Modell-Rankings und -Scores im HPDv2-Testdatensatz unter Verwendung statistischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward, HPSv2 und MPS). Die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
cFreD erreichte die höchste Übereinstimmung mit menschlichen Präferenzen, mit einer Korrelation von 0,97 und einer Ranggenauigkeit von 91,1 %. Es übertraf andere Metriken, einschließlich derer, die auf menschlichen Präferenzdaten trainiert wurden, und bewies seine Zuverlässigkeit über verschiedene Modelle hinweg.
*Modell-Rankings und -Scores bei PartiPrompt unter Verwendung statistischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward und MPS). Die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
In der PartiPrompts Arena zeigte cFreD die höchste Korrelation mit menschlichen Bewertungen bei 0,73, dicht gefolgt von FID und FDDINOv2. HPSv2, das auf menschlichen Präferenzen trainiert wurde, hatte jedoch die stärkste Übereinstimmung bei 0,83.
*Modell-Rankings bei zufällig ausgewählten COCO-Aufforderungen unter Verwendung automatischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward, HPSv2 und MPS). Eine Ranggenauigkeit unter 0,5 weist auf mehr diskordante als konkordante Paare hin, und die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
In der Bewertung des COCO-Datensatzes erreichte cFreD eine Korrelation von 0,33 und eine Ranggenauigkeit von 66,67 %, was den dritten Platz in der Übereinstimmung mit menschlichen Präferenzen einnahm, hinter nur auf menschlichen Daten trainierten Metriken.
*Gewinnraten zeigen, wie oft die Rankings jedes Bild-Backbones mit den echten, von Menschen abgeleiteten Rankings im COCO-Datensatz übereinstimmten.*
Die Autoren testeten auch Inception V3 und stellten fest, dass es von Transformer-basierten Backbones wie DINOv2-L/14 und ViT-L/16 übertroffen wurde, die durchweg besser mit menschlichen Rankings übereinstimmten.
Fazit
Während Lösungen mit menschlichem Einfluss die optimale Herangehensweise für die Entwicklung von Metriken und Verlustfunktionen bleiben, machen die Größe und Häufigkeit von Aktualisierungen sie unpraktisch. Die Glaubwürdigkeit von cFreD hängt von seiner Übereinstimmung mit menschlichem Urteilsvermögen ab, wenn auch indirekt. Die Legitimität der Metrik stützt sich auf menschliche Präferenzdaten, da ohne solche Benchmarks Behauptungen über menschenähnliche Bewertungen nicht beweisbar wären.
Das Festschreiben aktueller Kriterien für „Realismus“ in generativen Ausgaben in eine Metrikfunktion könnte ein langfristiger Fehler sein, angesichts der sich entwickelnden Natur unseres Verständnisses von Realismus, angetrieben durch die neue Welle generativer KI-Systeme.
*An dieser Stelle würde ich normalerweise ein exemplarisches illustratives Video-Beispiel einfügen, vielleicht aus einer kürzlichen akademischen Einreichung; das wäre jedoch gehässig – jeder, der mehr als 10-15 Minuten mit dem Durchstöbern der generativen KI-Ausgaben von Arxiv verbracht hat, wird bereits auf ergänzende Videos gestoßen sein, deren subjektiv schlechte Qualität darauf hinweist, dass die zugehörige Einreichung nicht als wegweisendes Paper gefeiert werden wird.*
*In den Experimenten wurden insgesamt 46 Bild-Backbone-Modelle verwendet, von denen nicht alle in den grafischen Ergebnissen berücksichtigt werden. Bitte beziehen Sie sich auf den Anhang des Papers für eine vollständige Liste; die in den Tabellen und Abbildungen vorgestellten wurden aufgelistet.*
Erstmals veröffentlicht am Dienstag, 1. April 2025
Verwandter Artikel
KI-gestützte Podcast-Tools für optimierte Inhaltserstellung
Die Produktion und Verfeinerung eines Podcasts kann sowohl anspruchsvoll als auch erfüllend sein. Viele Podcaster stehen vor Herausforderungen bei zeitintensiven Aufgaben wie der Entfernung von Füllwö
Britney Spears' roter Catsuit: Ein prägender Moment in der Pop-Mode
Britney Spears, die regierende Pop-Ikone, hat ihr Publikum stets mit ihrem mutigen Stil fasziniert. Ihre Musikvideos sind nicht nur musikalische Hits, sondern auch modische Meilensteine. Dieser Artike
Erforschung göttlicher Hingabe: Glaube, Liebe und spirituelle Freiheit
In einer Welt voller Chaos und Ablenkungen kann das Schaffen von Momenten der Ruhe für spirituelle Verbindung Leben verändern. Dieser Artikel befasst sich mit dem tiefen Akt der Verehrung Jesu, erfors
Kommentare (6)
0/200
RalphMartínez
22. Juli 2025 03:25:03 MESZ
This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!
0
FrankSmith
25. April 2025 04:29:53 MESZ
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
GaryGarcia
23. April 2025 13:09:01 MESZ
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
KennethKing
22. April 2025 11:56:13 MESZ
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
22. April 2025 10:55:54 MESZ
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
GaryGonzalez
20. April 2025 04:22:28 MESZ
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
Die Herausforderung der Bewertung von Videoinhalten in der KI-Forschung
Beim Eintauchen in die Welt der Computer-Vision-Literatur können Large Vision-Language Models (LVLMs) unschätzbare Dienste bei der Interpretation komplexer Einreichungen leisten. Sie stoßen jedoch auf ein erhebliches Hindernis, wenn es darum geht, die Qualität und den Wert von Video-Beispielen zu bewerten, die wissenschaftliche Arbeiten begleiten. Dies ist ein entscheidender Aspekt, da überzeugende Visuals genauso wichtig sind wie der Text, um Begeisterung zu erzeugen und die in Forschungsprojekten gemachten Behauptungen zu validieren.
Videoprojekte zur Synthese sind besonders darauf angewiesen, tatsächliche Videoausgaben zu demonstrieren, um nicht abgelehnt zu werden. In diesen Demonstrationen kann die reale Leistung eines Projekts wirklich bewertet werden, was oft die Kluft zwischen den kühnen Behauptungen des Projekts und seinen tatsächlichen Fähigkeiten offenlegt.
Ich habe das Buch gelesen, den Film aber nicht gesehen
Derzeit sind populäre API-basierte Large Language Models (LLMs) und Large Vision-Language Models (LVLMs) nicht in der Lage, Videoinhalte direkt zu analysieren. Ihre Fähigkeiten beschränken sich auf die Analyse von Transkripten und anderen textbasierten Materialien, die mit dem Video zusammenhängen. Diese Einschränkung wird deutlich, wenn diese Modelle aufgefordert werden, Videoinhalte direkt zu analysieren.
*Die vielfältigen Einwände von GPT-4o, Google Gemini und Perplexity, wenn sie aufgefordert werden, Videos direkt zu analysieren, ohne auf Transkripte oder andere textbasierte Quellen zurückzugreifen.*
Einige Modelle, wie ChatGPT-4o, könnten sogar versuchen, eine subjektive Bewertung eines Videos zu liefern, geben aber letztendlich zu, dass sie Videos nicht direkt ansehen können, wenn sie darauf gedrängt werden.
*Nach der Aufforderung, eine subjektive Bewertung der zugehörigen Videos eines neuen Forschungspapiers zu geben und eine echte Meinung vorgetäuscht zu haben, gibt ChatGPT-4o schließlich zu, dass es Videos nicht direkt ansehen kann.*
Obwohl diese Modelle multimodal sind und einzelne Fotos analysieren können, wie z. B. ein aus einem Video extrahierter Frame, ist ihre Fähigkeit, qualitative Meinungen abzugeben, fraglich. LLMs neigen oft dazu, „menschenfreundliche“ Antworten zu geben, anstatt aufrichtige Kritiken. Zudem sind viele Probleme in einem Video zeitlicher Natur, was bedeutet, dass die Analyse eines einzelnen Frames den Punkt völlig verfehlt.
Die einzige Möglichkeit, wie ein LLM ein „Werturteil“ über ein Video abgeben kann, besteht darin, textbasiertes Wissen zu nutzen, wie z. B. das Verständnis von Deepfake-Bildern oder Kunstgeschichte, um visuelle Qualitäten mit gelernten Einbettungen basierend auf menschlichen Erkenntnissen zu korrelieren.
*Das FakeVLM-Projekt bietet gezielte Deepfake-Erkennung über ein spezialisiertes multimodales Vision-Language-Modell.* Quelle: https://arxiv.org/pdf/2503.14905
Während ein LLM mit Hilfe von ergänzenden KI-Systemen wie YOLO Objekte in einem Video identifizieren kann, bleibt eine subjektive Bewertung schwer fassbar, ohne eine auf Verlustfunktionen basierende Metrik, die menschliche Meinungen widerspiegelt.
Bedingte Vision
Verlustfunktionen sind essenziell für das Training von Modellen, messen, wie weit Vorhersagen von korrekten Antworten entfernt sind, und leiten das Modell an, Fehler zu reduzieren. Sie werden auch verwendet, um KI-generierte Inhalte, wie fotorealistische Videos, zu bewerten.
Eine populäre Metrik ist die Fréchet-Inception-Distanz (FID), die die Ähnlichkeit zwischen der Verteilung generierter Bilder und echter Bilder misst. FID verwendet das Inception v3-Netzwerk, um statistische Unterschiede zu berechnen, und ein niedrigerer Wert deutet auf höhere visuelle Qualität und Vielfalt hin.
FID ist jedoch selbstreferenziell und vergleichend. Die 2021 eingeführte Conditional Fréchet Distance (CFD) adressiert dies, indem sie auch berücksichtigt, wie gut generierte Bilder zusätzlichen Bedingungen entsprechen, wie z. B. Klassenlabels oder Eingabebildern.
*Beispiele aus dem CFD-Ausflug 2021.* Quelle: https://github.com/Michael-Soloveitchik/CFID/
CFD zielt darauf ab, qualitative menschliche Interpretation in Metriken zu integrieren, bringt jedoch Herausforderungen wie potenzielle Voreingenommenheit, die Notwendigkeit häufiger Aktualisierungen und Budgetbeschränkungen mit sich, die die Konsistenz und Zuverlässigkeit von Bewertungen im Laufe der Zeit beeinflussen können.
cFreD
Ein kürzlich erschienenes Paper aus den USA stellt Conditional Fréchet Distance (cFreD) vor, eine neue Metrik, die entwickelt wurde, um menschliche Präferenzen besser widerzuspiegeln, indem sie sowohl die visuelle Qualität als auch die Text-Bild-Ausrichtung bewertet.
*Teilergebnisse aus dem neuen Paper: Bild-Rankings (1–9) nach verschiedenen Metriken für die Aufforderung "Ein Wohnzimmer mit einem Sofa und einem Laptop, der auf dem Sofa liegt." Grün hebt das am besten von Menschen bewertete Modell (FLUX.1-dev) hervor, lila das schlechteste (SDv1.5). Nur cFreD entspricht den menschlichen Rankings. Bitte beziehen Sie sich auf das Quellenpapier für vollständige Ergebnisse, die wir hier aus Platzgründen nicht reproduzieren können.* Quelle: https://arxiv.org/pdf/2503.21721
Die Autoren argumentieren, dass traditionelle Metriken wie Inception Score (IS) und FID zu kurz greifen, da sie sich ausschließlich auf die Bildqualität konzentrieren, ohne zu berücksichtigen, wie gut Bilder ihren Aufforderungen entsprechen. Sie schlagen vor, dass cFreD sowohl die Bildqualität als auch die Bedingung durch den Eingabetext erfasst, was zu einer höheren Korrelation mit menschlichen Präferenzen führt.
*Die Tests des Papers zeigen, dass die vorgeschlagene Metrik, cFreD, durchweg eine höhere Korrelation mit menschlichen Präferenzen erzielt als FID, FDDINOv2, CLIPScore und CMMD bei drei Benchmark-Datensätzen (PartiPrompts, HPDv2 und COCO).*
Konzept und Methode
Der Goldstandard für die Bewertung von Text-zu-Bild-Modellen sind menschliche Präferenzdaten, die durch Crowd-Sourcing-Vergleiche gesammelt werden, ähnlich wie bei großen Sprachmodellen. Diese Methoden sind jedoch kostspielig und langsam, was einige Plattformen dazu veranlasst hat, Aktualisierungen einzustellen.
*Die Artificial Analysis Image Arena Leaderboard, die die derzeit geschätzten Führer im generativen visuellen KI-Bereich einordnet.* Quelle: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Automatisierte Metriken wie FID, CLIPScore und cFreD sind entscheidend für die Bewertung zukünftiger Modelle, insbesondere da sich menschliche Präferenzen weiterentwickeln. cFreD geht davon aus, dass sowohl echte als auch generierte Bilder Gauß-Verteilungen folgen und misst die erwartete Fréchet-Distanz über Aufforderungen hinweg, wobei sowohl Realismus als auch Textkonsistenz bewertet werden.
Daten und Tests
Um die Korrelation von cFreD mit menschlichen Präferenzen zu bewerten, verwendeten die Autoren Bild-Rankings von mehreren Modellen mit denselben Textaufforderungen. Sie stützten sich auf den Human Preference Score v2 (HPDv2) Testdatensatz und die PartiPrompts Arena und konsolidierten die Daten in einen einzigen Datensatz.
Für neuere Modelle verwendeten sie 1.000 Aufforderungen aus den Trainings- und Validierungsdatensätzen von COCO, wobei keine Überschneidungen mit HPDv2 bestanden, und generierten Bilder mit neun Modellen aus der Arena Leaderboard. cFreD wurde gegen mehrere statistische und gelernte Metriken evaluiert und zeigte eine starke Übereinstimmung mit menschlichen Urteilen.
*Modell-Rankings und -Scores im HPDv2-Testdatensatz unter Verwendung statistischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward, HPSv2 und MPS). Die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
cFreD erreichte die höchste Übereinstimmung mit menschlichen Präferenzen, mit einer Korrelation von 0,97 und einer Ranggenauigkeit von 91,1 %. Es übertraf andere Metriken, einschließlich derer, die auf menschlichen Präferenzdaten trainiert wurden, und bewies seine Zuverlässigkeit über verschiedene Modelle hinweg.
*Modell-Rankings und -Scores bei PartiPrompt unter Verwendung statistischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward und MPS). Die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
In der PartiPrompts Arena zeigte cFreD die höchste Korrelation mit menschlichen Bewertungen bei 0,73, dicht gefolgt von FID und FDDINOv2. HPSv2, das auf menschlichen Präferenzen trainiert wurde, hatte jedoch die stärkste Übereinstimmung bei 0,83.
*Modell-Rankings bei zufällig ausgewählten COCO-Aufforderungen unter Verwendung automatischer Metriken (FID, FDDINOv2, CLIPScore, CMMD und cFreD) und auf menschlichen Präferenzen trainierten Metriken (Aesthetic Score, ImageReward, HPSv2 und MPS). Eine Ranggenauigkeit unter 0,5 weist auf mehr diskordante als konkordante Paare hin, und die besten Ergebnisse sind fett gedruckt, die zweitbesten unterstrichen.*
In der Bewertung des COCO-Datensatzes erreichte cFreD eine Korrelation von 0,33 und eine Ranggenauigkeit von 66,67 %, was den dritten Platz in der Übereinstimmung mit menschlichen Präferenzen einnahm, hinter nur auf menschlichen Daten trainierten Metriken.
*Gewinnraten zeigen, wie oft die Rankings jedes Bild-Backbones mit den echten, von Menschen abgeleiteten Rankings im COCO-Datensatz übereinstimmten.*
Die Autoren testeten auch Inception V3 und stellten fest, dass es von Transformer-basierten Backbones wie DINOv2-L/14 und ViT-L/16 übertroffen wurde, die durchweg besser mit menschlichen Rankings übereinstimmten.
Fazit
Während Lösungen mit menschlichem Einfluss die optimale Herangehensweise für die Entwicklung von Metriken und Verlustfunktionen bleiben, machen die Größe und Häufigkeit von Aktualisierungen sie unpraktisch. Die Glaubwürdigkeit von cFreD hängt von seiner Übereinstimmung mit menschlichem Urteilsvermögen ab, wenn auch indirekt. Die Legitimität der Metrik stützt sich auf menschliche Präferenzdaten, da ohne solche Benchmarks Behauptungen über menschenähnliche Bewertungen nicht beweisbar wären.
Das Festschreiben aktueller Kriterien für „Realismus“ in generativen Ausgaben in eine Metrikfunktion könnte ein langfristiger Fehler sein, angesichts der sich entwickelnden Natur unseres Verständnisses von Realismus, angetrieben durch die neue Welle generativer KI-Systeme.
*An dieser Stelle würde ich normalerweise ein exemplarisches illustratives Video-Beispiel einfügen, vielleicht aus einer kürzlichen akademischen Einreichung; das wäre jedoch gehässig – jeder, der mehr als 10-15 Minuten mit dem Durchstöbern der generativen KI-Ausgaben von Arxiv verbracht hat, wird bereits auf ergänzende Videos gestoßen sein, deren subjektiv schlechte Qualität darauf hinweist, dass die zugehörige Einreichung nicht als wegweisendes Paper gefeiert werden wird.*
*In den Experimenten wurden insgesamt 46 Bild-Backbone-Modelle verwendet, von denen nicht alle in den grafischen Ergebnissen berücksichtigt werden. Bitte beziehen Sie sich auf den Anhang des Papers für eine vollständige Liste; die in den Tabellen und Abbildungen vorgestellten wurden aufgelistet.*
Erstmals veröffentlicht am Dienstag, 1. April 2025




This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊












