AI lernt, verbesserte Videokritiken zu liefern
Die Herausforderung der Bewertung von Videoinhalten in der KI -Forschung
Beim Eintauchen in die Welt der Computer-Vision-Literatur können große Sehvermögensmodelle (LVLMs) für die Interpretation komplexer Einreichungen von unschätzbarem Wert sein. Sie erreichten jedoch eine bedeutende Straßensperre, wenn es darum geht, die Qualität und die Verdienste von Videobeispielen zu bewerten, die wissenschaftliche Papiere begleiten. Dies ist ein entscheidender Aspekt, da überzeugende Bilder genauso wichtig sind wie der Text bei der Erzeugung von Aufregung und zur Validierung der Ansprüche in Forschungsprojekten.
Insbesondere Video -Syntheseprojekte stützen sich stark auf den Nachweis der tatsächlichen Videoausgabe, um nicht entlassen zu werden. In diesen Demonstrationen kann die reale Leistung eines Projekts wirklich bewertet werden, was häufig die Lücke zwischen den mutigen Ansprüchen des Projekts und seinen tatsächlichen Fähigkeiten zeigt.
Ich habe das Buch gelesen, den Film nicht gesehen
Derzeit sind beliebte API-basierte Großsprachmodelle (LLMs) und große Visionsprachenmodelle (LVLMs) nicht so ausgestattet, dass Videoinhalte direkt analysiert werden. Ihre Fähigkeiten beschränken sich auf die Analyse von Transkripten und anderen textbasierten Materialien im Zusammenhang mit dem Video. Diese Einschränkung zeigt sich, wenn diese Modelle aufgefordert werden, Videoinhalte direkt zu analysieren.
*Die unterschiedlichen Einwände von GPT-4O, Google Gemini und Verwirrung, wenn sie aufgefordert werden, Video direkt zu analysieren, ohne auf Transkripte oder andere textbasierte Quellen zurückzugreifen.*
Einige Modelle, wie Chatgpt-4O, versuchen möglicherweise sogar, eine subjektive Bewertung eines Videos vorzunehmen, werden jedoch schließlich ihre Unfähigkeit zugeben, Videos beim Drücken direkt anzusehen.
*Nachdem Chatgpt-4O gebeten wurde, eine subjektive Bewertung der damit verbundenen Videos eines neuen Forschungspapiers vorzunehmen und eine echte Meinung vorgenommen zu haben, gesteht er schließlich, dass es Video nicht wirklich direkt anzeigen kann.*
Obwohl diese Modelle multimodal sind und einzelne Fotos analysieren können, z. B. einen Rahmen, der aus einem Video extrahiert wird, ist ihre Fähigkeit, qualitative Meinungen abzugeben, fragwürdig. LLMs neigen oft dazu, nicht aufrichtige Kritikpunkte zu „Menschen zu plagen“. Darüber hinaus sind viele Probleme in einem Video zeitlich, was bedeutet, dass die Analyse eines einzelnen Frame den Punkt vollständig verfehlt.
Die einzige Möglichkeit, wie ein LLM ein "Werturteil" in einem Video anbieten kann, besteht darin, textbasiertes Wissen wie das Verständnis von DeepFake-Bildern oder Kunstgeschichte zu nutzen, um visuelle Qualitäten mit erlernten Einbettungen zu korrelieren, die auf menschlichen Erkenntnissen beruhen.
* Das FakeVLM-Projekt bietet eine gezielte DeepFake-Erkennung über ein spezielles multi-modales Vision-Sprach-Modell.* Quelle: https://arxiv.org/pdf/2503.14905
Während ein LLM Objekte in einem Video mit Hilfe von zusätzlichen AI-Systemen wie Yolo identifizieren kann, bleibt die subjektive Bewertung ohne eine funktionsbasierte Metrik, die die menschliche Meinung widerspiegelt, schwer fassbar.
Bedingte Sicht
Verlustfunktionen sind für Trainingsmodelle von wesentlicher Bedeutung, um zu messen, wie weit Vorhersagen aus korrekten Antworten liegen, und das Modell zur Reduzierung von Fehlern zu leiten. Sie werden auch zur Bewertung von AI-generierten Inhalten verwendet, wie z. B. fotorealistische Videos.
Eine beliebte Metrik ist die Fréchet Inception Distanz (FID), die die Ähnlichkeit zwischen der Verteilung generierter und realer Bilder misst. FID verwendet das Inception V3 -Netzwerk, um statistische Unterschiede zu berechnen, und eine niedrigere Punktzahl zeigt eine höhere visuelle Qualität und Vielfalt an.
FID ist jedoch selbstreferenziell und vergleichend. Die im Jahr 2021 eingeführte bedingte Fréchet -Distanz (CFD) befasst sich mit diesem, indem er auch überlegt, wie gut generierte Bilder zusätzliche Bedingungen entsprechen, z. B. Klassenbezeichnungen oder Eingabebilder.
* Beispiele aus dem 2021 CFD-Ausflug.* Quelle: https://github.com/michael-solovechik/cfid/
CFD zielt darauf ab, eine qualitative Interpretation des Menschen in Metriken zu integrieren. Dieser Ansatz führt jedoch Herausforderungen wie potenzielle Verzerrungen, die Notwendigkeit häufiger Aktualisierungen und Budgetbeschränkungen ein, die die Konsistenz und Zuverlässigkeit von Bewertungen im Laufe der Zeit beeinflussen können.
CFRED
In einer kürzlich durchgeführten Arbeit aus den USA wird die bedingte Fréchet-Distanz (CFRED) eingeführt, eine neue Metrik, die die menschlichen Vorlieben besser widerspiegelt, indem sowohl die visuelle Qualität als auch die Ausrichtung des Textbilds bewertet werden.
*Partielle Ergebnisse aus dem neuen Papier: Bildranking (1–9) durch verschiedene Metriken für die Eingabeaufforderung "Ein Wohnzimmer mit einer Couch und einem Laptop -Computer, der auf der Couch ruht". Grün hebt das oberste Modell mit Menschenbewertungen (Fluss.1-dev) hervor, lila das niedrigste (SDV1.5). Nur CFRED passt zu menschlichen Ranglisten. Weitere Ergebnisse finden Sie im Quellpapier.
Die Autoren argumentieren, dass traditionelle Kennzahlen wie Inception Score (IS) und FID zu kurz kommen, weil sie sich ausschließlich auf die Bildqualität konzentrieren, ohne zu berücksichtigen, wie gut Bilder mit ihren Aufforderungen übereinstimmen. Sie schlagen vor, dass CFRED sowohl die Bildqualität als auch die Konditionierung auf Eingabetxt erfasst, was zu einer höheren Korrelation mit den menschlichen Präferenzen führt.
*Die Tests des Papiers zeigen, dass die vorgeschlagene Metrik der Autoren, CFRED, konsequent eine höhere Korrelation mit den menschlichen Präferenzen erzielt als FID, Fddinov2, ClipsCore und CMMD auf drei Benchmark -Datensätzen (PartiPromens, HPDV2 und Coco).**
Konzept und Methode
Der Goldstandard für die Bewertung von Text-zu-Im-Image-Modellen sind Daten für menschliche Präferenzdaten, die durch Vergleiche mit Crowd-Sourcing-Vergleiche gesammelt wurden, ähnlich den Methoden, die für große Sprachmodelle verwendet werden. Diese Methoden sind jedoch kostspielig und langsam und führen einige Plattformen an, um Updates zu stoppen.
* Die Rangliste der künstlichen Analyse Bildarena, die die derzeit geschätzten Führungskräfte in generativen visuellen AI rangiert.
Automatisierte Metriken wie FID, ClipsCore und CFRED sind entscheidend für die Bewertung zukünftiger Modelle, insbesondere wenn sich die menschlichen Präferenzen entwickeln. CFRED geht davon aus, dass sowohl reale als auch erzeugte Bilder Gaußsche Verteilungen folgen und die erwartete Fréchet -Distanz über Eingabeaufforderungen hinweg messen und sowohl Realismus als auch Textkonsistenz bewerten.
Daten und Tests
Um die Korrelation von CFRED mit den menschlichen Vorlieben zu bewerten, verwendeten die Autoren Bildrankings aus mehreren Modellen mit denselben Textaufforderungen. Sie zeichneten den Testsatz der menschlichen Präferenz -Score V2 (HPDV2) und die PartiPrompts -Arena, die Daten in einen einzelnen Datensatz konsolidieren.
Für neuere Modelle verwendeten sie 1.000 Eingabeaufforderungen aus den Zug- und Validierungssätzen von Coco, um keine Überlappung mit HPDV2 zu gewährleisten und Bilder mit neun Modellen aus der Arena -Rangliste zu erzeugen. CFRED wurde gegen mehrere statistische und gelehrte Metriken bewertet, was eine starke Übereinstimmung mit menschlichen Urteilen zeigte.
*Modellrankings und Bewertungen des HPDV2-Testsatzes unter Verwendung statistischer Metriken (FID, FDDINOV2, ClipsCore, CMMD und CFRED) und menschlichen Präferenzmetriken (ästhetischer Score, Immobiliene, HPSV2 und MPS). Die besten Ergebnisse sind fett gezeigt, zweitbeste sind unterstrichen.*
CFRED erreichte die höchste Ausrichtung mit menschlichen Präferenzen und erreichte eine Korrelation von 0,97 und eine Ranggenauigkeit von 91,1%. Es übertraf andere Metriken, einschließlich derjenigen, die nach Daten für menschliche Präferenz geschult wurden, und demonstrierte seine Zuverlässigkeit über verschiedene Modelle hinweg.
*Modellrankings und Bewertungen auf PartiPrompt unter Verwendung statistischer Metriken (FID, FDDINOV2, ClIPSCORE, CMMD und CFRED) und menschlicher Präferenzmetriken (ästhetischer Score, Imagerward und MPS). Die besten Ergebnisse sind fett, die zweitbeste sind unterstrichen.*
In der PartiPrompts -Arena zeigte CFRED die höchste Korrelation mit menschlichen Bewertungen bei 0,73, genau gefolgt von FID und FDDINOV2. HPSV2, der in menschlichen Präferenzen ausgebildet wurde, hatte jedoch die stärkste Ausrichtung bei 0,83.
*Modellrankings auf zufällig abgetasteten Coco-Eingabeaufforderungen unter Verwendung automatischer Metriken (FID, FDDINOV2, ClipsCore, CMMD und CFRRD) und menschliche Präferenzmetriken (ästhetischer Score, Imagerward, HPSV2 und MPS). Eine Ranggenauigkeit unter 0,5 zeigt diskordanter als konkordante Paare, und die besten Ergebnisse sind fett, die zweitbeste sind unterstrichen.*
Bei der Bewertung des Coco -Datensatzes erzielte CFRED eine Korrelation von 0,33 und eine Ranggenauigkeit von 66,67%, was bei der Ausrichtung der menschlichen Präferenzen den dritten Platz belegte, und nur hinter Metriken, die auf menschlichen Daten ausgebildet wurden.
*Die Gewinnraten zeigen, wie oft die Rangliste jedes Bildes zurück-Backbone mit den wahren von Menschen abgeleiteten Ranglisten des Coco-Datensatzes übereinstimmte.*
Die Autoren testeten auch Inception V3 und stellten fest, dass sie von Transformator-basierten Rückgrat wie Dinov2-L/14 und Vit-L/16 übertroffen werden, was sich immer besser mit menschlicher Rangliste ausrichtete.
Abschluss
Während Lösungen von Menschen in der Regel der optimale Ansatz für die Entwicklung von Metrik- und Verlustfunktionen bleiben, machen die Skala und die Häufigkeit von Aktualisierungen sie unpraktisch. Die Glaubwürdigkeit von CFRED hängt von seiner Ausrichtung auf das menschliche Urteilsvermögen ab, wenn auch indirekt. Die Legitimität der Metrik beruht auf Daten der menschlichen Präferenz, da ohne solche Benchmarks die Behauptungen einer menschlichen Bewertung nicht wären.
Die Verringung aktueller Kriterien für den „Realismus“ bei der generativen Ausgabe in eine metrische Funktion könnte angesichts der sich entwickelnden Natur unseres Verständnisses des Realismus ein langfristiger Fehler sein, der von der neuen Welle generativer KI-Systeme angetrieben wird.
*Zu diesem Zeitpunkt würde ich normalerweise ein Beispiel für ein Beispiel für ein Beispiel für ein illustratives Video aufnehmen, vielleicht aus einer kürzlich erschienenen akademischen Einreichung; Aber das wäre gemein-jeder, der mehr als 10-15 Minuten damit verbracht hat, die generative KI-Ausgabe von Arxiv zu begeben, wird bereits auf zusätzliche Videos gestoßen sein, deren subjektiv schlechte Qualität darauf hinweist, dass die damit verbundene Einreichung nicht als wegweisendes Papier gefeiert wird.**
*In den Experimenten wurden insgesamt 46 Modelle im Bild Rückgrat verwendet, von denen nicht alle in den graphierten Ergebnissen berücksichtigt werden. Informationen zu einer vollständigen Liste finden Sie im Anhang des Papiers. Die in den Tabellen und Zahlen vorgestellten Zahlen wurden aufgeführt.*
Erst veröffentlicht am Dienstag, 1. April 2025
Verwandter Artikel
KI in medizinischen Beratungen: Transformation des Gesundheitswesens
Künstliche Intelligenz verändert die Gesundheitslandschaft rasant, und es ist leicht zu verstehen, warum. Der Fortschritt der Technologie eröffnet Möglichkeiten, die zuvor undenkbar waren. Dieser Arti
Aulani, Disney's Resort & Spa: Ihr ultimativer Familienurlaub auf Hawaii
Aulani entdecken: Ein hawaiianisches Paradies mit Disney-NoteTräumen Sie von einem Familienurlaub, der die Magie von Disney mit der atemberaubenden Schönheit Hawaiis verbindet? Dann ist Aulani, ein Di
Airbnb führt in den USA leise einen KI-Kundenservice-Bot ein
Airbnb hebt KI-gestützten Kundenservice auf neue HöhenLetzten Monat kündigte CEO Brian Chesky während des Ergebnisberichts für das erste Quartal von Airbnb an, dass das Unternehmen in den USA mit der
Kommentare (5)
0/200
GaryGarcia
23. April 2025 00:00:00 GMT
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
GaryGonzalez
20. April 2025 00:00:00 GMT
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
FrankSmith
25. April 2025 00:00:00 GMT
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
KennethKing
22. April 2025 00:00:00 GMT
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
22. April 2025 00:00:00 GMT
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
Die Herausforderung der Bewertung von Videoinhalten in der KI -Forschung
Beim Eintauchen in die Welt der Computer-Vision-Literatur können große Sehvermögensmodelle (LVLMs) für die Interpretation komplexer Einreichungen von unschätzbarem Wert sein. Sie erreichten jedoch eine bedeutende Straßensperre, wenn es darum geht, die Qualität und die Verdienste von Videobeispielen zu bewerten, die wissenschaftliche Papiere begleiten. Dies ist ein entscheidender Aspekt, da überzeugende Bilder genauso wichtig sind wie der Text bei der Erzeugung von Aufregung und zur Validierung der Ansprüche in Forschungsprojekten.
Insbesondere Video -Syntheseprojekte stützen sich stark auf den Nachweis der tatsächlichen Videoausgabe, um nicht entlassen zu werden. In diesen Demonstrationen kann die reale Leistung eines Projekts wirklich bewertet werden, was häufig die Lücke zwischen den mutigen Ansprüchen des Projekts und seinen tatsächlichen Fähigkeiten zeigt.
Ich habe das Buch gelesen, den Film nicht gesehen
Derzeit sind beliebte API-basierte Großsprachmodelle (LLMs) und große Visionsprachenmodelle (LVLMs) nicht so ausgestattet, dass Videoinhalte direkt analysiert werden. Ihre Fähigkeiten beschränken sich auf die Analyse von Transkripten und anderen textbasierten Materialien im Zusammenhang mit dem Video. Diese Einschränkung zeigt sich, wenn diese Modelle aufgefordert werden, Videoinhalte direkt zu analysieren.
*Die unterschiedlichen Einwände von GPT-4O, Google Gemini und Verwirrung, wenn sie aufgefordert werden, Video direkt zu analysieren, ohne auf Transkripte oder andere textbasierte Quellen zurückzugreifen.*
Einige Modelle, wie Chatgpt-4O, versuchen möglicherweise sogar, eine subjektive Bewertung eines Videos vorzunehmen, werden jedoch schließlich ihre Unfähigkeit zugeben, Videos beim Drücken direkt anzusehen.
*Nachdem Chatgpt-4O gebeten wurde, eine subjektive Bewertung der damit verbundenen Videos eines neuen Forschungspapiers vorzunehmen und eine echte Meinung vorgenommen zu haben, gesteht er schließlich, dass es Video nicht wirklich direkt anzeigen kann.*
Obwohl diese Modelle multimodal sind und einzelne Fotos analysieren können, z. B. einen Rahmen, der aus einem Video extrahiert wird, ist ihre Fähigkeit, qualitative Meinungen abzugeben, fragwürdig. LLMs neigen oft dazu, nicht aufrichtige Kritikpunkte zu „Menschen zu plagen“. Darüber hinaus sind viele Probleme in einem Video zeitlich, was bedeutet, dass die Analyse eines einzelnen Frame den Punkt vollständig verfehlt.
Die einzige Möglichkeit, wie ein LLM ein "Werturteil" in einem Video anbieten kann, besteht darin, textbasiertes Wissen wie das Verständnis von DeepFake-Bildern oder Kunstgeschichte zu nutzen, um visuelle Qualitäten mit erlernten Einbettungen zu korrelieren, die auf menschlichen Erkenntnissen beruhen.
* Das FakeVLM-Projekt bietet eine gezielte DeepFake-Erkennung über ein spezielles multi-modales Vision-Sprach-Modell.* Quelle: https://arxiv.org/pdf/2503.14905
Während ein LLM Objekte in einem Video mit Hilfe von zusätzlichen AI-Systemen wie Yolo identifizieren kann, bleibt die subjektive Bewertung ohne eine funktionsbasierte Metrik, die die menschliche Meinung widerspiegelt, schwer fassbar.
Bedingte Sicht
Verlustfunktionen sind für Trainingsmodelle von wesentlicher Bedeutung, um zu messen, wie weit Vorhersagen aus korrekten Antworten liegen, und das Modell zur Reduzierung von Fehlern zu leiten. Sie werden auch zur Bewertung von AI-generierten Inhalten verwendet, wie z. B. fotorealistische Videos.
Eine beliebte Metrik ist die Fréchet Inception Distanz (FID), die die Ähnlichkeit zwischen der Verteilung generierter und realer Bilder misst. FID verwendet das Inception V3 -Netzwerk, um statistische Unterschiede zu berechnen, und eine niedrigere Punktzahl zeigt eine höhere visuelle Qualität und Vielfalt an.
FID ist jedoch selbstreferenziell und vergleichend. Die im Jahr 2021 eingeführte bedingte Fréchet -Distanz (CFD) befasst sich mit diesem, indem er auch überlegt, wie gut generierte Bilder zusätzliche Bedingungen entsprechen, z. B. Klassenbezeichnungen oder Eingabebilder.
* Beispiele aus dem 2021 CFD-Ausflug.* Quelle: https://github.com/michael-solovechik/cfid/
CFD zielt darauf ab, eine qualitative Interpretation des Menschen in Metriken zu integrieren. Dieser Ansatz führt jedoch Herausforderungen wie potenzielle Verzerrungen, die Notwendigkeit häufiger Aktualisierungen und Budgetbeschränkungen ein, die die Konsistenz und Zuverlässigkeit von Bewertungen im Laufe der Zeit beeinflussen können.
CFRED
In einer kürzlich durchgeführten Arbeit aus den USA wird die bedingte Fréchet-Distanz (CFRED) eingeführt, eine neue Metrik, die die menschlichen Vorlieben besser widerspiegelt, indem sowohl die visuelle Qualität als auch die Ausrichtung des Textbilds bewertet werden.
*Partielle Ergebnisse aus dem neuen Papier: Bildranking (1–9) durch verschiedene Metriken für die Eingabeaufforderung "Ein Wohnzimmer mit einer Couch und einem Laptop -Computer, der auf der Couch ruht". Grün hebt das oberste Modell mit Menschenbewertungen (Fluss.1-dev) hervor, lila das niedrigste (SDV1.5). Nur CFRED passt zu menschlichen Ranglisten. Weitere Ergebnisse finden Sie im Quellpapier.
Die Autoren argumentieren, dass traditionelle Kennzahlen wie Inception Score (IS) und FID zu kurz kommen, weil sie sich ausschließlich auf die Bildqualität konzentrieren, ohne zu berücksichtigen, wie gut Bilder mit ihren Aufforderungen übereinstimmen. Sie schlagen vor, dass CFRED sowohl die Bildqualität als auch die Konditionierung auf Eingabetxt erfasst, was zu einer höheren Korrelation mit den menschlichen Präferenzen führt.
*Die Tests des Papiers zeigen, dass die vorgeschlagene Metrik der Autoren, CFRED, konsequent eine höhere Korrelation mit den menschlichen Präferenzen erzielt als FID, Fddinov2, ClipsCore und CMMD auf drei Benchmark -Datensätzen (PartiPromens, HPDV2 und Coco).**
Konzept und Methode
Der Goldstandard für die Bewertung von Text-zu-Im-Image-Modellen sind Daten für menschliche Präferenzdaten, die durch Vergleiche mit Crowd-Sourcing-Vergleiche gesammelt wurden, ähnlich den Methoden, die für große Sprachmodelle verwendet werden. Diese Methoden sind jedoch kostspielig und langsam und führen einige Plattformen an, um Updates zu stoppen.
* Die Rangliste der künstlichen Analyse Bildarena, die die derzeit geschätzten Führungskräfte in generativen visuellen AI rangiert.
Automatisierte Metriken wie FID, ClipsCore und CFRED sind entscheidend für die Bewertung zukünftiger Modelle, insbesondere wenn sich die menschlichen Präferenzen entwickeln. CFRED geht davon aus, dass sowohl reale als auch erzeugte Bilder Gaußsche Verteilungen folgen und die erwartete Fréchet -Distanz über Eingabeaufforderungen hinweg messen und sowohl Realismus als auch Textkonsistenz bewerten.
Daten und Tests
Um die Korrelation von CFRED mit den menschlichen Vorlieben zu bewerten, verwendeten die Autoren Bildrankings aus mehreren Modellen mit denselben Textaufforderungen. Sie zeichneten den Testsatz der menschlichen Präferenz -Score V2 (HPDV2) und die PartiPrompts -Arena, die Daten in einen einzelnen Datensatz konsolidieren.
Für neuere Modelle verwendeten sie 1.000 Eingabeaufforderungen aus den Zug- und Validierungssätzen von Coco, um keine Überlappung mit HPDV2 zu gewährleisten und Bilder mit neun Modellen aus der Arena -Rangliste zu erzeugen. CFRED wurde gegen mehrere statistische und gelehrte Metriken bewertet, was eine starke Übereinstimmung mit menschlichen Urteilen zeigte.
*Modellrankings und Bewertungen des HPDV2-Testsatzes unter Verwendung statistischer Metriken (FID, FDDINOV2, ClipsCore, CMMD und CFRED) und menschlichen Präferenzmetriken (ästhetischer Score, Immobiliene, HPSV2 und MPS). Die besten Ergebnisse sind fett gezeigt, zweitbeste sind unterstrichen.*
CFRED erreichte die höchste Ausrichtung mit menschlichen Präferenzen und erreichte eine Korrelation von 0,97 und eine Ranggenauigkeit von 91,1%. Es übertraf andere Metriken, einschließlich derjenigen, die nach Daten für menschliche Präferenz geschult wurden, und demonstrierte seine Zuverlässigkeit über verschiedene Modelle hinweg.
*Modellrankings und Bewertungen auf PartiPrompt unter Verwendung statistischer Metriken (FID, FDDINOV2, ClIPSCORE, CMMD und CFRED) und menschlicher Präferenzmetriken (ästhetischer Score, Imagerward und MPS). Die besten Ergebnisse sind fett, die zweitbeste sind unterstrichen.*
In der PartiPrompts -Arena zeigte CFRED die höchste Korrelation mit menschlichen Bewertungen bei 0,73, genau gefolgt von FID und FDDINOV2. HPSV2, der in menschlichen Präferenzen ausgebildet wurde, hatte jedoch die stärkste Ausrichtung bei 0,83.
*Modellrankings auf zufällig abgetasteten Coco-Eingabeaufforderungen unter Verwendung automatischer Metriken (FID, FDDINOV2, ClipsCore, CMMD und CFRRD) und menschliche Präferenzmetriken (ästhetischer Score, Imagerward, HPSV2 und MPS). Eine Ranggenauigkeit unter 0,5 zeigt diskordanter als konkordante Paare, und die besten Ergebnisse sind fett, die zweitbeste sind unterstrichen.*
Bei der Bewertung des Coco -Datensatzes erzielte CFRED eine Korrelation von 0,33 und eine Ranggenauigkeit von 66,67%, was bei der Ausrichtung der menschlichen Präferenzen den dritten Platz belegte, und nur hinter Metriken, die auf menschlichen Daten ausgebildet wurden.
*Die Gewinnraten zeigen, wie oft die Rangliste jedes Bildes zurück-Backbone mit den wahren von Menschen abgeleiteten Ranglisten des Coco-Datensatzes übereinstimmte.*
Die Autoren testeten auch Inception V3 und stellten fest, dass sie von Transformator-basierten Rückgrat wie Dinov2-L/14 und Vit-L/16 übertroffen werden, was sich immer besser mit menschlicher Rangliste ausrichtete.
Abschluss
Während Lösungen von Menschen in der Regel der optimale Ansatz für die Entwicklung von Metrik- und Verlustfunktionen bleiben, machen die Skala und die Häufigkeit von Aktualisierungen sie unpraktisch. Die Glaubwürdigkeit von CFRED hängt von seiner Ausrichtung auf das menschliche Urteilsvermögen ab, wenn auch indirekt. Die Legitimität der Metrik beruht auf Daten der menschlichen Präferenz, da ohne solche Benchmarks die Behauptungen einer menschlichen Bewertung nicht wären.
Die Verringung aktueller Kriterien für den „Realismus“ bei der generativen Ausgabe in eine metrische Funktion könnte angesichts der sich entwickelnden Natur unseres Verständnisses des Realismus ein langfristiger Fehler sein, der von der neuen Welle generativer KI-Systeme angetrieben wird.
*Zu diesem Zeitpunkt würde ich normalerweise ein Beispiel für ein Beispiel für ein Beispiel für ein illustratives Video aufnehmen, vielleicht aus einer kürzlich erschienenen akademischen Einreichung; Aber das wäre gemein-jeder, der mehr als 10-15 Minuten damit verbracht hat, die generative KI-Ausgabe von Arxiv zu begeben, wird bereits auf zusätzliche Videos gestoßen sein, deren subjektiv schlechte Qualität darauf hinweist, dass die damit verbundene Einreichung nicht als wegweisendes Papier gefeiert wird.**
*In den Experimenten wurden insgesamt 46 Modelle im Bild Rückgrat verwendet, von denen nicht alle in den graphierten Ergebnissen berücksichtigt werden. Informationen zu einer vollständigen Liste finden Sie im Anhang des Papiers. Die in den Tabellen und Zahlen vorgestellten Zahlen wurden aufgeführt.*
Erst veröffentlicht am Dienstag, 1. April 2025




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃












