option
Maison
Nouvelles
L'IA apprend à fournir des critiques vidéo améliorées

L'IA apprend à fournir des critiques vidéo améliorées

19 avril 2025
55

Le défi de l'évaluation du contenu vidéo dans la recherche sur l'IA

Lorsque vous plongez dans le monde de la littérature sur la vision par ordinateur, les grands modèles de vision (LVLM) peuvent être inestimables pour interpréter des soumissions complexes. Cependant, ils ont frappé un barrage routier important lorsqu'il s'agit d'évaluer la qualité et les mérites des exemples vidéo qui accompagnent les articles scientifiques. C'est un aspect crucial car les visuels convaincants sont tout aussi importants que le texte de la génération de l'excitation et de la validation des réclamations faites dans les projets de recherche.

Les projets de synthèse vidéo, en particulier, comptent fortement sur la démonstration de la sortie vidéo réelle pour éviter d'être rejeté. C'est dans ces manifestations où la performance du monde réel d'un projet peut être vraiment évaluée, révélant souvent l'écart entre les revendications audacieuses du projet et ses capacités réelles.

J'ai lu le livre, je n'ai pas vu le film

Actuellement, les modèles de grande langue (LLMS) basés sur des API et les modèles de langue de vision (LVLM) (LVLM) ne sont pas équipés pour analyser directement le contenu vidéo. Leurs capacités se limitent à analyser les transcriptions et autres matériaux textuels liés à la vidéo. Cette limitation est évidente lorsque ces modèles sont invités à analyser directement le contenu vidéo.

Les diverses objections de GPT-4O, Google Gemini et de la perplexité, lorsqu'on leur demande d'analyser directement la vidéo, sans recours à des transcriptions ou à d'autres sources textuelles. * Les diverses objections de GPT-4O, Google Gemini et perplexité, lorsqu'on leur demande d'analyser directement la vidéo, sans recours à des transcriptions ou à d'autres sources textuelles. *

Certains modèles, comme ChatGPT-4O, pourraient même tenter de fournir une évaluation subjective d'une vidéo, mais finiront par admettre leur incapacité à afficher directement les vidéos lorsqu'elles sont pressées.

Ayant été invité à fournir une évaluation subjective des vidéos associées d'un nouveau document de recherche, et après avoir simulé une vraie opinion, Chatgpt-4o avoue finalement qu'il ne peut pas vraiment afficher la vidéo directement. * Ayant été invité à fournir une évaluation subjective des vidéos associées d'un nouveau document de recherche, et après avoir simulé une véritable opinion, Chatgpt-4o avoue finalement qu'il ne peut pas vraiment afficher la vidéo directement. *

Bien que ces modèles soient multimodaux et puissent analyser des photos individuelles, comme un cadre extrait d'une vidéo, leur capacité à fournir des opinions qualitatives est discutable. Les LLM ont souvent tendance à donner des réponses «qui plastisent» plutôt que des critiques sincères. De plus, de nombreux problèmes dans une vidéo sont temporels, ce qui signifie que l'analyse d'un seul cadre manque entièrement le point.

La seule façon dont un LLM peut offrir un «jugement de valeur» sur une vidéo est de tirer parti des connaissances textuelles, telles que la compréhension de l'imagerie profonde ou de l'histoire de l'art, pour corréler les qualités visuelles avec des intérêts apprises basés sur des idées humaines.

Le projet FakeVLM propose une détection DeepFake ciblée via un modèle spécialisé en langue visuelle multimodale. Source: https://arxiv.org/pdf/2503.14905 * Le projet FakeVLM offre une détection ciblée DeepFake via un modèle de vision multimodal spécialisé. * Source: https://arxiv.org/pdf/2503.14905

Bien qu'un LLM puisse identifier des objets dans une vidéo à l'aide de systèmes d'IA complémentaires comme Yolo, l'évaluation subjective reste insaisissable sans une métrique basée sur la fonction de perte qui reflète l'opinion humaine.

Vision conditionnelle

Les fonctions de perte sont essentielles dans les modèles de formation, la mesure dans laquelle les prédictions proviennent des réponses correctes et guidant le modèle pour réduire les erreurs. Ils sont également utilisés pour évaluer le contenu généré par l'IA, tels que les vidéos photoréalistes.

Une métrique populaire est la distance de création de Fréchet (FID), qui mesure la similitude entre la distribution des images générées et des images réelles. FID utilise le réseau de création V3 pour calculer les différences statistiques, et un score inférieur indique une qualité visuelle et une diversité visuelles plus élevées.

Cependant, le FID est auto-référentiel et comparatif. La distance de Fréchet conditionnelle (CFD) introduite en 2021 résout cela en considérant également la façon dont les images générées correspondent aux conditions supplémentaires, telles que les étiquettes de classe ou les images d'entrée.

Exemples de la sortie CFD 2021. Source: https://github.com/michael-soloveitchik/cfid/ * Exemples de la sortie CFD 2021. * Source: https://github.com/michael-soloveitchek/cfid/

CFD vise à intégrer une interprétation humaine qualitative dans les mesures, mais cette approche introduit des défis tels que les biais potentiels, la nécessité de mises à jour fréquentes et les contraintes budgétaires qui peuvent affecter la cohérence et la fiabilité des évaluations au fil du temps.

cfred

Un article récent des États-Unis introduit la distance de Fréchet conditionnelle (CFRED) , une nouvelle métrique conçue pour mieux refléter les préférences humaines en évaluant à la fois la qualité visuelle et l'alignement d'image texte.

Résultats partiels du nouvel article: classement des images (1–9) par différentes mesures pour l'invite «Un salon avec un canapé et un ordinateur portable reposant sur le canapé». Green met en évidence le modèle supérieur à l'évaluation humaine (Flux.1-DEV), Purple le plus bas (SDV1.5). Seul Cfred correspond aux classements humains. Veuillez vous référer au papier source pour les résultats complets, que nous n'avons pas de place à reproduire ici. Source: https://arxiv.org/pdf/2503.21721 * Résultats partiels du nouvel article: classement d'images (1–9) par différentes mesures pour l'invite "Un salon avec un canapé et un ordinateur portable reposant sur le canapé". Green met en évidence le modèle supérieur à l'évaluation humaine (Flux.1-DEV), Purple le plus bas (SDV1.5). Seul Cfred correspond aux classements humains. Veuillez vous référer au document source pour les résultats complets, que nous n'avons pas de place à reproduire ici. * Source: https://arxiv.org/pdf/2503.21721

Les auteurs soutiennent que les métriques traditionnelles comme le score de création (IS) et le FID échouent car elles se concentrent uniquement sur la qualité de l'image sans considérer à quel point les images correspondent à leurs invites. Ils proposent que CFRED capture à la fois la qualité d'image et le conditionnement du texte d'entrée, conduisant à une corrélation plus élevée avec les préférences humaines.

Les tests de l'article indiquent que la métrique proposée par les auteurs, CFRED, atteint systématiquement une corrélation plus élevée avec les préférences humaines que FID, FDDINOV2, CLIPSCORE et CMMD sur trois ensembles de données de référence (Partiprompts, HPDV2 et Coco). * Les tests de l'article indiquent que la métrique proposée par les auteurs, CFRED, atteint systématiquement une corrélation plus élevée avec les préférences humaines que FID, FDDINOV2, CLIPSCORE et CMMD sur trois ensembles de données de référence (Partiproposts, HPDV2 et Coco). *

Concept et méthode

L'étalon-or pour évaluer les modèles de texte à l'image est les données de préférence humaine recueillies à travers des comparaisons provenant de la foule, similaires aux méthodes utilisées pour les grands modèles de langage. Cependant, ces méthodes sont coûteuses et lentes, conduisant certaines plateformes à arrêter les mises à jour.

Le classement Arena Image Arena de l'analyse artificielle, qui classe les leaders actuellement estimés dans une IA visuelle générative. Source: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard * Le classement Arena Image Arena de l'image artificielle, qui classe les leaders actuellement estimés dans Generative Visual Ai. * Source: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard

Les mesures automatisées comme FID, ClipScore et CFRED sont cruciales pour évaluer les futurs modèles, d'autant plus que les préférences humaines évoluent. CFRED suppose que les images réelles et générées suivent les distributions gaussiennes et mesure la distance de fréquence attendue entre les invites, évaluant à la fois le réalisme et la cohérence du texte.

Données et tests

Pour évaluer la corrélation de CFRED avec les préférences humaines, les auteurs ont utilisé des classements d'images à partir de plusieurs modèles avec les mêmes invites de texte. Ils se sont appuyés sur l'ensemble de tests de score de préférence humaine V2 (HPDV2) et l'arène des partiprompts, consolidant les données dans un seul ensemble de données.

Pour les nouveaux modèles, ils ont utilisé 1 000 invites dans les ensembles de train et de validation de Coco, n'assurant aucun chevauchement avec HPDV2, et généré des images en utilisant neuf modèles du classement Arena. CFRED a été évalué par rapport à plusieurs mesures statistiques et apprises, montrant un fort alignement sur les jugements humains.

Classement des modèles et scores sur l'ensemble de tests HPDV2 en utilisant des mesures statistiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des mesures formées par les préférences humaines (score esthétique, ImageRereward, HPSV2 et MPS). Les meilleurs résultats sont présentés en gras, le deuxième meilleur sont soulignés. * Classement des modèles et scores sur l'ensemble de tests HPDV2 en utilisant des mesures statistiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des mesures formées par les préférences humaines (score esthétique, ImageRere, HPSV2 et MPS). Les meilleurs résultats sont présentés en gras, le deuxième meilleur sont soulignés. *

CFRED a atteint le plus haut alignement avec les préférences humaines, atteignant une corrélation de 0,97 et une précision de rang de 91,1%. Il a surperformé d'autres mesures, y compris celles formées sur les données de préférence humaine, démontrant sa fiabilité à travers divers modèles.

Classement et scores de modèle sur Partiprompt en utilisant des mesures statistiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des mesures formées par les préférences humaines (score esthétique, Imagereward et MPS). Les meilleurs résultats sont en gras, le deuxième meilleur sont soulignés. * Classement des modèles et scores sur Partipromppt en utilisant des mesures statistiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des mesures formées par les préférences humaines (score esthétique, ImageRereward et MPS). Les meilleurs résultats sont en gras, le deuxième meilleur sont soulignés. *

Dans l'arène des partiprompts, CFRED a montré la plus forte corrélation avec les évaluations humaines à 0,73, suivie de près par FID et FDDINOV2. Cependant, HPSV2, formé sur les préférences humaines, avait le plus fort alignement à 0,83.

Classements de modèles sur des invites de coco échantillonnées au hasard en utilisant des mesures automatiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des métriques formées par les préférences humaines (score esthétique, ImageReward, HPSV2 et MPS). Une précision de rang inférieure à 0,5 indique plus discordante que les paires concordantes, et les meilleurs résultats sont en gras, le deuxième meilleur sont soulignés. * Classement des modèles sur des invites de coco échantillonnées au hasard en utilisant des mesures automatiques (FID, FDDINOV2, ClipScore, CMMD et CFRED) et des mesures formées par les préférences humaines (score esthétique, ImageRerew, HPSV2 et MPS). Une précision de rang inférieure à 0,5 indique plus discordante que les paires concordantes, et les meilleurs résultats sont en gras, le deuxième meilleur sont soulignés. *

Dans l'évaluation de l'ensemble de données CoCo, CFRED a atteint une corrélation de 0,33 et une précision de rang de 66,67%, se classant troisième en alignement avec les préférences humaines, derrière les métriques uniquement entraînées sur les données humaines.

Les taux de victoire montrant à quelle fréquence le classement de chaque épine dorsale d'image correspondait au véritable classement dérivé de l'homme sur l'ensemble de données CoCo. * Taux de victoires montrant à quelle fréquence le classement de chaque épine dorsale correspondait au véritable classement dérivé de l'homme sur l'ensemble de données CoCo. *

Les auteurs ont également testé Inception V3 et l'ont trouvé dépassé par des squeries à base de transformateurs comme DINOV2-L / 14 et Vit-L / 16, qui s'alignaient toujours mieux avec les classements humains.

Conclusion

Alors que les solutions humaines en boucle restent l'approche optimale pour développer des fonctions métriques et de perte, l'échelle et la fréquence des mises à jour les rendent peu pratiques. La crédibilité de Cfred dépend de son alignement avec le jugement humain, bien qu'indirectement. La légitimité de la métrique repose sur des données de préférence humaine, car sans ces références, les affirmations d'évaluation humaine ne seraient pas prouvables.

Consacrer des critères actuels pour le «réalisme» dans la sortie générative en une fonction métrique pourrait être une erreur à long terme, étant donné la nature évolutive de notre compréhension du réalisme, tirée par la nouvelle vague de systèmes d'IA génératifs.

* À ce stade, j'inclurais normalement un exemple de vidéo illustrative exemplaire, peut-être à partir d'une récente soumission académique; Mais ce serait mesquin - toute personne qui a passé plus de 10 à 15 minutes à la production générative d'IA d'Arxiv aura déjà rencontré des vidéos supplémentaires dont la qualité subjectivement mauvaise indique que la soumission connexe ne sera pas saluée comme un papier historique. *

* Un total de 46 modèles de squelette d'image ont été utilisés dans les expériences, qui ne sont pas tous considérés dans les résultats graphiques. Veuillez vous référer à l'annexe du journal pour une liste complète; Ceux présentés dans les tables et les chiffres ont été répertoriés. *

Publié le mardi 1er avril 2025 pour la première fois

Article connexe
IA dans les avis médicaux : Transformer les soins de santé IA dans les avis médicaux : Transformer les soins de santé L'intelligence artificielle remodèle rapidement le paysage des soins de santé, et il n'est pas difficile de comprendre pourquoi. Le rythme des avancées technologiques a ouvert la voie à des possibilit
Aulani, Disney's Resort & Spa : Votre escapade hawaïenne ultime en famille Aulani, Disney's Resort & Spa : Votre escapade hawaïenne ultime en famille Découvrir Aulani : Un paradis hawaïen avec une touche DisneyRêvez-vous de vacances en famille mêlant la magie de Disney à la beauté époustouflante d’Hawaï ? Ne cherchez pas plus loin qu’Aulani, un Dis
Airbnb déploie discrètement un bot de service client IA aux États-Unis Airbnb déploie discrètement un bot de service client IA aux États-Unis Airbnb élève le service client alimenté par l'IA à de nouveaux sommetsLe mois dernier, lors de l'appel aux résultats du premier trimestre d'Airbnb, le PDG Brian Chesky a annoncé que l'entreprise avait
commentaires (5)
0/200
GaryGarcia
GaryGarcia 23 avril 2025 00:00:00 UTC

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 20 avril 2025 00:00:00 UTC

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 25 avril 2025 00:00:00 UTC

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 22 avril 2025 00:00:00 UTC

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 avril 2025 00:00:00 UTC

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

Retour en haut
OR