L'IA apprend à fournir des critiques vidéo améliorées

Maison

Nouvelles

19 avril 2025

BruceSmith

Le défi de l'évaluation du contenu vidéo dans la recherche en IA

Lorsqu'on plonge dans le monde de la littérature sur la vision par ordinateur, les grands modèles de vision-langage (LVLMs) peuvent être précieux pour interpréter des soumissions complexes. Cependant, ils rencontrent un obstacle majeur lorsqu'il s'agit d'évaluer la qualité et les mérites des exemples vidéo qui accompagnent les articles scientifiques. Cet aspect est crucial, car des visuels convaincants sont tout aussi importants que le texte pour susciter l'enthousiasme et valider les affirmations des projets de recherche.

Les projets de synthèse vidéo, en particulier, reposent fortement sur la démonstration de résultats vidéo réels pour éviter d'être écartés. C'est dans ces démonstrations que la performance réelle d'un projet peut être véritablement évaluée, révélant souvent l'écart entre les affirmations audacieuses du projet et ses capacités réelles.

J'ai lu le livre, je n'ai pas vu le film

Actuellement, les grands modèles de langage (LLMs) et les grands modèles de vision-langage (LVLMs) basés sur des API ne sont pas équipés pour analyser directement le contenu vidéo. Leurs capacités se limitent à analyser les transcriptions et autres matériels textuels liés à la vidéo. Cette limitation est évidente lorsqu'on demande à ces modèles d'analyser directement le contenu vidéo.

*Les diverses objections de GPT-4o, Google Gemini et Perplexity, lorsqu'on leur demande d'analyser directement une vidéo, sans recours à des transcriptions ou d'autres sources textuelles.*

Certains modèles, comme ChatGPT-4o, peuvent même tenter de fournir une évaluation subjective d'une vidéo, mais finissent par admettre leur incapacité à visionner directement les vidéos lorsqu'on insiste.

*Ayant été invité à fournir une évaluation subjective des vidéos associées à un nouvel article de recherche, et ayant feint une véritable opinion, ChatGPT-4o finit par confesser qu'il ne peut pas vraiment visionner une vidéo directement.*

Bien que ces modèles soient multimodaux et puissent analyser des photos individuelles, comme une image extraite d'une vidéo, leur capacité à fournir des opinions qualitatives est discutable. Les LLMs ont souvent tendance à donner des réponses "plaisantes" plutôt que des critiques sincères. De plus, de nombreux problèmes dans une vidéo sont temporels, ce qui signifie qu'analyser une seule image passe complètement à côté de l'essentiel.

La seule manière pour un LLM de fournir un "jugement de valeur" sur une vidéo est de s'appuyer sur des connaissances textuelles, comme la compréhension des images deepfake ou de l'histoire de l'art, pour corréler les qualités visuelles avec des embeddings appris basés sur des idées humaines.

*Le projet FakeVLM propose une détection ciblée de deepfakes via un modèle de vision-langage multimodal spécialisé.* Source : https://arxiv.org/pdf/2503.14905

Bien qu'un LLM puisse identifier des objets dans une vidéo avec l'aide de systèmes d'IA adjoints comme YOLO, l'évaluation subjective reste insaisissable sans une métrique basée sur une fonction de perte qui reflète l'opinion humaine.

Vision conditionnelle

Les fonctions de perte sont essentielles dans l'entraînement des modèles, mesurant l'écart entre les prédictions et les réponses correctes, et guidant le modèle pour réduire les erreurs. Elles sont également utilisées pour évaluer le contenu généré par l'IA, comme les vidéos photoréalistes.

Une métrique populaire est la distance de Fréchet Inception (FID), qui mesure la similarité entre la distribution des images générées et des images réelles. FID utilise le réseau Inception v3 pour calculer les différences statistiques, et un score plus bas indique une meilleure qualité visuelle et une plus grande diversité.

Cependant, FID est autoréférentiel et comparatif. La distance de Fréchet conditionnelle (CFD), introduite en 2021, répond à cela en tenant également compte de la correspondance des images générées avec des conditions supplémentaires, telles que les étiquettes de classe ou les images d'entrée.

*Exemples de l'événement CFD de 2021.* Source : https://github.com/Michael-Soloveitchik/CFID/

CFD vise à intégrer l'interprétation qualitative humaine dans les métriques, mais cette approche introduit des défis comme des biais potentiels, le besoin de mises à jour fréquentes et des contraintes budgétaires qui peuvent affecter la cohérence et la fiabilité des évaluations au fil du temps.

cFreD

Un récent article des États-Unis présente la distance de Fréchet conditionnelle (cFreD), une nouvelle métrique conçue pour mieux refléter les préférences humaines en évaluant à la fois la qualité visuelle et l'alignement texte-image.

*Résultats partiels du nouvel article : classements des images (1–9) par différentes métriques pour l'invite « Un salon avec un canapé et un ordinateur portable posé sur le canapé. » Le vert met en évidence le modèle le mieux noté par les humains (FLUX.1-dev), le violet le moins bien noté (SDv1.5). Seule cFreD correspond aux classements humains. Veuillez consulter l'article source pour les résultats complets, que nous n'avons pas la place de reproduire ici.* Source : https://arxiv.org/pdf/2503.21721

Les auteurs soutiennent que les métriques traditionnelles comme le score Inception (IS) et FID sont insuffisantes, car elles se concentrent uniquement sur la qualité de l'image sans tenir compte de la correspondance des images avec leurs invites. Ils proposent que cFreD capture à la fois la qualité de l'image et le conditionnement sur le texte d'entrée, conduisant à une corrélation plus élevée avec les préférences humaines.

*Les tests de l'article indiquent que la métrique proposée par les auteurs, cFreD, atteint systématiquement une corrélation plus élevée avec les préférences humaines que FID, FDDINOv2, CLIPScore et CMMD sur trois ensembles de données de référence (PartiPrompts, HPDv2 et COCO).*

Concept et méthode

La référence pour évaluer les modèles texte-à-image est constituée des données de préférence humaine recueillies par des comparaisons participatives, similaires aux méthodes utilisées pour les grands modèles de langage. Cependant, ces méthodes sont coûteuses et lentes, ce qui a conduit certaines plateformes à cesser les mises à jour.

*Le classement de l'Arena d'analyse artificielle des images, qui classe les leaders actuellement estimés dans l'IA visuelle générative.* Source : https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Les métriques automatisées comme FID, CLIPScore et cFreD sont cruciales pour évaluer les futurs modèles, surtout à mesure que les préférences humaines évoluent. cFreD suppose que les images réelles et générées suivent des distributions gaussiennes et mesure la distance de Fréchet attendue à travers les invites, évaluant à la fois le réalisme et la cohérence avec le texte.

Données et tests

Pour évaluer la corrélation de cFreD avec les préférences humaines, les auteurs ont utilisé des classements d'images de plusieurs modèles avec les mêmes invites textuelles. Ils ont puisé dans l'ensemble de tests Human Preference Score v2 (HPDv2) et l'Arena PartiPrompts, consolidant les données dans un seul ensemble de données.

Pour les modèles plus récents, ils ont utilisé 1 000 invites des ensembles d'entraînement et de validation de COCO, en veillant à ce qu'il n'y ait pas de chevauchement avec HPDv2, et ont généré des images à l'aide de neuf modèles du classement de l'Arena. cFreD a été évalué par rapport à plusieurs métriques statistiques et apprises, montrant un fort alignement avec les jugements humains.

*Classements et scores des modèles sur l'ensemble de tests HPDv2 utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

cFreD a atteint l'alignement le plus élevé avec les préférences humaines, avec une corrélation de 0,97 et une précision de classement de 91,1 %. Il a surpassé les autres métriques, y compris celles entraînées sur des données de préférence humaine, démontrant sa fiabilité à travers divers modèles.

*Classements et scores des modèles sur PartiPrompt utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

Dans l'Arena PartiPrompts, cFreD a montré la corrélation la plus élevée avec les évaluations humaines à 0,73, suivi de près par FID et FDDINOv2. Cependant, HPSv2, entraîné sur les préférences humaines, avait l'alignement le plus fort à 0,83.

*Classements des modèles sur des invites COCO échantillonnées aléatoirement utilisant des métriques automatiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Une précision de classement inférieure à 0,5 indique plus de paires discordantes que concordantes, et les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

Dans l'évaluation de l'ensemble de données COCO, cFreD a atteint une corrélation de 0,33 et une précision de classement de 66,67 %, se classant troisième en alignement avec les préférences humaines, derrière uniquement les métriques entraînées sur des données humaines.

*Taux de victoire montrant à quelle fréquence les classements de chaque modèle de base d'image correspondaient aux classements réels dérivés des humains sur l'ensemble de données COCO.*

Les auteurs ont également testé Inception V3 et ont constaté qu'il était surpassé par des modèles de base basés sur des transformateurs comme DINOv2-L/14 et ViT-L/16, qui s'alignaient systématiquement mieux avec les classements humains.

Conclusion

Bien que les solutions impliquant des humains restent l'approche optimale pour développer des métriques et des fonctions de perte, l'ampleur et la fréquence des mises à jour les rendent impraticables. La crédibilité de cFreD repose sur son alignement avec le jugement humain, bien que de manière indirecte. La légitimité de la métrique dépend des données de préférence humaine, car sans ces références, les affirmations d'une évaluation semblable à celle des humains seraient indémontrables.

Inscrire les critères actuels de "réalisme" dans la production générative dans une fonction métrique pourrait être une erreur à long terme, étant donné la nature évolutive de notre compréhension du réalisme, portée par la nouvelle vague de systèmes d'IA générative.

*À ce stade, j'inclurais normalement un exemple vidéo illustratif, peut-être tiré d'une soumission académique récente ; mais cela serait mal intentionné – toute personne ayant passé plus de 10 à 15 minutes à parcourir les résultats de l'IA générative sur Arxiv aura déjà rencontré des vidéos supplémentaires dont la qualité subjectivement médiocre indique que la soumission associée ne sera pas considérée comme un article marquant.*

*Un total de 46 modèles de base d'image ont été utilisés dans les expériences, dont tous ne sont pas pris en compte dans les résultats graphiques. Veuillez consulter l'annexe de l'article pour une liste complète ; ceux présentés dans les tableaux et figures ont été listés.*

Première publication le mardi 1er avril 2025

Article connexe

L'application Gemini de Google ajoute des vidéos d'IA en temps réel, Deep Research et de nouvelles fonctionnalités (120 chars) Google a dévoilé d'importantes améliorations de Gemini AI lors de sa conférence des développeurs I/O 2025, en étendant les capacités multimodales, en introduisant des modèles d'IA de nouvelle générati

Assort Health obtient un financement de 50 millions de dollars pour automatiser la communication avec les patients Assort Health, une startup émergente spécialisée dans les communications automatisées avec les patients pour les cabinets spécialisés, a obtenu un financement de série B d'environ 50 millions de dolla

Générer des formules Excel instantanément avec l'outil Excel alimenté par l'IA Transformez votre flux de travail avec GPTExcel - la solution alimentée par l'IA qui convertit les descriptions en langage naturel en formules Excel et Google Sheets précises. Cet outil puissant élimi

commentaires (6)

0/200

Soumettre

RalphMartínez

22 juillet 2025 03:25:03 UTC+02:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith

25 avril 2025 04:29:53 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia

23 avril 2025 13:09:01 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing

22 avril 2025 11:56:13 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez

22 avril 2025 10:55:54 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez

20 avril 2025 04:22:28 UTC+02:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ！😊

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix

Plus

En vedette