option
Maison
Nouvelles
L'IA apprend à fournir des critiques vidéo améliorées

L'IA apprend à fournir des critiques vidéo améliorées

19 avril 2025
141

Le défi de l'évaluation du contenu vidéo dans la recherche en IA

Lorsqu'on plonge dans le monde de la littérature sur la vision par ordinateur, les grands modèles de vision-langage (LVLMs) peuvent être précieux pour interpréter des soumissions complexes. Cependant, ils rencontrent un obstacle majeur lorsqu'il s'agit d'évaluer la qualité et les mérites des exemples vidéo qui accompagnent les articles scientifiques. Cet aspect est crucial, car des visuels convaincants sont tout aussi importants que le texte pour susciter l'enthousiasme et valider les affirmations des projets de recherche.

Les projets de synthèse vidéo, en particulier, reposent fortement sur la démonstration de résultats vidéo réels pour éviter d'être écartés. C'est dans ces démonstrations que la performance réelle d'un projet peut être véritablement évaluée, révélant souvent l'écart entre les affirmations audacieuses du projet et ses capacités réelles.

J'ai lu le livre, je n'ai pas vu le film

Actuellement, les grands modèles de langage (LLMs) et les grands modèles de vision-langage (LVLMs) basés sur des API ne sont pas équipés pour analyser directement le contenu vidéo. Leurs capacités se limitent à analyser les transcriptions et autres matériels textuels liés à la vidéo. Cette limitation est évidente lorsqu'on demande à ces modèles d'analyser directement le contenu vidéo.

Les diverses objections de GPT-4o, Google Gemini et Perplexity, lorsqu'on leur demande d'analyser directement une vidéo, sans recours à des transcriptions ou d'autres sources textuelles.*Les diverses objections de GPT-4o, Google Gemini et Perplexity, lorsqu'on leur demande d'analyser directement une vidéo, sans recours à des transcriptions ou d'autres sources textuelles.*

Certains modèles, comme ChatGPT-4o, peuvent même tenter de fournir une évaluation subjective d'une vidéo, mais finissent par admettre leur incapacité à visionner directement les vidéos lorsqu'on insiste.

Ayant été invité à fournir une évaluation subjective des vidéos associées à un nouvel article de recherche, et ayant feint une véritable opinion, ChatGPT-4o finit par confesser qu'il ne peut pas vraiment visionner une vidéo directement.*Ayant été invité à fournir une évaluation subjective des vidéos associées à un nouvel article de recherche, et ayant feint une véritable opinion, ChatGPT-4o finit par confesser qu'il ne peut pas vraiment visionner une vidéo directement.*

Bien que ces modèles soient multimodaux et puissent analyser des photos individuelles, comme une image extraite d'une vidéo, leur capacité à fournir des opinions qualitatives est discutable. Les LLMs ont souvent tendance à donner des réponses "plaisantes" plutôt que des critiques sincères. De plus, de nombreux problèmes dans une vidéo sont temporels, ce qui signifie qu'analyser une seule image passe complètement à côté de l'essentiel.

La seule manière pour un LLM de fournir un "jugement de valeur" sur une vidéo est de s'appuyer sur des connaissances textuelles, comme la compréhension des images deepfake ou de l'histoire de l'art, pour corréler les qualités visuelles avec des embeddings appris basés sur des idées humaines.

Le projet FakeVLM propose une détection ciblée de deepfakes via un modèle de vision-langage multimodal spécialisé. Source : https://arxiv.org/pdf/2503.14905*Le projet FakeVLM propose une détection ciblée de deepfakes via un modèle de vision-langage multimodal spécialisé.* Source : https://arxiv.org/pdf/2503.14905

Bien qu'un LLM puisse identifier des objets dans une vidéo avec l'aide de systèmes d'IA adjoints comme YOLO, l'évaluation subjective reste insaisissable sans une métrique basée sur une fonction de perte qui reflète l'opinion humaine.

Vision conditionnelle

Les fonctions de perte sont essentielles dans l'entraînement des modèles, mesurant l'écart entre les prédictions et les réponses correctes, et guidant le modèle pour réduire les erreurs. Elles sont également utilisées pour évaluer le contenu généré par l'IA, comme les vidéos photoréalistes.

Une métrique populaire est la distance de Fréchet Inception (FID), qui mesure la similarité entre la distribution des images générées et des images réelles. FID utilise le réseau Inception v3 pour calculer les différences statistiques, et un score plus bas indique une meilleure qualité visuelle et une plus grande diversité.

Cependant, FID est autoréférentiel et comparatif. La distance de Fréchet conditionnelle (CFD), introduite en 2021, répond à cela en tenant également compte de la correspondance des images générées avec des conditions supplémentaires, telles que les étiquettes de classe ou les images d'entrée.

Exemples de l'événement CFD de 2021. Source : https://github.com/Michael-Soloveitchik/CFID/*Exemples de l'événement CFD de 2021.* Source : https://github.com/Michael-Soloveitchik/CFID/

CFD vise à intégrer l'interprétation qualitative humaine dans les métriques, mais cette approche introduit des défis comme des biais potentiels, le besoin de mises à jour fréquentes et des contraintes budgétaires qui peuvent affecter la cohérence et la fiabilité des évaluations au fil du temps.

cFreD

Un récent article des États-Unis présente la distance de Fréchet conditionnelle (cFreD), une nouvelle métrique conçue pour mieux refléter les préférences humaines en évaluant à la fois la qualité visuelle et l'alignement texte-image.

Résultats partiels du nouvel article : classements des images (1–9) par différentes métriques pour l'invite « Un salon avec un canapé et un ordinateur portable posé sur le canapé. » Le vert met en évidence le modèle le mieux noté par les humains (FLUX.1-dev), le violet le moins bien noté (SDv1.5). Seule cFreD correspond aux classements humains. Veuillez consulter l'article source pour les résultats complets, que nous n'avons pas la place de reproduire ici. Source : https://arxiv.org/pdf/2503.21721*Résultats partiels du nouvel article : classements des images (1–9) par différentes métriques pour l'invite « Un salon avec un canapé et un ordinateur portable posé sur le canapé. » Le vert met en évidence le modèle le mieux noté par les humains (FLUX.1-dev), le violet le moins bien noté (SDv1.5). Seule cFreD correspond aux classements humains. Veuillez consulter l'article source pour les résultats complets, que nous n'avons pas la place de reproduire ici.* Source : https://arxiv.org/pdf/2503.21721

Les auteurs soutiennent que les métriques traditionnelles comme le score Inception (IS) et FID sont insuffisantes, car elles se concentrent uniquement sur la qualité de l'image sans tenir compte de la correspondance des images avec leurs invites. Ils proposent que cFreD capture à la fois la qualité de l'image et le conditionnement sur le texte d'entrée, conduisant à une corrélation plus élevée avec les préférences humaines.

Les tests de l'article indiquent que la métrique proposée par les auteurs, cFreD, atteint systématiquement une corrélation plus élevée avec les préférences humaines que FID, FDDINOv2, CLIPScore et CMMD sur trois ensembles de données de référence (PartiPrompts, HPDv2 et COCO).*Les tests de l'article indiquent que la métrique proposée par les auteurs, cFreD, atteint systématiquement une corrélation plus élevée avec les préférences humaines que FID, FDDINOv2, CLIPScore et CMMD sur trois ensembles de données de référence (PartiPrompts, HPDv2 et COCO).*

Concept et méthode

La référence pour évaluer les modèles texte-à-image est constituée des données de préférence humaine recueillies par des comparaisons participatives, similaires aux méthodes utilisées pour les grands modèles de langage. Cependant, ces méthodes sont coûteuses et lentes, ce qui a conduit certaines plateformes à cesser les mises à jour.

Le classement de l'Arena d'analyse artificielle des images, qui classe les leaders actuellement estimés dans l'IA visuelle générative. Source : https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*Le classement de l'Arena d'analyse artificielle des images, qui classe les leaders actuellement estimés dans l'IA visuelle générative.* Source : https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Les métriques automatisées comme FID, CLIPScore et cFreD sont cruciales pour évaluer les futurs modèles, surtout à mesure que les préférences humaines évoluent. cFreD suppose que les images réelles et générées suivent des distributions gaussiennes et mesure la distance de Fréchet attendue à travers les invites, évaluant à la fois le réalisme et la cohérence avec le texte.

Données et tests

Pour évaluer la corrélation de cFreD avec les préférences humaines, les auteurs ont utilisé des classements d'images de plusieurs modèles avec les mêmes invites textuelles. Ils ont puisé dans l'ensemble de tests Human Preference Score v2 (HPDv2) et l'Arena PartiPrompts, consolidant les données dans un seul ensemble de données.

Pour les modèles plus récents, ils ont utilisé 1 000 invites des ensembles d'entraînement et de validation de COCO, en veillant à ce qu'il n'y ait pas de chevauchement avec HPDv2, et ont généré des images à l'aide de neuf modèles du classement de l'Arena. cFreD a été évalué par rapport à plusieurs métriques statistiques et apprises, montrant un fort alignement avec les jugements humains.

Classements et scores des modèles sur l'ensemble de tests HPDv2 utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*Classements et scores des modèles sur l'ensemble de tests HPDv2 utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

cFreD a atteint l'alignement le plus élevé avec les préférences humaines, avec une corrélation de 0,97 et une précision de classement de 91,1 %. Il a surpassé les autres métriques, y compris celles entraînées sur des données de préférence humaine, démontrant sa fiabilité à travers divers modèles.

Classements et scores des modèles sur PartiPrompt utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*Classements et scores des modèles sur PartiPrompt utilisant des métriques statistiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward et MPS). Les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

Dans l'Arena PartiPrompts, cFreD a montré la corrélation la plus élevée avec les évaluations humaines à 0,73, suivi de près par FID et FDDINOv2. Cependant, HPSv2, entraîné sur les préférences humaines, avait l'alignement le plus fort à 0,83.

Classements des modèles sur des invites COCO échantillonnées aléatoirement utilisant des métriques automatiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Une précision de classement inférieure à 0,5 indique plus de paires discordantes que concordantes, et les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*Classements des modèles sur des invites COCO échantillonnées aléatoirement utilisant des métriques automatiques (FID, FDDINOv2, CLIPScore, CMMD et cFreD) et des métriques entraînées sur les préférences humaines (Aesthetic Score, ImageReward, HPSv2 et MPS). Une précision de classement inférieure à 0,5 indique plus de paires discordantes que concordantes, et les meilleurs résultats sont en gras, les deuxièmes meilleurs sont soulignés.*

Dans l'évaluation de l'ensemble de données COCO, cFreD a atteint une corrélation de 0,33 et une précision de classement de 66,67 %, se classant troisième en alignement avec les préférences humaines, derrière uniquement les métriques entraînées sur des données humaines.

Taux de victoire montrant à quelle fréquence les classements de chaque modèle de base d'image correspondaient aux classements réels dérivés des humains sur l'ensemble de données COCO.*Taux de victoire montrant à quelle fréquence les classements de chaque modèle de base d'image correspondaient aux classements réels dérivés des humains sur l'ensemble de données COCO.*

Les auteurs ont également testé Inception V3 et ont constaté qu'il était surpassé par des modèles de base basés sur des transformateurs comme DINOv2-L/14 et ViT-L/16, qui s'alignaient systématiquement mieux avec les classements humains.

Conclusion

Bien que les solutions impliquant des humains restent l'approche optimale pour développer des métriques et des fonctions de perte, l'ampleur et la fréquence des mises à jour les rendent impraticables. La crédibilité de cFreD repose sur son alignement avec le jugement humain, bien que de manière indirecte. La légitimité de la métrique dépend des données de préférence humaine, car sans ces références, les affirmations d'une évaluation semblable à celle des humains seraient indémontrables.

Inscrire les critères actuels de "réalisme" dans la production générative dans une fonction métrique pourrait être une erreur à long terme, étant donné la nature évolutive de notre compréhension du réalisme, portée par la nouvelle vague de systèmes d'IA générative.

*À ce stade, j'inclurais normalement un exemple vidéo illustratif, peut-être tiré d'une soumission académique récente ; mais cela serait mal intentionné – toute personne ayant passé plus de 10 à 15 minutes à parcourir les résultats de l'IA générative sur Arxiv aura déjà rencontré des vidéos supplémentaires dont la qualité subjectivement médiocre indique que la soumission associée ne sera pas considérée comme un article marquant.*

*Un total de 46 modèles de base d'image ont été utilisés dans les expériences, dont tous ne sont pas pris en compte dans les résultats graphiques. Veuillez consulter l'annexe de l'article pour une liste complète ; ceux présentés dans les tableaux et figures ont été listés.*

Première publication le mardi 1er avril 2025

Article connexe
Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine Une étude anthropologique établit un lien entre les contenus générés par l'IA et une diminution de la réflexion humaine Lorsque vous voyez l'IA produire instantanément un code ou un document bien structuré et d'une logique claire, êtes-vous tenté de lui faire confiance sans y réfléchir à deux fois ? Selon AIbase, Anthr
Les ministères britanniques s'affrontent au sujet des besoins énergétiques des centres de données dédiés à l'IA Les ministères britanniques s'affrontent au sujet des besoins énergétiques des centres de données dédiés à l'IA Le gouvernement britannique est confronté à un défi de taille : promouvoir les énergies propres tout en visant à devenir un leader mondial dans le domaine de l'intelligence artificielle. Or, de sérieu
L'Administration chinoise du cyberespace impose l'étiquetage des courtes vidéos générées par l'IA et des vidéos de fiction L'Administration chinoise du cyberespace impose l'étiquetage des courtes vidéos générées par l'IA et des vidéos de fiction L'Administration chinoise du cyberespace a mis en place un plan global visant à normaliser l'étiquetage des contenus vidéo courts, en imposant aux plateformes l'utilisation de six balises obligatoires
Recommandations de sujets spéciaux liés
Création de bande dessinée Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence
Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils
xix.ai
en écrivant Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales
Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils
xix.ai
Entreprise Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique
Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils
xix.ai
code Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités
Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités

Découvrez les meilleurs outils d'analyse de code par IA de 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan, véritables révolutionnaires, permettant d'automatiser la conformité au code propre et de refactoriser les fichiers de dépôts hérités. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance grâce à l'IA.

10 outils
xix.ai
Synthèse vocale Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves
Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves

Découvrez les meilleures applications de synthèse vocale par IA de 2026, spécialement sélectionnées pour aider les personnes dyslexiques. Notre classement d'experts compare les outils gratuits et payants, en mettant en avant des fonctionnalités performantes qui améliorent l'efficacité de la lecture et l'apprentissage. Découvrez des solutions révolutionnaires à ne pas manquer pour libérer le potentiel des élèves. Commencez votre parcours sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie
Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils
xix.ai
commentaires (6)
0/500
RalphMartínez
RalphMartínez 22 juillet 2025 03:25:03 UTC+02:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 25 avril 2025 04:29:53 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 23 avril 2025 13:09:01 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 22 avril 2025 11:56:13 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 avril 2025 10:55:54 UTC+02:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 20 avril 2025 04:22:28 UTC+02:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

OR