opción
Hogar
Noticias
AI aprende a entregar críticas de video mejoradas

AI aprende a entregar críticas de video mejoradas

19 de abril de 2025
71

El desafío de evaluar contenido de video en la investigación de IA

Al sumergirse en el mundo de la literatura sobre visión por computadora, los Modelos de Lenguaje y Visión a Gran Escala (LVLMs) pueden ser invaluables para interpretar presentaciones complejas. Sin embargo, enfrentan un obstáculo significativo cuando se trata de evaluar la calidad y los méritos de los ejemplos de video que acompañan a los artículos científicos. Este es un aspecto crucial porque las imágenes visuales impactantes son tan importantes como el texto para generar entusiasmo y validar las afirmaciones hechas en los proyectos de investigación.

Los proyectos de síntesis de video, en particular, dependen en gran medida de demostrar la salida de video real para evitar ser descartados. Es en estas demostraciones donde se puede evaluar verdaderamente el rendimiento en el mundo real de un proyecto, a menudo revelando la brecha entre las afirmaciones audaces del proyecto y sus capacidades reales.

Leí el libro, no vi la película

Actualmente, los Modelos de Lenguaje a Gran Escala (LLMs) basados en API populares y los Modelos de Lenguaje y Visión a Gran Escala (LVLMs) no están equipados para analizar contenido de video directamente. Sus capacidades se limitan a analizar transcripciones y otros materiales basados en texto relacionados con el video. Esta limitación es evidente cuando se les pide a estos modelos que analicen directamente el contenido de video.

Las diversas objeciones de GPT-4o, Google Gemini y Perplexity, cuando se les pidió analizar directamente un video, sin recurrir a transcripciones u otras fuentes basadas en texto.*Las diversas objeciones de GPT-4o, Google Gemini y Perplexity, cuando se les pidió analizar directamente un video, sin recurrir a transcripciones u otras fuentes basadas en texto.*

Algunos modelos, como ChatGPT-4o, podrían incluso intentar proporcionar una evaluación subjetiva de un video, pero eventualmente admitirán su incapacidad para ver videos directamente cuando se les presione.

Habiendo sido solicitado a proporcionar una evaluación subjetiva de los videos asociados a un nuevo artículo de investigación, y habiendo fingido una opinión real, ChatGPT-4o finalmente confiesa que no puede ver videos directamente.*Habiendo sido solicitado a proporcionar una evaluación subjetiva de los videos asociados a un nuevo artículo de investigación, y habiendo fingido una opinión real, ChatGPT-4o finalmente confiesa que no puede ver videos directamente.*

Aunque estos modelos son multimodales y pueden analizar fotos individuales, como un fotograma extraído de un video, su capacidad para ofrecer opiniones cualitativas es cuestionable. Los LLMs a menudo tienden a dar respuestas 'complacientes' en lugar de críticas sinceras. Además, muchos problemas en un video son temporales, lo que significa que analizar un solo fotograma pierde completamente el punto.

La única forma en que un LLM puede ofrecer un 'juicio de valor' sobre un video es aprovechando el conocimiento basado en texto, como la comprensión de imágenes deepfake o la historia del arte, para correlacionar cualidades visuales con incrustaciones aprendidas basadas en percepciones humanas.

El proyecto FakeVLM ofrece detección específica de deepfakes a través de un modelo multimodal de visión-lenguaje especializado. Fuente: https://arxiv.org/pdf/2503.14905*El proyecto FakeVLM ofrece detección específica de deepfakes a través de un modelo multimodal de visión-lenguaje especializado.* Fuente: https://arxiv.org/pdf/2503.14905

Aunque un LLM puede identificar objetos en un video con la ayuda de sistemas de IA complementarios como YOLO, la evaluación subjetiva sigue siendo esquiva sin una métrica basada en funciones de pérdida que refleje la opinión humana.

Visión condicional

Las funciones de pérdida son esenciales en el entrenamiento de modelos, midiendo qué tan lejos están las predicciones de las respuestas correctas y guiando al modelo para reducir errores. También se utilizan para evaluar contenido generado por IA, como videos fotorrealistas.

Una métrica popular es la Distancia de Fréchet Inception (FID), que mide la similitud entre la distribución de imágenes generadas e imágenes reales. FID utiliza la red Inception v3 para calcular diferencias estadísticas, y una puntuación más baja indica mayor calidad visual y diversidad.

Sin embargo, FID es autorreferencial y comparativo. La Distancia de Fréchet Condicional (CFD) introducida en 2021 aborda esto al considerar también qué tan bien las imágenes generadas cumplen con condiciones adicionales, como etiquetas de clase o imágenes de entrada.

Ejemplos de la salida de CFD de 2021. Fuente: https://github.com/Michael-Soloveitchik/CFID/*Ejemplos de la salida de CFD de 2021.* Fuente: https://github.com/Michael-Soloveitchik/CFID/

CFD busca integrar la interpretación cualitativa humana en las métricas, pero este enfoque introduce desafíos como posibles sesgos, la necesidad de actualizaciones frecuentes y limitaciones presupuestarias que pueden afectar la consistencia y fiabilidad de las evaluaciones con el tiempo.

cFreD

Un artículo reciente de EE. UU. introduce la Distancia de Fréchet Condicional (cFreD), una nueva métrica diseñada para reflejar mejor las preferencias humanas al evaluar tanto la calidad visual como la alineación texto-imagen.

Resultados parciales del nuevo artículo: clasificaciones de imágenes (1–9) por diferentes métricas para el prompt 'Una sala de estar con un sofá y una computadora portátil descansando en el sofá.' El verde resalta el modelo mejor calificado por humanos (FLUX.1-dev), el morado el peor (SDv1.5). Solo cFreD coincide con las clasificaciones humanas. Consulte el artículo fuente para obtener resultados completos, que no tenemos espacio para reproducir aquí. Fuente: https://arxiv.org/pdf/2503.21721*Resultados parciales del nuevo artículo: clasificaciones de imágenes (1–9) por diferentes métricas para el prompt "Una sala de estar con un sofá y una computadora portátil descansando en el sofá." El verde resalta el modelo mejor calificado por humanos (FLUX.1-dev), el morado el peor (SDv1.5). Solo cFreD coincide con las clasificaciones humanas. Consulte el artículo fuente para obtener resultados completos, que no tenemos espacio para reproducir aquí.* Fuente: https://arxiv.org/pdf/2503.21721

Los autores argumentan que las métricas tradicionales como Inception Score (IS) y FID son insuficientes porque se centran únicamente en la calidad de la imagen sin considerar qué tan bien las imágenes coinciden con sus prompts. Proponen que cFreD captura tanto la calidad de la imagen como el condicionamiento en el texto de entrada, lo que lleva a una mayor correlación con las preferencias humanas.

Las pruebas del artículo indican que la métrica propuesta por los autores, cFreD, logra consistentemente una mayor correlación con las preferencias humanas que FID, FDDINOv2, CLIPScore y CMMD en tres conjuntos de datos de referencia (PartiPrompts, HPDv2 y COCO).*Las pruebas del artículo indican que la métrica propuesta por los autores, cFreD, logra consistentemente una mayor correlación con las preferencias humanas que FID, FDDINOv2, CLIPScore y CMMD en tres conjuntos de datos de referencia (PartiPrompts, HPDv2 y COCO).*

Concepto y método

El estándar de oro para evaluar modelos de texto a imagen es la recolección de datos de preferencias humanas a través de comparaciones colaborativas, similar a los métodos utilizados para modelos de lenguaje grandes. Sin embargo, estos métodos son costosos y lentos, lo que lleva a algunas plataformas a detener las actualizaciones.

El Tablero de Líderes de la Arena de Imágenes de Artificial Analysis, que clasifica a los líderes estimados actualmente en IA visual generativa. Fuente: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*El Tablero de Líderes de la Arena de Imágenes de Artificial Analysis, que clasifica a los líderes estimados actualmente en IA visual generativa.* Fuente: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Las métricas automatizadas como FID, CLIPScore y cFreD son cruciales para evaluar modelos futuros, especialmente a medida que evolucionan las preferencias humanas. cFreD asume que tanto las imágenes reales como las generadas siguen distribuciones gaussianas y mide la distancia de Fréchet esperada a través de prompts, evaluando tanto el realismo como la consistencia con el texto.

Datos y pruebas

Para evaluar la correlación de cFreD con las preferencias humanas, los autores usaron clasificaciones de imágenes de múltiples modelos con los mismos prompts de texto. Se basaron en el conjunto de pruebas Human Preference Score v2 (HPDv2) y la Arena PartiPrompts, consolidando los datos en un solo conjunto de datos.

Para modelos más nuevos, usaron 1,000 prompts de los conjuntos de entrenamiento y validación de COCO, asegurando que no hubiera superposición con HPDv2, y generaron imágenes usando nueve modelos del Tablero de Líderes de la Arena. cFreD fue evaluado contra varias métricas estadísticas y aprendidas, mostrando una fuerte alineación con los juicios humanos.

Clasificaciones y puntajes de modelos en el conjunto de pruebas HPDv2 usando métricas estadísticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward, HPSv2 y MPS). Los mejores resultados están en negrita, los segundos mejores están subrayados.*Clasificaciones y puntajes de modelos en el conjunto de pruebas HPDv2 usando métricas estadísticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward, HPSv2 y MPS). Los mejores resultados están en negrita, los segundos mejores están subrayados.*

cFreD logró la mayor alineación con las preferencias humanas, alcanzando una correlación de 0.97 y una precisión de clasificación de 91.1%. Superó a otras métricas, incluidas las entrenadas con datos de preferencias humanas, demostrando su fiabilidad en diversos modelos.

Clasificaciones y puntajes de modelos en PartiPrompt usando métricas estadísticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward y MPS). Los mejores resultados están en negrita, los segundos mejores están subrayados.*Clasificaciones y puntajes de modelos en PartiPrompt usando métricas estadísticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward y MPS). Los mejores resultados están en negrita, los segundos mejores están subrayados.*

En la Arena PartiPrompts, cFreD mostró la mayor correlación con las evaluaciones humanas en 0.73, seguida de cerca por FID y FDDINOv2. Sin embargo, HPSv2, entrenado con preferencias humanas, tuvo la alineación más fuerte en 0.83.

Clasificaciones de modelos en prompts de COCO muestreados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward, HPSv2 y MPS). Una precisión de clasificación por debajo de 0.5 indica más pares discordantes que concordantes, y los mejores resultados están en negrita, los segundos mejores están subrayados.*Clasificaciones de modelos en prompts de COCO muestreados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD y cFreD) y métricas entrenadas con preferencias humanas (Aesthetic Score, ImageReward, HPSv2 y MPS). Una precisión de clasificación por debajo de 0.5 indica más pares discordantes que concordantes, y los mejores resultados están en negrita, los segundos mejores están subrayados.*

En la evaluación del conjunto de datos COCO, cFreD logró una correlación de 0.33 y una precisión de clasificación de 66.67%, ocupando el tercer lugar en alineación con las preferencias humanas, solo detrás de las métricas entrenadas con datos humanos.

Tasas de victoria que muestran con qué frecuencia las clasificaciones de cada backbone de imagen coincidieron con las clasificaciones humanas reales en el conjunto de datos COCO.*Tasas de victoria que muestran con qué frecuencia las clasificaciones de cada backbone de imagen coincidieron con las clasificaciones humanas reales en el conjunto de datos COCO.*

Los autores también probaron Inception V3 y encontraron que fue superado por backbones basados en transformadores como DINOv2-L/14 y ViT-L/16, que consistentemente se alinearon mejor con las clasificaciones humanas.

Conclusión

Aunque las soluciones con humanos en el bucle siguen siendo el enfoque óptimo para desarrollar métricas y funciones de pérdida, la escala y la frecuencia de las actualizaciones las hacen impracticables. La credibilidad de cFreD depende de su alineación con el juicio humano, aunque de manera indirecta. La legitimidad de la métrica se basa en datos de preferencias humanas, ya que sin dichos puntos de referencia, las afirmaciones de evaluación similar a la humana serían indemostrables.

Incorporar los criterios actuales de 'realismo' en la salida generativa en una función métrica podría ser un error a largo plazo, dado el carácter evolutivo de nuestra comprensión del realismo, impulsado por la nueva ola de sistemas de IA generativa.

*En este punto, normalmente incluiría un ejemplo de video ilustrativo, tal vez de una presentación académica reciente; pero eso sería malintencionado – cualquiera que haya pasado más de 10-15 minutos explorando la salida de IA generativa de Arxiv ya habrá encontrado videos suplementarios cuya calidad subjetivamente pobre indica que la presentación relacionada no será aclamada como un artículo histórico.*

*Un total de 46 modelos de backbone de imagen fueron utilizados en los experimentos, no todos los cuales se consideran en los resultados graficados. Consulte el apéndice del artículo para obtener una lista completa; aquellos que aparecen en las tablas y figuras han sido listados.*

Publicado por primera vez el martes, 1 de abril de 2025

Artículo relacionado
Herramientas de Podcast Potenciadas por IA para una Creación de Contenido Simplificada Herramientas de Podcast Potenciadas por IA para una Creación de Contenido Simplificada Producir y perfeccionar un podcast puede ser tanto exigente como gratificante. Muchos podcasters enfrentan desafíos con tareas que consumen mucho tiempo, como eliminar palabras de relleno, crear notas
El traje rojo de Britney Spears: Un momento definitorio en la moda pop El traje rojo de Britney Spears: Un momento definitorio en la moda pop Britney Spears, la icónica reina del pop, ha cautivado constantemente a las audiencias con su estilo audaz. Sus videos musicales no solo son éxitos musicales, sino también hitos en la moda. Este artíc
Explorando la Devoción Divina: Fe, Amor y Libertad Espiritual Explorando la Devoción Divina: Fe, Amor y Libertad Espiritual En un mundo lleno de caos y distracciones, encontrar momentos de paz para la conexión espiritual puede transformar vidas. Este artículo profundiza en el acto profundo de venerar a Jesús, explorando te
comentario (6)
0/200
RalphMartínez
RalphMartínez 22 de julio de 2025 03:25:03 GMT+02:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 25 de abril de 2025 04:29:53 GMT+02:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 23 de abril de 2025 13:09:01 GMT+02:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 22 de abril de 2025 11:56:13 GMT+02:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 de abril de 2025 10:55:54 GMT+02:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 20 de abril de 2025 04:22:28 GMT+02:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

Volver arriba
OR