opción
Hogar
Noticias
AI aprende a entregar críticas de video mejoradas

AI aprende a entregar críticas de video mejoradas

19 de abril de 2025
55

El desafío de evaluar el contenido de video en la investigación de IA

Al sumergirse en el mundo de la literatura de visión por computadora, los grandes modelos en idioma de visión (LVLM) pueden ser invaluables para interpretar presentaciones complejas. Sin embargo, alcanzaron un obstáculo significativo cuando se trata de evaluar la calidad y los méritos de los ejemplos de video que acompañan a los documentos científicos. Este es un aspecto crucial porque las imágenes convincentes son tan importantes como el texto para generar emoción y validar los reclamos hechos en proyectos de investigación.

Los proyectos de síntesis de video, en particular, dependen en gran medida de demostrar la producción de video real para evitar ser descartados. Es en estas manifestaciones donde el desempeño del mundo real de un proyecto puede evaluarse realmente, a menudo revelando la brecha entre las afirmaciones audaces del proyecto y sus capacidades reales.

Leí el libro, no vi la película

Actualmente, los populares modelos de lenguaje de grandes basados ​​en API (LLM) y los grandes modelos en idioma de visión (LVLM) no están equipados para analizar el contenido de video directamente. Sus capacidades se limitan a analizar transcripciones y otros materiales basados ​​en texto relacionados con el video. Esta limitación es evidente cuando se pide a estos modelos que analicen directamente el contenido de video.

Las diversas objeciones de GPT-4O, Google Géminis y perplejidad, cuando se les pide que analicen directamente el video, sin recurrir a transcripciones u otras fuentes basadas en texto. *Las diversas objeciones de GPT-4O, Google Gemini y Perplexity, cuando se les pide que analicen directamente el video, sin recurrir a transcripciones u otras fuentes basadas en texto.*

Algunos modelos, como ChatGPT-4O, incluso podrían intentar proporcionar una evaluación subjetiva de un video, pero finalmente admitirán su incapacidad para ver directamente videos cuando se presionan.

Al haber pedido que proporcione una evaluación subjetiva de los videos asociados de un nuevo trabajo de investigación, y después de haber fingido una opinión real, ChatGPT-4O finalmente confiesa que realmente no puede ver el video directamente. *Habiendo pedido que proporcione una evaluación subjetiva de los videos asociados de un nuevo trabajo de investigación, y después de haber fingido una opinión real, ChatGPT-4O finalmente confiesa que realmente no puede ver el video directamente.*

Aunque estos modelos son multimodales y pueden analizar fotos individuales, como un marco extraído de un video, su capacidad para proporcionar opiniones cualitativas es cuestionable. Los LLM a menudo tienden a dar respuestas "agradables" en lugar de críticas sinceras. Además, muchos problemas en un video son temporales, lo que significa que el análisis de un solo cuadro pierde el punto por completo.

La única forma en que una LLM puede ofrecer un 'juicio de valor' en un video es aprovechando el conocimiento basado en texto, como comprender las imágenes de Deepfake o la historia del arte, para correlacionar las cualidades visuales con integridades aprendidas basadas en ideas humanas.

El proyecto FakeVLM ofrece una detección de Deepfake dirigido a través de un modelo especializado de lenguaje de visión multimodal. Fuente: https://arxiv.org/pdf/2503.14905 * El proyecto FakeVLM ofrece detección de defake de profundidad a través de un modelo especializado de lenguaje de visión multimodal.* Fuente: https://arxiv.org/pdf/2503.14905

Si bien un LLM puede identificar objetos en un video con la ayuda de sistemas AI adjuntos como YOLO, la evaluación subjetiva sigue siendo difícil de alcanzar sin una métrica basada en la función de pérdida que refleje la opinión humana.

Visión condicional

Las funciones de pérdida son esenciales en los modelos de entrenamiento, miden cuán lejos están las predicciones de las respuestas correctas y guiar el modelo para reducir los errores. También se utilizan para evaluar el contenido generado por la IA, como los videos fotorrealistas.

Una métrica popular es la distancia de inicio de Fréchet (FID), que mide la similitud entre la distribución de imágenes generadas e imágenes reales. FID usa la red Inception V3 para calcular las diferencias estadísticas, y una puntuación más baja indica una mayor calidad visual y diversidad.

Sin embargo, FID es autorreferencial y comparativo. La distancia condicional de Fréchet (CFD) introducida en 2021 aborda esto al considerar cómo las imágenes bien generadas coinciden con condiciones adicionales, como etiquetas de clase o imágenes de entrada.

Ejemplos de la excursión CFD 2021. Fuente: https://github.com/michael-soloveitchik/cfid/ * Ejemplos de la salida CFD 2021.* Fuente: https://github.com/michael-soloveitchik/cfid/

CFD tiene como objetivo integrar la interpretación humana cualitativa en las métricas, pero este enfoque introduce desafíos como el sesgo potencial, la necesidad de actualizaciones frecuentes y limitaciones presupuestarias que pueden afectar la consistencia y confiabilidad de las evaluaciones a lo largo del tiempo.

Cfred

Un artículo reciente de los EE. UU. Presenta la distancia condicional de Fréchet (CFRED) , una nueva métrica diseñada para reflejar mejor las preferencias humanas mediante la evaluación de la calidad visual y la alineación de imágenes de texto.

Resultados parciales del nuevo documento: clasificaciones de imágenes (1–9) por diferentes métricas para el mensaje 'Una sala de estar con un sofá y una computadora portátil que descansa en el sofá'. Green destaca el modelo superior con calificación humana (flujo.1-dev), púrpura el más bajo (SDV1.5). Solo Cfred coincide con las clasificaciones humanas. Consulte el documento de origen para obtener resultados completos, que no tenemos espacio para reproducir aquí. Fuente: https://arxiv.org/pdf/2503.21721 *Resultados parciales del nuevo documento: clasificaciones de imágenes (1–9) por diferentes métricas para el mensaje "Una sala de estar con un sofá y una computadora portátil que descansa en el sofá". Green destaca el modelo superior con calificación humana (flujo.1-dev), púrpura el más bajo (SDV1.5). Solo Cfred coincide con las clasificaciones humanas. Consulte el documento de origen para obtener resultados completos, que no tenemos espacio para reproducir aquí.* Fuente: https://arxiv.org/pdf/2503.21721

Los autores argumentan que las métricas tradicionales como la puntuación de inicio (IS) y FID se quedan cortas porque se centran únicamente en la calidad de la imagen sin considerar qué tan bien las imágenes coinciden con sus indicaciones. Proponen que CFRED captura tanto la calidad de la imagen como el acondicionamiento en el texto de entrada, lo que lleva a una mayor correlación con las preferencias humanas.

Las pruebas del documento indican que la métrica propuesta por los autores, CFRED, logra constantemente una correlación más alta con las preferencias humanas que FID, FDDINOV2, Clipscore y CMMD en tres conjuntos de datos de referencia (Partiprompts, HPDV2 y Coco). *Las pruebas del documento indican que la métrica propuesta por los autores, CFRED, logra constantemente una mayor correlación con las preferencias humanas que FID, FDDINOV2, Clipscore y CMMD en tres conjuntos de datos de referencia (Partiprompts, HPDV2 y Coco).*.*

Concepto y método

El estándar de oro para evaluar modelos de texto a imagen son los datos de preferencia humana recopilados a través de comparaciones de origen multitude, similares a los métodos utilizados para modelos de idiomas grandes. Sin embargo, estos métodos son costosos y lentos, lo que lleva a algunas plataformas a detener las actualizaciones.

El análisis de análisis de análisis artificiales en la placa de clasificación, que clasifica a los líderes actualmente estimados en IA visual generativa. Fuente: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard * La tabla de clasificación de la arena de imágenes de análisis artificial, que clasifica a los líderes actualmente estimados en la IA visual generativa.* Fuente: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard

Las métricas automatizadas como FID, Clipscore y CFRED son cruciales para evaluar modelos futuros, especialmente a medida que evolucionan las preferencias humanas. CFRED supone que las imágenes reales y generadas siguen las distribuciones gaussianas y mide la distancia esperada de Fréchet a través de las indicaciones, evaluando tanto el realismo como la consistencia del texto.

Datos y pruebas

Para evaluar la correlación de CFRED con las preferencias humanas, los autores utilizaron clasificaciones de imágenes de múltiples modelos con las mismas indicaciones de texto. Se basaron en el conjunto de pruebas V2 (HPDV2) de PREFITURA HUMANA y el Arena de Partiprompts, consolidando los datos en un solo conjunto de datos.

Para los modelos más nuevos, utilizaron 1,000 indicaciones de los conjuntos de trenes y validación de Coco, asegurando que no se superponga con HPDV2 y generaron imágenes utilizando nueve modelos de la tabla de clasificación de Arena. CFRED fue evaluado contra varias métricas estadísticas y aprendidas, que muestran una fuerte alineación con los juicios humanos.

Rankings y puntajes de modelos en el conjunto de pruebas HPDV2 utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagereward, HPSV2 y MPS). Los mejores resultados se muestran en negrita, el segundo mejor están subrayados. *Rankings y puntajes de modelos en el conjunto de pruebas HPDV2 utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagereward, HPSV2 y MPS). Los mejores resultados se muestran en negrita, el segundo mejor están subrayados.*

Cfred logró la alineación más alta con las preferencias humanas, alcanzando una correlación de 0.97 y una precisión de rango del 91.1%. Superó a otras métricas, incluidas las capacitadas en datos de preferencias humanas, lo que demuestra su confiabilidad en diversos modelos.

Rankings y puntajes de modelos en Partiprompt utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagen de imagen y MPS). Los mejores resultados están en negrita, el segundo mejor está subrayado. *Rankings y puntajes de modelos en Partiprompt utilizando métricas estadísticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntuación estética, imagen de imaginación y MPS). Los mejores resultados están en negrita, el segundo mejor están subrayados.*

En la arena de Partiprompts, CFRED mostró la correlación más alta con las evaluaciones humanas en 0.73, seguida de cerca por FID y FDDINOV2. Sin embargo, HPSV2, entrenado en preferencias humanas, tenía la alineación más fuerte en 0.83.

Las clasificaciones de modelos en las indicaciones de Coco muestreadas al azar utilizando métricas automáticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas entrenadas por preferencias humanas (puntaje estético, imagen de imagen, HPSV2 y MPS). Una precisión de rango por debajo de 0.5 indica más discordante que los pares concordantes, y los mejores resultados están en negrita, el segundo mejor se subrayan. *Rankings de modelos en las indicaciones de Coco muestreadas al azar utilizando métricas automáticas (FID, FDDINOV2, Clipscore, CMMD y CFRED) y métricas capacitadas en preferencias humanas (puntaje estético, imaginación de imágenes, HPSV2 y MPS). Una precisión de rango por debajo de 0.5 indica más discordante que los pares concordantes, y los mejores resultados están en negrita, el segundo mejor se subrayan.*

En la evaluación del conjunto de datos Coco, CFRED logró una correlación de 0.33 y una precisión de rango del 66.67%, clasificando el tercero en alineación con las preferencias humanas, solo detrás de las métricas entrenadas en datos humanos.

Las tasas de ganar con qué frecuencia las clasificaciones de cada imagen de cada imagen coincidían con las verdaderas clasificaciones derivadas de humanos en el conjunto de datos de Coco. *Ganar las tasas que muestran con qué frecuencia las clasificaciones de cada imagen de cada imagen coincidían con las verdaderas clasificaciones derivadas de humanos en el conjunto de datos de Coco.*

Los autores también probaron el inicio V3 y descubrieron que estaba superado por troncos basados ​​en transformadores como Dinov2-L/14 y VIT-L/16, que se alineó constantemente mejor con las clasificaciones humanas.

Conclusión

Si bien las soluciones humanas en el bucle siguen siendo el enfoque óptimo para desarrollar funciones métricas y de pérdida, la escala y la frecuencia de las actualizaciones las hacen poco prácticas. La credibilidad de Cfred depende de su alineación con el juicio humano, aunque indirectamente. La legitimidad de la métrica se basa en los datos de preferencia humana, ya que sin tales puntos de referencia, las afirmaciones de evaluación similar a la humana no serían inocentes.

La consagración de los criterios actuales para el 'realismo' en el resultado generativo en una función métrica podría ser un error a largo plazo, dada la naturaleza evolutiva de nuestra comprensión del realismo, impulsada por la nueva ola de sistemas de IA generativos.

*En este punto, normalmente incluiría un ejemplo de video ilustrativo ejemplar, tal vez de una presentación académica reciente; Pero eso sería malvado: cualquiera que haya pasado más de 10-15 minutos que rastreando la producción generativa de IA de Arxiv ya se encontrará con videos suplementarios cuya calidad subjetivamente pobre indica que la presentación relacionada no será aclamada como un documento histórico.*

*Se utilizaron un total de 46 modelos de columna vertebral de imagen en los experimentos, no todos los cuales se consideran en los resultados gráficos. Consulte el apéndice del documento para obtener una lista completa; Los que aparecen en las tablas y figuras han sido enumeradas.*

Publicado por primera vez el martes 1 de abril de 2025

Artículo relacionado
Wren AI: Aprovechar el Poder de GenBI Usando Perspectivas de Datos de Código Abierto Wren AI: Aprovechar el Poder de GenBI Usando Perspectivas de Datos de Código Abierto En el mundo actual, rápido y basado en datos, la capacidad de extraer rápidamente perspectivas significativas de grandes cantidades de información es crucial. Presentamos Wren AI, un agente innovador
Tutorial de StoryBoarder.ai: Dominando la Creación de Guiones Gráficos Tutorial de StoryBoarder.ai: Dominando la Creación de Guiones Gráficos StoryBoarder.ai está transformando el proceso creativo para cineastas, animadores y creadores de contenido al ofrecer una plataforma poderosa para visualizar y planificar proyectos con facilidad. Este
Motiff AI: Transformar el Diseño UI/UX con Innovación Potenciada por AI Motiff AI: Transformar el Diseño UI/UX con Innovación Potenciada por AI Revolucionando el Diseño Web con Motiff AIEn la era digital acelerada de hoy, crear un sitio web amigable y visualmente atractivo es crucial para destacar en línea. Motiff AI ha surgido como una soluc
comentario (5)
0/200
GaryGarcia
GaryGarcia 23 de abril de 2025 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 20 de abril de 2025 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 25 de abril de 2025 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 22 de abril de 2025 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 de abril de 2025 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

Volver arriba
OR