Ai aprende a fornecer críticas de vídeo aprimoradas

Lar

Notícias

19 de Abril de 2025

BruceSmith

O Desafio de Avaliar Conteúdo de Vídeo na Pesquisa em IA

Ao mergulhar no mundo da literatura sobre visão computacional, Modelos de Visão-Linguagem de Grande Escala (LVLMs) podem ser inestimáveis para interpretar submissões complexas. No entanto, eles enfrentam um obstáculo significativo ao avaliar a qualidade e os méritos de exemplos de vídeo que acompanham artigos científicos. Esse é um aspecto crucial, pois visuais impactantes são tão importantes quanto o texto para gerar entusiasmo e validar as alegações feitas em projetos de pesquisa.

Projetos de síntese de vídeo, em particular, dependem fortemente de demonstrar a saída de vídeo real para evitar serem descartados. É nessas demonstrações que o desempenho no mundo real de um projeto pode ser verdadeiramente avaliado, muitas vezes revelando a lacuna entre as alegações ousadas do projeto e suas capacidades reais.

Eu Li o Livro, Não Vi o Filme

Atualmente, Modelos de Linguagem de Grande Escala (LLMs) baseados em API populares e Modelos de Visão-Linguagem de Grande Escala (LVLMs) não estão equipados para analisar conteúdo de vídeo diretamente. Suas capacidades são limitadas a analisar transcrições e outros materiais baseados em texto relacionados ao vídeo. Essa limitação é evidente quando esses modelos são solicitados a analisar diretamente o conteúdo de vídeo.

*As diversas objeções de GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar diretamente vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.*

Alguns modelos, como o ChatGPT-4o, podem até tentar fornecer uma avaliação subjetiva de um vídeo, mas eventualmente admitem sua incapacidade de visualizar vídeos diretamente quando pressionados.

*Tendo sido solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo fingido uma opinião real, o ChatGPT-4o eventualmente confessa que não pode realmente visualizar vídeo diretamente.*

Embora esses modelos sejam multimodais e possam analisar fotos individuais, como um quadro extraído de um vídeo, sua capacidade de fornecer opiniões qualitativas é questionável. LLMs muitas vezes tendem a dar respostas 'agradáveis às pessoas' em vez de críticas sinceras. Além disso, muitos problemas em um vídeo são temporais, o que significa que analisar um único quadro perde completamente o ponto.

A única maneira de um LLM oferecer um 'julgamento de valor' sobre um vídeo é aproveitando o conhecimento baseado em texto, como entender imagens deepfake ou história da arte, para correlacionar qualidades visuais com embeddings aprendidos com base em insights humanos.

*O projeto FakeVLM oferece detecção de deepfake direcionada por meio de um modelo de visão-linguagem multimodal especializado.* Fonte: https://arxiv.org/pdf/2503.14905

Embora um LLM possa identificar objetos em um vídeo com a ajuda de sistemas de IA adjuntos como o YOLO, a avaliação subjetiva permanece elusiva sem uma métrica baseada em função de perda que reflita a opinião humana.

Visão Condicional

As funções de perda são essenciais no treinamento de modelos, medindo o quão distante as previsões estão das respostas corretas e guiando o modelo para reduzir erros. Elas também são usadas para avaliar conteúdo gerado por IA, como vídeos fotorrealistas.

Uma métrica popular é a Distância de Fréchet Inception (FID), que mede a similaridade entre a distribuição de imagens geradas e imagens reais. O FID usa a rede Inception v3 para calcular diferenças estatísticas, e uma pontuação mais baixa indica maior qualidade visual e diversidade.

No entanto, o FID é autorreferencial e comparativo. A Distância de Fréchet Condicional (CFD), introduzida em 2021, aborda isso considerando também o quão bem as imagens geradas correspondem a condições adicionais, como rótulos de classe ou imagens de entrada.

*Exemplos da saída CFD de 2021.* Fonte: https://github.com/Michael-Soloveitchik/CFID/

O CFD visa integrar a interpretação qualitativa humana nas métricas, mas essa abordagem apresenta desafios como possível viés, a necessidade de atualizações frequentes e restrições orçamentárias que podem afetar a consistência e confiabilidade das avaliações ao longo do tempo.

cFreD

Um artigo recente dos EUA apresenta a Distância de Fréchet Condicional (cFreD), uma nova métrica projetada para refletir melhor as preferências humanas, avaliando tanto a qualidade visual quanto o alinhamento texto-imagem.

*Resultados parciais do novo artigo: classificações de imagens (1–9) por diferentes métricas para o prompt "Uma sala de estar com um sofá e um laptop descansando no sofá." Verde destaca o modelo mais bem avaliado por humanos (FLUX.1-dev), roxo o mais baixo (SDv1.5). Apenas o cFreD corresponde às classificações humanas. Consulte o artigo original para resultados completos, que não temos espaço para reproduzir aqui.* Fonte: https://arxiv.org/pdf/2503.21721

Os autores argumentam que métricas tradicionais como Inception Score (IS) e FID são insuficientes porque focam apenas na qualidade da imagem, sem considerar o quão bem as imagens correspondem aos prompts. Eles propõem que o cFreD captura tanto a qualidade da imagem quanto a condicionamento no texto de entrada, levando a uma maior correlação com as preferências humanas.

*Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente maior correlação com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).*

Conceito e Método

O padrão ouro para avaliar modelos de texto para imagem é o dado de preferência humana coletado por meio de comparações colaborativas, semelhante aos métodos usados para modelos de linguagem de grande escala. No entanto, esses métodos são caros e lentos, levando algumas plataformas a interromper as atualizações.

*O Leaderboard da Artificial Analysis Image Arena, que classifica os líderes atualmente estimados em IA visual generativa.* Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Métricas automatizadas como FID, CLIPScore e cFreD são cruciais para avaliar modelos futuros, especialmente à medida que as preferências humanas evoluem. O cFreD assume que tanto as imagens reais quanto as geradas seguem distribuições gaussianas e mede a distância de Fréchet esperada entre os prompts, avaliando tanto o realismo quanto a consistência do texto.

Dados e Testes

Para avaliar a correlação do cFreD com as preferências humanas, os autores usaram classificações de imagens de vários modelos com os mesmos prompts de texto. Eles se basearam no conjunto de testes Human Preference Score v2 (HPDv2) e no PartiPrompts Arena, consolidando os dados em um único conjunto de dados.

Para modelos mais novos, eles usaram 1.000 prompts dos conjuntos de treinamento e validação do COCO, garantindo que não houvesse sobreposição com o HPDv2, e geraram imagens usando nove modelos do Leaderboard da Arena. O cFreD foi avaliado contra várias métricas estatísticas e aprendidas, mostrando forte alinhamento com os julgamentos humanos.

*Classificações e pontuações de modelos no conjunto de testes HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

O cFreD alcançou o maior alinhamento com as preferências humanas, atingindo uma correlação de 0,97 e uma precisão de classificação de 91,1%. Ele superou outras métricas, incluindo aquelas treinadas com dados de preferência humana, demonstrando sua confiabilidade em diversos modelos.

*Classificações e pontuações de modelos no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

No PartiPrompts Arena, o cFreD mostrou a maior correlação com as avaliações humanas em 0,73, seguido de perto por FID e FDDINOv2. No entanto, o HPSv2, treinado com preferências humanas, teve o maior alinhamento em 0,83.

*Classificações de modelos em prompts COCO amostrados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais pares discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

Na avaliação do conjunto de dados COCO, o cFreD alcançou uma correlação de 0,33 e uma precisão de classificação de 66,67%, ficando em terceiro lugar no alinhamento com as preferências humanas, atrás apenas de métricas treinadas com dados humanos.

*Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às classificações verdadeiras derivadas de humanos no conjunto de dados COCO.*

Os autores também testaram o Inception V3 e descobriram que ele foi superado por backbones baseados em transformadores como DINOv2-L/14 e ViT-L/16, que se alinharam consistentemente melhor com as classificações humanas.

Conclusão

Embora soluções com humanos no circuito permaneçam a abordagem ideal para desenvolver métricas e funções de perda, a escala e a frequência das atualizações as tornam impraticáveis. A credibilidade do cFreD depende de seu alinhamento com o julgamento humano, embora indiretamente. A legitimidade da métrica depende de dados de preferência humana, pois, sem tais referências, alegações de avaliação semelhante à humana seriam improváveis.

Consagrar os critérios atuais para 'realismo' na saída generativa em uma função métrica pode ser um erro de longo prazo, dada a natureza em evolução de nossa compreensão do realismo, impulsionada pela nova onda de sistemas de IA generativa.

*Neste ponto, eu normalmente incluiria um exemplo de vídeo ilustrativo exemplar, talvez de uma submissão acadêmica recente; mas isso seria mal-intencionado – qualquer pessoa que tenha passado mais de 10-15 minutos navegando pela saída de IA generativa no Arxiv já terá encontrado vídeos suplementares cuja qualidade subjetivamente ruim indica que a submissão relacionada não será aclamada como um artigo marcante.*

*Um total de 46 modelos de backbone de imagem foram usados nos experimentos, nem todos considerados nos resultados gráficos. Consulte o apêndice do artigo para uma lista completa; aqueles apresentados nas tabelas e figuras foram listados.*

Primeiro publicado na terça-feira, 1º de abril de 2025

Artigo relacionado

Pebble recupera seu nome de marca original após batalha judicial O retorno de Pebble: Nome e tudo maisOs entusiastas do Pebble podem se alegrar - a amada marca de smartwatches não está apenas voltando, mas também recuperando seu nome icônico. "Recuperamos com suces

"Graph AI transforma o business intelligence usando gráficos de conhecimento" Pontos principaisA Graph AI aproveita os gráficos de conhecimento para revelar conexões ocultas em conjuntos de dados complexos.Os gráficos de conhecimento visualizam as informações como nós e relacio

A IA do Minecraft Villager reimagina a música com uma capa de som exclusiva O cenário da produção musical continua a se transformar à medida que as tecnologias de IA ampliam os limites criativos de maneiras inesperadas. Um desenvolvimento particularmente fascinante são os cov

Comentários (6)

0/200

Enviar

RalphMartínez

22 de Julho de 2025 à3 02:25:03 WEST

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith

25 de Abril de 2025 à53 03:29:53 WEST

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia

23 de Abril de 2025 à1 12:09:01 WEST

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing

22 de Abril de 2025 à13 10:56:13 WEST

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez

22 de Abril de 2025 à54 09:55:54 WEST

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez

20 de Abril de 2025 à28 03:22:28 WEST

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ！😊

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Clone de Voz por IA: Guia definitivo para dominar a conversão de voz

Mais

Apresentou