opção
Lar
Notícias
Ai aprende a fornecer críticas de vídeo aprimoradas

Ai aprende a fornecer críticas de vídeo aprimoradas

19 de Abril de 2025
141

O Desafio de Avaliar Conteúdo de Vídeo na Pesquisa em IA

Ao mergulhar no mundo da literatura sobre visão computacional, Modelos de Visão-Linguagem de Grande Escala (LVLMs) podem ser inestimáveis para interpretar submissões complexas. No entanto, eles enfrentam um obstáculo significativo ao avaliar a qualidade e os méritos de exemplos de vídeo que acompanham artigos científicos. Esse é um aspecto crucial, pois visuais impactantes são tão importantes quanto o texto para gerar entusiasmo e validar as alegações feitas em projetos de pesquisa.

Projetos de síntese de vídeo, em particular, dependem fortemente de demonstrar a saída de vídeo real para evitar serem descartados. É nessas demonstrações que o desempenho no mundo real de um projeto pode ser verdadeiramente avaliado, muitas vezes revelando a lacuna entre as alegações ousadas do projeto e suas capacidades reais.

Eu Li o Livro, Não Vi o Filme

Atualmente, Modelos de Linguagem de Grande Escala (LLMs) baseados em API populares e Modelos de Visão-Linguagem de Grande Escala (LVLMs) não estão equipados para analisar conteúdo de vídeo diretamente. Suas capacidades são limitadas a analisar transcrições e outros materiais baseados em texto relacionados ao vídeo. Essa limitação é evidente quando esses modelos são solicitados a analisar diretamente o conteúdo de vídeo.

As diversas objeções de GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar diretamente vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.*As diversas objeções de GPT-4o, Google Gemini e Perplexity, quando solicitados a analisar diretamente vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.*

Alguns modelos, como o ChatGPT-4o, podem até tentar fornecer uma avaliação subjetiva de um vídeo, mas eventualmente admitem sua incapacidade de visualizar vídeos diretamente quando pressionados.

Tendo sido solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo fingido uma opinião real, o ChatGPT-4o eventualmente confessa que não pode realmente visualizar vídeo diretamente.*Tendo sido solicitado a fornecer uma avaliação subjetiva dos vídeos associados a um novo artigo de pesquisa, e tendo fingido uma opinião real, o ChatGPT-4o eventualmente confessa que não pode realmente visualizar vídeo diretamente.*

Embora esses modelos sejam multimodais e possam analisar fotos individuais, como um quadro extraído de um vídeo, sua capacidade de fornecer opiniões qualitativas é questionável. LLMs muitas vezes tendem a dar respostas 'agradáveis às pessoas' em vez de críticas sinceras. Além disso, muitos problemas em um vídeo são temporais, o que significa que analisar um único quadro perde completamente o ponto.

A única maneira de um LLM oferecer um 'julgamento de valor' sobre um vídeo é aproveitando o conhecimento baseado em texto, como entender imagens deepfake ou história da arte, para correlacionar qualidades visuais com embeddings aprendidos com base em insights humanos.

O projeto FakeVLM oferece detecção de deepfake direcionada por meio de um modelo de visão-linguagem multimodal especializado. Fonte: https://arxiv.org/pdf/2503.14905*O projeto FakeVLM oferece detecção de deepfake direcionada por meio de um modelo de visão-linguagem multimodal especializado.* Fonte: https://arxiv.org/pdf/2503.14905

Embora um LLM possa identificar objetos em um vídeo com a ajuda de sistemas de IA adjuntos como o YOLO, a avaliação subjetiva permanece elusiva sem uma métrica baseada em função de perda que reflita a opinião humana.

Visão Condicional

As funções de perda são essenciais no treinamento de modelos, medindo o quão distante as previsões estão das respostas corretas e guiando o modelo para reduzir erros. Elas também são usadas para avaliar conteúdo gerado por IA, como vídeos fotorrealistas.

Uma métrica popular é a Distância de Fréchet Inception (FID), que mede a similaridade entre a distribuição de imagens geradas e imagens reais. O FID usa a rede Inception v3 para calcular diferenças estatísticas, e uma pontuação mais baixa indica maior qualidade visual e diversidade.

No entanto, o FID é autorreferencial e comparativo. A Distância de Fréchet Condicional (CFD), introduzida em 2021, aborda isso considerando também o quão bem as imagens geradas correspondem a condições adicionais, como rótulos de classe ou imagens de entrada.

Exemplos da saída CFD de 2021. Fonte: https://github.com/Michael-Soloveitchik/CFID/*Exemplos da saída CFD de 2021.* Fonte: https://github.com/Michael-Soloveitchik/CFID/

O CFD visa integrar a interpretação qualitativa humana nas métricas, mas essa abordagem apresenta desafios como possível viés, a necessidade de atualizações frequentes e restrições orçamentárias que podem afetar a consistência e confiabilidade das avaliações ao longo do tempo.

cFreD

Um artigo recente dos EUA apresenta a Distância de Fréchet Condicional (cFreD), uma nova métrica projetada para refletir melhor as preferências humanas, avaliando tanto a qualidade visual quanto o alinhamento texto-imagem.

Resultados parciais do novo artigo: classificações de imagens (1–9) por diferentes métricas para o prompt 'Uma sala de estar com um sofá e um laptop descansando no sofá.' Verde destaca o modelo mais bem avaliado por humanos (FLUX.1-dev), roxo o mais baixo (SDv1.5). Apenas o cFreD corresponde às classificações humanas. Consulte o artigo original para resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721*Resultados parciais do novo artigo: classificações de imagens (1–9) por diferentes métricas para o prompt "Uma sala de estar com um sofá e um laptop descansando no sofá." Verde destaca o modelo mais bem avaliado por humanos (FLUX.1-dev), roxo o mais baixo (SDv1.5). Apenas o cFreD corresponde às classificações humanas. Consulte o artigo original para resultados completos, que não temos espaço para reproduzir aqui.* Fonte: https://arxiv.org/pdf/2503.21721

Os autores argumentam que métricas tradicionais como Inception Score (IS) e FID são insuficientes porque focam apenas na qualidade da imagem, sem considerar o quão bem as imagens correspondem aos prompts. Eles propõem que o cFreD captura tanto a qualidade da imagem quanto a condicionamento no texto de entrada, levando a uma maior correlação com as preferências humanas.

Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente maior correlação com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).*Os testes do artigo indicam que a métrica proposta pelos autores, cFreD, alcança consistentemente maior correlação com as preferências humanas do que FID, FDDINOv2, CLIPScore e CMMD em três conjuntos de dados de referência (PartiPrompts, HPDv2 e COCO).*

Conceito e Método

O padrão ouro para avaliar modelos de texto para imagem é o dado de preferência humana coletado por meio de comparações colaborativas, semelhante aos métodos usados para modelos de linguagem de grande escala. No entanto, esses métodos são caros e lentos, levando algumas plataformas a interromper as atualizações.

O Leaderboard da Artificial Analysis Image Arena, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*O Leaderboard da Artificial Analysis Image Arena, que classifica os líderes atualmente estimados em IA visual generativa.* Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Métricas automatizadas como FID, CLIPScore e cFreD são cruciais para avaliar modelos futuros, especialmente à medida que as preferências humanas evoluem. O cFreD assume que tanto as imagens reais quanto as geradas seguem distribuições gaussianas e mede a distância de Fréchet esperada entre os prompts, avaliando tanto o realismo quanto a consistência do texto.

Dados e Testes

Para avaliar a correlação do cFreD com as preferências humanas, os autores usaram classificações de imagens de vários modelos com os mesmos prompts de texto. Eles se basearam no conjunto de testes Human Preference Score v2 (HPDv2) e no PartiPrompts Arena, consolidando os dados em um único conjunto de dados.

Para modelos mais novos, eles usaram 1.000 prompts dos conjuntos de treinamento e validação do COCO, garantindo que não houvesse sobreposição com o HPDv2, e geraram imagens usando nove modelos do Leaderboard da Arena. O cFreD foi avaliado contra várias métricas estatísticas e aprendidas, mostrando forte alinhamento com os julgamentos humanos.

Classificações e pontuações de modelos no conjunto de testes HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*Classificações e pontuações de modelos no conjunto de testes HPDv2 usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

O cFreD alcançou o maior alinhamento com as preferências humanas, atingindo uma correlação de 0,97 e uma precisão de classificação de 91,1%. Ele superou outras métricas, incluindo aquelas treinadas com dados de preferência humana, demonstrando sua confiabilidade em diversos modelos.

Classificações e pontuações de modelos no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*Classificações e pontuações de modelos no PartiPrompt usando métricas estatísticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward e MPS). Os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

No PartiPrompts Arena, o cFreD mostrou a maior correlação com as avaliações humanas em 0,73, seguido de perto por FID e FDDINOv2. No entanto, o HPSv2, treinado com preferências humanas, teve o maior alinhamento em 0,83.

Classificações de modelos em prompts COCO amostrados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais pares discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*Classificações de modelos em prompts COCO amostrados aleatoriamente usando métricas automáticas (FID, FDDINOv2, CLIPScore, CMMD e cFreD) e métricas treinadas com preferência humana (Aesthetic Score, ImageReward, HPSv2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais pares discordantes do que concordantes, e os melhores resultados estão em negrito, os segundos melhores estão sublinhados.*

Na avaliação do conjunto de dados COCO, o cFreD alcançou uma correlação de 0,33 e uma precisão de classificação de 66,67%, ficando em terceiro lugar no alinhamento com as preferências humanas, atrás apenas de métricas treinadas com dados humanos.

Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às classificações verdadeiras derivadas de humanos no conjunto de dados COCO.*Taxas de vitória mostrando com que frequência as classificações de cada backbone de imagem corresponderam às classificações verdadeiras derivadas de humanos no conjunto de dados COCO.*

Os autores também testaram o Inception V3 e descobriram que ele foi superado por backbones baseados em transformadores como DINOv2-L/14 e ViT-L/16, que se alinharam consistentemente melhor com as classificações humanas.

Conclusão

Embora soluções com humanos no circuito permaneçam a abordagem ideal para desenvolver métricas e funções de perda, a escala e a frequência das atualizações as tornam impraticáveis. A credibilidade do cFreD depende de seu alinhamento com o julgamento humano, embora indiretamente. A legitimidade da métrica depende de dados de preferência humana, pois, sem tais referências, alegações de avaliação semelhante à humana seriam improváveis.

Consagrar os critérios atuais para 'realismo' na saída generativa em uma função métrica pode ser um erro de longo prazo, dada a natureza em evolução de nossa compreensão do realismo, impulsionada pela nova onda de sistemas de IA generativa.

*Neste ponto, eu normalmente incluiria um exemplo de vídeo ilustrativo exemplar, talvez de uma submissão acadêmica recente; mas isso seria mal-intencionado – qualquer pessoa que tenha passado mais de 10-15 minutos navegando pela saída de IA generativa no Arxiv já terá encontrado vídeos suplementares cuja qualidade subjetivamente ruim indica que a submissão relacionada não será aclamada como um artigo marcante.*

*Um total de 46 modelos de backbone de imagem foram usados nos experimentos, nem todos considerados nos resultados gráficos. Consulte o apêndice do artigo para uma lista completa; aqueles apresentados nas tabelas e figuras foram listados.*

Primeiro publicado na terça-feira, 1º de abril de 2025

Artigo relacionado
O DeepL, conhecido pela tradução de textos, agora se volta para a tradução de voz O DeepL, conhecido pela tradução de textos, agora se volta para a tradução de voz A DeepL, empresa de tradução mais conhecida por suas ferramentas baseadas em texto, lançou hoje um pacote de tradução de voz para voz voltado para cenários como reuniões, conversas em dispositivos móv
As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem As anotações de reuniões da IA da Talat ficam armazenadas no seu dispositivo, e não na nuvem O Granola, aplicativo de anotações com inteligência artificial avaliado em US$ 250 milhões, vem ganhando força entre fundadores de empresas de tecnologia e investidores de capital de risco. Mas um des
O novo Roewe i6 chega ao mercado por 659.000 yuans, equipado com o Snapdragon 8155 e o modelo de grande escala Doubao O novo Roewe i6 chega ao mercado por 659.000 yuans, equipado com o Snapdragon 8155 e o modelo de grande escala Doubao A SAIC Roewe lançou hoje o novo Roewe i6, um sedã compacto que adota integralmente a linguagem visual do Roewe D7. Sua distinta grade frontal grande e vertical e a barra de luzes horizontal se estende
Recomendações de tópicos especiais relacionados
escrita Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais
Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais

Descubra os melhores criadores de perfis de ficção com IA de 2026 para criar personagens complexos. A lista selecionada pela XIX.AI apresenta ferramentas de ponta e revolucionárias que geram motivações consistentes e falhas fatais. Compare as opções gratuitas com as pagas por meio de testes práticos. Liberte agora o seu potencial narrativo.

10 ferramentas
xix.ai
Negócios Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja
Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja

Descubra os melhores softwares de otimização de preços com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias que monitoram os concorrentes e ajustam automaticamente os preços da sua loja para maximizar o lucro. Compare opções gratuitas e pagas com testes práticos. Obtenha sua vantagem competitiva em preços agora mesmo.

10 ferramentas
xix.ai
código Os melhores revisores de código com IA: automatize a conformidade com o código limpo e refatore arquivos de repositórios legados
Os melhores revisores de código com IA: automatize a conformidade com o código limpo e refatore arquivos de repositórios legados

Descubra os melhores revisores de código com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias para automatizar a conformidade com o código limpo e refatorar arquivos de repositórios legados. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Obtenha sua vantagem com IA hoje mesmo.

10 ferramentas
xix.ai
Conversão de texto para fala Os melhores aplicativos de TTS com IA para dislexia: apoio à aprendizagem e à eficiência na leitura para alunos
Os melhores aplicativos de TTS com IA para dislexia: apoio à aprendizagem e à eficiência na leitura para alunos

Descubra os melhores aplicativos de TTS com IA de 2026, selecionados especialmente para auxiliar na dislexia. Nossas classificações especializadas comparam ferramentas gratuitas e pagas, destacando recursos avançados para melhorar a eficiência na leitura e na aprendizagem. Explore soluções inovadoras e imperdíveis para revelar o potencial dos alunos. Comece sua jornada no XIX.AI.

10 ferramentas
xix.ai
Criação de quadrinhos Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia
Os melhores geradores de IA para mangás shonen: crie sequências de ação cheias de adrenalina e efeitos de energia

Descubra os melhores geradores de IA para mangás shonen de 2026 no XIX.AI. Nossa lista selecionada e com as melhores avaliações apresenta ferramentas poderosas para criar sequências de ação cheias de adrenalina e efeitos dinâmicos de energia. Compare opções gratuitas e pagas com testes práticos. Liberte seu potencial criativo e comece a criar mangás épicos hoje mesmo!

15 ferramentas
xix.ai
Negócios Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas
Os melhores aplicativos de controle de despesas com IA: digitalize recibos e categorize automaticamente as despesas corporativas

Os melhores gerenciadores de despesas com IA de 2026: as ferramentas mais bem avaliadas para digitalizar recibos e categorizar despesas corporativas automaticamente. Descubra soluções poderosas e revolucionárias para uma gestão de despesas sem esforço, um acompanhamento financeiro preciso e uma conformidade simplificada. Nossa comparação, cuidadosamente selecionada e atualizada semanalmente, entre opções gratuitas e pagas ajuda você a encontrar a solução ideal. Aproveite ao máximo as vantagens da IA com as recomendações dos especialistas da XIX.AI.

10 ferramentas
xix.ai
Comentários (6)
0/500
RalphMartínez
RalphMartínez 22 de Julho de 2025 à3 02:25:03 WEST

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 25 de Abril de 2025 à53 03:29:53 WEST

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 23 de Abril de 2025 à1 12:09:01 WEST

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 22 de Abril de 2025 à13 10:56:13 WEST

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 de Abril de 2025 à54 09:55:54 WEST

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 20 de Abril de 2025 à28 03:22:28 WEST

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

OR