opção
Lar
Notícias
Ai aprende a fornecer críticas de vídeo aprimoradas

Ai aprende a fornecer críticas de vídeo aprimoradas

19 de Abril de 2025
55

O desafio de avaliar o conteúdo de vídeo na pesquisa de IA

Ao mergulhar no mundo da literatura sobre visão computacional, os grandes modelos de linguagem da visão (LVLMs) podem ser inestimáveis ​​para interpretar envios complexos. No entanto, eles atingiram um obstáculo significativo quando se trata de avaliar a qualidade e os méritos dos exemplos de vídeo que acompanham os documentos científicos. Esse é um aspecto crucial, porque visuais atraentes são tão importantes quanto o texto na geração de entusiasmo e validando as reivindicações feitas em projetos de pesquisa.

Os projetos de síntese de vídeo, em particular, dependem muito de demonstrar a saída de vídeo real para evitar ser descartada. É nessas demonstrações em que o desempenho do mundo real de um projeto pode ser realmente avaliado, muitas vezes revelando a lacuna entre as reivindicações ousadas do projeto e suas capacidades reais.

Eu li o livro, não vi o filme

Atualmente, os modelos populares de grandes idiomas baseados em API (LLMS) e grandes modelos de linguagem de visão (LVLMs) não estão equipados para analisar diretamente o conteúdo de vídeo. Seus recursos estão limitados à análise de transcrições e outros materiais baseados em texto relacionados ao vídeo. Essa limitação é evidente quando esses modelos são solicitados a analisar diretamente o conteúdo de vídeo.

As diversas objeções do GPT-4O, Google Gemini e Perplexity, quando solicitadas a analisar diretamente o vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto. *As diversas objeções do GPT-4O, Google Gemini e Perplexity, quando solicitadas a analisar diretamente o vídeo, sem recorrer a transcrições ou outras fontes baseadas em texto.*

Alguns modelos, como o ChatGPT-4O, podem até tentar fornecer uma avaliação subjetiva de um vídeo, mas acabarão admitindo sua incapacidade de visualizar diretamente os vídeos quando pressionados.

Tendo sido solicitada a fornecer uma avaliação subjetiva dos vídeos associados de um novo artigo de pesquisa e, tendo falsificado uma opinião real, o ChatGPT-4O finalmente confessa que ele não pode realmente visualizar o vídeo diretamente. *Foi solicitado a fornecer uma avaliação subjetiva dos vídeos associados de um novo artigo de pesquisa e, tendo fingido uma opinião real, o ChatGPT-4O finalmente confessa que ele não pode realmente visualizar o vídeo diretamente.*

Embora esses modelos sejam multimodais e possam analisar fotos individuais, como um quadro extraído de um vídeo, sua capacidade de fornecer opiniões qualitativas é questionável. Os LLMs geralmente tendem a dar respostas 'agradáveis ​​às pessoas', em vez de críticas sinceras. Além disso, muitos problemas em um vídeo são temporais, o que significa que a análise de um único quadro perde completamente o ponto.

A única maneira de um LLM pode oferecer um 'julgamento de valor' em um vídeo é aproveitando o conhecimento baseado em texto, como entender imagens do DeepFake ou história da arte, para correlacionar as qualidades visuais com incorporações aprendidas com base em idéias humanas.

O projeto FakeVLM oferece detecção de DeepFake direcionada por meio de um modelo especializado em linguagem de visão multimodal. Fonte: https://arxiv.org/pdf/2503.14905 * O Projeto FakeVLM oferece detecção de DeepFake direcionada por meio de um modelo especializado em Multi-Modal Vision-Language.* Fonte: https://arxiv.org/pdf/2503.14905

Embora um LLM possa identificar objetos em um vídeo com a ajuda de sistemas adjuntos de IA como YOLO, a avaliação subjetiva permanece ilusória sem uma métrica baseada em função de perda que reflete a opinião humana.

Visão condicional

As funções de perda são essenciais nos modelos de treinamento, medindo até que ponto as previsões estão das respostas corretas e orientando o modelo a reduzir erros. Eles também são usados ​​para avaliar o conteúdo gerado pela IA, como vídeos fotorrealistas.

Uma métrica popular é a distância de FRÉCHET (FID), que mede a semelhança entre a distribuição de imagens geradas e imagens reais. O FID usa a rede V3 Inception para calcular diferenças estatísticas e uma pontuação mais baixa indica maior qualidade visual e diversidade.

No entanto, o FID é auto-referencial e comparativo. A distância condicional de Frécchet (CFD) introduzida em 2021 aborda isso, considerando também como as imagens geradas correspondem a condições adicionais, como rótulos de classe ou imagens de entrada.

Exemplos do passeio de 2021 CFD. Fonte: https://github.com/michael-soloveitchik/cfid/ * Exemplos do passeio de 2021 CFD.* Fonte: https://github.com/michael-soloveitchik/cfid/

O CFD visa integrar a interpretação humana qualitativa nas métricas, mas essa abordagem introduz desafios como potencial viés, a necessidade de atualizações frequentes e restrições orçamentárias que podem afetar a consistência e a confiabilidade das avaliações ao longo do tempo.

cfred

Um artigo recente dos EUA apresenta a distância condicional de Frécchet (CFRED) , uma nova métrica projetada para refletir melhor as preferências humanas, avaliando a qualidade visual e o alinhamento da imagem de texto.

Resultados parciais do novo artigo: Rankings de imagem (1–9) por diferentes métricas para o prompt 'Uma sala de estar com um sofá e um laptop descansando no sofá'. O Green destaca o modelo de classificação humana superior (Flux.1-Dev), roxo o mais baixo (SDV1.5). Apenas o CFRED corresponde às classificações humanas. Consulte o artigo de origem para obter resultados completos, que não temos espaço para reproduzir aqui. Fonte: https://arxiv.org/pdf/2503.21721 *Resultados parciais do novo artigo: Rankings de imagem (1-9) por métricas diferentes para o prompt "Uma sala de estar com um sofá e um laptop que repousa no sofá". O Green destaca o modelo de classificação humana superior (Flux.1-Dev), roxo o mais baixo (SDV1.5). Apenas o CFRED corresponde às classificações humanas. Consulte o artigo de origem para obter resultados completos, que não temos espaço para reproduzir aqui.* Fonte: https://arxiv.org/pdf/2503.21721

Os autores argumentam que as métricas tradicionais como a pontuação inicial (IS) e o FID ficam aquém porque se concentram apenas na qualidade da imagem sem considerar como as imagens correspondem às suas instruções. Eles propõem que o CFRED capture a qualidade da imagem e o condicionamento no texto de entrada, levando a uma maior correlação com as preferências humanas.

Os testes do artigo indicam que a métrica proposta pelos autores, CFRED, alcança consistentemente maior correlação com as preferências humanas que o FID, FDDINOV2, CLIPSCORE e CMMD em três conjuntos de dados de referência (PartipROMPTs, HPDV2 e Coco). *Os testes do artigo indicam que a métrica proposta pelos autores, CFRED, alcança consistentemente uma maior correlação com as preferências humanas que o FID, FDDINOV2, CLIPSCORE e CMMD em três conjuntos de dados de referência (PartipROMpts, HPDV2 e Coco).

Conceito e método

O padrão-ouro para avaliar os modelos de texto para imagem são os dados de preferência humana coletados por meio de comparações de origem da multidão, semelhantes aos métodos usados ​​para modelos de idiomas grandes. No entanto, esses métodos são caros e lentos, liderando algumas plataformas para interromper as atualizações.

A tabela de líderes da Arena de Imagem de Análise Artificial, que classifica os líderes atualmente estimados em IA visual generativa. Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard * A tabela de líderes de imagem de análise artificial, que classifica os líderes atualmente estimados na IA visual generativa.* Fonte: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard

Métricas automatizadas como FID, clipscore e CFRED são cruciais para avaliar modelos futuros, especialmente à medida que as preferências humanas evoluem. O CFRED assume que imagens reais e geradas seguem distribuições gaussianas e medem a distância esperada de Frécchet entre as instruções, avaliando o realismo e a consistência do texto.

Dados e testes

Para avaliar a correlação do CFRED com as preferências humanas, os autores usaram ranking de imagem de vários modelos com os mesmos prompts de texto. Eles atraíram o conjunto de testes de pontuação de preferência humana v2 (hpdv2) e a arena do Partiprompts, consolidando dados em um único conjunto de dados.

Para modelos mais novos, eles usaram 1.000 instruções dos conjuntos de trem e validação de Coco, garantindo nenhuma sobreposição ao HPDV2 e geraram imagens usando nove modelos da tabela de classificação da Arena. O CFRED foi avaliado contra várias métricas estatísticas e aprendidas, mostrando forte alinhamento com julgamentos humanos.

Rankings e pontuações de modelo no conjunto de testes HPDV2 usando métricas estatísticas (FID, FDDINOV2, CLIPSCORE, CMMD e CFRED) e métricas treinadas em preferência humana (escore estético, imagearward, HPSV2 e MPS). Os melhores resultados são mostrados em negrito, o segundo melhor está sublinhado. *Rankings e pontuações de modelo no conjunto de testes HPDV2 usando métricas estatísticas (FID, FDDINOV2, CLIPSCORE, CMMD e CFRED) e métricas treinadas em preferência humana (pontuação estética, imagearward, HPSV2 e MPS). Os melhores resultados são mostrados em negrito, o segundo melhor está sublinhado.*

O CFRED alcançou o maior alinhamento com as preferências humanas, atingindo uma correlação de 0,97 e uma precisão de 91,1%. Ele superou outras métricas, incluindo as treinadas em dados de preferência humana, demonstrando sua confiabilidade em diversos modelos.

Classificações e pontuações de modelo no Partiprompt usando métricas estatísticas (FID, FDDINOV2, CLIPSCORE, CMMD e CFRED) e métricas treinadas por preferência humana (escore estético, imagearward e MPS). Os melhores resultados estão em negrito, o segundo melhor está sublinhado. *Rankings e pontuações de modelo no Partiprompt usando métricas estatísticas (FID, FDDINOV2, CLIPSCORE, CMMD e CFRED) e métricas treinadas em preferência humana (escore estético, imagearward e MPS). Os melhores resultados estão em negrito, o segundo melhor está sublinhado.*

Na Arena Partiprompts, o CFRED mostrou a maior correlação com as avaliações humanas em 0,73, seguida de perto por FID e FDDINOV2. No entanto, o HPSV2, treinado em preferências humanas, teve o alinhamento mais forte em 0,83.

Rankings de modelo em avisos de coco de amostragem aleatória usando métricas automáticas (FID, FDDINOV2, ClipsCore, CMMD e CFRED) e métricas treinadas por preferências humanas (pontuação estética, imagearward, HPSV2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais discordantes que os pares concordantes, e os melhores resultados são em negrito, o segundo melhor estão sublinhados. *Rankings de modelo em avisos de coco amostrados aleatoriamente usando métricas automáticas (FID, FDDINOV2, CLIPSCORE, CMMD e CFRED) e métricas treinadas por preferências humanas (pontuação estética, imagearward, HPSV2 e MPS). Uma precisão de classificação abaixo de 0,5 indica mais discordante que os pares concordantes, e os melhores resultados são em negrito, o segundo melhor estão sublinhados.*

Na avaliação do conjunto de dados Coco, o CFRED alcançou uma correlação de 0,33 e uma precisão de classificação de 66,67%, classificando o terceiro lugar em alinhamento com as preferências humanas, atrás apenas de métricas treinadas em dados humanos.

As taxas de vitória mostrando com que frequência as classificações de cada backbone de cada imagem correspondiam aos verdadeiros rankings derivados de humanos no conjunto de dados Coco. *As taxas de vitória mostram com que frequência as classificações de cada backbone de cada imagem correspondiam aos verdadeiros rankings derivados de humanos no conjunto de dados Coco.*

Os autores também testaram o Inception V3 e descobriram que é superado por backbones baseados em transformadores como DINOV2-L/14 e VIT-L/16, que consistentemente alinhavam melhor com as classificações humanas.

Conclusão

Embora as soluções humanas no loop continuem sendo a abordagem ideal para o desenvolvimento de funções métricas e de perda, a escala e a frequência das atualizações as tornam impraticável. A credibilidade da CFred depende de seu alinhamento com o julgamento humano, embora indiretamente. A legitimidade da métrica depende de dados de preferência humana, pois, sem tais referências, as reivindicações de avaliação humana seriam não prováveis.

Consagrar os critérios atuais para o 'realismo' na produção generativa em uma função métrica pode ser um erro de longo prazo, dada a natureza em evolução de nossa compreensão do realismo, impulsionada pela nova onda de sistemas generativos de IA.

*Nesse ponto, eu normalmente incluiria um exemplo de vídeo ilustrativo exemplar, talvez de uma submissão acadêmica recente; Mas isso seria mesquinho-qualquer pessoa que tenha passado mais de 10 a 15 minutos de vasculhar a produção generativa de IA de Arxiv já terá encontrado vídeos suplementares cuja qualidade subjetivamente baixa indica que o envio relacionado não será aclamado como um artigo de referência.*

*Um total de 46 modelos de backbone de imagem foi usado nos experimentos, nem todos considerados nos resultados gráficos. Consulte o apêndice do artigo para obter uma lista completa; Os apresentados nas tabelas e figuras foram listados.*

Publicado pela primeira vez na terça -feira, 1 de abril de 2025

Artigo relacionado
IA em Consultas Médicas: Transformando a Saúde IA em Consultas Médicas: Transformando a Saúde A inteligência artificial está rapidamente reformulando o cenário da saúde, e não é difícil entender por quê. O ritmo do avanço tecnológico abriu portas para possibilidades antes consideradas impossív
Aulani, Disney's Resort & Spa: A Derradeira Escapadela Havaiana para a Sua Família Aulani, Disney's Resort & Spa: A Derradeira Escapadela Havaiana para a Sua Família Descobrindo Aulani: Um Paraíso Havaiano com um Toque DisneySonha com umas férias em família que combinem a magia da Disney com a beleza estonteante do Havaí? Não procure mais do que Aulani, um Disney
Airbnb está lançando silenciosamente um bot de atendimento ao cliente com IA nos EUA Airbnb está lançando silenciosamente um bot de atendimento ao cliente com IA nos EUA Airbnb Eleva o Atendimento ao Cliente com IA a Novas AlturasNo último mês, durante a chamada de resultados do primeiro trimestre da Airbnb, o CEO Brian Chesky anunciou que a empresa começou a lançar u
Comentários (5)
0/200
GaryGarcia
GaryGarcia 23 de Abril de 2025 à0 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 20 de Abril de 2025 à0 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 25 de Abril de 2025 à0 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 22 de Abril de 2025 à0 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 de Abril de 2025 à0 00:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

De volta ao topo
OR