选项
首页
新闻
AI学会发表增强的视频评论

AI学会发表增强的视频评论

2025-04-19
55

评估AI研究中视频内容的挑战

当潜入计算机视觉文献的世界时,大型视觉模型(LVLM)对于解释复杂的提交而言是无价的。但是,在评估伴随科学论文的视频示例的质量和优点方面,他们遇到了重大的障碍。这是一个关键方面,因为引人注目的视觉效果与文本引起兴奋和验证研究项目中的主张一样重要。

视频综合项目特别依赖于证明实际的视频输出以避免被解雇。正是在这些演示中,可以真正评估项目的现实性能,经常揭示该项目的大胆主张与其实际能力之间的差距。

我读了这本书,没看电影

当前,流行的基于API的大型语言模型(LLM)和大型视觉语言模型(LVLMS)没有配备直接分析视频内容。它们的功能仅限于分析与视频相关的成绩单和其他基于文本的材料。当要求这些模型直接分析视频内容时,这种限制是显而易见的。

当被要求直接分析视频时,GPT-4O,Google Gemini和困惑的各种异议,而无需求助于成绩单或其他基于文本的资源。 *GPT-4O,Google Gemini和困惑的各种异议,当要求直接分析视频,而无需求助于成绩单或其他基于文本的资源。

一些模型,例如Chatgpt-4O,甚至可能尝试对视频进行主观评估,但最终将承认他们在按下时无法直接查看视频。

Chatgpt-4O被要求对新研究论文相关的视频进行主观评估,并伪造了一个真实的意见,最终承认它无法直接观看视频。 *被要求提供对新研究论文相关视频的主观评估,并伪造了一个真实的意见,Chatgpt-4O最终承认它无法直接观看视频。

尽管这些模型是多模式的,并且可以分析单个照片,例如从视频中提取的框架,但它们提供定性观点的能力是值得怀疑的。 LLM通常倾向于给出“令人愉悦的”反应,而不是真诚的批评。此外,视频中的许多问题都是暂时性的,这意味着分析单个框架完全错过了这一点。

LLM可以在视频上提供“价值判断”的唯一方法是利用基于文本的知识,例如理解深层图像或艺术史,将视觉品质与基于人类见解的学习嵌入相关联。

FakeVLM项目通过专门的多模式视觉语言模型提供了有针对性的DeepFake检测。资料来源:https://arxiv.org/pdf/2503.14905 * FakeVLM项目通过专业的多模式视觉语言模型提供针对性的深击检测。*来源: https ://arxiv.org/pdf/2503.14905

尽管LLM可以借助Yolo等辅助AI系统识别视频中的对象,但主观评估仍然难以捉摸,而没有反映人类意见的基于损失函数的指标。

有条件的视力

损失功能在训练模型中至关重要,衡量预测与正确答案有多远,并指导模型减少错误。它们还用于评估AI生成的内容,例如影视视频。

一个流行的指标是FréchetInception距离(FID),它衡量了生成的图像和真实图像的分布之间的相似性。 FID使用Inception V3网络来计算统计差异,较低的分数表示更高的视觉质量和多样性。

但是,FID是自指的和比较的。在2021年推出的条件Fréchet距离(CFD)也通过考虑生成的图像如何匹配其他条件,例如类标签或输入图像,以解决此问题。

2021 CFD郊游的示例。资料来源:https://github.com/michael-soloveitchik/cfid/ *来自2021 CFD郊游的示例。*来源: https ://github.com/michael-soloveitchik/cfid/

CFD旨在将定性的人类解释纳入指标,但是这种方法引入了挑战,例如潜在偏见,频繁更新的需求以及可能影响评估一致性和可靠性随时间推移的预算限制。

CFRED

美国最近的一篇论文介绍了条件的Fréchet距离(CFRED) ,这是一种新的指标,旨在通过评估视觉质量和文本图像对齐方式来更好地反映人类的偏好。

新论文的部分结果是:不同指标的图像排名(1-9)提示为“一个带沙发上的客厅和躺在沙发上的笔记本电脑”。绿色突出显示了最高的人等级模型(Flux.1-DEV),紫色最低(SDV1.5)。只有CFRED与人类排名匹配。请参阅源文件以获取完整的结果,我们在这里没有复制的空间。资料来源:https://arxiv.org/pdf/2503.21721 *新论文的部分结果:不同指标的图像排名(1-9)提示为“沙发上的带有沙发和笔记本电脑的客厅,躺在沙发上”。绿色突出显示了最高的人等级模型(Flux.1-DEV),紫色最低(SDV1.5)。只有CFRED与人类排名匹配。请参阅源文件以获取完整的结果,我们在这里没有复制的空间。*来源: https ://arxiv.org/pdf/2503.21721

作者认为,诸如INCEPTION评分(IS)和FID之类的传统指标不足,因为它们仅专注于图像质量而不考虑图像符合其提示的很好。他们建议CFRED在输入文本上同时捕获图像质量和调节,从而导致与人类偏好的相关性更高。

该论文的测试表明,在三个基准数据集(Partiprompts,hpdv2和coco)上,作者提出的指标,CFRED始终如一地与人类偏好相关,比FID,FDDINOV2,ClipsCore和CMMD更高的相关性。 *本文的测试表明,作者提出的指标,CFRED始终在三个基准数据集中(Partiprompts,hpdv2和Coco)上的FID,FDDINOV2,ClipsCore和CMMD始终达到更高的与人类偏好的相关性。

概念和方法

评估文本对图像模型的黄金标准是通过人群比较收集的人类偏好数据,类似于大语模型使用的方法。但是,这些方法是昂贵且缓慢的,导致一些平台停止更新。

人工分析图像竞技场排行榜,该板在生成视觉AI中对当前估计的领导者进行了排名。资料来源:https://ArtaverAnalysis.ai/text-to-image/arena?tab=leaderboard *人工分析图像竞技场排行榜,该板在生成视觉AI中排名当前估计的领导

FID,ClipsCore和CFRED等自动指标对于评估未来模型至关重要,尤其是随着人类偏好的发展。 CFRED假设真实图像和生成的图像都遵循高斯分布,并衡量提示之间的预期Fréchet距离,从而评估现实主义和文本一致性。

数据和测试

为了评估CFRED与人类偏好的相关性,作者使用了带有相同文本提示的多个模型的图像排名。他们借鉴了人类偏好得分V2(HPDV2)测试集和partiprompts Arena,将数据合并到一个数据集中。

对于更新的型号,他们使用了可可的火车和验证集中的1,000个提示,确保与HPDV2没有重叠,并使用竞技场排行榜的九种型号生成了图像。对CFRED进行了针对几个统计和学识渊博的指标的评估,显示与人类判断的紧密结合。

使用统计指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练的度量标准(美学得分,ImageReward,ImagerWard,HPSV2和MPS)上的HPDV2测试集上的模型排名和得分。最佳结果以粗体显示,第二好的下划线。 *使用统计指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练的度量标准(美学得分,ImagerWard,ImagerWard,HPSV2和MPS)的HPDV2测试集上的模型排名和分数。最佳结果以粗体显示,第二好的下划线。

CFRED达到了与人类偏好的最高比对,达到0.97的相关性,等级准确度为91.1%。它的表现优于其他指标,包括接受人类偏好数据的培训的指标,证明了其在各种模型中的可靠性。

使用统计指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练的指标(美学评分,ImageReard和MPS)的partiprompt上的模型排名和分数。最好的结果是大胆,第二好的下划线。 *使用统计指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练的指标(美学评分,ImageReard和MPS)使用统计指标(FID,FDDINOV2,CLIPSCORE,CMMD和CFRED)上的模型排名和分数。最好的结果是大胆,第二好的下划线。*

在partiprompts竞技场中,CFRED与人类评估的最高相关性为0.73,其次是FID和FDDINOV2。但是,接受过人类偏好的训练的HPSV2在0.83处的比对最强。

使用自动指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练指标(美学得分,ImagerWard,ImagerWard,HPSV2和MPS)在随机采样可可提示上的模型排名。等级准确性低于0.5表示比一致对的不一致,最佳结果是粗体,第二好的下划线。 *使用自动指标(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人类偏好训练的度量标准(美学得分,ImageReward,ImagerWard,HPSV2和MPS)在随机采样可可提示上的模型排名。等级准确性低于0.5表示比一致对的不一致,最佳结果是大胆的,第二好的下划线。

在可可数据集评估中,CFRED的相关性为0.33,等级准确度为66.67%,在与人类偏好的一致性中排名第三,仅次于接受人类数据训练的指标。

获胜率显示每个图像骨干的排名频率与可可数据集上的真正人类衍生的排名相匹配。 *赢率显示每个图像骨干的排名频率与可可数据集中的真正人类衍生的排名相匹配。

作者还测试了Inception v3,发现它被基于变压器的骨架(如Dinov2-L/14和VIT-L/16)远离,这与人类排名一致地保持一致。

结论

尽管人类在循环解决方案仍然是开发度量和损失功能的最佳方法,但更新的规模和频率使其不切实际。 CFRED的信誉取决于它与人类判断的一致性,尽管是间接的。指标的合法性取决于人类的偏好数据,因为没有这样的基准,对人类样的评估主张将是无法证明的。

考虑到我们对现实主义的理解的不断发展的本质,在新的生成AI系统驱动的驱动下,将当前的“现实主义”中的当前标准纳入度量函数可能是一个长期错误。

*在这一点上,我通常会包括一个示例性的说明性视频示例,也许是从最近的学术意见中出发。但这将是卑鄙的 - 任何花费超过10-15分钟拖网拖网Arxiv的生成AI输出的人都将遇到补充视频,其主观较差的质量表明相关提交不会被视为具有里程碑意义的纸张。

*实验中总共使用了46个图像骨干模型,并非所有这些模型都在图形结果中考虑。请参阅本文的附录以获取完整列表;列出了表格和数字中的那些。

首次出版于2025年4月1日,星期二

相关文章
Wren AI:利用开源数据洞察释放GenBI力量 Wren AI:利用开源数据洞察释放GenBI力量 在当今快节奏、数据驱动的世界中,迅速从海量信息中提取有意义的洞察至关重要。Wren AI 是一种创新的开源生成式商业智能(GenBI)代理,正在革新数据团队与数据的交互方式。通过让用户与数据对话,Wren AI 生成可操作的智能,转变决策过程。本文深入探讨 Wren AI 的功能、与现有大型语言模型(LLM)的兼容性,以及它如何改变数据探索和分析的游戏规则。Wren AI 的独特之处是什么?Wre
StoryBoarder.ai教程:掌握故事板创作 StoryBoarder.ai教程:掌握故事板创作 StoryBoarder.ai通过提供一个强大的平台,简化电影制作人、动画师和内容创作者的创意过程,帮助他们轻松可视化和规划项目。本教程深入探讨StoryBoarder.ai的故事板页面,揭示其功能并展示如何利用其AI能力打造引人入胜的故事板。从调整图像到探索“图像到图像”上传功能,本指南是你掌握故事板创作艺术的关键。探索StoryBoarder.ai的故事板页面StoryBoarder.ai的故
Motiff AI:以AI驱动的创新转变UI/UX设计 Motiff AI:以AI驱动的创新转变UI/UX设计 用Motiff AI革新网页设计在当今快节奏的数字时代,创建用户友好且视觉吸引的网站对于在网络上脱颖而出至关重要。Motiff AI作为一项突破性解决方案出现,改变了我们处理UI/UX设计的方式。与Figma等传统工具不同,Motiff AI利用AI技术简化设计过程,使每个人都能轻松使用,无论其技术专长如何。使用Motiff AI,你无需成为编码高手或花费无数小时摆弄复杂软件。相反,你可以专注于项
评论 (5)
0/200
GaryGarcia
GaryGarcia 2025-04-23 08:00:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 2025-04-20 08:00:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 2025-04-25 08:00:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 2025-04-22 08:00:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025-04-22 08:00:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

返回顶部
OR