選項
首頁
新聞
AI學會發表增強的視頻評論

AI學會發表增強的視頻評論

2025-04-19
71

評估AI研究中影片內容的挑戰

在深入研究計算機視覺文獻時,大型視覺語言模型(LVLMs)對於解讀複雜的提交內容極具價值。然而,當涉及到評估科學論文附帶的影片範例的品質與價值時,它們面臨顯著的障礙。這是一個關鍵面向,因為引人注目的視覺效果與文字同樣重要,能激發興趣並驗證研究項目中的主張。

特別是影片合成項目,高度依賴展示實際影片輸出以避免被忽視。在這些展示中,項目的現實表現才能真正被評估,通常揭示項目大膽主張與實際能力之間的差距。

我讀了書,沒看電影

目前,基於API的熱門大型語言模型(LLMs)與大型視覺語言模型(LVLMs)無法直接分析影片內容。它們的能力僅限於分析與影片相關的文字記錄和其他文字材料。當要求這些模型直接分析影片內容時,這一限制尤為明顯。

當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*

像ChatGPT-4o這樣的模型可能會試圖對影片進行主觀評估,但在被追問時最終會承認無法直接觀看影片。

在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*

雖然這些模型是多模態的,可以分析單張照片,例如從影片中提取的幀,但它們提供質性意見的能力令人質疑。LLMs往往傾向於給出「討好人」的回應,而非真誠的批評。此外,影片中的許多問題屬於時間性質,僅分析單一幀完全無法抓住重點。

LLM能對影片進行「價值判斷」的唯一方式是利用基於文字的知識,例如理解深偽圖像或藝術史,通過人類洞察學到的嵌入來關聯視覺品質。

FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。來源:https://arxiv.org/pdf/2503.14905*FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。* 來源:https://arxiv.org/pdf/2503.14905

雖然LLM可以借助像YOLO這樣的輔助AI系統識別影片中的物體,但若無基於損失函數的指標反映人類意見,主觀評估仍難以實現。

條件視覺

損失函數在訓練模型時至關重要,用於衡量預測與正確答案的差距,並引導模型減少錯誤。它們也用於評估AI生成內容,例如逼真的影片。

一個常用的指標是Fréchet Inception Distance(FID),用於測量生成圖像與真實圖像分佈的相似性。FID使用Inception v3網絡計算統計差異,分數越低表示視覺品質與多樣性越高。

然而,FID是自我參照且比較性的。2021年引入的條件Fréchet距離(CFD)解決了這一問題,通過考慮生成圖像是否符合額外條件(如類別標籤或輸入圖像)來進行評估。

2021年CFD的範例。來源:https://github.com/Michael-Soloveitchik/CFID/*2021年CFD的範例。* 來源:https://github.com/Michael-Soloveitchik/CFID/

CFD旨在將質性的人類解讀融入指標,但這種方法帶來了挑戰,例如潛在偏見、頻繁更新的需求以及預算限制,這些可能影響評估隨時間的穩定性與可靠性。

cFreD

來自美國的一篇近期論文介紹了條件Fréchet距離(cFreD),這是一種新指標,旨在通過評估視覺品質與圖像-文字對齊度,更好地反映人類偏好。

新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。來源:https://arxiv.org/pdf/2503.21721*新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。* 來源:https://arxiv.org/pdf/2503.21721

作者認為,傳統指標如Inception Score(IS)和FID不足,因為它們僅關注圖像品質,忽略圖像與提示的匹配程度。他們提出,cFreD能同時捕捉圖像品質與輸入文字的條件一致性,與人類偏好的相關性更高。

論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*

概念與方法

評估文字到圖像模型的黃金標準是通過眾包比較收集的人類偏好數據,類似於大型語言模型所使用的方法。然而,這些方法成本高昂且速度緩慢,導致一些平台停止更新。

人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。* 來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

像FID、CLIPScore和cFreD這樣的自動指標對於評估未來模型至關重要,特別是隨著人類偏好的演變。cFreD假設真實與生成圖像均遵循高斯分佈,並測量跨提示的預期Fréchet距離,評估真實性與文字一致性。

數據與測試

為評估cFreD與人類偏好的相關性,作者使用了多個模型在相同文字提示下的圖像排名。他們利用人類偏好分數v2(HPDv2)測試集和PartiPrompts競技場,將數據整合為單一數據集。

對於較新型號,他們使用COCO的訓練與驗證集中1,000個提示,確保與HPDv2無重疊,並使用競技場排行榜中的九個模型生成圖像。cFreD與多個統計與學習指標進行比較,顯示出與人類判斷的強相關性。

在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

cFreD達到與人類偏好的最高相關性,相關係數為0.97,排名準確率為91.1%。它超越了其他指標,包括基於人類偏好訓練的指標,顯示其在多樣化模型中的可靠性。

在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

在PartiPrompts競技場中,cFreD與人類評估的相關性最高,為0.73,緊隨其後的是FID和FDDINOv2。然而,基於人類偏好訓練的HPSv2相關性最強,為0.83。

在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*

在COCO數據集評估中,cFreD的相關性為0.33,排名準確率為66.67%,在與人類偏好的對齊中排名第三,僅次於基於人類數據訓練的指標。

顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*

作者還測試了Inception V3,發現其表現不如基於變換器的骨幹模型(如DINOv2-L/14和ViT-L/16),後者與人類排名的對齊更一致。

結論

雖然包含人類參與的解決方案仍是開發指標與損失函數的最佳方法,但其規模與更新頻率使其不切實際。cFreD的可信度取決於其與人類判斷的間接對齊。該指標的合法性依賴於人類偏好數據,若無此類基準,宣稱具有人類般評估能力將無法證明。

將生成輸出的當前「真實性」標準固化為指標函數可能是一個長期的錯誤,鑑於我們對真實性的理解隨著生成AI系統的新浪潮而不斷演變。

*在此時,我通常會包含一個示例性的說明影片範例,或許來自最近的學術提交;但這會顯得刻薄——任何花費超過10-15分鐘瀏覽Arxiv生成AI輸出的讀者,已經會遇到品質主觀較差的補充影片,這些影片顯示相關提交不會被譽為里程碑論文。*

*實驗中共使用了46個圖像骨幹模型,並非所有模型都包含在圖表結果中。請參閱論文附錄以獲取完整列表;表格與圖表中列出的為已展示的模型。*

首次發布於2025年4月1日,星期二

相關文章
布蘭妮·斯皮爾斯的紅色緊身衣:流行時尚的定義時刻 布蘭妮·斯皮爾斯的紅色緊身衣:流行時尚的定義時刻 布蘭妮·斯皮爾斯,這位流行天后,以其大膽的風格持續吸引觀眾。她的音樂錄影帶不僅是音樂熱門,更是時尚里程碑。本文深入探討《Oops!...I Did It Again》音樂錄影帶中令人難忘的紅色緊身衣,這一造型定義了2000年代初的風格。探索這件鮮艷服裝如何成為文化標匆�符,塑造潮流並在流行文化中留下不可磨滅的印記。從其醒目的色調到未來主義的風格,我們將探討這套服裝成為經典的每一個元素。與我們一起來
探索神聖奉獻:信仰、愛與靈性自由 探索神聖奉獻:信仰、愛與靈性自由 在一個充滿混亂與分心的世界中,尋找片刻寧靜以建立靈性聯繫能改變人生。本文深入探討敬拜耶穌的深刻行為,探索信仰、神聖之愛以及個人追求靈性解放的主題。我們檢視這種奉獻如何塑造生活的各個面向,提供安慰、韌性與新的目標。適合渴望深化信仰並擁抱神聖聯繫改變人生力量的人。 重點寧靜時刻在培養靈性聯繫中的價值。神聖之愛如何激發興奮與寧靜。恩典作為淨化與振奮的力量。敬拜耶穌作為擺脫個人負擔的途徑。透過信仰發現真理
AI驅動的SQL管理:2025年簡化資料庫 AI驅動的SQL管理:2025年簡化資料庫 人工智慧正在改變SQL的資料庫管理,引入創新工具,提升自動化和效率。透過理解資料脈絡、提供智能建議、自動化重複任務以及預測問題,AI簡化了SQL操作。本指南探討了AI驅動的解決方案如何提升效率、精確度和主動資料庫管理。關鍵要點AI從自然語言輸入自動生成SQL查詢,節省時間並減少錯誤。AI通過自動建議或應用優化來提升查詢性能。AI預測潛在的資料庫問題,實現主動解決方案。AI驅動的工具提高資料庫管理的
評論 (6)
0/200
RalphMartínez
RalphMartínez 2025-07-22 09:25:03

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 2025-04-25 10:29:53

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 2025-04-23 19:09:01

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 2025-04-22 17:56:13

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025-04-22 16:55:54

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 2025-04-20 10:22:28

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

回到頂部
OR