選項
首頁
新聞
AI學會發表增強的視頻評論

AI學會發表增強的視頻評論

2025-04-19
71

評估AI研究中影片內容的挑戰

在深入研究計算機視覺文獻時,大型視覺語言模型(LVLMs)對於解讀複雜的提交內容極具價值。然而,當涉及到評估科學論文附帶的影片範例的品質與價值時,它們面臨顯著的障礙。這是一個關鍵面向,因為引人注目的視覺效果與文字同樣重要,能激發興趣並驗證研究項目中的主張。

特別是影片合成項目,高度依賴展示實際影片輸出以避免被忽視。在這些展示中,項目的現實表現才能真正被評估,通常揭示項目大膽主張與實際能力之間的差距。

我讀了書,沒看電影

目前,基於API的熱門大型語言模型(LLMs)與大型視覺語言模型(LVLMs)無法直接分析影片內容。它們的能力僅限於分析與影片相關的文字記錄和其他文字材料。當要求這些模型直接分析影片內容時,這一限制尤為明顯。

當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*

像ChatGPT-4o這樣的模型可能會試圖對影片進行主觀評估,但在被追問時最終會承認無法直接觀看影片。

在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*

雖然這些模型是多模態的,可以分析單張照片,例如從影片中提取的幀,但它們提供質性意見的能力令人質疑。LLMs往往傾向於給出「討好人」的回應,而非真誠的批評。此外,影片中的許多問題屬於時間性質,僅分析單一幀完全無法抓住重點。

LLM能對影片進行「價值判斷」的唯一方式是利用基於文字的知識,例如理解深偽圖像或藝術史,通過人類洞察學到的嵌入來關聯視覺品質。

FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。來源:https://arxiv.org/pdf/2503.14905*FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。* 來源:https://arxiv.org/pdf/2503.14905

雖然LLM可以借助像YOLO這樣的輔助AI系統識別影片中的物體,但若無基於損失函數的指標反映人類意見,主觀評估仍難以實現。

條件視覺

損失函數在訓練模型時至關重要,用於衡量預測與正確答案的差距,並引導模型減少錯誤。它們也用於評估AI生成內容,例如逼真的影片。

一個常用的指標是Fréchet Inception Distance(FID),用於測量生成圖像與真實圖像分佈的相似性。FID使用Inception v3網絡計算統計差異,分數越低表示視覺品質與多樣性越高。

然而,FID是自我參照且比較性的。2021年引入的條件Fréchet距離(CFD)解決了這一問題,通過考慮生成圖像是否符合額外條件(如類別標籤或輸入圖像)來進行評估。

2021年CFD的範例。來源:https://github.com/Michael-Soloveitchik/CFID/*2021年CFD的範例。* 來源:https://github.com/Michael-Soloveitchik/CFID/

CFD旨在將質性的人類解讀融入指標,但這種方法帶來了挑戰,例如潛在偏見、頻繁更新的需求以及預算限制,這些可能影響評估隨時間的穩定性與可靠性。

cFreD

來自美國的一篇近期論文介紹了條件Fréchet距離(cFreD),這是一種新指標,旨在通過評估視覺品質與圖像-文字對齊度,更好地反映人類偏好。

新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。來源:https://arxiv.org/pdf/2503.21721*新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。* 來源:https://arxiv.org/pdf/2503.21721

作者認為,傳統指標如Inception Score(IS)和FID不足,因為它們僅關注圖像品質,忽略圖像與提示的匹配程度。他們提出,cFreD能同時捕捉圖像品質與輸入文字的條件一致性,與人類偏好的相關性更高。

論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*

概念與方法

評估文字到圖像模型的黃金標準是通過眾包比較收集的人類偏好數據,類似於大型語言模型所使用的方法。然而,這些方法成本高昂且速度緩慢,導致一些平台停止更新。

人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。* 來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

像FID、CLIPScore和cFreD這樣的自動指標對於評估未來模型至關重要,特別是隨著人類偏好的演變。cFreD假設真實與生成圖像均遵循高斯分佈,並測量跨提示的預期Fréchet距離,評估真實性與文字一致性。

數據與測試

為評估cFreD與人類偏好的相關性,作者使用了多個模型在相同文字提示下的圖像排名。他們利用人類偏好分數v2(HPDv2)測試集和PartiPrompts競技場,將數據整合為單一數據集。

對於較新型號,他們使用COCO的訓練與驗證集中1,000個提示,確保與HPDv2無重疊,並使用競技場排行榜中的九個模型生成圖像。cFreD與多個統計與學習指標進行比較,顯示出與人類判斷的強相關性。

在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

cFreD達到與人類偏好的最高相關性,相關係數為0.97,排名準確率為91.1%。它超越了其他指標,包括基於人類偏好訓練的指標,顯示其在多樣化模型中的可靠性。

在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

在PartiPrompts競技場中,cFreD與人類評估的相關性最高,為0.73,緊隨其後的是FID和FDDINOv2。然而,基於人類偏好訓練的HPSv2相關性最強,為0.83。

在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*

在COCO數據集評估中,cFreD的相關性為0.33,排名準確率為66.67%,在與人類偏好的對齊中排名第三,僅次於基於人類數據訓練的指標。

顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*

作者還測試了Inception V3,發現其表現不如基於變換器的骨幹模型(如DINOv2-L/14和ViT-L/16),後者與人類排名的對齊更一致。

結論

雖然包含人類參與的解決方案仍是開發指標與損失函數的最佳方法,但其規模與更新頻率使其不切實際。cFreD的可信度取決於其與人類判斷的間接對齊。該指標的合法性依賴於人類偏好數據,若無此類基準,宣稱具有人類般評估能力將無法證明。

將生成輸出的當前「真實性」標準固化為指標函數可能是一個長期的錯誤,鑑於我們對真實性的理解隨著生成AI系統的新浪潮而不斷演變。

*在此時,我通常會包含一個示例性的說明影片範例,或許來自最近的學術提交;但這會顯得刻薄——任何花費超過10-15分鐘瀏覽Arxiv生成AI輸出的讀者,已經會遇到品質主觀較差的補充影片,這些影片顯示相關提交不會被譽為里程碑論文。*

*實驗中共使用了46個圖像骨幹模型,並非所有模型都包含在圖表結果中。請參閱論文附錄以獲取完整列表;表格與圖表中列出的為已展示的模型。*

首次發布於2025年4月1日,星期二

相關文章
Google 的 Gemini 應用程式新增即時 AI 視訊、深度研究和新功能 (120 個字) Google 的 Gemini 應用程式新增即時 AI 視訊、深度研究和新功能 (120 個字) Google 在 I/O 2025 開發者大會上發表了重大的 Gemini AI 強化功能,擴展多模態功能、引進下一代 AI 模型,並加強整個產品組合的生態系統整合。關鍵的 Gemini Live 推出Google 已正式向所有 iOS 和 Android 使用者推出 Gemini Live 的視覺辨識功能。這項更新以尖端的 Project Astra 技術為基礎,結合裝置攝影機或螢幕分享的即時視
Assort Health 獲得 5,000 萬美元資金,以自動化方式與病患溝通 Assort Health 獲得 5,000 萬美元資金,以自動化方式與病患溝通 據熟悉該交易的消息人士透露,Assort Health 是一家新興的人工智能醫療初創公司,專門為專科診所提供自動化患者溝通服務,該公司已獲得約 5000 萬美元的 B 輪融資,估值達 7.5 億美元。此次投資由 Lightspeed Venture Partners 領投,緊隨該公司僅在四個月前完成的 2200 萬美元 A 輪融資。這家新創公司的 AI 語音技術可處理例行性的行政工作,包括預約
使用 AI 驅動的 Excel 工具立即產生 Excel 公式 使用 AI 驅動的 Excel 工具立即產生 Excel 公式 使用 GPTExcel 改變您的試算表工作流程 - 這款人工智能解決方案可將自然語言描述轉換為精確的 Excel 和 Google Sheets 公式。這款功能強大的工具消除了手動建立公式的煩惱,讓各種技能水準的使用者都能輕鬆進行複雜的資料分析。無論您是要管理預算、分析銷售資料或處理學術專案,GPTExcel 都能以卓越的效率簡化您的試算表工作。主要優點AI 驅動公式:立即將簡單的英文指示轉換為功
評論 (6)
0/200
RalphMartínez
RalphMartínez 2025-07-22 09:25:03

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 2025-04-25 10:29:53

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 2025-04-23 19:09:01

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 2025-04-22 17:56:13

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025-04-22 16:55:54

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 2025-04-20 10:22:28

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

回到頂部
OR