選項
首頁
新聞
AI學會發表增強的視頻評論

AI學會發表增強的視頻評論

2025-04-19
141

評估AI研究中影片內容的挑戰

在深入研究計算機視覺文獻時,大型視覺語言模型(LVLMs)對於解讀複雜的提交內容極具價值。然而,當涉及到評估科學論文附帶的影片範例的品質與價值時,它們面臨顯著的障礙。這是一個關鍵面向,因為引人注目的視覺效果與文字同樣重要,能激發興趣並驗證研究項目中的主張。

特別是影片合成項目,高度依賴展示實際影片輸出以避免被忽視。在這些展示中,項目的現實表現才能真正被評估,通常揭示項目大膽主張與實際能力之間的差距。

我讀了書,沒看電影

目前,基於API的熱門大型語言模型(LLMs)與大型視覺語言模型(LVLMs)無法直接分析影片內容。它們的能力僅限於分析與影片相關的文字記錄和其他文字材料。當要求這些模型直接分析影片內容時,這一限制尤為明顯。

當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*

像ChatGPT-4o這樣的模型可能會試圖對影片進行主觀評估,但在被追問時最終會承認無法直接觀看影片。

在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*

雖然這些模型是多模態的,可以分析單張照片,例如從影片中提取的幀,但它們提供質性意見的能力令人質疑。LLMs往往傾向於給出「討好人」的回應,而非真誠的批評。此外,影片中的許多問題屬於時間性質,僅分析單一幀完全無法抓住重點。

LLM能對影片進行「價值判斷」的唯一方式是利用基於文字的知識,例如理解深偽圖像或藝術史,通過人類洞察學到的嵌入來關聯視覺品質。

FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。來源:https://arxiv.org/pdf/2503.14905*FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。* 來源:https://arxiv.org/pdf/2503.14905

雖然LLM可以借助像YOLO這樣的輔助AI系統識別影片中的物體,但若無基於損失函數的指標反映人類意見,主觀評估仍難以實現。

條件視覺

損失函數在訓練模型時至關重要,用於衡量預測與正確答案的差距,並引導模型減少錯誤。它們也用於評估AI生成內容,例如逼真的影片。

一個常用的指標是Fréchet Inception Distance(FID),用於測量生成圖像與真實圖像分佈的相似性。FID使用Inception v3網絡計算統計差異,分數越低表示視覺品質與多樣性越高。

然而,FID是自我參照且比較性的。2021年引入的條件Fréchet距離(CFD)解決了這一問題,通過考慮生成圖像是否符合額外條件(如類別標籤或輸入圖像)來進行評估。

2021年CFD的範例。來源:https://github.com/Michael-Soloveitchik/CFID/*2021年CFD的範例。* 來源:https://github.com/Michael-Soloveitchik/CFID/

CFD旨在將質性的人類解讀融入指標,但這種方法帶來了挑戰,例如潛在偏見、頻繁更新的需求以及預算限制,這些可能影響評估隨時間的穩定性與可靠性。

cFreD

來自美國的一篇近期論文介紹了條件Fréchet距離(cFreD),這是一種新指標,旨在通過評估視覺品質與圖像-文字對齊度,更好地反映人類偏好。

新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。來源:https://arxiv.org/pdf/2503.21721*新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。* 來源:https://arxiv.org/pdf/2503.21721

作者認為,傳統指標如Inception Score(IS)和FID不足,因為它們僅關注圖像品質,忽略圖像與提示的匹配程度。他們提出,cFreD能同時捕捉圖像品質與輸入文字的條件一致性,與人類偏好的相關性更高。

論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*

概念與方法

評估文字到圖像模型的黃金標準是通過眾包比較收集的人類偏好數據,類似於大型語言模型所使用的方法。然而,這些方法成本高昂且速度緩慢,導致一些平台停止更新。

人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。* 來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

像FID、CLIPScore和cFreD這樣的自動指標對於評估未來模型至關重要,特別是隨著人類偏好的演變。cFreD假設真實與生成圖像均遵循高斯分佈,並測量跨提示的預期Fréchet距離,評估真實性與文字一致性。

數據與測試

為評估cFreD與人類偏好的相關性,作者使用了多個模型在相同文字提示下的圖像排名。他們利用人類偏好分數v2(HPDv2)測試集和PartiPrompts競技場,將數據整合為單一數據集。

對於較新型號,他們使用COCO的訓練與驗證集中1,000個提示,確保與HPDv2無重疊,並使用競技場排行榜中的九個模型生成圖像。cFreD與多個統計與學習指標進行比較,顯示出與人類判斷的強相關性。

在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

cFreD達到與人類偏好的最高相關性,相關係數為0.97,排名準確率為91.1%。它超越了其他指標,包括基於人類偏好訓練的指標,顯示其在多樣化模型中的可靠性。

在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*

在PartiPrompts競技場中,cFreD與人類評估的相關性最高,為0.73,緊隨其後的是FID和FDDINOv2。然而,基於人類偏好訓練的HPSv2相關性最強,為0.83。

在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*

在COCO數據集評估中,cFreD的相關性為0.33,排名準確率為66.67%,在與人類偏好的對齊中排名第三,僅次於基於人類數據訓練的指標。

顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*

作者還測試了Inception V3,發現其表現不如基於變換器的骨幹模型(如DINOv2-L/14和ViT-L/16),後者與人類排名的對齊更一致。

結論

雖然包含人類參與的解決方案仍是開發指標與損失函數的最佳方法,但其規模與更新頻率使其不切實際。cFreD的可信度取決於其與人類判斷的間接對齊。該指標的合法性依賴於人類偏好數據,若無此類基準,宣稱具有人類般評估能力將無法證明。

將生成輸出的當前「真實性」標準固化為指標函數可能是一個長期的錯誤,鑑於我們對真實性的理解隨著生成AI系統的新浪潮而不斷演變。

*在此時,我通常會包含一個示例性的說明影片範例,或許來自最近的學術提交;但這會顯得刻薄——任何花費超過10-15分鐘瀏覽Arxiv生成AI輸出的讀者,已經會遇到品質主觀較差的補充影片,這些影片顯示相關提交不會被譽為里程碑論文。*

*實驗中共使用了46個圖像骨幹模型,並非所有模型都包含在圖表結果中。請參閱論文附錄以獲取完整列表;表格與圖表中列出的為已展示的模型。*

首次發布於2025年4月1日,星期二

相關文章
ChatGPT 成人模式再度延遲;Ultraman:智慧優先 ChatGPT 成人模式再度延遲;Ultraman:智慧優先 OpenAI 再次推遲爭議性功能,聚焦於個人化與主動互動「不當內容」是否應納入高效能的 AI 工具,長期以來在科技界引發熱議。 OpenAI 曾承諾要讓 ChatGPT 更理解成人用戶,但再次讓期待這項變革的人們感到失望。根據 IT Home 的報導,該公司最近證實,原本預計於 2026 年第一季推出的所謂「成人模式」,已再度延期。這並非 Sam Altman 首次食言。早在 2025 年底,他就
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助 百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助 據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
《Cursor Composer 2》對決《Claude Opus 4.6》:效能測試引發新一輪 AI 程式設計辯論 《Cursor Composer 2》對決《Claude Opus 4.6》:效能測試引發新一輪 AI 程式設計辯論 3月19日,Cursor 正式發布其自主研發的編碼模型 Composer 2。 這項公告在開發者社群中立即引發熱議——根據 Cursor 的說法,Composer 2 在 Terminal-Bench 2.0 上的得分為 61.7%,在相同的測試條件下,顯著超越了 Claude Opus 4.6 的 58.0%。Anthropic 的旗艦模型,竟被自家 IDE 內建的模型超越?隨著消息傳開,相關辯
相關專題推薦
圖像編輯 用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計
用於短劇故事板的AI藝術生成工具:幻想與都市浪漫題材的角色設計

2026最新推薦:探索最適合用於短劇故事板製作的AI藝術生成工具。我們精心挑選了眾多頂級工具,幫助您創作出引人入勝的幻想角色和都市浪漫角色。您可以對比免費與付費選項,檢視實際測試結果,從而找到最適合自己的創意工具。XIX.AI還會每週更新排名並提供專家分析,讓您立即開始將故事視覺化呈現吧!

10 個工具
xix.ai
寫作 最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告
最適合廣播和播客使用的AI指令碼編寫工具:幫助您創作引人入勝的音訊廣告

在XIX.AI上,發現2026年最適合用於廣播和播客製作的AI指令碼工具。我們精心挑選的這些高評分工具能夠提供強大的功能,幫助您快速製作出引人入勝的音訊廣告。透過實際測試和每週更新的排名,您可以瞭解免費選項與付費選項之間的差異。今天就釋放您的創造力吧!

10 個工具
xix.ai
商業 最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險
最佳 AI 合約審查軟體:即時發現法律漏洞與合規風險

立即在 XIX.AI 探索 2026 年最佳 AI 合約審查軟體。我們精心挑選的頂級清單收錄了多款強大工具,能即時偵測法律漏洞與合規風險。透過實際測試與每週更新的排行榜,比較免費與付費方案的差異。為您找到能徹底改變遊戲規則的解決方案,實現安全且高效的合約分析。立即探索這份權威指南。

10 個工具
xix.ai
動畫創作 專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像
專為東華設計的AI動漫生成器:可用於建立網路小說角色及漫畫頭像

探索2026年最適合製作中文動畫的人工智慧工具。我們精心挑選的頂級列表中包含了各種強大的工具,能夠幫助你建立出令人驚歎的網路小說角色和漫畫頭像。透過實際測試來對比免費選項和付費選項,找到最適合你的創作工具,今天就在XIX.AI上將你的故事變為現實吧。

10 個工具
xix.ai
漫畫創作 漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩
漫畫頂尖 AI 自動上色工具:零一致性錯誤地套用平面色彩

立即前往 XIX.AI,探索 2026 年最優秀的漫畫 AI 自動上色工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的解決方案,這些工具能以零一致性錯誤的方式套用平面色彩,大幅提升您的工作效率。透過免費與付費版本的比較、實際測試結果,以及每週更新的排行榜,找到最適合您的工具。立即解鎖您的 AI 優勢。

10 個工具
xix.ai
寫作 頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點
頂尖 AI 角色設定生成工具:創造一致的角色動機與致命弱點

探索 2026 年最優秀的 AI 角色設定生成工具,打造立體鮮明的角色。XIX.AI 精心整理的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具能生成一貫的動機與致命缺陷。透過實際測試,比較免費與付費選項的差異。立即釋放您的說故事潛能。

10 個工具
xix.ai
評論 (6)
0/500
RalphMartínez
RalphMartínez 2025-07-22 09:25:03

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 2025-04-25 10:29:53

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 2025-04-23 19:09:01

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 2025-04-22 17:56:13

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025-04-22 16:55:54

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 2025-04-20 10:22:28

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

OR