AI學會發表增強的視頻評論
評估AI研究中影片內容的挑戰
在深入研究計算機視覺文獻時,大型視覺語言模型(LVLMs)對於解讀複雜的提交內容極具價值。然而,當涉及到評估科學論文附帶的影片範例的品質與價值時,它們面臨顯著的障礙。這是一個關鍵面向,因為引人注目的視覺效果與文字同樣重要,能激發興趣並驗證研究項目中的主張。
特別是影片合成項目,高度依賴展示實際影片輸出以避免被忽視。在這些展示中,項目的現實表現才能真正被評估,通常揭示項目大膽主張與實際能力之間的差距。
我讀了書,沒看電影
目前,基於API的熱門大型語言模型(LLMs)與大型視覺語言模型(LVLMs)無法直接分析影片內容。它們的能力僅限於分析與影片相關的文字記錄和其他文字材料。當要求這些模型直接分析影片內容時,這一限制尤為明顯。
*當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*
像ChatGPT-4o這樣的模型可能會試圖對影片進行主觀評估,但在被追問時最終會承認無法直接觀看影片。
*在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*
雖然這些模型是多模態的,可以分析單張照片,例如從影片中提取的幀,但它們提供質性意見的能力令人質疑。LLMs往往傾向於給出「討好人」的回應,而非真誠的批評。此外,影片中的許多問題屬於時間性質,僅分析單一幀完全無法抓住重點。
LLM能對影片進行「價值判斷」的唯一方式是利用基於文字的知識,例如理解深偽圖像或藝術史,通過人類洞察學到的嵌入來關聯視覺品質。
*FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。* 來源:https://arxiv.org/pdf/2503.14905
雖然LLM可以借助像YOLO這樣的輔助AI系統識別影片中的物體,但若無基於損失函數的指標反映人類意見,主觀評估仍難以實現。
條件視覺
損失函數在訓練模型時至關重要,用於衡量預測與正確答案的差距,並引導模型減少錯誤。它們也用於評估AI生成內容,例如逼真的影片。
一個常用的指標是Fréchet Inception Distance(FID),用於測量生成圖像與真實圖像分佈的相似性。FID使用Inception v3網絡計算統計差異,分數越低表示視覺品質與多樣性越高。
然而,FID是自我參照且比較性的。2021年引入的條件Fréchet距離(CFD)解決了這一問題,通過考慮生成圖像是否符合額外條件(如類別標籤或輸入圖像)來進行評估。
*2021年CFD的範例。* 來源:https://github.com/Michael-Soloveitchik/CFID/
CFD旨在將質性的人類解讀融入指標,但這種方法帶來了挑戰,例如潛在偏見、頻繁更新的需求以及預算限制,這些可能影響評估隨時間的穩定性與可靠性。
cFreD
來自美國的一篇近期論文介紹了條件Fréchet距離(cFreD),這是一種新指標,旨在通過評估視覺品質與圖像-文字對齊度,更好地反映人類偏好。
*新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。* 來源:https://arxiv.org/pdf/2503.21721
作者認為,傳統指標如Inception Score(IS)和FID不足,因為它們僅關注圖像品質,忽略圖像與提示的匹配程度。他們提出,cFreD能同時捕捉圖像品質與輸入文字的條件一致性,與人類偏好的相關性更高。
*論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*
概念與方法
評估文字到圖像模型的黃金標準是通過眾包比較收集的人類偏好數據,類似於大型語言模型所使用的方法。然而,這些方法成本高昂且速度緩慢,導致一些平台停止更新。
*人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。* 來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
像FID、CLIPScore和cFreD這樣的自動指標對於評估未來模型至關重要,特別是隨著人類偏好的演變。cFreD假設真實與生成圖像均遵循高斯分佈,並測量跨提示的預期Fréchet距離,評估真實性與文字一致性。
數據與測試
為評估cFreD與人類偏好的相關性,作者使用了多個模型在相同文字提示下的圖像排名。他們利用人類偏好分數v2(HPDv2)測試集和PartiPrompts競技場,將數據整合為單一數據集。
對於較新型號,他們使用COCO的訓練與驗證集中1,000個提示,確保與HPDv2無重疊,並使用競技場排行榜中的九個模型生成圖像。cFreD與多個統計與學習指標進行比較,顯示出與人類判斷的強相關性。
*在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*
cFreD達到與人類偏好的最高相關性,相關係數為0.97,排名準確率為91.1%。它超越了其他指標,包括基於人類偏好訓練的指標,顯示其在多樣化模型中的可靠性。
*在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*
在PartiPrompts競技場中,cFreD與人類評估的相關性最高,為0.73,緊隨其後的是FID和FDDINOv2。然而,基於人類偏好訓練的HPSv2相關性最強,為0.83。
*在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*
在COCO數據集評估中,cFreD的相關性為0.33,排名準確率為66.67%,在與人類偏好的對齊中排名第三,僅次於基於人類數據訓練的指標。
*顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*
作者還測試了Inception V3,發現其表現不如基於變換器的骨幹模型(如DINOv2-L/14和ViT-L/16),後者與人類排名的對齊更一致。
結論
雖然包含人類參與的解決方案仍是開發指標與損失函數的最佳方法,但其規模與更新頻率使其不切實際。cFreD的可信度取決於其與人類判斷的間接對齊。該指標的合法性依賴於人類偏好數據,若無此類基準,宣稱具有人類般評估能力將無法證明。
將生成輸出的當前「真實性」標準固化為指標函數可能是一個長期的錯誤,鑑於我們對真實性的理解隨著生成AI系統的新浪潮而不斷演變。
*在此時,我通常會包含一個示例性的說明影片範例,或許來自最近的學術提交;但這會顯得刻薄——任何花費超過10-15分鐘瀏覽Arxiv生成AI輸出的讀者,已經會遇到品質主觀較差的補充影片,這些影片顯示相關提交不會被譽為里程碑論文。*
*實驗中共使用了46個圖像骨幹模型,並非所有模型都包含在圖表結果中。請參閱論文附錄以獲取完整列表;表格與圖表中列出的為已展示的模型。*
首次發布於2025年4月1日,星期二
相關文章
BuzzFeed 推出專營 AI 垃圾應用程式的子公司
在面臨重大經營危機之際,昔日的數位媒體巨頭 BuzzFeed 正啟動一項由人工智慧驅動的雄心勃勃的自救實驗。 在最近舉行的SXSW大會上,共同創辦人兼執行長喬納·佩雷蒂(Jonah Peretti)宣布成立一家名為Branch Office的子公司,旨在透過一系列由人工智慧驅動的消費者應用程式,重新定義「軟體即內容」的商業模式。核心產品組合:融合迷因與社交媒體Branch Office 已推出三款
ChatGPT 成人模式再度延遲;Ultraman:智慧優先
OpenAI 再次推遲爭議性功能,聚焦於個人化與主動互動「不當內容」是否應納入高效能的 AI 工具,長期以來在科技界引發熱議。 OpenAI 曾承諾要讓 ChatGPT 更理解成人用戶,但再次讓期待這項變革的人們感到失望。根據 IT Home 的報導,該公司最近證實,原本預計於 2026 年第一季推出的所謂「成人模式」,已再度延期。這並非 Sam Altman 首次食言。早在 2025 年底,他就
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助
據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
相關專題推薦
評論 (6)
0/500
This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
評估AI研究中影片內容的挑戰
在深入研究計算機視覺文獻時,大型視覺語言模型(LVLMs)對於解讀複雜的提交內容極具價值。然而,當涉及到評估科學論文附帶的影片範例的品質與價值時,它們面臨顯著的障礙。這是一個關鍵面向,因為引人注目的視覺效果與文字同樣重要,能激發興趣並驗證研究項目中的主張。
特別是影片合成項目,高度依賴展示實際影片輸出以避免被忽視。在這些展示中,項目的現實表現才能真正被評估,通常揭示項目大膽主張與實際能力之間的差距。
我讀了書,沒看電影
目前,基於API的熱門大型語言模型(LLMs)與大型視覺語言模型(LVLMs)無法直接分析影片內容。它們的能力僅限於分析與影片相關的文字記錄和其他文字材料。當要求這些模型直接分析影片內容時,這一限制尤為明顯。
*當要求直接分析影片而不依賴文字記錄或其他文字來源時,GPT-4o、Google Gemini和Perplexity提出的多樣化反對意見。*
像ChatGPT-4o這樣的模型可能會試圖對影片進行主觀評估,但在被追問時最終會承認無法直接觀看影片。
*在被要求對新研究論文的相關影片進行主觀評估,並假裝給出真實意見後,ChatGPT-4o最終坦承無法直接觀看影片。*
雖然這些模型是多模態的,可以分析單張照片,例如從影片中提取的幀,但它們提供質性意見的能力令人質疑。LLMs往往傾向於給出「討好人」的回應,而非真誠的批評。此外,影片中的許多問題屬於時間性質,僅分析單一幀完全無法抓住重點。
LLM能對影片進行「價值判斷」的唯一方式是利用基於文字的知識,例如理解深偽圖像或藝術史,通過人類洞察學到的嵌入來關聯視覺品質。
*FakeVLM項目通過專門的多模態視覺語言模型提供針對性的深偽檢測。* 來源:https://arxiv.org/pdf/2503.14905
雖然LLM可以借助像YOLO這樣的輔助AI系統識別影片中的物體,但若無基於損失函數的指標反映人類意見,主觀評估仍難以實現。
條件視覺
損失函數在訓練模型時至關重要,用於衡量預測與正確答案的差距,並引導模型減少錯誤。它們也用於評估AI生成內容,例如逼真的影片。
一個常用的指標是Fréchet Inception Distance(FID),用於測量生成圖像與真實圖像分佈的相似性。FID使用Inception v3網絡計算統計差異,分數越低表示視覺品質與多樣性越高。
然而,FID是自我參照且比較性的。2021年引入的條件Fréchet距離(CFD)解決了這一問題,通過考慮生成圖像是否符合額外條件(如類別標籤或輸入圖像)來進行評估。
*2021年CFD的範例。* 來源:https://github.com/Michael-Soloveitchik/CFID/
CFD旨在將質性的人類解讀融入指標,但這種方法帶來了挑戰,例如潛在偏見、頻繁更新的需求以及預算限制,這些可能影響評估隨時間的穩定性與可靠性。
cFreD
來自美國的一篇近期論文介紹了條件Fréchet距離(cFreD),這是一種新指標,旨在通過評估視覺品質與圖像-文字對齊度,更好地反映人類偏好。
*新論文的部分結果:針對提示「客廳內有一張沙發和一台放在沙發上的筆記型電腦」的圖像排名(1-9),由不同指標評估。綠色高亮顯示人類評分最高的模型(FLUX.1-dev),紫色顯示最低的(SDv1.5)。僅cFreD與人類排名一致。請參閱來源論文以獲取完整結果,此處空間有限無法全部重現。* 來源:https://arxiv.org/pdf/2503.21721
作者認為,傳統指標如Inception Score(IS)和FID不足,因為它們僅關注圖像品質,忽略圖像與提示的匹配程度。他們提出,cFreD能同時捕捉圖像品質與輸入文字的條件一致性,與人類偏好的相關性更高。
*論文測試顯示,作者提出的指標cFreD在三個基準數據集(PartiPrompts、HPDv2和COCO)上,與人類偏好的相關性始終高於FID、FDDINOv2、CLIPScore和CMMD。*
概念與方法
評估文字到圖像模型的黃金標準是通過眾包比較收集的人類偏好數據,類似於大型語言模型所使用的方法。然而,這些方法成本高昂且速度緩慢,導致一些平台停止更新。
*人工分析圖像競技場排行榜,顯示當前估計的生成視覺AI領先者。* 來源:https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
像FID、CLIPScore和cFreD這樣的自動指標對於評估未來模型至關重要,特別是隨著人類偏好的演變。cFreD假設真實與生成圖像均遵循高斯分佈,並測量跨提示的預期Fréchet距離,評估真實性與文字一致性。
數據與測試
為評估cFreD與人類偏好的相關性,作者使用了多個模型在相同文字提示下的圖像排名。他們利用人類偏好分數v2(HPDv2)測試集和PartiPrompts競技場,將數據整合為單一數據集。
對於較新型號,他們使用COCO的訓練與驗證集中1,000個提示,確保與HPDv2無重疊,並使用競技場排行榜中的九個模型生成圖像。cFreD與多個統計與學習指標進行比較,顯示出與人類判斷的強相關性。
*在HPDv2測試集上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*
cFreD達到與人類偏好的最高相關性,相關係數為0.97,排名準確率為91.1%。它超越了其他指標,包括基於人類偏好訓練的指標,顯示其在多樣化模型中的可靠性。
*在PartiPrompts上使用統計指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward和MPS)的模型排名與分數。最佳結果以粗體顯示,次佳結果以下劃線標示。*
在PartiPrompts競技場中,cFreD與人類評估的相關性最高,為0.73,緊隨其後的是FID和FDDINOv2。然而,基於人類偏好訓練的HPSv2相關性最強,為0.83。
*在隨機採樣的COCO提示上使用自動指標(FID、FDDINOv2、CLIPScore、CMMD和cFreD)與人類偏好訓練指標(美學分數、ImageReward、HPSv2和MPS)的模型排名。排名準確率低於0.5表示不一致對多於一致對,最佳結果以粗體顯示,次佳結果以下劃線標示。*
在COCO數據集評估中,cFreD的相關性為0.33,排名準確率為66.67%,在與人類偏好的對齊中排名第三,僅次於基於人類數據訓練的指標。
*顯示每個圖像骨幹排名與COCO數據集上真實人類衍生排名的匹配頻率的勝率。*
作者還測試了Inception V3,發現其表現不如基於變換器的骨幹模型(如DINOv2-L/14和ViT-L/16),後者與人類排名的對齊更一致。
結論
雖然包含人類參與的解決方案仍是開發指標與損失函數的最佳方法,但其規模與更新頻率使其不切實際。cFreD的可信度取決於其與人類判斷的間接對齊。該指標的合法性依賴於人類偏好數據,若無此類基準,宣稱具有人類般評估能力將無法證明。
將生成輸出的當前「真實性」標準固化為指標函數可能是一個長期的錯誤,鑑於我們對真實性的理解隨著生成AI系統的新浪潮而不斷演變。
*在此時,我通常會包含一個示例性的說明影片範例,或許來自最近的學術提交;但這會顯得刻薄——任何花費超過10-15分鐘瀏覽Arxiv生成AI輸出的讀者,已經會遇到品質主觀較差的補充影片,這些影片顯示相關提交不會被譽為里程碑論文。*
*實驗中共使用了46個圖像骨幹模型,並非所有模型都包含在圖表結果中。請參閱論文附錄以獲取完整列表;表格與圖表中列出的為已展示的模型。*
首次發布於2025年4月1日,星期二
BuzzFeed 推出專營 AI 垃圾應用程式的子公司
在面臨重大經營危機之際,昔日的數位媒體巨頭 BuzzFeed 正啟動一項由人工智慧驅動的雄心勃勃的自救實驗。 在最近舉行的SXSW大會上,共同創辦人兼執行長喬納·佩雷蒂(Jonah Peretti)宣布成立一家名為Branch Office的子公司,旨在透過一系列由人工智慧驅動的消費者應用程式,重新定義「軟體即內容」的商業模式。核心產品組合:融合迷因與社交媒體Branch Office 已推出三款
ChatGPT 成人模式再度延遲;Ultraman:智慧優先
OpenAI 再次推遲爭議性功能,聚焦於個人化與主動互動「不當內容」是否應納入高效能的 AI 工具,長期以來在科技界引發熱議。 OpenAI 曾承諾要讓 ChatGPT 更理解成人用戶,但再次讓期待這項變革的人們感到失望。根據 IT Home 的報導,該公司最近證實,原本預計於 2026 年第一季推出的所謂「成人模式」,已再度延期。這並非 Sam Altman 首次食言。早在 2025 年底,他就
百度健康內部測試 AI 醫生助理「DoctorClaw」,短期內將用於學術資料檢索與辦公室輔助
據報導,百度健康已開始對一款專為醫師設計的專業 AI 智慧助理進行內部測試。這款內部代號為「DoctorClaw」(龍蝦醫生版)的產品,標誌著百度在醫療領域部署大型語言模型方面邁出了重要一步。知情人士透露,該專案目前仍處於封閉開發階段,現已進入內部測試。雖然具體產品形式尚未完全公開,但已接近推出。 就功能而言,DoctorClaw 初期將聚焦於學術文獻檢索與常規診間輔助。然而,其長期戰略旨在深度融
This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃





首頁






