AI學會發表增強的視頻評論
評估AI研究中視頻內容的挑戰
當潛入計算機視覺文獻的世界時,大型視覺模型(LVLM)對於解釋複雜的提交而言是無價的。但是,在評估伴隨科學論文的視頻示例的質量和優點方面,他們遇到了重大的障礙。這是一個關鍵方面,因為引人注目的視覺效果與文本引起興奮和驗證研究項目中的主張一樣重要。
視頻綜合項目特別依賴於證明實際的視頻輸出以避免被解僱。正是在這些演示中,可以真正評估項目的現實性能,經常揭示該項目的大膽主張與其實際能力之間的差距。
我讀了這本書,沒看電影
當前,流行的基於API的大型語言模型(LLM)和大型視覺語言模型(LVLMS)沒有配備直接分析視頻內容。它們的功能僅限於分析與視頻相關的成績單和其他基於文本的材料。當要求這些模型直接分析視頻內容時,這種限制是顯而易見的。
*GPT-4O,Google Gemini和困惑的各種異議,當要求直接分析視頻,而無需求助於成績單或其他基於文本的資源。
一些模型,例如Chatgpt-4O,甚至可能嘗試對視頻進行主觀評估,但最終將承認他們在按下時無法直接查看視頻。
*被要求提供對新研究論文相關視頻的主觀評估,並偽造了一個真實的意見,Chatgpt-4O最終承認它無法直接觀看視頻。
儘管這些模型是多模式的,並且可以分析單個照片,例如從視頻中提取的框架,但它們提供定性觀點的能力是值得懷疑的。 LLM通常傾向於給出“令人愉悅的”反應,而不是真誠的批評。此外,視頻中的許多問題都是暫時性的,這意味著分析單個框架完全錯過了這一點。
LLM可以在視頻上提供“價值判斷”的唯一方法是利用基於文本的知識,例如理解深層圖像或藝術史,將視覺品質與基於人類見解的學習嵌入相關聯。
* FakeVLM項目通過專業的多模式視覺語言模型提供針對性的深擊檢測。 *來源: https ://arxiv.org/pdf/2503.14905
儘管LLM可以藉助Yolo等輔助AI系統識別視頻中的對象,但主觀評估仍然難以捉摸,而沒有反映人類意見的基於損失函數的指標。
有條件的視力
損失功能在訓練模型中至關重要,衡量預測與正確答案有多遠,並指導模型減少錯誤。它們還用於評估AI生成的內容,例如影視視頻。
一個流行的指標是FréchetInception距離(FID),它衡量了生成的圖像和真實圖像的分佈之間的相似性。 FID使用Inception V3網絡來計算統計差異,較低的分數表示更高的視覺質量和多樣性。
但是,FID是自指的和比較的。在2021年推出的條件Fréchet距離(CFD)也通過考慮生成的圖像如何匹配其他條件,例如類標籤或輸入圖像,以解決此問題。
*來自2021 CFD郊遊的示例。 *來源: https ://github.com/michael-soloveitchik/cfid/
CFD旨在將定性的人類解釋納入指標,但是這種方法引入了挑戰,例如潛在偏見,頻繁更新的需求以及可能影響評估一致性和可靠性隨時間推移的預算限制。
CFRED
美國最近的一篇論文介紹了條件的Fréchet距離(CFRED) ,這是一種新的指標,旨在通過評估視覺質量和文本圖像對齊方式來更好地反映人類的偏好。
*新論文的部分結果:不同指標的圖像排名(1-9)提示為“沙發上的帶有沙發和筆記本電腦的客廳,躺在沙發上”。綠色突出顯示了最高的人等級模型(Flux.1-DEV),紫色最低(SDV1.5)。只有CFRED與人類排名匹配。請參閱源文件以獲取完整的結果,我們在這裡沒有復制的空間。 *來源: https ://arxiv.org/pdf/2503.21721
作者認為,諸如INCEPTION評分(IS)和FID之類的傳統指標不足,因為它們僅專注於圖像質量而不考慮圖像符合其提示的很好。他們建議CFRED在輸入文本上同時捕獲圖像質量和調節,從而導致與人類偏好的相關性更高。
*本文的測試表明,作者提出的指標,CFRED始終在三個基準數據集中(Partiprompts,hpdv2和Coco)上的FID,FDDINOV2,ClipsCore和CMMD始終達到更高的與人類偏好的相關性。
概念和方法
評估文本對圖像模型的黃金標準是通過人群比較收集的人類偏好數據,類似於大語模型使用的方法。但是,這些方法是昂貴且緩慢的,導致一些平台停止更新。
*人工分析圖像競技場排行榜,該板在生成視覺AI中排名當前估計的領導者。
FID,ClipsCore和CFRED等自動指標對於評估未來模型至關重要,尤其是隨著人類偏好的發展。 CFRED假設真實圖像和生成的圖像都遵循高斯分佈,並衡量提示之間的預期Fréchet距離,從而評估現實主義和文本一致性。
數據和測試
為了評估CFRED與人類偏好的相關性,作者使用了帶有相同文本提示的多個模型的圖像排名。他們藉鑑了人類偏好得分V2(HPDV2)測試集和partiprompts Arena,將數據合併到一個數據集中。
對於更新的型號,他們使用了可可的火車和驗證集中的1,000個提示,確保與HPDV2沒有重疊,並使用競技場排行榜的九種型號生成了圖像。對CFRED進行了針對幾個統計和學識淵博的指標的評估,顯示與人類判斷的緊密結合。
*使用統計指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的度量標準(美學得分,ImagerWard,ImagerWard,HPSV2和MPS)的HPDV2測試集上的模型排名和分數。最佳結果以粗體顯示,第二好的下劃線。
CFRED達到了與人類偏好的最高比對,達到0.97的相關性,等級準確度為91.1%。它的表現優於其他指標,包括接受人類偏好數據的培訓的指標,證明了其在各種模型中的可靠性。
*使用統計指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的指標(美學評分,ImageReard和MPS)使用統計指標(FID,FDDINOV2,CLIPSCORE,CMMD和CFRED)上的模型排名和分數。最好的結果是大膽,第二好的下劃線。 *
在partiprompts競技場中,CFRED與人類評估的最高相關性為0.73,其次是FID和FDDINOV2。但是,接受過人類偏好的訓練的HPSV2在0.83處的比對最強。
*使用自動指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的度量標準(美學得分,ImageReward,ImagerWard,HPSV2和MPS)在隨機採樣可可提示上的模型排名。等級準確性低於0.5表示比一致對的不一致,最佳結果是大膽的,第二好的下劃線。
在可可數據集評估中,CFRED的相關性為0.33,等級準確度為66.67%,在與人類偏好的一致性中排名第三,僅次於接受人類數據訓練的指標。
*贏率顯示每個圖像骨幹的排名頻率與可可數據集中的真正人類衍生的排名相匹配。
作者還測試了Inception v3,發現它被基於變壓器的骨架(如Dinov2-L/14和VIT-L/16)遠離,這與人類排名一致地保持一致。
結論
儘管人類在循環解決方案仍然是開發度量和損失功能的最佳方法,但更新的規模和頻率使其不切實際。 CFRED的信譽取決於它與人類判斷的一致性,儘管是間接的。指標的合法性取決於人類的偏好數據,因為沒有這樣的基準,對人類樣的評估主張將是無法證明的。
考慮到我們對現實主義的理解的不斷發展的本質,在新的生成AI系統驅動的驅動下,將當前的“現實主義”中的當前標準納入度量函數可能是一個長期錯誤。
*在這一點上,我通常會包括一個示例性的說明性視頻示例,也許是從最近的學術意見中出發。但這將是卑鄙的 - 任何花費超過10-15分鐘拖網拖網Arxiv的生成AI輸出的人都將遇到補充視頻,其主觀較差的質量表明相關提交不會被視為具有里程碑意義的紙張。
*實驗中總共使用了46個圖像骨幹模型,並非所有這些模型都在圖形結果中考慮。請參閱本文的附錄以獲取完整列表;列出了表格和數字中的那些。
首次出版於2025年4月1日,星期二
相關文章
AI在醫療諮詢中的應用:轉型醫療保健
人工智慧正迅速重塑醫療保健格局,原因顯而易見。技術進步的速度為過去認為不可能的可能性開啟了大門。本文深入探討AI在醫療諮詢中的轉型潛力,探索其如何提升患者照護,同時應對倫理困境與實際挑戰。通過了解AI如何無縫融入醫療系統,我們可以為更優質、更高效的醫療實踐鋪平道路。為何AI在醫療諮詢中重要AI在醫療諮詢中的核心代表了醫療方式的重大進步。這些系統利用機器學習、自然語言處理和數據分析,篩選大量醫療數據
奧拉尼,迪士尼度假村與水療中心:您的家庭終極夏威夷度假
探索奧拉尼:迪士尼風情的夏威夷天堂您是否夢想一個結合迪士尼魔法與夏威夷絕美景色的家庭度假?奧拉尼,位於歐胡島柯奧利納的迪士尼度假村與水療中心正是您的理想選擇。這不是典型的迪士尼目的地;它獨特地融合了放鬆、文化沉浸和迪士尼魅力,打造出夏威夷天堂。從踏入奧拉尼的那一刻起,您將感受到溫暖的阿羅哈精神和迪士尼一貫的卓越服務。度假村的設計巧妙融入夏威夷傳統與藝術,營造出寧靜而迷人的氛圍。奧拉尼體驗:不僅僅是
Airbnb在美國悄然推出AI客服機器人
Airbnb將AI驅動的客服提升至新高度上個月,在Airbnb的第一季度財報電話會議上,執行長布萊恩·切斯基宣布,該公司在美國已開始推出AI驅動的客服機器人。從去年Airbnb透露正在測試這項技術(僅限於特定查詢)到現在,已經歷了一段旅程。如今,切斯基自豪地表示,50%的美國Airbnb用戶已使用AI機器人滿足客服需求。展望未來,切斯基確認公司計劃本月在美國全國範圍內擴展此功能。他強調AI在提升客
評論 (5)
0/200
GaryGarcia
2025-04-23 08:00:00
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
GaryGonzalez
2025-04-20 08:00:00
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
FrankSmith
2025-04-25 08:00:00
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
KennethKing
2025-04-22 08:00:00
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
2025-04-22 08:00:00
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
評估AI研究中視頻內容的挑戰
當潛入計算機視覺文獻的世界時,大型視覺模型(LVLM)對於解釋複雜的提交而言是無價的。但是,在評估伴隨科學論文的視頻示例的質量和優點方面,他們遇到了重大的障礙。這是一個關鍵方面,因為引人注目的視覺效果與文本引起興奮和驗證研究項目中的主張一樣重要。
視頻綜合項目特別依賴於證明實際的視頻輸出以避免被解僱。正是在這些演示中,可以真正評估項目的現實性能,經常揭示該項目的大膽主張與其實際能力之間的差距。
我讀了這本書,沒看電影
當前,流行的基於API的大型語言模型(LLM)和大型視覺語言模型(LVLMS)沒有配備直接分析視頻內容。它們的功能僅限於分析與視頻相關的成績單和其他基於文本的材料。當要求這些模型直接分析視頻內容時,這種限制是顯而易見的。
*GPT-4O,Google Gemini和困惑的各種異議,當要求直接分析視頻,而無需求助於成績單或其他基於文本的資源。
一些模型,例如Chatgpt-4O,甚至可能嘗試對視頻進行主觀評估,但最終將承認他們在按下時無法直接查看視頻。
*被要求提供對新研究論文相關視頻的主觀評估,並偽造了一個真實的意見,Chatgpt-4O最終承認它無法直接觀看視頻。
儘管這些模型是多模式的,並且可以分析單個照片,例如從視頻中提取的框架,但它們提供定性觀點的能力是值得懷疑的。 LLM通常傾向於給出“令人愉悅的”反應,而不是真誠的批評。此外,視頻中的許多問題都是暫時性的,這意味著分析單個框架完全錯過了這一點。
LLM可以在視頻上提供“價值判斷”的唯一方法是利用基於文本的知識,例如理解深層圖像或藝術史,將視覺品質與基於人類見解的學習嵌入相關聯。
* FakeVLM項目通過專業的多模式視覺語言模型提供針對性的深擊檢測。 *來源: https ://arxiv.org/pdf/2503.14905
儘管LLM可以藉助Yolo等輔助AI系統識別視頻中的對象,但主觀評估仍然難以捉摸,而沒有反映人類意見的基於損失函數的指標。
有條件的視力
損失功能在訓練模型中至關重要,衡量預測與正確答案有多遠,並指導模型減少錯誤。它們還用於評估AI生成的內容,例如影視視頻。
一個流行的指標是FréchetInception距離(FID),它衡量了生成的圖像和真實圖像的分佈之間的相似性。 FID使用Inception V3網絡來計算統計差異,較低的分數表示更高的視覺質量和多樣性。
但是,FID是自指的和比較的。在2021年推出的條件Fréchet距離(CFD)也通過考慮生成的圖像如何匹配其他條件,例如類標籤或輸入圖像,以解決此問題。
*來自2021 CFD郊遊的示例。 *來源: https ://github.com/michael-soloveitchik/cfid/
CFD旨在將定性的人類解釋納入指標,但是這種方法引入了挑戰,例如潛在偏見,頻繁更新的需求以及可能影響評估一致性和可靠性隨時間推移的預算限制。
CFRED
美國最近的一篇論文介紹了條件的Fréchet距離(CFRED) ,這是一種新的指標,旨在通過評估視覺質量和文本圖像對齊方式來更好地反映人類的偏好。
*新論文的部分結果:不同指標的圖像排名(1-9)提示為“沙發上的帶有沙發和筆記本電腦的客廳,躺在沙發上”。綠色突出顯示了最高的人等級模型(Flux.1-DEV),紫色最低(SDV1.5)。只有CFRED與人類排名匹配。請參閱源文件以獲取完整的結果,我們在這裡沒有復制的空間。 *來源: https ://arxiv.org/pdf/2503.21721
作者認為,諸如INCEPTION評分(IS)和FID之類的傳統指標不足,因為它們僅專注於圖像質量而不考慮圖像符合其提示的很好。他們建議CFRED在輸入文本上同時捕獲圖像質量和調節,從而導致與人類偏好的相關性更高。
*本文的測試表明,作者提出的指標,CFRED始終在三個基準數據集中(Partiprompts,hpdv2和Coco)上的FID,FDDINOV2,ClipsCore和CMMD始終達到更高的與人類偏好的相關性。
概念和方法
評估文本對圖像模型的黃金標準是通過人群比較收集的人類偏好數據,類似於大語模型使用的方法。但是,這些方法是昂貴且緩慢的,導致一些平台停止更新。
*人工分析圖像競技場排行榜,該板在生成視覺AI中排名當前估計的領導者。
FID,ClipsCore和CFRED等自動指標對於評估未來模型至關重要,尤其是隨著人類偏好的發展。 CFRED假設真實圖像和生成的圖像都遵循高斯分佈,並衡量提示之間的預期Fréchet距離,從而評估現實主義和文本一致性。
數據和測試
為了評估CFRED與人類偏好的相關性,作者使用了帶有相同文本提示的多個模型的圖像排名。他們藉鑑了人類偏好得分V2(HPDV2)測試集和partiprompts Arena,將數據合併到一個數據集中。
對於更新的型號,他們使用了可可的火車和驗證集中的1,000個提示,確保與HPDV2沒有重疊,並使用競技場排行榜的九種型號生成了圖像。對CFRED進行了針對幾個統計和學識淵博的指標的評估,顯示與人類判斷的緊密結合。
*使用統計指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的度量標準(美學得分,ImagerWard,ImagerWard,HPSV2和MPS)的HPDV2測試集上的模型排名和分數。最佳結果以粗體顯示,第二好的下劃線。
CFRED達到了與人類偏好的最高比對,達到0.97的相關性,等級準確度為91.1%。它的表現優於其他指標,包括接受人類偏好數據的培訓的指標,證明了其在各種模型中的可靠性。
*使用統計指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的指標(美學評分,ImageReard和MPS)使用統計指標(FID,FDDINOV2,CLIPSCORE,CMMD和CFRED)上的模型排名和分數。最好的結果是大膽,第二好的下劃線。 *
在partiprompts競技場中,CFRED與人類評估的最高相關性為0.73,其次是FID和FDDINOV2。但是,接受過人類偏好的訓練的HPSV2在0.83處的比對最強。
*使用自動指標(FID,FDDINOV2,ClipsCore,CMMD和CFRED)和人類偏好訓練的度量標準(美學得分,ImageReward,ImagerWard,HPSV2和MPS)在隨機採樣可可提示上的模型排名。等級準確性低於0.5表示比一致對的不一致,最佳結果是大膽的,第二好的下劃線。
在可可數據集評估中,CFRED的相關性為0.33,等級準確度為66.67%,在與人類偏好的一致性中排名第三,僅次於接受人類數據訓練的指標。
*贏率顯示每個圖像骨幹的排名頻率與可可數據集中的真正人類衍生的排名相匹配。
作者還測試了Inception v3,發現它被基於變壓器的骨架(如Dinov2-L/14和VIT-L/16)遠離,這與人類排名一致地保持一致。
結論
儘管人類在循環解決方案仍然是開發度量和損失功能的最佳方法,但更新的規模和頻率使其不切實際。 CFRED的信譽取決於它與人類判斷的一致性,儘管是間接的。指標的合法性取決於人類的偏好數據,因為沒有這樣的基準,對人類樣的評估主張將是無法證明的。
考慮到我們對現實主義的理解的不斷發展的本質,在新的生成AI系統驅動的驅動下,將當前的“現實主義”中的當前標準納入度量函數可能是一個長期錯誤。
*在這一點上,我通常會包括一個示例性的說明性視頻示例,也許是從最近的學術意見中出發。但這將是卑鄙的 - 任何花費超過10-15分鐘拖網拖網Arxiv的生成AI輸出的人都將遇到補充視頻,其主觀較差的質量表明相關提交不會被視為具有里程碑意義的紙張。
*實驗中總共使用了46個圖像骨幹模型,並非所有這些模型都在圖形結果中考慮。請參閱本文的附錄以獲取完整列表;列出了表格和數字中的那些。
首次出版於2025年4月1日,星期二




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃












