AI는 향상된 비디오 비평을 제공하는 법을 배웁니다
AI 연구에서 비디오 콘텐츠 평가의 도전 과제
컴퓨터 비전 문헌의 세계에 뛰어들 때, 대형 비전-언어 모델(LVLMs)은 복잡한 제출물을 해석하는 데 매우 유용할 수 있습니다. 하지만 과학 논문과 함께 제공되는 비디오 예시의 품질과 장점을 평가하는 데 있어 상당한 장애물에 부딪힙니다. 이는 설득력 있는 시각 자료가 연구 프로젝트에서 주장된 내용을 검증하고 흥미를 불러일으키는 데 텍스트만큼 중요하기 때문에 중요한 측면입니다.
특히 비디오 합성 프로젝트는 무시당하지 않기 위해 실제 비디오 출력을 보여주는 데 크게 의존합니다. 이러한 시연에서 프로젝트의 실제 성능을 진정으로 평가할 수 있으며, 종종 프로젝트의 대담한 주장과 실제 능력 사이의 간극을 드러냅니다.
책은 읽었지만 영화는 보지 못했다
현재 인기 있는 API 기반 대형 언어 모델(LLMs)과 대형 비전-언어 모델(LVLMs)은 비디오 콘텐츠를 직접 분석할 수 있는 능력이 없습니다. 이들의 능력은 비디오와 관련된 대본 및 기타 텍스트 기반 자료를 분석하는 데 국한됩니다. 이러한 한계는 이 모델들에게 비디오 콘텐츠를 직접 분석하도록 요청했을 때 명백해집니다.
*GPT-4o, Google Gemini, Perplexity가 대본이나 기타 텍스트 기반 소스 없이 비디오를 직접 분석하도록 요청받았을 때의 다양한 반대 의견들.*
ChatGPT-4o와 같은 일부 모델은 비디오에 대한 주관적인 평가를 시도할 수 있지만, 결국 비디오를 직접 볼 수 없다는 점을 인정합니다.
*새로운 연구 논문과 관련된 비디오에 대한 주관적인 평가를 제공하라는 요청을 받고, 실제 의견을 위장한 후, ChatGPT-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*
이러한 모델들은 다중 모달을 지원하며 비디오에서 추출한 단일 프레임과 같은 개별 사진을 분석할 수 있지만, 질적 의견을 제공하는 능력은 의문의 여지가 있습니다. LLMs는 종종 진솔한 비판보다는 '사람을 기쁘게 하는' 응답을 제공하는 경향이 있습니다. 게다가 비디오의 많은 문제는 시간적 특성을 가지므로, 단일 프레임을 분석하는 것은 전혀 요점을 벗어납니다.
LLM이 비디오에 대해 '가치 판단'을 제공할 수 있는 유일한 방법은 딥페이크 이미지나 예술 역사와 같은 텍스트 기반 지식을 활용하여 인간의 통찰을 기반으로 학습된 임베딩과 시각적 품질을 연관 짓는 것입니다.
*FakeVLM 프로젝트는 특화된 다중 모달 비전-언어 모델을 통해 표적화된 딥페이크 탐지를 제공합니다.* 출처: https://arxiv.org/pdf/2503.14905
LLM은 YOLO와 같은 보조 AI 시스템의 도움으로 비디오에서 객체를 식별할 수 있지만, 인간의 의견을 반영하는 손실 함수 기반 메트릭 없이 주관적인 평가는 여전히 어려운 과제입니다.
조건부 비전
손실 함수는 모델을 훈련시키는 데 필수적이며, 예측이 정답에서 얼마나 벗어났는지를 측정하고 오류를 줄이도록 모델을 안내합니다. 또한 포토리얼리스틱 비디오와 같은 AI 생성 콘텐츠를 평가하는 데 사용됩니다.
인기 있는 메트릭 중 하나는 생성된 이미지와 실제 이미지의 분포 간 유사성을 측정하는 Fréchet Inception Distance (FID)입니다. FID는 Inception v3 네트워크를 사용하여 통계적 차이를 계산하며, 낮은 점수는 높은 시각적 품질과 다양성을 나타냅니다.
하지만 FID는 자기 참조적이고 비교적입니다. 2021년에 도입된 Conditional Fréchet Distance (CFD)는 클래스 레이블이나 입력 이미지와 같은 추가 조건과 생성된 이미지가 얼마나 잘 일치하는지를 고려하여 이를 해결합니다.
*2021년 CFD 결과 예시.* 출처: https://github.com/Michael-Soloveitchik/CFID/
CFD는 질적 인간 해석을 메트릭에 통합하려 하지만, 잠재적 편향, 빈번한 업데이트 필요, 그리고 시간이 지남에 따라 평가의 일관성과 신뢰성에 영향을 미칠 수 있는 예산 제약과 같은 도전 과제를 소개합니다.
cFreD
미국에서 발표된 최근 논문은 시각적 품질과 텍스트-이미지 정렬을 모두 평가하여 인간의 선호도를 더 잘 반영하도록 설계된 새로운 메트릭인 Conditional Fréchet Distance (cFreD)를 소개합니다.
*새로운 논문의 부분 결과: "소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실"이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요.* 출처: https://arxiv.org/pdf/2503.21721
저자들은 Inception Score (IS)나 FID와 같은 전통적인 메트릭은 이미지 품질에만 초점을 맞추고 프롬프트와의 일치도를 고려하지 않기 때문에 부족하다고 주장합니다. 그들은 cFreD가 이미지 품질과 입력 텍스트에 대한 조건부를 모두 포착하여 인간의 선호도와 더 높은 상관관계를 가진다고 제안합니다.
*논문의 테스트는 저자들이 제안한 메트릭 cFreD가 PartiPrompts, HPDv2, COCO의 세 가지 벤치마크 데이터셋에서 FID, FDDINOv2, CLIPScore, CMMD보다 지속적으로 인간의 선호도와 더 높은 상관관계를 달성했음을 보여줍니다.*
개념과 방법
텍스트-이미지 모델을 평가하는 금본위제는 대형 언어 모델에 사용된 방법과 유사한 크라우드소싱 비교를 통해 수집된 인간 선호도 데이터입니다. 하지만 이러한 방법은 비용이 많이 들고 느리기 때문에 일부 플랫폼은 업데이트를 중단했습니다.
*Artificial Analysis Image Arena Leaderboard는 생성적 비주얼 AI의 현재 추정 선두를 순위 매깁니다.* 출처: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
FID, CLIPScore, cFreD와 같은 자동화된 메트릭은 인간의 선호도가 진화함에 따라 미래 모델을 평가하는 데 중요합니다. cFreD는 실제 이미지와 생성된 이미지가 모두 가우시안 분포를 따른다고 가정하고 프롬프트에 걸친 예상 Fréchet 거리를 측정하여 사실성과 텍스트 일관성을 모두 평가합니다.
데이터와 테스트
cFreD의 인간 선호도와의 상관관계를 평가하기 위해 저자들은 동일한 텍스트 프롬프트로 여러 모델에서 이미지 순위를 사용했습니다. 그들은 Human Preference Score v2 (HPDv2) 테스트 세트와 PartiPrompts Arena를 활용하여 데이터를 단일 데이터셋으로 통합했습니다.
최신 모델의 경우, HPDv2와 중복되지 않도록 COCO의 훈련 및 검증 세트에서 1,000개의 프롬프트를 사용했으며, Arena Leaderboard의 9개 모델을 사용하여 이미지를 생성했습니다. cFreD는 여러 통계 및 학습된 메트릭과 비교하여 인간 판단과 강한 정렬을 보여주었습니다.
*HPDv2 테스트 세트에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
cFreD는 0.97의 상관관계와 91.1%의 순위 정확도를 달성하여 인간 선호도와 가장 높은 정렬을 보였으며, 인간 선호도 데이터로 훈련된 메트릭을 포함한 다른 메트릭을 능가했습니다.
*PartiPrompt에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
PartiPrompts Arena에서 cFreD는 0.73으로 인간 평가와 가장 높은 상관관계를 보였으며, FID와 FDDINOv2가 그 뒤를 이었습니다. 하지만 인간 선호도로 훈련된 HPSv2는 0.83으로 가장 강한 정렬을 보였습니다.
*COCO 프롬프트에서 무작위로 샘플링된 모델 순위로, 자동 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용. 순위 정확도가 0.5 미만이면 일치하지 않는 쌍이 일치하는 쌍보다 많음을 나타내며, 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
COCO 데이터셋 평가에서 cFreD는 0.33의 상관관계와 66.67%의 순위 정확도를 달성하여 인간 선호도와의 정렬에서 세 번째를 차지했으며, 인간 데이터로 훈련된 메트릭에 이어졌습니다.
*COCO 데이터셋에서 각 이미지 백본의 순위가 실제 인간 유도 순위와 얼마나 자주 일치했는지를 보여주는 승률.*
저자들은 또한 Inception V3를 테스트했으며, DINOv2-L/14와 ViT-L/16과 같은 트랜스포머 기반 백본이 인간 순위와 더 일관되게 정렬되어 이를 능가함을 발견했습니다.
결론
인간 참여 솔루션이 메트릭과 손실 함수를 개발하는 데 최적의 접근 방식으로 남아 있지만, 업데이트의 규모와 빈도로 인해 실용적이지 않습니다. cFreD의 신뢰성은 인간 판단과의 간접적인 정렬에 달려 있습니다. 메트릭의 정당성은 인간 선호도 데이터에 의존하며, 이러한 벤치마크 없이는 인간과 유사한 평가라는 주장은 증명할 수 없습니다.
생성 출력의 '사실성'에 대한 현재 기준을 메트릭 함수에 고정하는 것은, 새로운 생성 AI 시스템의 물결에 의해 주도되는 사실성에 대한 우리의 이해가 진화하는 특성을 고려할 때 장기적으로 실수가 될 수 있습니다.
*이 시점에서 보통 최근 학술 제출물에서 예시적인 비디오 예제를 포함하겠지만, 이는 비열한 행동일 것입니다 – Arxiv의 생성 AI 출력을 10-15분 이상 탐색한 사람은 이미 주관적으로 품질이 낮은 보충 비디오를 접했을 것이며, 이는 관련 제출물이 획기적인 논문으로 환영받지 않을 것임을 나타냅니다.*
*실험에는 총 46개의 이미지 백본 모델이 사용되었으며, 그래프 결과에는 모두 고려되지 않았습니다. 전체 목록은 논문의 부록을 참조하세요; 표와 그림에 포함된 것들은 나열되었습니다.*
최초 게시일: 2025년 4월 1일 화요일
관련 기사
AI로 구동되는 팟캐스트 제작 도구
팟캐스트 제작과 편집은 까다롭지만 보람 있는 작업입니다. 많은 팟캐스터가 필러 단어 제거, 매력적인 쇼 노트 작성, 효과적인 콘텐츠 홍보와 같은 시간 소모적인 작업에 어려움을 겪습니다. 다행히 인공지능(AI)은 이러한 과정을 간소화하는 최첨단 솔루션을 제공하여 팟캐스트 제작을 더 효율적이고 접근 가능하게 만듭니다. 이 글에서는 워크플로우를 혁신하고 전문적인
Britney Spears의 빨간 Catsuit: 팝 패션의 결정적 순간
Britney Spears, 팝 아이콘, 과감한 스타일로 관객을 사로잡았다. 그녀의 뮤직비디오는 음악 히트뿐 아니라 패션 이정표다. 이 글은 'Oops!...I Did It Again' 뮤직비디오의 잊지 못할 빨간 Catsuit을 조명한다. 이 룩은 2000년대 초 스타일을 정의했다. 이 생동감 넘치는 의상이 문화적 터치스톤이 되어 트렌드를 형성하고 팝 문
신성한 헌신 탐구: 신앙, 사랑, 그리고 영적 자유
혼란과 방해로 가득한 세상에서, 영적 연결을 위한 평화로운 순간을 만드는 것은 삶을 변화시킬 수 있습니다. 이 글은 예수님을 숭배하는 심오한 행위를 탐구하며, 신앙, 신성한 사랑, 그리고 영적 해방을 위한 개인적인 여정을 다룹니다. 우리는 이러한 헌신이 삶의 다양한 측면을 어떻게 형성하며, 위안, 회복력, 그리고 새로운 목적을 제공하는지 살펴봅니다. 신앙을
의견 (6)
0/200
RalphMartínez
2025년 7월 22일 오전 10시 25분 3초 GMT+09:00
This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!
0
FrankSmith
2025년 4월 25일 오전 11시 29분 53초 GMT+09:00
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
GaryGarcia
2025년 4월 23일 오후 8시 9분 1초 GMT+09:00
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
KennethKing
2025년 4월 22일 오후 6시 56분 13초 GMT+09:00
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
2025년 4월 22일 오후 5시 55분 54초 GMT+09:00
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
GaryGonzalez
2025년 4월 20일 오전 11시 22분 28초 GMT+09:00
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
AI 연구에서 비디오 콘텐츠 평가의 도전 과제
컴퓨터 비전 문헌의 세계에 뛰어들 때, 대형 비전-언어 모델(LVLMs)은 복잡한 제출물을 해석하는 데 매우 유용할 수 있습니다. 하지만 과학 논문과 함께 제공되는 비디오 예시의 품질과 장점을 평가하는 데 있어 상당한 장애물에 부딪힙니다. 이는 설득력 있는 시각 자료가 연구 프로젝트에서 주장된 내용을 검증하고 흥미를 불러일으키는 데 텍스트만큼 중요하기 때문에 중요한 측면입니다.
특히 비디오 합성 프로젝트는 무시당하지 않기 위해 실제 비디오 출력을 보여주는 데 크게 의존합니다. 이러한 시연에서 프로젝트의 실제 성능을 진정으로 평가할 수 있으며, 종종 프로젝트의 대담한 주장과 실제 능력 사이의 간극을 드러냅니다.
책은 읽었지만 영화는 보지 못했다
현재 인기 있는 API 기반 대형 언어 모델(LLMs)과 대형 비전-언어 모델(LVLMs)은 비디오 콘텐츠를 직접 분석할 수 있는 능력이 없습니다. 이들의 능력은 비디오와 관련된 대본 및 기타 텍스트 기반 자료를 분석하는 데 국한됩니다. 이러한 한계는 이 모델들에게 비디오 콘텐츠를 직접 분석하도록 요청했을 때 명백해집니다.
*GPT-4o, Google Gemini, Perplexity가 대본이나 기타 텍스트 기반 소스 없이 비디오를 직접 분석하도록 요청받았을 때의 다양한 반대 의견들.*
ChatGPT-4o와 같은 일부 모델은 비디오에 대한 주관적인 평가를 시도할 수 있지만, 결국 비디오를 직접 볼 수 없다는 점을 인정합니다.
*새로운 연구 논문과 관련된 비디오에 대한 주관적인 평가를 제공하라는 요청을 받고, 실제 의견을 위장한 후, ChatGPT-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*
이러한 모델들은 다중 모달을 지원하며 비디오에서 추출한 단일 프레임과 같은 개별 사진을 분석할 수 있지만, 질적 의견을 제공하는 능력은 의문의 여지가 있습니다. LLMs는 종종 진솔한 비판보다는 '사람을 기쁘게 하는' 응답을 제공하는 경향이 있습니다. 게다가 비디오의 많은 문제는 시간적 특성을 가지므로, 단일 프레임을 분석하는 것은 전혀 요점을 벗어납니다.
LLM이 비디오에 대해 '가치 판단'을 제공할 수 있는 유일한 방법은 딥페이크 이미지나 예술 역사와 같은 텍스트 기반 지식을 활용하여 인간의 통찰을 기반으로 학습된 임베딩과 시각적 품질을 연관 짓는 것입니다.
*FakeVLM 프로젝트는 특화된 다중 모달 비전-언어 모델을 통해 표적화된 딥페이크 탐지를 제공합니다.* 출처: https://arxiv.org/pdf/2503.14905
LLM은 YOLO와 같은 보조 AI 시스템의 도움으로 비디오에서 객체를 식별할 수 있지만, 인간의 의견을 반영하는 손실 함수 기반 메트릭 없이 주관적인 평가는 여전히 어려운 과제입니다.
조건부 비전
손실 함수는 모델을 훈련시키는 데 필수적이며, 예측이 정답에서 얼마나 벗어났는지를 측정하고 오류를 줄이도록 모델을 안내합니다. 또한 포토리얼리스틱 비디오와 같은 AI 생성 콘텐츠를 평가하는 데 사용됩니다.
인기 있는 메트릭 중 하나는 생성된 이미지와 실제 이미지의 분포 간 유사성을 측정하는 Fréchet Inception Distance (FID)입니다. FID는 Inception v3 네트워크를 사용하여 통계적 차이를 계산하며, 낮은 점수는 높은 시각적 품질과 다양성을 나타냅니다.
하지만 FID는 자기 참조적이고 비교적입니다. 2021년에 도입된 Conditional Fréchet Distance (CFD)는 클래스 레이블이나 입력 이미지와 같은 추가 조건과 생성된 이미지가 얼마나 잘 일치하는지를 고려하여 이를 해결합니다.
*2021년 CFD 결과 예시.* 출처: https://github.com/Michael-Soloveitchik/CFID/
CFD는 질적 인간 해석을 메트릭에 통합하려 하지만, 잠재적 편향, 빈번한 업데이트 필요, 그리고 시간이 지남에 따라 평가의 일관성과 신뢰성에 영향을 미칠 수 있는 예산 제약과 같은 도전 과제를 소개합니다.
cFreD
미국에서 발표된 최근 논문은 시각적 품질과 텍스트-이미지 정렬을 모두 평가하여 인간의 선호도를 더 잘 반영하도록 설계된 새로운 메트릭인 Conditional Fréchet Distance (cFreD)를 소개합니다.
*새로운 논문의 부분 결과: "소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실"이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요.* 출처: https://arxiv.org/pdf/2503.21721
저자들은 Inception Score (IS)나 FID와 같은 전통적인 메트릭은 이미지 품질에만 초점을 맞추고 프롬프트와의 일치도를 고려하지 않기 때문에 부족하다고 주장합니다. 그들은 cFreD가 이미지 품질과 입력 텍스트에 대한 조건부를 모두 포착하여 인간의 선호도와 더 높은 상관관계를 가진다고 제안합니다.
*논문의 테스트는 저자들이 제안한 메트릭 cFreD가 PartiPrompts, HPDv2, COCO의 세 가지 벤치마크 데이터셋에서 FID, FDDINOv2, CLIPScore, CMMD보다 지속적으로 인간의 선호도와 더 높은 상관관계를 달성했음을 보여줍니다.*
개념과 방법
텍스트-이미지 모델을 평가하는 금본위제는 대형 언어 모델에 사용된 방법과 유사한 크라우드소싱 비교를 통해 수집된 인간 선호도 데이터입니다. 하지만 이러한 방법은 비용이 많이 들고 느리기 때문에 일부 플랫폼은 업데이트를 중단했습니다.
*Artificial Analysis Image Arena Leaderboard는 생성적 비주얼 AI의 현재 추정 선두를 순위 매깁니다.* 출처: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
FID, CLIPScore, cFreD와 같은 자동화된 메트릭은 인간의 선호도가 진화함에 따라 미래 모델을 평가하는 데 중요합니다. cFreD는 실제 이미지와 생성된 이미지가 모두 가우시안 분포를 따른다고 가정하고 프롬프트에 걸친 예상 Fréchet 거리를 측정하여 사실성과 텍스트 일관성을 모두 평가합니다.
데이터와 테스트
cFreD의 인간 선호도와의 상관관계를 평가하기 위해 저자들은 동일한 텍스트 프롬프트로 여러 모델에서 이미지 순위를 사용했습니다. 그들은 Human Preference Score v2 (HPDv2) 테스트 세트와 PartiPrompts Arena를 활용하여 데이터를 단일 데이터셋으로 통합했습니다.
최신 모델의 경우, HPDv2와 중복되지 않도록 COCO의 훈련 및 검증 세트에서 1,000개의 프롬프트를 사용했으며, Arena Leaderboard의 9개 모델을 사용하여 이미지를 생성했습니다. cFreD는 여러 통계 및 학습된 메트릭과 비교하여 인간 판단과 강한 정렬을 보여주었습니다.
*HPDv2 테스트 세트에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
cFreD는 0.97의 상관관계와 91.1%의 순위 정확도를 달성하여 인간 선호도와 가장 높은 정렬을 보였으며, 인간 선호도 데이터로 훈련된 메트릭을 포함한 다른 메트릭을 능가했습니다.
*PartiPrompt에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
PartiPrompts Arena에서 cFreD는 0.73으로 인간 평가와 가장 높은 상관관계를 보였으며, FID와 FDDINOv2가 그 뒤를 이었습니다. 하지만 인간 선호도로 훈련된 HPSv2는 0.83으로 가장 강한 정렬을 보였습니다.
*COCO 프롬프트에서 무작위로 샘플링된 모델 순위로, 자동 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용. 순위 정확도가 0.5 미만이면 일치하지 않는 쌍이 일치하는 쌍보다 많음을 나타내며, 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*
COCO 데이터셋 평가에서 cFreD는 0.33의 상관관계와 66.67%의 순위 정확도를 달성하여 인간 선호도와의 정렬에서 세 번째를 차지했으며, 인간 데이터로 훈련된 메트릭에 이어졌습니다.
*COCO 데이터셋에서 각 이미지 백본의 순위가 실제 인간 유도 순위와 얼마나 자주 일치했는지를 보여주는 승률.*
저자들은 또한 Inception V3를 테스트했으며, DINOv2-L/14와 ViT-L/16과 같은 트랜스포머 기반 백본이 인간 순위와 더 일관되게 정렬되어 이를 능가함을 발견했습니다.
결론
인간 참여 솔루션이 메트릭과 손실 함수를 개발하는 데 최적의 접근 방식으로 남아 있지만, 업데이트의 규모와 빈도로 인해 실용적이지 않습니다. cFreD의 신뢰성은 인간 판단과의 간접적인 정렬에 달려 있습니다. 메트릭의 정당성은 인간 선호도 데이터에 의존하며, 이러한 벤치마크 없이는 인간과 유사한 평가라는 주장은 증명할 수 없습니다.
생성 출력의 '사실성'에 대한 현재 기준을 메트릭 함수에 고정하는 것은, 새로운 생성 AI 시스템의 물결에 의해 주도되는 사실성에 대한 우리의 이해가 진화하는 특성을 고려할 때 장기적으로 실수가 될 수 있습니다.
*이 시점에서 보통 최근 학술 제출물에서 예시적인 비디오 예제를 포함하겠지만, 이는 비열한 행동일 것입니다 – Arxiv의 생성 AI 출력을 10-15분 이상 탐색한 사람은 이미 주관적으로 품질이 낮은 보충 비디오를 접했을 것이며, 이는 관련 제출물이 획기적인 논문으로 환영받지 않을 것임을 나타냅니다.*
*실험에는 총 46개의 이미지 백본 모델이 사용되었으며, 그래프 결과에는 모두 고려되지 않았습니다. 전체 목록은 논문의 부록을 참조하세요; 표와 그림에 포함된 것들은 나열되었습니다.*
최초 게시일: 2025년 4월 1일 화요일




This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊












