AI는 향상된 비디오 비평을 제공하는 법을 배웁니다

집

뉴스

2025년 4월 19일

BruceSmith

AI 연구에서 비디오 콘텐츠 평가의 도전 과제

컴퓨터 비전 문헌의 세계에 뛰어들 때, 대형 비전-언어 모델(LVLMs)은 복잡한 제출물을 해석하는 데 매우 유용할 수 있습니다. 하지만 과학 논문과 함께 제공되는 비디오 예시의 품질과 장점을 평가하는 데 있어 상당한 장애물에 부딪힙니다. 이는 설득력 있는 시각 자료가 연구 프로젝트에서 주장된 내용을 검증하고 흥미를 불러일으키는 데 텍스트만큼 중요하기 때문에 중요한 측면입니다.

특히 비디오 합성 프로젝트는 무시당하지 않기 위해 실제 비디오 출력을 보여주는 데 크게 의존합니다. 이러한 시연에서 프로젝트의 실제 성능을 진정으로 평가할 수 있으며, 종종 프로젝트의 대담한 주장과 실제 능력 사이의 간극을 드러냅니다.

책은 읽었지만 영화는 보지 못했다

현재 인기 있는 API 기반 대형 언어 모델(LLMs)과 대형 비전-언어 모델(LVLMs)은 비디오 콘텐츠를 직접 분석할 수 있는 능력이 없습니다. 이들의 능력은 비디오와 관련된 대본 및 기타 텍스트 기반 자료를 분석하는 데 국한됩니다. 이러한 한계는 이 모델들에게 비디오 콘텐츠를 직접 분석하도록 요청했을 때 명백해집니다.

*GPT-4o, Google Gemini, Perplexity가 대본이나 기타 텍스트 기반 소스 없이 비디오를 직접 분석하도록 요청받았을 때의 다양한 반대 의견들.*

ChatGPT-4o와 같은 일부 모델은 비디오에 대한 주관적인 평가를 시도할 수 있지만, 결국 비디오를 직접 볼 수 없다는 점을 인정합니다.

*새로운 연구 논문과 관련된 비디오에 대한 주관적인 평가를 제공하라는 요청을 받고, 실제 의견을 위장한 후, ChatGPT-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*

이러한 모델들은 다중 모달을 지원하며 비디오에서 추출한 단일 프레임과 같은 개별 사진을 분석할 수 있지만, 질적 의견을 제공하는 능력은 의문의 여지가 있습니다. LLMs는 종종 진솔한 비판보다는 '사람을 기쁘게 하는' 응답을 제공하는 경향이 있습니다. 게다가 비디오의 많은 문제는 시간적 특성을 가지므로, 단일 프레임을 분석하는 것은 전혀 요점을 벗어납니다.

LLM이 비디오에 대해 '가치 판단'을 제공할 수 있는 유일한 방법은 딥페이크 이미지나 예술 역사와 같은 텍스트 기반 지식을 활용하여 인간의 통찰을 기반으로 학습된 임베딩과 시각적 품질을 연관 짓는 것입니다.

*FakeVLM 프로젝트는 특화된 다중 모달 비전-언어 모델을 통해 표적화된 딥페이크 탐지를 제공합니다.* 출처: https://arxiv.org/pdf/2503.14905

LLM은 YOLO와 같은 보조 AI 시스템의 도움으로 비디오에서 객체를 식별할 수 있지만, 인간의 의견을 반영하는 손실 함수 기반 메트릭 없이 주관적인 평가는 여전히 어려운 과제입니다.

조건부 비전

손실 함수는 모델을 훈련시키는 데 필수적이며, 예측이 정답에서 얼마나 벗어났는지를 측정하고 오류를 줄이도록 모델을 안내합니다. 또한 포토리얼리스틱 비디오와 같은 AI 생성 콘텐츠를 평가하는 데 사용됩니다.

인기 있는 메트릭 중 하나는 생성된 이미지와 실제 이미지의 분포 간 유사성을 측정하는 Fréchet Inception Distance (FID)입니다. FID는 Inception v3 네트워크를 사용하여 통계적 차이를 계산하며, 낮은 점수는 높은 시각적 품질과 다양성을 나타냅니다.

하지만 FID는 자기 참조적이고 비교적입니다. 2021년에 도입된 Conditional Fréchet Distance (CFD)는 클래스 레이블이나 입력 이미지와 같은 추가 조건과 생성된 이미지가 얼마나 잘 일치하는지를 고려하여 이를 해결합니다.

2021년 CFD 결과 예시. 출처: https://github.com/Michael-Soloveitchik/CFID/ *2021년 CFD 결과 예시.* 출처: https://github.com/Michael-Soloveitchik/CFID/

CFD는 질적 인간 해석을 메트릭에 통합하려 하지만, 잠재적 편향, 빈번한 업데이트 필요, 그리고 시간이 지남에 따라 평가의 일관성과 신뢰성에 영향을 미칠 수 있는 예산 제약과 같은 도전 과제를 소개합니다.

cFreD

미국에서 발표된 최근 논문은 시각적 품질과 텍스트-이미지 정렬을 모두 평가하여 인간의 선호도를 더 잘 반영하도록 설계된 새로운 메트릭인 Conditional Fréchet Distance (cFreD)를 소개합니다.

새로운 논문의 부분 결과: '소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실'이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요. 출처: https://arxiv.org/pdf/2503.21721 *새로운 논문의 부분 결과: "소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실"이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요.* 출처: https://arxiv.org/pdf/2503.21721

저자들은 Inception Score (IS)나 FID와 같은 전통적인 메트릭은 이미지 품질에만 초점을 맞추고 프롬프트와의 일치도를 고려하지 않기 때문에 부족하다고 주장합니다. 그들은 cFreD가 이미지 품질과 입력 텍스트에 대한 조건부를 모두 포착하여 인간의 선호도와 더 높은 상관관계를 가진다고 제안합니다.

*논문의 테스트는 저자들이 제안한 메트릭 cFreD가 PartiPrompts, HPDv2, COCO의 세 가지 벤치마크 데이터셋에서 FID, FDDINOv2, CLIPScore, CMMD보다 지속적으로 인간의 선호도와 더 높은 상관관계를 달성했음을 보여줍니다.*

개념과 방법

텍스트-이미지 모델을 평가하는 금본위제는 대형 언어 모델에 사용된 방법과 유사한 크라우드소싱 비교를 통해 수집된 인간 선호도 데이터입니다. 하지만 이러한 방법은 비용이 많이 들고 느리기 때문에 일부 플랫폼은 업데이트를 중단했습니다.

*Artificial Analysis Image Arena Leaderboard는 생성적 비주얼 AI의 현재 추정 선두를 순위 매깁니다.* 출처: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

FID, CLIPScore, cFreD와 같은 자동화된 메트릭은 인간의 선호도가 진화함에 따라 미래 모델을 평가하는 데 중요합니다. cFreD는 실제 이미지와 생성된 이미지가 모두 가우시안 분포를 따른다고 가정하고 프롬프트에 걸친 예상 Fréchet 거리를 측정하여 사실성과 텍스트 일관성을 모두 평가합니다.

데이터와 테스트

cFreD의 인간 선호도와의 상관관계를 평가하기 위해 저자들은 동일한 텍스트 프롬프트로 여러 모델에서 이미지 순위를 사용했습니다. 그들은 Human Preference Score v2 (HPDv2) 테스트 세트와 PartiPrompts Arena를 활용하여 데이터를 단일 데이터셋으로 통합했습니다.

최신 모델의 경우, HPDv2와 중복되지 않도록 COCO의 훈련 및 검증 세트에서 1,000개의 프롬프트를 사용했으며, Arena Leaderboard의 9개 모델을 사용하여 이미지를 생성했습니다. cFreD는 여러 통계 및 학습된 메트릭과 비교하여 인간 판단과 강한 정렬을 보여주었습니다.

*HPDv2 테스트 세트에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

cFreD는 0.97의 상관관계와 91.1%의 순위 정확도를 달성하여 인간 선호도와 가장 높은 정렬을 보였으며, 인간 선호도 데이터로 훈련된 메트릭을 포함한 다른 메트릭을 능가했습니다.

*PartiPrompt에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

PartiPrompts Arena에서 cFreD는 0.73으로 인간 평가와 가장 높은 상관관계를 보였으며, FID와 FDDINOv2가 그 뒤를 이었습니다. 하지만 인간 선호도로 훈련된 HPSv2는 0.83으로 가장 강한 정렬을 보였습니다.

*COCO 프롬프트에서 무작위로 샘플링된 모델 순위로, 자동 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용. 순위 정확도가 0.5 미만이면 일치하지 않는 쌍이 일치하는 쌍보다 많음을 나타내며, 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

COCO 데이터셋 평가에서 cFreD는 0.33의 상관관계와 66.67%의 순위 정확도를 달성하여 인간 선호도와의 정렬에서 세 번째를 차지했으며, 인간 데이터로 훈련된 메트릭에 이어졌습니다.

*COCO 데이터셋에서 각 이미지 백본의 순위가 실제 인간 유도 순위와 얼마나 자주 일치했는지를 보여주는 승률.*

저자들은 또한 Inception V3를 테스트했으며, DINOv2-L/14와 ViT-L/16과 같은 트랜스포머 기반 백본이 인간 순위와 더 일관되게 정렬되어 이를 능가함을 발견했습니다.

결론

인간 참여 솔루션이 메트릭과 손실 함수를 개발하는 데 최적의 접근 방식으로 남아 있지만, 업데이트의 규모와 빈도로 인해 실용적이지 않습니다. cFreD의 신뢰성은 인간 판단과의 간접적인 정렬에 달려 있습니다. 메트릭의 정당성은 인간 선호도 데이터에 의존하며, 이러한 벤치마크 없이는 인간과 유사한 평가라는 주장은 증명할 수 없습니다.

생성 출력의 '사실성'에 대한 현재 기준을 메트릭 함수에 고정하는 것은, 새로운 생성 AI 시스템의 물결에 의해 주도되는 사실성에 대한 우리의 이해가 진화하는 특성을 고려할 때 장기적으로 실수가 될 수 있습니다.

*이 시점에서 보통 최근 학술 제출물에서 예시적인 비디오 예제를 포함하겠지만, 이는 비열한 행동일 것입니다 – Arxiv의 생성 AI 출력을 10-15분 이상 탐색한 사람은 이미 주관적으로 품질이 낮은 보충 비디오를 접했을 것이며, 이는 관련 제출물이 획기적인 논문으로 환영받지 않을 것임을 나타냅니다.*

*실험에는 총 46개의 이미지 백본 모델이 사용되었으며, 그래프 결과에는 모두 고려되지 않았습니다. 전체 목록은 논문의 부록을 참조하세요; 표와 그림에 포함된 것들은 나열되었습니다.*

최초 게시일: 2025년 4월 1일 화요일

관련 기사

CapCut으로 AI 사진 편집 마스터하기: 전문가 가이드 및 팁 동영상 편집의 강자로 잘 알려진 CapCut은 놀랍도록 강력한 AI 기반 사진 편집 기능도 제공합니다. 이 포괄적인 튜토리얼에서는 CapCut의 지능형 도구를 활용하여 전문가 수준의 사진 향상, 원활한 배경 교체 및 창의적인 변형을 실행하는 방법을 기술적인 전문 지식 없이도 보여줍니다. 일반 스마트폰 사진작가든 야심찬 콘텐츠 크리에이터든, 이러한 AI 기반

엔비디아, 2분기 매출의 39%를 견인한 두 주요 고객사 보고 엔비디아의 매출 집중도는 AI 붐에 대한 의존도를 강조합니다.이 칩 제조업체의 최근 SEC 제출 자료에 따르면, 익명의 고객사 두 곳이 Nvidia의 2분기 매출 467억 달러 중 39%를 차지했으며, 이는 급증하는 AI 인프라 수요에 힘입어 연간 56% 증가한 수치로 고객 집중도가 엄청나게 높은 것으로 나타났습니다.규제 문서에 따르면단일 고객("고객 A"

AI 사업 계획서 생성기: 빠른 성공 전략 수립 인공지능 솔루션이 몇 분 만에 전문가 수준의 전략 문서를 제공하는 오늘날의 기업가들은 사업 계획서를 작성하는 데 몇 주를 소비할 여유가 없습니다. 데이터를 분석하고 기회를 파악하며 기존 방식보다 빠르게 실행 가능한 계획을 생성하는 지능형 플랫폼으로 비즈니스 계획 환경이 극적으로 변화하고 있습니다. 이 가이드에서는 인공지능이 어떻게 전문적인 비즈니스 전략 개

의견 (6)

0/200

제출하다

RalphMartínez

2025년 7월 22일 오전 10시 25분 3초 GMT+09:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith

2025년 4월 25일 오전 11시 29분 53초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia

2025년 4월 23일 오후 8시 9분 1초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing

2025년 4월 22일 오후 6시 56분 13초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez

2025년 4월 22일 오후 5시 55분 54초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez

2025년 4월 20일 오전 11시 22분 28초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ！😊

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다. AI 보이스 클로닝: 음성 변환 마스터 가이드

더