옵션
뉴스
AI는 향상된 비디오 비평을 제공하는 법을 배웁니다

AI는 향상된 비디오 비평을 제공하는 법을 배웁니다

2025년 4월 19일
141

AI 연구에서 비디오 콘텐츠 평가의 도전 과제

컴퓨터 비전 문헌의 세계에 뛰어들 때, 대형 비전-언어 모델(LVLMs)은 복잡한 제출물을 해석하는 데 매우 유용할 수 있습니다. 하지만 과학 논문과 함께 제공되는 비디오 예시의 품질과 장점을 평가하는 데 있어 상당한 장애물에 부딪힙니다. 이는 설득력 있는 시각 자료가 연구 프로젝트에서 주장된 내용을 검증하고 흥미를 불러일으키는 데 텍스트만큼 중요하기 때문에 중요한 측면입니다.

특히 비디오 합성 프로젝트는 무시당하지 않기 위해 실제 비디오 출력을 보여주는 데 크게 의존합니다. 이러한 시연에서 프로젝트의 실제 성능을 진정으로 평가할 수 있으며, 종종 프로젝트의 대담한 주장과 실제 능력 사이의 간극을 드러냅니다.

책은 읽었지만 영화는 보지 못했다

현재 인기 있는 API 기반 대형 언어 모델(LLMs)과 대형 비전-언어 모델(LVLMs)은 비디오 콘텐츠를 직접 분석할 수 있는 능력이 없습니다. 이들의 능력은 비디오와 관련된 대본 및 기타 텍스트 기반 자료를 분석하는 데 국한됩니다. 이러한 한계는 이 모델들에게 비디오 콘텐츠를 직접 분석하도록 요청했을 때 명백해집니다.

GPT-4o, Google Gemini, Perplexity가 대본이나 기타 텍스트 기반 소스 없이 비디오를 직접 분석하도록 요청받았을 때의 다양한 반대 의견들.*GPT-4o, Google Gemini, Perplexity가 대본이나 기타 텍스트 기반 소스 없이 비디오를 직접 분석하도록 요청받았을 때의 다양한 반대 의견들.*

ChatGPT-4o와 같은 일부 모델은 비디오에 대한 주관적인 평가를 시도할 수 있지만, 결국 비디오를 직접 볼 수 없다는 점을 인정합니다.

새로운 연구 논문과 관련된 비디오에 대한 주관적인 평가를 제공하라는 요청을 받고, 실제 의견을 위장한 후, ChatGPT-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*새로운 연구 논문과 관련된 비디오에 대한 주관적인 평가를 제공하라는 요청을 받고, 실제 의견을 위장한 후, ChatGPT-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*

이러한 모델들은 다중 모달을 지원하며 비디오에서 추출한 단일 프레임과 같은 개별 사진을 분석할 수 있지만, 질적 의견을 제공하는 능력은 의문의 여지가 있습니다. LLMs는 종종 진솔한 비판보다는 '사람을 기쁘게 하는' 응답을 제공하는 경향이 있습니다. 게다가 비디오의 많은 문제는 시간적 특성을 가지므로, 단일 프레임을 분석하는 것은 전혀 요점을 벗어납니다.

LLM이 비디오에 대해 '가치 판단'을 제공할 수 있는 유일한 방법은 딥페이크 이미지나 예술 역사와 같은 텍스트 기반 지식을 활용하여 인간의 통찰을 기반으로 학습된 임베딩과 시각적 품질을 연관 짓는 것입니다.

FakeVLM 프로젝트는 특화된 다중 모달 비전-언어 모델을 통해 표적화된 딥페이크 탐지를 제공합니다. 출처: https://arxiv.org/pdf/2503.14905*FakeVLM 프로젝트는 특화된 다중 모달 비전-언어 모델을 통해 표적화된 딥페이크 탐지를 제공합니다.* 출처: https://arxiv.org/pdf/2503.14905

LLM은 YOLO와 같은 보조 AI 시스템의 도움으로 비디오에서 객체를 식별할 수 있지만, 인간의 의견을 반영하는 손실 함수 기반 메트릭 없이 주관적인 평가는 여전히 어려운 과제입니다.

조건부 비전

손실 함수는 모델을 훈련시키는 데 필수적이며, 예측이 정답에서 얼마나 벗어났는지를 측정하고 오류를 줄이도록 모델을 안내합니다. 또한 포토리얼리스틱 비디오와 같은 AI 생성 콘텐츠를 평가하는 데 사용됩니다.

인기 있는 메트릭 중 하나는 생성된 이미지와 실제 이미지의 분포 간 유사성을 측정하는 Fréchet Inception Distance (FID)입니다. FID는 Inception v3 네트워크를 사용하여 통계적 차이를 계산하며, 낮은 점수는 높은 시각적 품질과 다양성을 나타냅니다.

하지만 FID는 자기 참조적이고 비교적입니다. 2021년에 도입된 Conditional Fréchet Distance (CFD)는 클래스 레이블이나 입력 이미지와 같은 추가 조건과 생성된 이미지가 얼마나 잘 일치하는지를 고려하여 이를 해결합니다.

2021년 CFD 결과 예시. 출처: https://github.com/Michael-Soloveitchik/CFID/*2021년 CFD 결과 예시.* 출처: https://github.com/Michael-Soloveitchik/CFID/

CFD는 질적 인간 해석을 메트릭에 통합하려 하지만, 잠재적 편향, 빈번한 업데이트 필요, 그리고 시간이 지남에 따라 평가의 일관성과 신뢰성에 영향을 미칠 수 있는 예산 제약과 같은 도전 과제를 소개합니다.

cFreD

미국에서 발표된 최근 논문은 시각적 품질과 텍스트-이미지 정렬을 모두 평가하여 인간의 선호도를 더 잘 반영하도록 설계된 새로운 메트릭인 Conditional Fréchet Distance (cFreD)를 소개합니다.

새로운 논문의 부분 결과: '소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실'이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요. 출처: https://arxiv.org/pdf/2503.21721*새로운 논문의 부분 결과: "소파와 소파 위에 놓인 노트북 컴퓨터가 있는 거실"이라는 프롬프트에 대한 다양한 메트릭별 이미지 순위(1–9). 초록색은 인간이 가장 높게 평가한 모델(FLUX.1-dev)을, 보라색은 가장 낮게 평가한 모델(SDv1.5)을 강조합니다. cFreD만 인간 순위와 일치합니다. 전체 결과는 공간상 여기 재현할 수 없으므로 출처 논문을 참조하세요.* 출처: https://arxiv.org/pdf/2503.21721

저자들은 Inception Score (IS)나 FID와 같은 전통적인 메트릭은 이미지 품질에만 초점을 맞추고 프롬프트와의 일치도를 고려하지 않기 때문에 부족하다고 주장합니다. 그들은 cFreD가 이미지 품질과 입력 텍스트에 대한 조건부를 모두 포착하여 인간의 선호도와 더 높은 상관관계를 가진다고 제안합니다.

논문의 테스트는 저자들이 제안한 메트릭 cFreD가 PartiPrompts, HPDv2, COCO의 세 가지 벤치마크 데이터셋에서 FID, FDDINOv2, CLIPScore, CMMD보다 지속적으로 인간의 선호도와 더 높은 상관관계를 달성했음을 보여줍니다.*논문의 테스트는 저자들이 제안한 메트릭 cFreD가 PartiPrompts, HPDv2, COCO의 세 가지 벤치마크 데이터셋에서 FID, FDDINOv2, CLIPScore, CMMD보다 지속적으로 인간의 선호도와 더 높은 상관관계를 달성했음을 보여줍니다.*

개념과 방법

텍스트-이미지 모델을 평가하는 금본위제는 대형 언어 모델에 사용된 방법과 유사한 크라우드소싱 비교를 통해 수집된 인간 선호도 데이터입니다. 하지만 이러한 방법은 비용이 많이 들고 느리기 때문에 일부 플랫폼은 업데이트를 중단했습니다.

Artificial Analysis Image Arena Leaderboard는 생성적 비주얼 AI의 현재 추정 선두를 순위 매깁니다. 출처: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*Artificial Analysis Image Arena Leaderboard는 생성적 비주얼 AI의 현재 추정 선두를 순위 매깁니다.* 출처: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

FID, CLIPScore, cFreD와 같은 자동화된 메트릭은 인간의 선호도가 진화함에 따라 미래 모델을 평가하는 데 중요합니다. cFreD는 실제 이미지와 생성된 이미지가 모두 가우시안 분포를 따른다고 가정하고 프롬프트에 걸친 예상 Fréchet 거리를 측정하여 사실성과 텍스트 일관성을 모두 평가합니다.

데이터와 테스트

cFreD의 인간 선호도와의 상관관계를 평가하기 위해 저자들은 동일한 텍스트 프롬프트로 여러 모델에서 이미지 순위를 사용했습니다. 그들은 Human Preference Score v2 (HPDv2) 테스트 세트와 PartiPrompts Arena를 활용하여 데이터를 단일 데이터셋으로 통합했습니다.

최신 모델의 경우, HPDv2와 중복되지 않도록 COCO의 훈련 및 검증 세트에서 1,000개의 프롬프트를 사용했으며, Arena Leaderboard의 9개 모델을 사용하여 이미지를 생성했습니다. cFreD는 여러 통계 및 학습된 메트릭과 비교하여 인간 판단과 강한 정렬을 보여주었습니다.

HPDv2 테스트 세트에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*HPDv2 테스트 세트에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

cFreD는 0.97의 상관관계와 91.1%의 순위 정확도를 달성하여 인간 선호도와 가장 높은 정렬을 보였으며, 인간 선호도 데이터로 훈련된 메트릭을 포함한 다른 메트릭을 능가했습니다.

PartiPrompt에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*PartiPrompt에서 통계 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, MPS)을 사용한 모델 순위 및 점수. 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

PartiPrompts Arena에서 cFreD는 0.73으로 인간 평가와 가장 높은 상관관계를 보였으며, FID와 FDDINOv2가 그 뒤를 이었습니다. 하지만 인간 선호도로 훈련된 HPSv2는 0.83으로 가장 강한 정렬을 보였습니다.

COCO 프롬프트에서 무작위로 샘플링된 모델 순위로, 자동 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용. 순위 정확도가 0.5 미만이면 일치하지 않는 쌍이 일치하는 쌍보다 많음을 나타내며, 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*COCO 프롬프트에서 무작위로 샘플링된 모델 순위로, 자동 메트릭(FID, FDDINOv2, CLIPScore, CMMD, cFreD)과 인간 선호도 훈련 메트릭(Aesthetic Score, ImageReward, HPSv2, MPS)을 사용. 순위 정확도가 0.5 미만이면 일치하지 않는 쌍이 일치하는 쌍보다 많음을 나타내며, 최상의 결과는 굵은 글씨로, 두 번째로 좋은 결과는 밑줄로 표시됩니다.*

COCO 데이터셋 평가에서 cFreD는 0.33의 상관관계와 66.67%의 순위 정확도를 달성하여 인간 선호도와의 정렬에서 세 번째를 차지했으며, 인간 데이터로 훈련된 메트릭에 이어졌습니다.

COCO 데이터셋에서 각 이미지 백본의 순위가 실제 인간 유도 순위와 얼마나 자주 일치했는지를 보여주는 승률.*COCO 데이터셋에서 각 이미지 백본의 순위가 실제 인간 유도 순위와 얼마나 자주 일치했는지를 보여주는 승률.*

저자들은 또한 Inception V3를 테스트했으며, DINOv2-L/14와 ViT-L/16과 같은 트랜스포머 기반 백본이 인간 순위와 더 일관되게 정렬되어 이를 능가함을 발견했습니다.

결론

인간 참여 솔루션이 메트릭과 손실 함수를 개발하는 데 최적의 접근 방식으로 남아 있지만, 업데이트의 규모와 빈도로 인해 실용적이지 않습니다. cFreD의 신뢰성은 인간 판단과의 간접적인 정렬에 달려 있습니다. 메트릭의 정당성은 인간 선호도 데이터에 의존하며, 이러한 벤치마크 없이는 인간과 유사한 평가라는 주장은 증명할 수 없습니다.

생성 출력의 '사실성'에 대한 현재 기준을 메트릭 함수에 고정하는 것은, 새로운 생성 AI 시스템의 물결에 의해 주도되는 사실성에 대한 우리의 이해가 진화하는 특성을 고려할 때 장기적으로 실수가 될 수 있습니다.

*이 시점에서 보통 최근 학술 제출물에서 예시적인 비디오 예제를 포함하겠지만, 이는 비열한 행동일 것입니다 – Arxiv의 생성 AI 출력을 10-15분 이상 탐색한 사람은 이미 주관적으로 품질이 낮은 보충 비디오를 접했을 것이며, 이는 관련 제출물이 획기적인 논문으로 환영받지 않을 것임을 나타냅니다.*

*실험에는 총 46개의 이미지 백본 모델이 사용되었으며, 그래프 결과에는 모두 고려되지 않았습니다. 전체 목록은 논문의 부록을 참조하세요; 표와 그림에 포함된 것들은 나열되었습니다.*

최초 게시일: 2025년 4월 1일 화요일

관련 기사
신형 로웨 i6, 65만 9천 위안 가격으로 출시… 스냅드래곤 8155 및 두바오 대형 모델 탑재 신형 로웨 i6, 65만 9천 위안 가격으로 출시… 스냅드래곤 8155 및 두바오 대형 모델 탑재 SAIC Roewe는 오늘 Roewe D7의 디자인 언어를 전면적으로 반영한 소형 세단인 신형 Roewe i6를 출시했다. 전면부를 가로지르는 독특한 대형 수직 그릴과 수평형 헤일로 라이트 바는 강력한 기술적 감각과 시각적 폭감을 선사한다. 후면부에는 위로 솟은 덕테일 스포일러가 전면 폭을 가득 채우는 테일라이트와 조화를 이루어 차량 전체에 더욱 젊은 느낌
자산, 건물, 그리고 건강을 어떻게 보호할 수 있을까요? 자산, 건물, 그리고 건강을 어떻게 보호할 수 있을까요? 예측할 수 없는 세상에서 ‘보호’는 단순한 선택지가 아닌 전략적 필수 요소가 되었습니다. 재정을 지키든, 건물을 보강하든, 아니면 개인의 건강에 신경 쓰든, 장기적인 안정은 선제적인 계획에 달려 있습니다. 진정한 안전은 다층적으로 구축되며, 재정 관리, 구조적 복원력, 그리고 정보에 입각한 건강 관리가 서로 조화를 이루어야 비로소 실현됩니다.가장 소중한 것
AI 브라우저 ‘코멧(Comet)’, 아이패드에서 완벽한 멀티태스킹 지원 기능으로 출시 AI 브라우저 ‘코멧(Comet)’, 아이패드에서 완벽한 멀티태스킹 지원 기능으로 출시 퍼플렉시티(Perplexity)의 AI 브라우저 ‘코멧(Comet)’이 iPadOS와 완벽하게 호환되는 iPad 버전을 정식 출시했습니다. 이번 업데이트를 통해 멀티 윈도우 브라우징과 멀티태스킹 지원 기능이 추가되었으며, OpenAI 및 Anthropic과 같은 주요 AI 모델과의 긴밀한 연동을 통해 더욱 지능적인 웹 경험을 제공합니다.코멧 브라우저는 사용
관련 특별 주제 추천
사업 최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정
최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정

XIX.AI에서 2026년 최고의 AI 가격 최적화 소프트웨어를 만나보세요. 저희가 엄선한 이 목록에는 경쟁사를 추적하고 최대 수익을 위해 매장 가격을 자동으로 조정해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트 결과를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 가격 경쟁력의 우위를 확보하세요.

10 도구
xix.ai
암호 최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링
최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링

XIX.AI에서 2026년 최고의 AI 코드 검토 도구를 만나보세요. 엄선된 이 목록에는 깔끔한 코드 준수 여부를 자동으로 확인하고 레거시 리포지토리 파일을 리팩토링하는 데 있어 판도를 바꿀 만한 최고 등급의 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI의 경쟁력을 확보하세요.

10 도구
xix.ai
텍스트 음성 변환 난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상
난독증 환자를 위한 최고의 AI 음성 합성 앱: 학생들의 학습 및 독서 효율성 향상

난독증 지원을 위해 엄선된 2026년 최신 최고 평점 AI TTS 앱을 만나보세요. 전문가들이 선정한 이 순위는 무료 및 유료 도구를 비교 분석하여, 읽기 효율과 학습 효과를 높여주는 강력한 기능들을 소개합니다. 학생들의 잠재력을 최대한 발휘할 수 있도록 도와줄, 꼭 사용해봐야 할 혁신적인 솔루션을 확인해 보세요. XIX.AI에서 여정을 시작해 보세요.

10 도구
xix.ai
만화 창작 소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기
소년 만화를 위한 최고의 AI 생성기: 박진감 넘치는 액션 장면과 에너지 효과 만들기

XIX.AI에서 2026년 최고의 소년 만화 AI 생성기를 만나보세요. 엄선된 최고 평점 목록에는 박진감 넘치는 액션 장면과 역동적인 에너지 효과를 연출할 수 있는 강력한 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 여러분의 창의력을 마음껏 발휘하여 오늘 바로 장대한 만화를 만들어 보세요!

15 도구
xix.ai
사업 최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요
최고의 AI 경비 관리 앱: 영수증을 스캔하고 기업 경비를 자동으로 분류하세요

2026년 최신 최고의 AI 경비 관리 도구: 영수증을 스캔하고 기업 경비를 자동으로 분류해 주는 최고 평점의 도구들. 손쉬운 경비 관리, 정확한 재무 추적, 효율적인 규정 준수를 위한 강력하고 혁신적인 솔루션을 만나보세요. 무료 및 유료 옵션을 엄선하여 매주 업데이트되는 비교 자료를 통해 귀사에 딱 맞는 도구를 찾으실 수 있습니다. XIX.AI의 전문가 추천 목록으로 AI의 장점을 최대한 활용하세요.

10 도구
xix.ai
사업 최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화
최고의 AI 채용 도구: 이력서 심사 및 후보자 면접 일정 자동화

XIX.AI에서 2026년 최신 최고 평점을 받은 AI 채용 도구를 확인해 보세요. 저희가 엄선한 이 목록에는 이력서 심사 및 후보자 면접 일정 자동화를 위한 강력하고 혁신적인 솔루션이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 바탕으로 무료 및 유료 옵션을 비교해 보세요. 지금 바로 귀사에 딱 맞는 채용 도우미를 찾아 채용 프로세스를 효율화하세요!

10 도구
xix.ai
의견 (6)
0/500
RalphMartínez
RalphMartínez 2025년 7월 22일 오전 10시 25분 3초 GMT+09:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 2025년 4월 25일 오전 11시 29분 53초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 2025년 4월 23일 오후 8시 9분 1초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 2025년 4월 22일 오후 6시 56분 13초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025년 4월 22일 오후 5시 55분 54초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 2025년 4월 20일 오전 11시 22분 28초 GMT+09:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

OR