옵션
소식
AI는 향상된 비디오 비평을 제공하는 법을 배웁니다

AI는 향상된 비디오 비평을 제공하는 법을 배웁니다

2025년 4월 19일
55

AI 연구에서 비디오 컨텐츠를 평가하는 과제

컴퓨터 비전 문헌의 세계로 뛰어들 때, LVLM (Large Vision-Language Models)은 복잡한 제출을 해석하는 데 매우 중요 할 수 있습니다. 그러나 그들은 과학 논문과 함께하는 비디오 사례 의 품질과 장점을 평가할 때 상당한 장애물을 쳤다. 설득력있는 영상은 흥분을 생성하고 연구 프로젝트에서 이루어진 주장을 검증하는 텍스트만큼 중요하기 때문에 이것은 중요한 측면입니다.

특히 비디오 합성 프로젝트는 특히 해고되지 않도록 실제 비디오 출력을 입증하는 데 크게 의존합니다. 프로젝트의 실제 성능을 진정으로 평가할 수있는 시연에서 프로젝트의 대담한 주장과 실제 기능 사이의 격차를 드러냅니다.

나는 책을 읽고 영화를 보지 못했습니다

현재 인기있는 API 기반의 대형 언어 모델 (LLM) 및 LVLM (Large Vision-Language Models)은 비디오 컨텐츠를 직접 분석 할 수 없습니다. 그들의 기능은 성적표 및 비디오와 관련된 기타 텍스트 기반 자료를 분석하는 것으로 제한됩니다. 이 제한은 이러한 모델이 비디오 컨텐츠를 직접 분석하도록 요청받을 때 분명합니다.

GPT-4O, Google Gemini 및 Perplexity의 다양한 반대 의견은 성적표 나 다른 텍스트 기반 소스에 의존하지 않고 비디오를 직접 분석하도록 요청했을 때. *성적 증명서 나 다른 텍스트 기반 소스에 의지하지 않고 비디오를 직접 분석하도록 요청할 때 GPT-4O, Google Gemini 및 당황에 대한 다양한 반대 의견.*

Chatgpt-4o와 같은 일부 모델은 비디오에 대한 주관적인 평가를 제공하려고 시도 할 수도 있지만 결국 눌렀을 때 비디오를 직접 볼 수 없다는 것을 인정합니다.

ChatGpt-4o는 새로운 연구 논문의 관련 비디오에 대한 주관적인 평가를 제공하고 실제 의견을 제시 한 후 실제로 비디오를 직접 볼 수 없다고 고백합니다. *새로운 연구 논문의 관련 비디오에 대한 주관적인 평가를 제공하고 실제 의견을 제기 한 ChatGpt-4o는 결국 비디오를 직접 볼 수 없다고 고백합니다.*.

이러한 모델은 멀티 모달이며 비디오에서 추출한 프레임과 같은 개별 사진을 분석 할 수 있지만 질적 의견을 제공하는 능력은 의문의 여지가 있습니다. LLM은 종종 진지한 비판보다는 '사람들을 기뻐하는'반응을주는 경향이 있습니다. 또한, 비디오의 많은 문제는 시간적이므로 단일 프레임을 분석하는 것이 그 점을 완전히 놓친다는 것을 의미합니다.

LLM이 비디오에서 '가치 판단'을 제공 할 수있는 유일한 방법은 Deepfake 이미지 또는 예술 기록 이해와 같은 텍스트 기반 지식을 활용하여 시각적 특성을 인간의 통찰력을 기반으로 한 학습 된 임베딩과 관련이있는 것입니다.

가짜 VLM 프로젝트는 특수 다중 모달 비전 언어 모델을 통해 대상 깊은 딥 파이크 탐지를 제공합니다. 출처 : https://arxiv.org/pdf/2503.14905 * 가짜 VLM 프로젝트는 전문화 된 다중 모달 비전-언어 모델을 통해 대상 깊은 딥 페이크 탐지를 제공합니다.* 출처 : https://arxiv.org/pdf/2503.14905

LLM은 Yolo와 같은 겸임 AI 시스템을 사용하여 비디오에서 객체를 식별 할 수 있지만 주관적인 평가는 인간의 의견을 반영하는 손실 기능 기반 메트릭없이 애매 모호합니다.

조건부 비전

손실 기능은 교육 모델에서 필수적이며, 정답에서 예측이 얼마나 멀리 떨어져 있는지 측정하고 오류를 줄이기 위해 모델을 안내합니다. 또한 사진과 같은 AI 생성 컨텐츠를 평가하는 데 사용됩니다.

인기있는 메트릭 중 하나는 FRéchet Inception 거리 (FID)로 생성 된 이미지와 실제 이미지의 분포 사이의 유사성을 측정합니다. FID는 Inception V3 네트워크를 사용하여 통계적 차이를 계산하고 점수가 낮 으면 시각적 품질과 다양성이 높아집니다.

그러나 FID는 자기 참조적이고 비교적입니다. 2021 년에 도입 된 CFD (Conditional Fréchet 거리)는 클래스 레이블 또는 입력 이미지와 같은 추가 조건과 일치하는 방법을 고려하여이를 해결합니다.

2021 CFD Outing의 예. 출처 : https://github.com/michael-soloveitchik/cfid/ * 2021 CFD Outing의 예.* 출처 : https://github.com/michael-soloveitchik/cfid/

CFD는 질적 인간 해석을 메트릭에 통합하는 것을 목표로하지만,이 접근법은 잠재적 편견, 빈번한 업데이트의 필요성 및 시간에 따른 평가의 일관성과 신뢰성에 영향을 줄 수있는 예산 제약과 같은 과제를 소개합니다.

CFRED

미국의 최근 논문은 시각적 품질 및 텍스트 이미지 정렬을 평가하여 인간 선호도를 더 잘 반영하도록 설계된 새로운 메트릭 인 CFRED (Conditional Fréchet Distower)을 소개합니다.

새 논문의 부분 결과 : 이미지 순위 (1-9)는 '소파가있는 거실과 소파에 놓인 노트북 컴퓨터'에 대한 다른 메트릭에 의한 이미지 순위 (1-9). Green은 인간 등급의 최고 모델 (Flux.1-Dev)을 강조 표시하고 Purple the Lower (SDV1.5)를 강조합니다. CFRED만이 인간의 순위와 일치합니다. 전체 결과는 소스 용지를 참조하십시오. 여기서는 여기에 재현 할 공간이 없습니다. 출처 : https://arxiv.org/pdf/2503.21721 *새 논문의 부분 결과 : "소파가있는 거실과 소파에 놓인 랩톱 컴퓨터"에 대한 다른 메트릭에 의한 이미지 순위 (1-9). Green은 인간 등급의 최고 모델 (Flux.1-Dev)을 강조 표시하고 Purple the Lower (SDV1.5)를 강조합니다. CFRED만이 인간의 순위와 일치합니다. 여기에 재현 할 공간이없는 전체 결과는 소스 용지를 참조하십시오.* 출처 : https://arxiv.org/pdf/2503.21721

저자는 Inception 점수 (IS) 및 Fid와 같은 전통적인 지표가 이미지가 프롬프트와 얼마나 잘 일치하는지 고려하지 않고 이미지 품질에만 초점을 맞추기 때문에 부족하다고 주장합니다. 그들은 CFRED가 입력 텍스트에서 이미지 품질과 컨디셔닝을 모두 캡처하여 인간 선호도와 더 높은 상관 관계를 가져 오라고 제안합니다.

이 논문의 테스트에 따르면 저자의 제안 된 지표 인 CFRED는 3 개의 벤치 마크 데이터 세트 (Partiprompts, HPDV2 및 Coco)에서 FID, FDDINOV2, Clipscore 및 CMMD보다 인간 선호도와 일관되게 더 높은 상관 관계를 얻는다는 것을 나타냅니다. *논문의 테스트에 따르면 저자의 제안 된 지표 인 CFRED는 세 가지 벤치 마크 데이터 세트 (Partiprompts, HPDV2 및 Coco)에서 FID, FDDINOV2, Clipscore 및 CMMD보다 인간 선호도와 일관되게 더 높은 상관 관계를 달성하고 있음을 나타냅니다.

개념과 방법

텍스트-이미지 모델을 평가하기위한 골드 표준은 대형 언어 모델에 사용되는 방법과 유사한 크라우드 소스 비교를 통해 수집 된 인적 선호도 데이터입니다. 그러나 이러한 방법은 비용이 많이 들고 느려져 일부 플랫폼이 업데이트를 중지 할 수 있습니다.

인공 분석 이미지 Arena Leaderboard. 출처 : https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard * 인공 분석 이미지 아레나 리더 보드 (Arena Leaderboard).

FID, Clipscore 및 CFRED와 같은 자동 지표는 미래 모델을 평가하는 데 중요합니다. CFRED는 실제 및 생성 된 이미지 모두 가우시안 분포를 따르고 프롬프트에서 예상되는 프레첸 거리를 측정하여 사실주의와 텍스트 일관성을 모두 평가한다고 가정합니다.

데이터 및 테스트

CFRED의 인간 선호도와의 상관 관계를 평가하기 위해 저자는 동일한 텍스트 프롬프트로 여러 모델의 이미지 순위를 사용했습니다. 그들은 HPDV2 (Human Preference Score V2) 테스트 세트와 Partiprompts Arena를 사용하여 데이터를 단일 데이터 세트로 통합했습니다.

최신 모델의 경우 Coco의 기차 및 검증 세트에서 1,000 개의 프롬프트를 사용하여 HPDV2와 겹치지 않으며 Arena Leaderboard의 9 가지 모델을 사용하여 이미지를 생성했습니다. CFRED는 몇 가지 통계 및 배운 지표에 대해 평가되었으며 인간의 판단과 강력한 정렬을 보여주었습니다.

통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학적 점수, Imageerward, HPSV2 및 MP)을 사용하여 HPDV2 테스트 세트의 모델 순위 및 점수. 최상의 결과는 굵게 표시되며 두 번째 최고는 밑줄이 표시됩니다. *통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미적 점수, ImageREWARD, HPSV2 및 MPS)을 사용하여 HPDV2 테스트 세트의 모델 순위 및 점수. 최상의 결과는 굵게 표시되고 두 번째 최고는 밑줄이 표시됩니다.*

CFRED는 인간 선호도와 가장 높은 정렬을 달성하여 0.97의 상관 관계와 91.1%의 순위 정확도에 도달했습니다. 인적 선호도 데이터에 대해 훈련 된 것들을 포함하여 다른 모델에서 신뢰성을 보여주는 다른 지표를 포함하여 다른 메트릭을 능가했습니다.

통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인적 선호도 훈련 메트릭 (미학 점수, Imagereward 및 MP)을 사용하여 Partiprompt의 모델 순위 및 점수. 최상의 결과는 대담하고, 두 번째 최고는 밑줄이 그어져 있습니다. *통계 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학 점수, Imagereward 및 MP)을 사용하여 Partiprompt의 모델 순위 및 점수. 최상의 결과는 대담하고, 두 번째 최고는 밑줄이 그어져 있습니다.*

Partiprompts Arena에서 CFRED는 0.73의 인간 평가와 가장 높은 상관 관계를 보여 주었고, FID 및 FDDINOV2가 밀접하게 나타났습니다. 그러나, 인간 선호도에 대해 훈련 된 HPSV2는 0.83에서 가장 강력한 정렬을 가졌다.

자동 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학 점수, Imagereward, HPSV2 및 MP)을 사용하여 무작위로 샘플링 된 Coco 프롬프트에 대한 모델 순위. 0.5 미만의 순위 정확도는 일치하는 쌍보다 불일치를 나타내며, 최상의 결과는 굵게 표시되고 두 번째 최고는 밑줄이 그어져 있습니다. *자동 메트릭 (FID, FDDINOV2, CLIPSCORE, CMMD 및 CFRED) 및 인간 선호도 훈련 메트릭 (미학 점수, Imageerward, HPSV2 및 MP)을 사용하여 무작위로 샘플링 된 Coco 프롬프트의 모델 순위. 0.5 미만의 순위 정확도는 일치하는 쌍보다 더 불일치하고 최상의 결과는 굵게 표시되고 두 번째 최고는 밑줄이 그어져 있습니다.*.

Coco 데이터 세트 평가에서 CFRED는 0.33의 상관 관계와 66.67%의 순위 정확도를 달성했으며, 인적 선호도와의 정렬에서 3 위를 차지했으며, 인간 데이터에 대해 훈련 된 메트릭 만 배후에 있습니다.

각 이미지 백본의 순위가 Coco 데이터 세트의 진정한 인간 유래 순위와 얼마나 자주 일치하는지를 보여주는 승리 요율. *각 이미지 백본의 순위가 Coco 데이터 세트의 진정한 인간 유래 순위와 얼마나 자주 일치하는지를 보여주는 승리 요율.*

저자는 또한 Inception V3을 테스트 한 후 DINOV2-L/14 및 VIT-L/16과 같은 변압기 기반의 백본에 의해 유출되는 것으로 나타 났으며, 이는 인간 순위와 일관되게 더 잘 정렬되었습니다.

결론

인간-루프 솔루션은 메트릭 및 손실 기능을 개발하기위한 최적의 접근 방식으로 남아 있지만 업데이트의 규모와 빈도는 비현실적입니다. CFRED의 신뢰성은 간접적이지만 인간의 판단과 일치하는 데 달려 있습니다. 이러한 벤치 마크가 없으면 인간과 같은 평가에 대한 주장은 예측할 수 없을 때,이 메트릭의 정당성은 인적 선호도 데이터에 의존합니다.

메트릭 함수로 생성 출력에서 ​​'현실주의'에 대한 현재 기준을 제시하는 것은 새로운 생성 AI 시스템의 새로운 물결에 의해 주도되는 현실주의에 대한 우리의 이해의 진화하는 특성을 고려할 때 장기적인 실수 일 수 있습니다.

*이 시점에서 나는 일반적으로 최근의 학문적 제출에서 모범적 인 예시적인 비디오 예를 포함시킬 것이다. 그러나 그것은 의미가있을 것입니다-Arxiv의 생성 AI 출력을 트롤링하는 10-15 분 이상을 트롤링하는 사람은 이미 주관적으로 열악한 품질이 랜드 마크 논문으로 환영받지 않을 것임을 나타내는 보충 비디오를 이미 발견했을 것입니다.*.

*실험에 총 46 개의 이미지 백본 모델이 사용되었으며, 모든 것이 그래프 결과에서 고려되는 것은 아닙니다. 전체 목록은 논문의 부록을 참조하십시오. 테이블과 인물에 등장한 사람들이 나열되었습니다.*

2025 년 4 월 1 일 화요일에 처음 출판되었습니다

관련 기사
의료 자문에서의 AI: 의료 혁신 의료 자문에서의 AI: 의료 혁신 인공지능은 의료 환경을 빠르게 변화시키고 있으며, 그 이유를 이해하기 어렵지 않다. 기술 발전의 속도는 이전에는 불가능하다고 여겨졌던 가능성을 열었다. 이 기사는 의료 자문에서 AI의 혁신적 잠재력을 탐구하며, 환자 치료를 개선하면서 윤리적 딜레마와 실제적 도전 과제를 다룬다. AI가 의료 시스템에 원활히 통합되는 방식을 이해함으로써 더 나은, 더 효율적인
Aulani, Disney's Resort & Spa: 가족을 위한 궁극의 하와이 휴양지 Aulani, Disney's Resort & Spa: 가족을 위한 궁극의 하와이 휴양지 Aulani 발견: 디즈니의 매력을 더한 하와이 낙원디즈니의 마법과 하와이의 멋진 아름다움이 결합된 가족 휴가를 꿈꾸고 있나요? 오아후 코 올리나에 위치한 Aulani, Disney Resort & Spa를 만나보세요. 이곳은 전형적인 디즈니 목적지가 아닙니다. 휴식, 문화 몰입, 그리고 디즈니의 매력이 하와이 낙원에 완벽히 어우러진 독특한 장소입니다. A
Airbnb가 미국에서 조용히 AI 고객 서비스 봇을 출시하다 Airbnb가 미국에서 조용히 AI 고객 서비스 봇을 출시하다 Airbnb가 AI 기반 고객 서비스를 새로운 차원으로 끌어올리다지난 달, Airbnb의 1분기 실적 발표에서 CEO 브라이언 체스키는 미국에서 AI 기반 고객 서비스 봇을 출시하기 시작했다고 밝혔다. 작년에 Airbnb가 이 기술을 특정 문의에 대해 테스트하고 있다고 밝힌 이후로 많은 발전이 있었다. 오늘날 체스키는 미국 내 Airbnb 사용자 50%가
의견 (5)
0/200
GaryGarcia
GaryGarcia 2025년 4월 23일 오전 12시 0분 0초 GMT

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 2025년 4월 20일 오전 12시 0분 0초 GMT

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 2025년 4월 25일 오전 12시 0분 0초 GMT

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 2025년 4월 22일 오전 12시 0분 0초 GMT

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 2025년 4월 22일 오전 12시 0분 0초 GMT

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

위로 돌아갑니다
OR