AI học cách cung cấp các bài phê bình video nâng cao
Thách thức trong việc đánh giá nội dung video trong nghiên cứu AI
Khi đi sâu vào thế giới của tài liệu về thị giác máy tính, các Mô hình Ngôn ngữ-Tầm nhìn Lớn (LVLMs) có thể rất giá trị trong việc diễn giải các bài nộp phức tạp. Tuy nhiên, chúng gặp phải một trở ngại lớn khi phải đánh giá chất lượng và giá trị của các ví dụ video đi kèm với các bài báo khoa học. Đây là một khía cạnh quan trọng vì hình ảnh hấp dẫn cũng quan trọng không kém gì văn bản trong việc tạo ra sự phấn khích và xác thực các tuyên bố trong các dự án nghiên cứu.
Các dự án tổng hợp video, đặc biệt, phụ thuộc nhiều vào việc thể hiện kết quả video thực tế để tránh bị bác bỏ. Chính trong những màn trình diễn này, hiệu suất thực tế của một dự án có thể được đánh giá thực sự, thường cho thấy khoảng cách giữa những tuyên bố táo bạo của dự án và khả năng thực tế của nó.
Tôi đã đọc sách, nhưng chưa xem phim
Hiện tại, các Mô hình Ngôn ngữ Lớn (LLMs) và Mô hình Ngôn ngữ-Tầm nhìn Lớn (LVLMs) dựa trên API phổ biến không được trang bị để phân tích nội dung video trực tiếp. Khả năng của chúng bị giới hạn ở việc phân tích các bản ghi và các tài liệu dựa trên văn bản khác liên quan đến video. Hạn chế này trở nên rõ ràng khi các mô hình này được yêu cầu phân tích trực tiếp nội dung video.
*Những phản đối đa dạng của GPT-4o, Google Gemini và Perplexity, khi được yêu cầu phân tích trực tiếp video, mà không dựa vào bản ghi hoặc các nguồn dựa trên văn bản khác.*
Một số mô hình, như ChatGPT-4o, thậm chí có thể cố gắng đưa ra đánh giá chủ quan về một video nhưng cuối cùng sẽ thừa nhận rằng chúng không thể xem video trực tiếp khi bị ép hỏi.
*Khi được yêu cầu đưa ra đánh giá chủ quan về các video liên quan đến một bài báo nghiên cứu mới, và đã giả mạo một ý kiến thực sự, ChatGPT-4o cuối cùng thú nhận rằng nó không thể thực sự xem video trực tiếp.*
Mặc dù các mô hình này là đa phương thức và có thể phân tích các bức ảnh riêng lẻ, chẳng hạn như một khung hình được trích xuất từ video, nhưng khả năng đưa ra ý kiến định tính của chúng là đáng nghi ngờ. Các LLM thường có xu hướng đưa ra các phản hồi "lòng người hài lòng" thay vì những lời phê bình chân thành. Hơn nữa, nhiều vấn đề trong video là mang tính thời gian, nghĩa là việc phân tích một khung hình duy nhất hoàn toàn bỏ qua ý nghĩa chính.
Cách duy nhất mà một LLM có thể đưa ra "phán xét giá trị" về một video là bằng cách tận dụng kiến thức dựa trên văn bản, chẳng hạn như hiểu biết về hình ảnh deepfake hoặc lịch sử nghệ thuật, để liên kết các đặc điểm hình ảnh với các nhúng đã học dựa trên những hiểu biết của con người.
*Dự án FakeVLM cung cấp khả năng phát hiện deepfake chuyên biệt thông qua một mô hình ngôn ngữ-tầm nhìn đa phương thức chuyên dụng.* Nguồn: https://arxiv.org/pdf/2503.14905
Mặc dù một LLM có thể nhận diện các đối tượng trong video với sự trợ giúp của các hệ thống AI phụ trợ như YOLO, nhưng việc đánh giá chủ quan vẫn khó nắm bắt nếu không có một chỉ số dựa trên hàm mất mát phản ánh ý kiến của con người.
Tầm nhìn có điều kiện
Các hàm mất mát là cần thiết trong việc huấn luyện các mô hình, đo lường khoảng cách giữa dự đoán và câu trả lời đúng, đồng thời hướng dẫn mô hình giảm thiểu sai số. Chúng cũng được sử dụng để đánh giá nội dung do AI tạo ra, chẳng hạn như các video có tính chân thực.
Một chỉ số phổ biến là Khoảng cách Fréchet Inception (FID), đo lường sự tương đồng giữa phân phối của các hình ảnh được tạo ra và hình ảnh thực tế. FID sử dụng mạng Inception v3 để tính toán sự khác biệt thống kê, và điểm số thấp hơn cho thấy chất lượng hình ảnh và độ đa dạng cao hơn.
Tuy nhiên, FID mang tính tự tham chiếu và so sánh. Khoảng cách Fréchet Có điều kiện (CFD) được giới thiệu vào năm 2021 giải quyết vấn đề này bằng cách xem xét thêm mức độ phù hợp của các hình ảnh được tạo ra với các điều kiện bổ sung, như nhãn lớp hoặc hình ảnh đầu vào.
*Ví dụ từ sự kiện CFD năm 2021.* Nguồn: https://github.com/Michael-Soloveitchik/CFID/
CFD nhằm tích hợp sự diễn giải định tính của con người vào các chỉ số, nhưng cách tiếp cận này đưa ra những thách thức như khả năng thiên vị, nhu cầu cập nhật thường xuyên, và các hạn chế về ngân sách có thể ảnh hưởng đến tính nhất quán và độ tin cậy của các đánh giá theo thời gian.
cFreD
Một bài báo gần đây từ Mỹ giới thiệu Khoảng cách Fréchet Có điều kiện (cFreD), một chỉ số mới được thiết kế để phản ánh tốt hơn sở thích của con người bằng cách đánh giá cả chất lượng hình ảnh và sự căn chỉnh văn bản-hình ảnh.
*Kết quả một phần từ bài báo mới: xếp hạng hình ảnh (1–9) theo các chỉ số khác nhau cho lời nhắc "Một phòng khách với ghế sofa và một máy tính xách tay đặt trên ghế sofa." Màu xanh lá cây đánh dấu mô hình được con người đánh giá cao nhất (FLUX.1-dev), màu tím đánh dấu mô hình thấp nhất (SDv1.5). Chỉ có cFreD phù hợp với xếp hạng của con người. Vui lòng tham khảo bài báo nguồn để biết kết quả đầy đủ, mà chúng tôi không có đủ chỗ để tái hiện ở đây.* Nguồn: https://arxiv.org/pdf/2503.21721
Các tác giả lập luận rằng các chỉ số truyền thống như Inception Score (IS) và FID không đủ vì chúng chỉ tập trung vào chất lượng hình ảnh mà không xem xét mức độ phù hợp của hình ảnh với lời nhắc của chúng. Họ đề xuất rằng cFreD nắm bắt cả chất lượng hình ảnh và sự điều kiện hóa trên văn bản đầu vào, dẫn đến sự tương quan cao hơn với sở thích của con người.
*Các thử nghiệm của bài báo chỉ ra rằng chỉ số được đề xuất, cFreD, liên tục đạt được sự tương quan cao hơn với sở thích của con người so với FID, FDDINOv2, CLIPScore, và CMMD trên ba bộ dữ liệu chuẩn (PartiPrompts, HPDv2, và COCO).*
Khái niệm và Phương pháp
Tiêu chuẩn vàng để đánh giá các mô hình văn bản-hình ảnh là dữ liệu sở thích của con người thu thập thông qua các so sánh đông đảo, tương tự như các phương pháp được sử dụng cho các mô hình ngôn ngữ lớn. Tuy nhiên, các phương pháp này tốn kém và chậm, khiến một số nền tảng ngừng cập nhật.
*Bảng xếp hạng Image Arena của Artificial Analysis, xếp hạng các nhà lãnh đạo ước tính hiện tại trong AI tạo hình ảnh.* Nguồn: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Các chỉ số tự động như FID, CLIPScore, và cFreD rất quan trọng để đánh giá các mô hình trong tương lai, đặc biệt khi sở thích của con người phát triển. cFreD giả định rằng cả hình ảnh thực và hình ảnh được tạo ra đều tuân theo phân phối Gaussian và đo lường khoảng cách Fréchet kỳ vọng qua các lời nhắc, đánh giá cả tính chân thực và tính nhất quán với văn bản.
Dữ liệu và Thử nghiệm
Để đánh giá sự tương quan của cFreD với sở thích của con người, các tác giả đã sử dụng xếp hạng hình ảnh từ nhiều mô hình với cùng các lời nhắc văn bản. Họ đã sử dụng bộ thử nghiệm Human Preference Score v2 (HPDv2) và PartiPrompts Arena, tổng hợp dữ liệu thành một bộ dữ liệu duy nhất.
Đối với các mô hình mới hơn, họ đã sử dụng 1.000 lời nhắc từ bộ train và validation của COCO, đảm bảo không trùng lặp với HPDv2, và tạo ra hình ảnh bằng chín mô hình từ Bảng xếp hạng Arena. cFreD được đánh giá so với một số chỉ số thống kê và đã học, cho thấy sự phù hợp mạnh mẽ với đánh giá của con người.
*Xếp hạng và điểm số của mô hình trên bộ thử nghiệm HPDv2 sử dụng các chỉ số thống kê (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, HPSv2, và MPS). Kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
cFreD đạt được sự phù hợp cao nhất với sở thích của con người, đạt tương quan 0,97 và độ chính xác xếp hạng 91,1%. Nó vượt trội so với các chỉ số khác, kể cả những chỉ số được huấn luyện trên dữ liệu sở thích của con người, chứng minh độ tin cậy trên các mô hình đa dạng.
*Xếp hạng và điểm số của mô hình trên PartiPrompt sử dụng các chỉ số thống kê (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, và MPS). Kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
Trong PartiPrompts Arena, cFreD cho thấy sự tương quan cao nhất với đánh giá của con người ở mức 0,73, theo sau sát sao là FID và FDDINOv2. Tuy nhiên, HPSv2, được huấn luyện trên sở thích của con người, có sự phù hợp mạnh nhất ở mức 0,83.
*Xếp hạng mô hình trên các lời nhắc COCO được lấy mẫu ngẫu nhiên sử dụng các chỉ số tự động (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, HPSv2, và MPS). Độ chính xác xếp hạng dưới 0,5 cho thấy số cặp không hợp hơn cặp hợp, và kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
Trong đánh giá bộ dữ liệu COCO, cFreD đạt tương quan 0,33 và độ chính xác xếp hạng 66,67%, đứng thứ ba về sự phù hợp với sở thích của con người, chỉ đứng sau các chỉ số được huấn luyện trên dữ liệu con người.
*Tỷ lệ chiến thắng cho thấy tần suất xếp hạng của mỗi mô hình hình ảnh khớp với xếp hạng thực sự do con người đưa ra trên bộ dữ liệu COCO.*
Các tác giả cũng đã thử nghiệm Inception V3 và thấy nó bị vượt qua bởi các mô hình dựa trên transformer như DINOv2-L/14 và ViT-L/16, vốn liên tục phù hợp tốt hơn với xếp hạng của con người.
Kết luận
Mặc dù các giải pháp có sự tham gia của con người vẫn là cách tiếp cận tối ưu để phát triển các chỉ số và hàm mất mát, nhưng quy mô và tần suất cập nhật khiến chúng không thực tế. Độ tin cậy của cFreD phụ thuộc vào sự phù hợp với đánh giá của con người, dù chỉ gián tiếp. Tính hợp pháp của chỉ số này dựa vào dữ liệu sở thích của con người, vì nếu không có các điểm chuẩn như vậy, các tuyên bố về đánh giá giống con người sẽ không thể chứng minh được.
Việc cố định các tiêu chí hiện tại cho "tính chân thực" trong đầu ra tạo sinh vào một hàm chỉ số có thể là một sai lầm dài hạn, do bản chất phát triển của sự hiểu biết của chúng ta về tính chân thực, được thúc đẩy bởi làn sóng mới của các hệ thống AI tạo sinh.
*Tại thời điểm này, tôi thường sẽ đưa vào một ví dụ video minh họa, có lẽ từ một bài nộp học thuật gần đây; nhưng điều đó sẽ mang tính ác ý – bất kỳ ai đã dành hơn 10-15 phút tìm kiếm đầu ra AI tạo sinh trên Arxiv sẽ đã bắt gặp các video bổ sung có chất lượng chủ quan kém, cho thấy bài nộp liên quan sẽ không được ca ngợi là một bài báo mang tính bước ngoặt.*
*Tổng cộng 46 mô hình hình ảnh đã được sử dụng trong các thử nghiệm, không phải tất cả đều được xem xét trong các kết quả biểu đồ. Vui lòng tham khảo phụ lục của bài báo để biết danh sách đầy đủ; những mô hình được trình bày trong các bảng và hình đã được liệt kê.*
Được xuất bản lần đầu vào thứ Ba, ngày 1 tháng 4 năm 2025
Bài viết liên quan
Công cụ Podcast Được Hỗ trợ bởi AI để Tạo Nội dung Hiệu quả
Việc sản xuất và tinh chỉnh một podcast có thể vừa đòi hỏi nhiều công sức vừa mang lại sự thỏa mãn. Nhiều podcaster gặp khó khăn với các nhiệm vụ tốn thời gian như loại bỏ từ đệm, tạo ghi chú chương t
Bộ Jumpsuit Đỏ của Britney Spears: Khoảnh Khắc Định Hình Thời Trang Pop
Britney Spears, biểu tượng pop thống trị, luôn mê hoặc khán giả với phong cách táo bạo. Các video âm nhạc của cô không chỉ là những bản hit âm nhạc mà còn là cột mốc thời trang. Bài viết này khám phá
Khám Phá Sự Tận Tâm Thiêng Liêng: Đức Tin, Tình Yêu và Tự Do Tâm Linh
Trong một thế giới đầy hỗn loạn và phân tâm, việc dành ra những khoảnh khắc bình yên để kết nối tâm linh có thể thay đổi cuộc sống. Bài viết này đi sâu vào hành động sâu sắc của việc tôn kính Chúa Giê
Nhận xét (6)
0/200
RalphMartínez
08:25:03 GMT+07:00 Ngày 22 tháng 7 năm 2025
This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!
0
FrankSmith
09:29:53 GMT+07:00 Ngày 25 tháng 4 năm 2025
AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉
0
GaryGarcia
18:09:01 GMT+07:00 Ngày 23 tháng 4 năm 2025
AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎
0
KennethKing
16:56:13 GMT+07:00 Ngày 22 tháng 4 năm 2025
AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄
0
DouglasPerez
15:55:54 GMT+07:00 Ngày 22 tháng 4 năm 2025
AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃
0
GaryGonzalez
09:22:28 GMT+07:00 Ngày 20 tháng 4 năm 2025
AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊
0
Thách thức trong việc đánh giá nội dung video trong nghiên cứu AI
Khi đi sâu vào thế giới của tài liệu về thị giác máy tính, các Mô hình Ngôn ngữ-Tầm nhìn Lớn (LVLMs) có thể rất giá trị trong việc diễn giải các bài nộp phức tạp. Tuy nhiên, chúng gặp phải một trở ngại lớn khi phải đánh giá chất lượng và giá trị của các ví dụ video đi kèm với các bài báo khoa học. Đây là một khía cạnh quan trọng vì hình ảnh hấp dẫn cũng quan trọng không kém gì văn bản trong việc tạo ra sự phấn khích và xác thực các tuyên bố trong các dự án nghiên cứu.
Các dự án tổng hợp video, đặc biệt, phụ thuộc nhiều vào việc thể hiện kết quả video thực tế để tránh bị bác bỏ. Chính trong những màn trình diễn này, hiệu suất thực tế của một dự án có thể được đánh giá thực sự, thường cho thấy khoảng cách giữa những tuyên bố táo bạo của dự án và khả năng thực tế của nó.
Tôi đã đọc sách, nhưng chưa xem phim
Hiện tại, các Mô hình Ngôn ngữ Lớn (LLMs) và Mô hình Ngôn ngữ-Tầm nhìn Lớn (LVLMs) dựa trên API phổ biến không được trang bị để phân tích nội dung video trực tiếp. Khả năng của chúng bị giới hạn ở việc phân tích các bản ghi và các tài liệu dựa trên văn bản khác liên quan đến video. Hạn chế này trở nên rõ ràng khi các mô hình này được yêu cầu phân tích trực tiếp nội dung video.
*Những phản đối đa dạng của GPT-4o, Google Gemini và Perplexity, khi được yêu cầu phân tích trực tiếp video, mà không dựa vào bản ghi hoặc các nguồn dựa trên văn bản khác.*
Một số mô hình, như ChatGPT-4o, thậm chí có thể cố gắng đưa ra đánh giá chủ quan về một video nhưng cuối cùng sẽ thừa nhận rằng chúng không thể xem video trực tiếp khi bị ép hỏi.
*Khi được yêu cầu đưa ra đánh giá chủ quan về các video liên quan đến một bài báo nghiên cứu mới, và đã giả mạo một ý kiến thực sự, ChatGPT-4o cuối cùng thú nhận rằng nó không thể thực sự xem video trực tiếp.*
Mặc dù các mô hình này là đa phương thức và có thể phân tích các bức ảnh riêng lẻ, chẳng hạn như một khung hình được trích xuất từ video, nhưng khả năng đưa ra ý kiến định tính của chúng là đáng nghi ngờ. Các LLM thường có xu hướng đưa ra các phản hồi "lòng người hài lòng" thay vì những lời phê bình chân thành. Hơn nữa, nhiều vấn đề trong video là mang tính thời gian, nghĩa là việc phân tích một khung hình duy nhất hoàn toàn bỏ qua ý nghĩa chính.
Cách duy nhất mà một LLM có thể đưa ra "phán xét giá trị" về một video là bằng cách tận dụng kiến thức dựa trên văn bản, chẳng hạn như hiểu biết về hình ảnh deepfake hoặc lịch sử nghệ thuật, để liên kết các đặc điểm hình ảnh với các nhúng đã học dựa trên những hiểu biết của con người.
*Dự án FakeVLM cung cấp khả năng phát hiện deepfake chuyên biệt thông qua một mô hình ngôn ngữ-tầm nhìn đa phương thức chuyên dụng.* Nguồn: https://arxiv.org/pdf/2503.14905
Mặc dù một LLM có thể nhận diện các đối tượng trong video với sự trợ giúp của các hệ thống AI phụ trợ như YOLO, nhưng việc đánh giá chủ quan vẫn khó nắm bắt nếu không có một chỉ số dựa trên hàm mất mát phản ánh ý kiến của con người.
Tầm nhìn có điều kiện
Các hàm mất mát là cần thiết trong việc huấn luyện các mô hình, đo lường khoảng cách giữa dự đoán và câu trả lời đúng, đồng thời hướng dẫn mô hình giảm thiểu sai số. Chúng cũng được sử dụng để đánh giá nội dung do AI tạo ra, chẳng hạn như các video có tính chân thực.
Một chỉ số phổ biến là Khoảng cách Fréchet Inception (FID), đo lường sự tương đồng giữa phân phối của các hình ảnh được tạo ra và hình ảnh thực tế. FID sử dụng mạng Inception v3 để tính toán sự khác biệt thống kê, và điểm số thấp hơn cho thấy chất lượng hình ảnh và độ đa dạng cao hơn.
Tuy nhiên, FID mang tính tự tham chiếu và so sánh. Khoảng cách Fréchet Có điều kiện (CFD) được giới thiệu vào năm 2021 giải quyết vấn đề này bằng cách xem xét thêm mức độ phù hợp của các hình ảnh được tạo ra với các điều kiện bổ sung, như nhãn lớp hoặc hình ảnh đầu vào.
*Ví dụ từ sự kiện CFD năm 2021.* Nguồn: https://github.com/Michael-Soloveitchik/CFID/
CFD nhằm tích hợp sự diễn giải định tính của con người vào các chỉ số, nhưng cách tiếp cận này đưa ra những thách thức như khả năng thiên vị, nhu cầu cập nhật thường xuyên, và các hạn chế về ngân sách có thể ảnh hưởng đến tính nhất quán và độ tin cậy của các đánh giá theo thời gian.
cFreD
Một bài báo gần đây từ Mỹ giới thiệu Khoảng cách Fréchet Có điều kiện (cFreD), một chỉ số mới được thiết kế để phản ánh tốt hơn sở thích của con người bằng cách đánh giá cả chất lượng hình ảnh và sự căn chỉnh văn bản-hình ảnh.
*Kết quả một phần từ bài báo mới: xếp hạng hình ảnh (1–9) theo các chỉ số khác nhau cho lời nhắc "Một phòng khách với ghế sofa và một máy tính xách tay đặt trên ghế sofa." Màu xanh lá cây đánh dấu mô hình được con người đánh giá cao nhất (FLUX.1-dev), màu tím đánh dấu mô hình thấp nhất (SDv1.5). Chỉ có cFreD phù hợp với xếp hạng của con người. Vui lòng tham khảo bài báo nguồn để biết kết quả đầy đủ, mà chúng tôi không có đủ chỗ để tái hiện ở đây.* Nguồn: https://arxiv.org/pdf/2503.21721
Các tác giả lập luận rằng các chỉ số truyền thống như Inception Score (IS) và FID không đủ vì chúng chỉ tập trung vào chất lượng hình ảnh mà không xem xét mức độ phù hợp của hình ảnh với lời nhắc của chúng. Họ đề xuất rằng cFreD nắm bắt cả chất lượng hình ảnh và sự điều kiện hóa trên văn bản đầu vào, dẫn đến sự tương quan cao hơn với sở thích của con người.
*Các thử nghiệm của bài báo chỉ ra rằng chỉ số được đề xuất, cFreD, liên tục đạt được sự tương quan cao hơn với sở thích của con người so với FID, FDDINOv2, CLIPScore, và CMMD trên ba bộ dữ liệu chuẩn (PartiPrompts, HPDv2, và COCO).*
Khái niệm và Phương pháp
Tiêu chuẩn vàng để đánh giá các mô hình văn bản-hình ảnh là dữ liệu sở thích của con người thu thập thông qua các so sánh đông đảo, tương tự như các phương pháp được sử dụng cho các mô hình ngôn ngữ lớn. Tuy nhiên, các phương pháp này tốn kém và chậm, khiến một số nền tảng ngừng cập nhật.
*Bảng xếp hạng Image Arena của Artificial Analysis, xếp hạng các nhà lãnh đạo ước tính hiện tại trong AI tạo hình ảnh.* Nguồn: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard
Các chỉ số tự động như FID, CLIPScore, và cFreD rất quan trọng để đánh giá các mô hình trong tương lai, đặc biệt khi sở thích của con người phát triển. cFreD giả định rằng cả hình ảnh thực và hình ảnh được tạo ra đều tuân theo phân phối Gaussian và đo lường khoảng cách Fréchet kỳ vọng qua các lời nhắc, đánh giá cả tính chân thực và tính nhất quán với văn bản.
Dữ liệu và Thử nghiệm
Để đánh giá sự tương quan của cFreD với sở thích của con người, các tác giả đã sử dụng xếp hạng hình ảnh từ nhiều mô hình với cùng các lời nhắc văn bản. Họ đã sử dụng bộ thử nghiệm Human Preference Score v2 (HPDv2) và PartiPrompts Arena, tổng hợp dữ liệu thành một bộ dữ liệu duy nhất.
Đối với các mô hình mới hơn, họ đã sử dụng 1.000 lời nhắc từ bộ train và validation của COCO, đảm bảo không trùng lặp với HPDv2, và tạo ra hình ảnh bằng chín mô hình từ Bảng xếp hạng Arena. cFreD được đánh giá so với một số chỉ số thống kê và đã học, cho thấy sự phù hợp mạnh mẽ với đánh giá của con người.
*Xếp hạng và điểm số của mô hình trên bộ thử nghiệm HPDv2 sử dụng các chỉ số thống kê (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, HPSv2, và MPS). Kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
cFreD đạt được sự phù hợp cao nhất với sở thích của con người, đạt tương quan 0,97 và độ chính xác xếp hạng 91,1%. Nó vượt trội so với các chỉ số khác, kể cả những chỉ số được huấn luyện trên dữ liệu sở thích của con người, chứng minh độ tin cậy trên các mô hình đa dạng.
*Xếp hạng và điểm số của mô hình trên PartiPrompt sử dụng các chỉ số thống kê (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, và MPS). Kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
Trong PartiPrompts Arena, cFreD cho thấy sự tương quan cao nhất với đánh giá của con người ở mức 0,73, theo sau sát sao là FID và FDDINOv2. Tuy nhiên, HPSv2, được huấn luyện trên sở thích của con người, có sự phù hợp mạnh nhất ở mức 0,83.
*Xếp hạng mô hình trên các lời nhắc COCO được lấy mẫu ngẫu nhiên sử dụng các chỉ số tự động (FID, FDDINOv2, CLIPScore, CMMD, và cFreD) và các chỉ số được huấn luyện dựa trên sở thích của con người (Aesthetic Score, ImageReward, HPSv2, và MPS). Độ chính xác xếp hạng dưới 0,5 cho thấy số cặp không hợp hơn cặp hợp, và kết quả tốt nhất được in đậm, tốt thứ hai được gạch chân.*
Trong đánh giá bộ dữ liệu COCO, cFreD đạt tương quan 0,33 và độ chính xác xếp hạng 66,67%, đứng thứ ba về sự phù hợp với sở thích của con người, chỉ đứng sau các chỉ số được huấn luyện trên dữ liệu con người.
*Tỷ lệ chiến thắng cho thấy tần suất xếp hạng của mỗi mô hình hình ảnh khớp với xếp hạng thực sự do con người đưa ra trên bộ dữ liệu COCO.*
Các tác giả cũng đã thử nghiệm Inception V3 và thấy nó bị vượt qua bởi các mô hình dựa trên transformer như DINOv2-L/14 và ViT-L/16, vốn liên tục phù hợp tốt hơn với xếp hạng của con người.
Kết luận
Mặc dù các giải pháp có sự tham gia của con người vẫn là cách tiếp cận tối ưu để phát triển các chỉ số và hàm mất mát, nhưng quy mô và tần suất cập nhật khiến chúng không thực tế. Độ tin cậy của cFreD phụ thuộc vào sự phù hợp với đánh giá của con người, dù chỉ gián tiếp. Tính hợp pháp của chỉ số này dựa vào dữ liệu sở thích của con người, vì nếu không có các điểm chuẩn như vậy, các tuyên bố về đánh giá giống con người sẽ không thể chứng minh được.
Việc cố định các tiêu chí hiện tại cho "tính chân thực" trong đầu ra tạo sinh vào một hàm chỉ số có thể là một sai lầm dài hạn, do bản chất phát triển của sự hiểu biết của chúng ta về tính chân thực, được thúc đẩy bởi làn sóng mới của các hệ thống AI tạo sinh.
*Tại thời điểm này, tôi thường sẽ đưa vào một ví dụ video minh họa, có lẽ từ một bài nộp học thuật gần đây; nhưng điều đó sẽ mang tính ác ý – bất kỳ ai đã dành hơn 10-15 phút tìm kiếm đầu ra AI tạo sinh trên Arxiv sẽ đã bắt gặp các video bổ sung có chất lượng chủ quan kém, cho thấy bài nộp liên quan sẽ không được ca ngợi là một bài báo mang tính bước ngoặt.*
*Tổng cộng 46 mô hình hình ảnh đã được sử dụng trong các thử nghiệm, không phải tất cả đều được xem xét trong các kết quả biểu đồ. Vui lòng tham khảo phụ lục của bài báo để biết danh sách đầy đủ; những mô hình được trình bày trong các bảng và hình đã được liệt kê.*
Được xuất bản lần đầu vào thứ Ba, ngày 1 tháng 4 năm 2025




This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!




AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉




AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎




AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄




AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃




AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊












