lựa chọn
Trang chủ
Tin tức
AI học cách cung cấp các bài phê bình video nâng cao

AI học cách cung cấp các bài phê bình video nâng cao

Ngày 19 tháng 4 năm 2025
55

Thách thức đánh giá nội dung video trong nghiên cứu AI

Khi lặn vào thế giới của văn học tầm nhìn máy tính, các mô hình ngôn ngữ tầm nhìn lớn (LVLM) có thể là vô giá để diễn giải các bài nộp phức tạp. Tuy nhiên, họ đã đạt được một rào cản đáng kể khi đánh giá chất lượng và giá trị của các ví dụ video đi kèm với các bài báo khoa học. Đây là một khía cạnh quan trọng bởi vì hình ảnh hấp dẫn cũng quan trọng như văn bản trong việc tạo ra sự phấn khích và xác nhận các khiếu nại được đưa ra trong các dự án nghiên cứu.

Các dự án tổng hợp video, đặc biệt, phụ thuộc rất nhiều vào việc chứng minh đầu ra video thực tế để tránh bị loại bỏ. Đó là trong các cuộc biểu tình trong đó hiệu suất trong thế giới thực của một dự án có thể được đánh giá thực sự, thường tiết lộ khoảng cách giữa các yêu cầu táo bạo của dự án và khả năng thực tế của nó.

Tôi đọc cuốn sách, không xem phim

Hiện tại, các mô hình ngôn ngữ lớn dựa trên API phổ biến (LLM) và các mô hình ngôn ngữ tầm nhìn lớn (LVLM) không được trang bị để phân tích trực tiếp nội dung video. Khả năng của chúng được giới hạn trong việc phân tích bảng điểm và các tài liệu dựa trên văn bản khác liên quan đến video. Hạn chế này là rõ ràng khi các mô hình này được yêu cầu phân tích trực tiếp nội dung video.

Sự phản đối đa dạng của GPT-4O, Google Gemini và Perplexity, khi được yêu cầu phân tích trực tiếp video, mà không cần truy cập bảng điểm hoặc các nguồn dựa trên văn bản khác. *Sự phản đối đa dạng của GPT-4O, Google Gemini và Perplexity, khi được yêu cầu phân tích trực tiếp video, mà không cần truy cập vào bảng điểm hoặc các nguồn dựa trên văn bản khác.*

Một số mô hình, như TATGPT-4O, thậm chí có thể cố gắng cung cấp một đánh giá chủ quan về video nhưng cuối cùng sẽ thừa nhận không có khả năng xem trực tiếp video khi nhấn.

Đã được yêu cầu cung cấp một đánh giá chủ quan về các video liên quan của một bài nghiên cứu mới và có một ý kiến ​​thực sự, cuối cùng, TATGPT-4O thú nhận rằng nó không thể thực sự xem video trực tiếp. *Đã được yêu cầu cung cấp một đánh giá chủ quan về các video liên quan của tài liệu nghiên cứu mới và có một ý kiến ​​thực sự, cuối cùng, TATGPT-4O thú nhận rằng nó không thể thực sự xem video trực tiếp.*

Mặc dù các mô hình này là đa phương thức và có thể phân tích các bức ảnh riêng lẻ, chẳng hạn như một khung được trích xuất từ ​​video, khả năng của chúng để cung cấp ý kiến ​​định tính là đáng nghi ngờ. LLM thường có xu hướng đưa ra các câu trả lời 'làm hài lòng người' hơn là những lời phê bình chân thành. Hơn nữa, nhiều vấn đề trong một video là tạm thời, có nghĩa là việc phân tích một khung hình hoàn toàn bỏ lỡ điểm.

Cách duy nhất LLM có thể đưa ra 'đánh giá giá trị' trên video là bằng cách tận dụng kiến ​​thức dựa trên văn bản, chẳng hạn như hiểu về hình ảnh Deepfake hoặc lịch sử nghệ thuật, để tương quan với phẩm chất thị giác với các nhúng đã học dựa trên những hiểu biết của con người.

Dự án FakeVLM cung cấp phát hiện DeepFake được nhắm mục tiêu thông qua mô hình ngôn ngữ thị giác đa phương thức chuyên biệt. Nguồn: https://arxiv.org/pdf/2503.14905 * Dự án giả cung cấp phát hiện DeepFake được nhắm mục tiêu thông qua mô hình ngôn ngữ thị giác đa phương thức chuyên dụng.* Nguồn: https://arxiv.org/pdf/2503.14905

Mặc dù LLM có thể xác định các đối tượng trong một video với sự trợ giúp của các hệ thống AI bổ trợ như Yolo, đánh giá chủ quan vẫn khó nắm bắt mà không có số liệu dựa trên chức năng thua lỗ phản ánh ý kiến ​​của con người.

Tầm nhìn có điều kiện

Các chức năng mất là rất cần thiết trong các mô hình đào tạo, đo lường mức độ dự đoán là từ các câu trả lời chính xác và hướng dẫn mô hình để giảm lỗi. Chúng cũng được sử dụng để đánh giá nội dung do AI tạo ra, chẳng hạn như video quang học.

Một số liệu phổ biến là Khoảng cách Inception Fréchet (FID), đo lường sự giống nhau giữa phân phối hình ảnh được tạo và hình ảnh thật. FID sử dụng mạng khởi động V3 để tính toán sự khác biệt thống kê và điểm thấp hơn cho thấy chất lượng và sự đa dạng thị giác cao hơn.

Tuy nhiên, FID là tự giới thiệu và so sánh. Khoảng cách fréchet có điều kiện (CFD) được giới thiệu vào năm 2021 địa chỉ điều này bằng cách xem xét cách các hình ảnh được tạo ra phù hợp với các điều kiện bổ sung, chẳng hạn như nhãn lớp hoặc hình ảnh đầu vào.

Ví dụ từ chuyến đi chơi CFD 2021. Nguồn: https://github.com/michael-soloveitchik/cfid/ * Ví dụ từ chuyến đi chơi CFD 2021.* Nguồn: https://github.com/michael-soloveitchik/cfid/

CFD nhằm mục đích tích hợp giải thích định tính của con người vào các số liệu, nhưng phương pháp này đưa ra những thách thức như sai lệch tiềm năng, nhu cầu cập nhật thường xuyên và các hạn chế về ngân sách có thể ảnh hưởng đến tính nhất quán và độ tin cậy của các đánh giá theo thời gian.

CFRED

Một bài báo gần đây từ Hoa Kỳ giới thiệu khoảng cách fréchet có điều kiện (CFRED) , một số liệu mới được thiết kế để phản ánh tốt hơn sở thích của con người bằng cách đánh giá cả chất lượng thị giác và liên kết hình ảnh văn bản.

Kết quả một phần từ bài báo mới: Xếp hạng hình ảnh (1 Ném9) bằng các số liệu khác nhau cho dấu nhắc 'Phòng khách với một chiếc ghế dài và máy tính xách tay nằm trên chiếc ghế dài.' Màu xanh lá cây làm nổi bật mô hình được đánh giá cao nhất của con người (Flux.1-DEV), màu tím thấp nhất (SDV1.5). Chỉ có CFRED phù hợp với thứ hạng của con người. Vui lòng tham khảo giấy nguồn để biết kết quả hoàn chỉnh, mà chúng tôi không có chỗ để sao chép ở đây. Nguồn: https://arxiv.org/pdf/2503.21721 *Kết quả một phần từ bài báo mới: Xếp hạng hình ảnh (1 Ném9) bằng các số liệu khác nhau cho dấu nhắc "Phòng khách với một chiếc ghế dài và máy tính xách tay nằm trên chiếc ghế dài". Màu xanh lá cây làm nổi bật mô hình được đánh giá cao nhất của con người (Flux.1-DEV), màu tím thấp nhất (SDV1.5). Chỉ có CFRED phù hợp với thứ hạng của con người. Vui lòng tham khảo giấy nguồn để biết kết quả đầy đủ, mà chúng tôi không có chỗ để sao chép ở đây.* Nguồn: https://arxiv.org/pdf/2503.21721

Các tác giả cho rằng các số liệu truyền thống như điểm Inception (IS) và FID bị thiếu vì chúng chỉ tập trung vào chất lượng hình ảnh mà không xem xét hình ảnh phù hợp với lời nhắc của họ như thế nào. Họ đề xuất rằng CFRED nắm bắt cả chất lượng hình ảnh và điều hòa trên văn bản đầu vào, dẫn đến mối tương quan cao hơn với sở thích của con người.

Các bài kiểm tra của bài báo chỉ ra rằng số liệu được đề xuất của các tác giả, CFRED, luôn đạt được mối tương quan cao hơn với sở thích của con người so với FID, FDDINOV2, clipscore và CMMD trên ba bộ dữ liệu điểm chuẩn (Partiprompts, HPDV2 và CoCO). *Các bài kiểm tra của bài báo chỉ ra rằng số liệu được đề xuất của các tác giả, CFRED, luôn đạt được mối tương quan cao hơn với sở thích của con người so với FID, FDDINOV2, clipscore và CMMD trên ba bộ dữ liệu điểm chuẩn (partiprompts, hpdv2 và coco).

Khái niệm và phương pháp

Tiêu chuẩn vàng để đánh giá các mô hình hình ảnh văn bản là dữ liệu sở thích của con người được thu thập thông qua các so sánh có nguồn gốc từ đám đông, tương tự như các phương pháp được sử dụng cho các mô hình ngôn ngữ lớn. Tuy nhiên, các phương pháp này rất tốn kém và chậm, dẫn đến một số nền tảng để dừng cập nhật.

Bảng xếp hạng đấu trường hình ảnh phân tích nhân tạo, xếp hạng các nhà lãnh đạo hiện đang được ước tính trong AI thị giác tổng quát. Nguồn: https://artificialanalysis.ai/text-to-image/arena?tab=leaderboard * Bảng xếp hạng đấu trường hình ảnh phân tích nhân tạo, xếp hạng các nhà lãnh đạo hiện đang được ước tính trong AI trực quan tổng thể .

Các số liệu tự động như FID, CLIPSCORE và CFRED là rất quan trọng để đánh giá các mô hình trong tương lai, đặc biệt là khi sở thích của con người phát triển. CFRED giả định rằng cả hình ảnh thực và tạo đều theo các phân phối Gaussian và đo lường khoảng cách fréchet dự kiến ​​trên các lời nhắc, đánh giá cả chủ nghĩa hiện thực và tính nhất quán văn bản.

Dữ liệu và kiểm tra

Để đánh giá mối tương quan của CFRED với sở thích của con người, các tác giả đã sử dụng thứ hạng hình ảnh từ nhiều mô hình với cùng một lời nhắc văn bản. Họ đã thu hút bộ kiểm tra điểm ưu tiên của con người V2 (HPDV2) và đấu trường Partiprompts, củng cố dữ liệu thành một bộ dữ liệu duy nhất.

Đối với các mô hình mới hơn, họ đã sử dụng 1.000 lời nhắc từ các bộ xác thực và tàu của Coco, đảm bảo không trùng với HPDV2 và tạo hình ảnh bằng chín mô hình từ bảng xếp hạng Arena. CFRED được đánh giá dựa trên một số số liệu thống kê và học hỏi, cho thấy sự liên kết mạnh mẽ với các phán đoán của con người.

Xếp hạng mô hình và điểm số trên bộ kiểm tra HPDV2 bằng cách sử dụng các số liệu thống kê (FID, FDDINOV2, CLIPSCORE, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, tưởng tượng, HPSV2 và MPS). Kết quả tốt nhất được thể hiện trong in đậm, tốt nhất thứ hai được gạch chân. *Xếp hạng mô hình và điểm số trên bộ kiểm tra HPDV2 bằng cách sử dụng các số liệu thống kê (FID, FDDINOV2, CLIPSCORE, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, hình ảnh, HPSV2 và MPS). Kết quả tốt nhất được thể hiện trong in đậm, tốt nhất thứ hai được gạch chân.*

CFRED đạt được sự liên kết cao nhất với sở thích của con người, đạt được mối tương quan 0,97 và độ chính xác xếp hạng là 91,1%. Nó vượt trội so với các số liệu khác, bao gồm cả các số liệu được đào tạo về dữ liệu sở thích của con người, thể hiện độ tin cậy của nó trên các mô hình khác nhau.

Xếp hạng mô hình và điểm số trên Partiprompt bằng cách sử dụng các số liệu thống kê (FID, FDDINOV2, clipscore, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, tưởng tượng và MPS). Kết quả tốt nhất là in đậm, tốt nhất thứ hai được gạch chân. *Xếp hạng mô hình và điểm số trên Partiprompt bằng cách sử dụng các số liệu thống kê (FID, FDDINOV2, CLIPSCORE, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, tưởng tượng và MPS). Kết quả tốt nhất là in đậm, tốt nhất thứ hai được gạch chân.*

Trong lĩnh vực Partiprompts, CFRED cho thấy mối tương quan cao nhất với các đánh giá của con người ở mức 0,73, theo sát là FID và FDDINOV2. Tuy nhiên, HPSV2, được đào tạo về sở thích của con người, có sự liên kết mạnh mẽ nhất ở mức 0,83.

Xếp hạng mô hình trên các lời nhắc CoCO được lấy mẫu ngẫu nhiên bằng các số liệu tự động (FID, FDDINOV2, clipscore, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, tưởng tượng, HPSV2 và MPS). Độ chính xác của thứ hạng dưới 0,5 cho thấy nhiều bất hòa hơn các cặp phù hợp và kết quả tốt nhất là in đậm, tốt nhất thứ hai được gạch chân. *Xếp hạng mô hình trên các lời nhắc CoCO được lấy mẫu ngẫu nhiên bằng các số liệu tự động (FID, FDDINOV2, CLIPSCORE, CMMD và CFRED) và các số liệu được đào tạo ưu tiên của con người (điểm thẩm mỹ, tưởng tượng, HPSV2 và MPS). Độ chính xác xếp hạng dưới 0,5 cho thấy nhiều bất hòa hơn các cặp phù hợp và kết quả tốt nhất là in đậm, tốt nhất thứ hai được gạch chân.*

Trong đánh giá bộ dữ liệu COCO, CFRED đạt được mối tương quan 0,33 và độ chính xác xếp hạng là 66,67%, xếp thứ ba về sự liên kết với sở thích của con người, chỉ sau các số liệu được đào tạo trên dữ liệu của con người.

Tỷ lệ thắng cho thấy mức độ thường xuyên của mỗi thứ hạng của mỗi xương sống phù hợp với thứ hạng có nguồn gốc thực sự trên bộ dữ liệu Coco. *Tỷ lệ thắng cho thấy tần suất xếp hạng của mỗi hình ảnh của mỗi thứ hạng của Backbone phù hợp với thứ hạng có nguồn gốc từ con người thực sự trên bộ dữ liệu Coco.*

Các tác giả cũng đã thử nghiệm Inception V3 và thấy nó bị vượt qua bởi xương sống dựa trên máy biến áp như Dinov2-L/14 và Vit-L/16, liên tục phù hợp hơn với thứ hạng của con người.

Phần kết luận

Trong khi các giải pháp của con người vẫn là cách tiếp cận tối ưu để phát triển các chức năng số liệu và tổn thất, tỷ lệ và tần suất cập nhật khiến chúng không thực tế. Sự tin cậy của CFRED dựa trên sự liên kết của nó với sự phán xét của con người, mặc dù một cách gián tiếp. Tính hợp pháp của số liệu phụ thuộc vào dữ liệu sở thích của con người, vì không có điểm chuẩn như vậy, các tuyên bố đánh giá giống con người sẽ là không thể chứng minh.

Bao gồm các tiêu chí hiện tại cho 'chủ nghĩa hiện thực' trong đầu ra tổng quát vào một chức năng số liệu có thể là một sai lầm lâu dài, do tính chất phát triển của sự hiểu biết của chúng ta về chủ nghĩa hiện thực, được thúc đẩy bởi làn sóng mới của các hệ thống AI thế hệ.

*Tại thời điểm này, tôi thường bao gồm một ví dụ video minh họa mẫu mực, có lẽ từ một bài học học thuật gần đây; Nhưng điều đó sẽ có ý nghĩa-bất cứ ai đã dành hơn 10-15 phút để đánh bắt đầu ra AI của ARXIV sẽ xuất hiện các video bổ sung mà chất lượng kém cho thấy rằng việc gửi liên quan sẽ không được gọi là một bài báo mang tính bước ngoặt.*

*Tổng cộng có 46 mô hình xương sống hình ảnh đã được sử dụng trong các thí nghiệm, không phải tất cả đều được xem xét trong kết quả biểu đồ. Vui lòng tham khảo Phụ lục của tờ giấy để biết danh sách đầy đủ; Những người đặc trưng trong các bảng và số liệu đã được liệt kê.*

Xuất bản lần đầu tiên thứ ba, ngày 1 tháng 4 năm 2025

Bài viết liên quan
AI trong Tư vấn Y tế: Chuyển đổi Chăm sóc Sức khỏe AI trong Tư vấn Y tế: Chuyển đổi Chăm sóc Sức khỏe Trí tuệ nhân tạo đang nhanh chóng thay đổi cảnh quan chăm sóc sức khỏe, và không khó để hiểu lý do. Tốc độ phát triển công nghệ đã mở ra những khả năng trước đây được cho là không thể. Bài viết này đi
Aulani, Disney's Resort & Spa: Kỳ nghỉ gia đình tối ưu tại Hawaii Aulani, Disney's Resort & Spa: Kỳ nghỉ gia đình tối ưu tại Hawaii Khám phá Aulani: Thiên đường Hawaii với phong cách DisneyBạn có mơ về một kỳ nghỉ gia đình kết hợp phép màu Disney với vẻ đẹp tuyệt vời của Hawaii? Hãy đến với Aulani, một Khu nghỉ dưỡng & Spa Disney
Airbnb đang âm thầm triển khai bot dịch vụ khách hàng AI tại Mỹ Airbnb đang âm thầm triển khai bot dịch vụ khách hàng AI tại Mỹ Airbnb đưa dịch vụ khách hàng sử dụng AI lên tầm cao mớiTháng trước, trong cuộc gọi báo cáo thu nhập quý đầu tiên của Airbnb, CEO Brian Chesky công bố rằng công ty đã bắt đầu triển khai bot dịch vụ kh
Nhận xét (5)
0/200
GaryGarcia
GaryGarcia 00:00:00 GMT Ngày 23 tháng 4 năm 2025

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 00:00:00 GMT Ngày 20 tháng 4 năm 2025

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 00:00:00 GMT Ngày 25 tháng 4 năm 2025

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 00:00:00 GMT Ngày 22 tháng 4 năm 2025

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 00:00:00 GMT Ngày 22 tháng 4 năm 2025

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

Quay lại đầu
OR