ИИ учится доставлять расширенные видео -критику

Дом

Новости

19 апреля 2025 г.

BruceSmith

Проблема оценки видеоконтента в исследованиях ИИ

При погружении в мир литературы по компьютерному зрению крупные визуально-языковые модели (LVLMs) могут быть неоценимыми для интерпретации сложных материалов. Однако они сталкиваются с серьезным препятствием, когда речь идет об оценке качества и достоинств видеопримеров, сопровождающих научные статьи. Это важный аспект, поскольку убедительные визуальные материалы не менее важны, чем текст, для создания интереса и подтверждения утверждений, сделанных в исследовательских проектах.

Проекты по синтезу видео, в частности, в значительной степени зависят от демонстрации реального видеовыхода, чтобы не быть отвергнутыми. Именно в этих демонстрациях можно по-настоящему оценить реальную производительность проекта, часто выявляя разрыв между смелыми заявлениями проекта и его фактическими возможностями.

Я прочитал книгу, но не видел фильма

В настоящее время популярные крупные языковые модели (LLMs) и крупные визуально-языковые модели (LVLMs), основанные на API, не способны напрямую анализировать видеоконтент. Их возможности ограничены анализом транскриптов и других текстовых материалов, связанных с видео. Это ограничение становится очевидным, когда эти модели просят напрямую анализировать видеоконтент.

*Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без использования транскриптов или других текстовых источников.*

Некоторые модели, такие как ChatGPT-4o, могут даже пытаться предоставить субъективную оценку видео, но в итоге признают свою неспособность напрямую просматривать видео, если на них надавить.

*Когда попросили предоставить субъективную оценку видео, связанных с новой научной статьей, и после того, как ChatGPT-4o выдал фальшивое мнение, он в конечном итоге признается, что не может напрямую просматривать видео.*

Хотя эти модели являются мультимодальными и могут анализировать отдельные фотографии, например, кадр, извлеченный из видео, их способность предоставлять качественные мнения сомнительна. LLMs часто склонны давать «угодливые» ответы, а не искренние критические замечания. Более того, многие проблемы в видео связаны с временными аспектами, что означает, что анализ одного кадра полностью упускает суть.

Единственный способ, которым LLM может предложить «оценочное суждение» о видео, — это использование текстовой информации, например, понимание deepfake-изображений или истории искусства, чтобы соотнести визуальные качества с изученными эмбеддингами, основанными на человеческих инсайтах.

*Проект FakeVLM предлагает целевое обнаружение deepfake с помощью специализированной мультимодальной визуально-языковой модели.* Источник: https://arxiv.org/pdf/2503.14905

Хотя LLM может идентифицировать объекты в видео с помощью дополнительных систем ИИ, таких как YOLO, субъективная оценка остается недостижимой без метрики, основанной на функции потерь, которая отражает человеческое мнение.

Условное зрение

Функции потерь необходимы для обучения моделей, измеряя, насколько далеко предсказания от правильных ответов, и направляя модель к снижению ошибок. Они также используются для оценки контента, сгенерированного ИИ, такого как фотореалистичные видео.

Одна популярная метрика — это Fréchet Inception Distance (FID), которая измеряет сходство между распределением сгенерированных изображений и реальных изображений. FID использует сеть Inception v3 для расчета статистических различий, и более низкий балл указывает на более высокое визуальное качество и разнообразие.

Однако FID является само-референциальной и сравнительной. Условная Fréchet Distance (CFD), представленная в 2021 году, решает эту проблему, также учитывая, насколько хорошо сгенерированные изображения соответствуют дополнительным условиям, таким как метки классов или входные изображения.

Примеры из CFD 2021 года. Источник: https://github.com/Michael-Soloveitchik/CFID/ *Примеры из CFD 2021 года.* Источник: https://github.com/Michael-Soloveitchik/CFID/

CFD стремится интегрировать качественную человеческую интерпретацию в метрики, но этот подход вводит такие проблемы, как потенциальная предвзятость, необходимость частых обновлений и бюджетные ограничения, которые могут влиять на последовательность и надежность оценок с течением времени.

cFreD

Недавняя статья из США представляет Conditional Fréchet Distance (cFreD), новую метрику, разработанную для лучшего отражения человеческих предпочтений путем оценки как визуального качества, так и соответствия тексту-изображению.

*Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для запроса "Гостиная с диваном и ноутбуком, стоящим на диване." Зеленым выделена модель с наивысшей человеческой оценкой (FLUX.1-dev), фиолетовым — с наименьшей (SDv1.5). Только cFreD соответствует человеческим рейтингам. Полные результаты смотрите в исходной статье, так как у нас нет места для их воспроизведения здесь.* Источник: https://arxiv.org/pdf/2503.21721

Авторы утверждают, что традиционные метрики, такие как Inception Score (IS) и FID, недостаточны, поскольку они фокусируются только на качестве изображения, не учитывая, насколько хорошо изображения соответствуют их запросам. Они предлагают, что cFreD охватывает как качество изображения, так и соответствие входному тексту, что приводит к более высокой корреляции с человеческими предпочтениями.

*Тесты статьи показывают, что предложенная авторами метрика cFreD последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех тестовых наборах данных (PartiPrompts, HPDv2 и COCO).*

Концепция и метод

Золотым стандартом для оценки моделей текст-в-изображение являются данные о человеческих предпочтениях, собранные через краудсорсинговые сравнения, аналогичные методам, используемым для крупных языковых моделей. Однако эти методы дороги и медленны, что приводит к тому, что некоторые платформы прекращают обновления.

*Таблица лидеров Artificial Analysis Image Arena, которая ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ.* Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Автоматизированные метрики, такие как FID, CLIPScore и cFreD, имеют решающее значение для оценки будущих моделей, особенно по мере эволюции человеческих предпочтений. cFreD предполагает, что как реальные, так и сгенерированные изображения следуют гауссовым распределениям, и измеряет ожидаемое расстояние Фреше по запросам, оценивая как реализм, так и текстовую согласованность.

Данные и тесты

Для оценки корреляции cFreD с человеческими предпочтениями авторы использовали рейтинги изображений от нескольких моделей с одинаковыми текстовыми запросами. Они опирались на тестовый набор Human Preference Score v2 (HPDv2) и PartiPrompts Arena, объединяя данные в единый набор данных.

Для новых моделей они использовали 1000 запросов из тренировочных и валидационных наборов COCO, обеспечивая отсутствие пересечения с HPDv2, и сгенерировали изображения с использованием девяти моделей из таблицы лидеров Arena. cFreD был протестирован против нескольких статистических и обученных метрик, показав сильное соответствие с человеческими суждениями.

*Рейтинги и баллы моделей на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

cFreD достиг наивысшего соответствия с человеческими предпочтениями, достигнув корреляции 0,97 и точности ранжирования 91,1%. Он превзошёл другие метрики, включая те, что обучены на данных человеческих предпочтений, демонстрируя свою надёжность для различных моделей.

*Рейтинги и баллы моделей на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В PartiPrompts Arena cFreD показал наивысшую корреляцию с человеческими оценками на уровне 0,73, за ним следовали FID и FDDINOv2. Однако HPSv2, обученная на человеческих предпочтениях, имела самое сильное соответствие на уровне 0,83.

*Рейтинги моделей на случайно выбранных запросах COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на большее количество несогласованных пар, чем согласованных, лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В оценке набора данных COCO cFreD достиг корреляции 0,33 и точности ранжирования 66,67%, заняв третье место по соответствию с человеческими предпочтениями, уступая только метрикам, обученным на человеческих данных.

*Процент побед, показывающий, как часто рейтинги каждого базового изображения соответствовали истинным рейтингам, полученным от людей, на наборе данных COCO.*

Авторы также протестировали Inception V3 и обнаружили, что он уступает базовым моделям на основе трансформеров, таким как DINOv2-L/14 и ViT-L/16, которые стабильно лучше соответствовали человеческим рейтингам.

Заключение

Хотя решения с участием человека остаются оптимальным подходом для разработки метрик и функций потерь, масштаб и частота обновлений делают их непрактичными. Достоверность cFreD зависит от его соответствия человеческому суждению, хотя и косвенно. Легитимность метрики опирается на данные о человеческих предпочтениях, поскольку без таких ориентиров утверждения о человеческой оценке были бы недоказуемы.

Закрепление текущих критериев «реализма» в генеративном выводе в метрической функции может быть долгосрочной ошибкой, учитывая эволюционирующую природу нашего понимания реализма, обусловленного новой волной генеративных систем ИИ.

*На этом этапе я бы обычно включил примерный иллюстративный видеопример, возможно, из недавней академической заявки; но это было бы недоброжелательно – любой, кто провёл более 10–15 минут, просматривая генеративный вывод ИИ на Arxiv, уже столкнулся с дополнительными видео, чьё субъективно низкое качество указывает на то, что связанная заявка не будет признана знаковой статьёй.*

*В экспериментах использовалось в общей сложности 46 базовых моделей изображений, не все из которых учтены в графических результатах. Полный список см. в приложении к статье; те, что представлены в таблицах и рисунках, перечислены.*

Впервые опубликовано во вторник, 1 апреля 2025 года

Связанная статья

Nvidia сообщает, что два крупных клиента обеспечили 39% выручки во втором квартале Концентрация доходов Nvidia подчеркивает зависимость от бума ИИНедавняя публикация чипмейкера в Комиссии по ценным бумагам и биржам США свидетельствует о поразительной концентрации клиентов: на долю д

Генератор бизнес-планов искусственного интеллекта: Быстро создайте свою победную стратегию Современные предприниматели не могут позволить себе тратить недели на составление бизнес-планов, когда решения на основе искусственного интеллекта позволяют создавать стратегические документы професси

Marvel откладывает следующие два фильма о Мстителях и корректирует график выхода Фазы 6 Marvel Studios объявила о значительных изменениях в расписании грядущих частей франшизы "Мстители". Отраслевое издание The Hollywood Reporter сообщило, что "Мстители: Судный день" выйдет на экраны 18

Комментарии (6)

0/200

Представлять на рассмотрение

RalphMartínez

22 июля 2025 г., 4:25:03 GMT+03:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith

25 апреля 2025 г., 5:29:53 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia

23 апреля 2025 г., 14:09:01 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing

22 апреля 2025 г., 12:56:13 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez

22 апреля 2025 г., 11:55:54 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez

20 апреля 2025 г., 5:22:28 GMT+03:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ！😊

Лучшие новости

Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество Клонирование голоса с ИИ: Полное руководство по освоению конверсии голоса

Более

Показан