вариант
Дом
Новости
ИИ учится доставлять расширенные видео -критику

ИИ учится доставлять расширенные видео -критику

19 апреля 2025 г.
71

Проблема оценки видеоконтента в исследованиях ИИ

При погружении в мир литературы по компьютерному зрению крупные визуально-языковые модели (LVLMs) могут быть неоценимыми для интерпретации сложных материалов. Однако они сталкиваются с серьезным препятствием, когда речь идет об оценке качества и достоинств видеопримеров, сопровождающих научные статьи. Это важный аспект, поскольку убедительные визуальные материалы не менее важны, чем текст, для создания интереса и подтверждения утверждений, сделанных в исследовательских проектах.

Проекты по синтезу видео, в частности, в значительной степени зависят от демонстрации реального видеовыхода, чтобы не быть отвергнутыми. Именно в этих демонстрациях можно по-настоящему оценить реальную производительность проекта, часто выявляя разрыв между смелыми заявлениями проекта и его фактическими возможностями.

Я прочитал книгу, но не видел фильма

В настоящее время популярные крупные языковые модели (LLMs) и крупные визуально-языковые модели (LVLMs), основанные на API, не способны напрямую анализировать видеоконтент. Их возможности ограничены анализом транскриптов и других текстовых материалов, связанных с видео. Это ограничение становится очевидным, когда эти модели просят напрямую анализировать видеоконтент.

Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без использования транскриптов или других текстовых источников.*Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без использования транскриптов или других текстовых источников.*

Некоторые модели, такие как ChatGPT-4o, могут даже пытаться предоставить субъективную оценку видео, но в итоге признают свою неспособность напрямую просматривать видео, если на них надавить.

Когда попросили предоставить субъективную оценку видео, связанных с новой научной статьей, и после того, как ChatGPT-4o выдал фальшивое мнение, он в конечном итоге признается, что не может напрямую просматривать видео.*Когда попросили предоставить субъективную оценку видео, связанных с новой научной статьей, и после того, как ChatGPT-4o выдал фальшивое мнение, он в конечном итоге признается, что не может напрямую просматривать видео.*

Хотя эти модели являются мультимодальными и могут анализировать отдельные фотографии, например, кадр, извлеченный из видео, их способность предоставлять качественные мнения сомнительна. LLMs часто склонны давать «угодливые» ответы, а не искренние критические замечания. Более того, многие проблемы в видео связаны с временными аспектами, что означает, что анализ одного кадра полностью упускает суть.

Единственный способ, которым LLM может предложить «оценочное суждение» о видео, — это использование текстовой информации, например, понимание deepfake-изображений или истории искусства, чтобы соотнести визуальные качества с изученными эмбеддингами, основанными на человеческих инсайтах.

Проект FakeVLM предлагает целевое обнаружение deepfake с помощью специализированной мультимодальной визуально-языковой модели. Источник: https://arxiv.org/pdf/2503.14905*Проект FakeVLM предлагает целевое обнаружение deepfake с помощью специализированной мультимодальной визуально-языковой модели.* Источник: https://arxiv.org/pdf/2503.14905

Хотя LLM может идентифицировать объекты в видео с помощью дополнительных систем ИИ, таких как YOLO, субъективная оценка остается недостижимой без метрики, основанной на функции потерь, которая отражает человеческое мнение.

Условное зрение

Функции потерь необходимы для обучения моделей, измеряя, насколько далеко предсказания от правильных ответов, и направляя модель к снижению ошибок. Они также используются для оценки контента, сгенерированного ИИ, такого как фотореалистичные видео.

Одна популярная метрика — это Fréchet Inception Distance (FID), которая измеряет сходство между распределением сгенерированных изображений и реальных изображений. FID использует сеть Inception v3 для расчета статистических различий, и более низкий балл указывает на более высокое визуальное качество и разнообразие.

Однако FID является само-референциальной и сравнительной. Условная Fréchet Distance (CFD), представленная в 2021 году, решает эту проблему, также учитывая, насколько хорошо сгенерированные изображения соответствуют дополнительным условиям, таким как метки классов или входные изображения.

Примеры из CFD 2021 года. Источник: https://github.com/Michael-Soloveitchik/CFID/*Примеры из CFD 2021 года.* Источник: https://github.com/Michael-Soloveitchik/CFID/

CFD стремится интегрировать качественную человеческую интерпретацию в метрики, но этот подход вводит такие проблемы, как потенциальная предвзятость, необходимость частых обновлений и бюджетные ограничения, которые могут влиять на последовательность и надежность оценок с течением времени.

cFreD

Недавняя статья из США представляет Conditional Fréchet Distance (cFreD), новую метрику, разработанную для лучшего отражения человеческих предпочтений путем оценки как визуального качества, так и соответствия тексту-изображению.

Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для запроса 'Гостиная с диваном и ноутбуком, стоящим на диване.' Зеленым выделена модель с наивысшей человеческой оценкой (FLUX.1-dev), фиолетовым — с наименьшей (SDv1.5). Только cFreD соответствует человеческим рейтингам. Полные результаты смотрите в исходной статье, так как у нас нет места для их воспроизведения здесь. Источник: https://arxiv.org/pdf/2503.21721*Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для запроса "Гостиная с диваном и ноутбуком, стоящим на диване." Зеленым выделена модель с наивысшей человеческой оценкой (FLUX.1-dev), фиолетовым — с наименьшей (SDv1.5). Только cFreD соответствует человеческим рейтингам. Полные результаты смотрите в исходной статье, так как у нас нет места для их воспроизведения здесь.* Источник: https://arxiv.org/pdf/2503.21721

Авторы утверждают, что традиционные метрики, такие как Inception Score (IS) и FID, недостаточны, поскольку они фокусируются только на качестве изображения, не учитывая, насколько хорошо изображения соответствуют их запросам. Они предлагают, что cFreD охватывает как качество изображения, так и соответствие входному тексту, что приводит к более высокой корреляции с человеческими предпочтениями.

Тесты статьи показывают, что предложенная авторами метрика cFreD последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех тестовых наборах данных (PartiPrompts, HPDv2 и COCO).*Тесты статьи показывают, что предложенная авторами метрика cFreD последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех тестовых наборах данных (PartiPrompts, HPDv2 и COCO).*

Концепция и метод

Золотым стандартом для оценки моделей текст-в-изображение являются данные о человеческих предпочтениях, собранные через краудсорсинговые сравнения, аналогичные методам, используемым для крупных языковых моделей. Однако эти методы дороги и медленны, что приводит к тому, что некоторые платформы прекращают обновления.

Таблица лидеров Artificial Analysis Image Arena, которая ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ. Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*Таблица лидеров Artificial Analysis Image Arena, которая ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ.* Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Автоматизированные метрики, такие как FID, CLIPScore и cFreD, имеют решающее значение для оценки будущих моделей, особенно по мере эволюции человеческих предпочтений. cFreD предполагает, что как реальные, так и сгенерированные изображения следуют гауссовым распределениям, и измеряет ожидаемое расстояние Фреше по запросам, оценивая как реализм, так и текстовую согласованность.

Данные и тесты

Для оценки корреляции cFreD с человеческими предпочтениями авторы использовали рейтинги изображений от нескольких моделей с одинаковыми текстовыми запросами. Они опирались на тестовый набор Human Preference Score v2 (HPDv2) и PartiPrompts Arena, объединяя данные в единый набор данных.

Для новых моделей они использовали 1000 запросов из тренировочных и валидационных наборов COCO, обеспечивая отсутствие пересечения с HPDv2, и сгенерировали изображения с использованием девяти моделей из таблицы лидеров Arena. cFreD был протестирован против нескольких статистических и обученных метрик, показав сильное соответствие с человеческими суждениями.

Рейтинги и баллы моделей на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги и баллы моделей на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

cFreD достиг наивысшего соответствия с человеческими предпочтениями, достигнув корреляции 0,97 и точности ранжирования 91,1%. Он превзошёл другие метрики, включая те, что обучены на данных человеческих предпочтений, демонстрируя свою надёжность для различных моделей.

Рейтинги и баллы моделей на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги и баллы моделей на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В PartiPrompts Arena cFreD показал наивысшую корреляцию с человеческими оценками на уровне 0,73, за ним следовали FID и FDDINOv2. Однако HPSv2, обученная на человеческих предпочтениях, имела самое сильное соответствие на уровне 0,83.

Рейтинги моделей на случайно выбранных запросах COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на большее количество несогласованных пар, чем согласованных, лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги моделей на случайно выбранных запросах COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на большее количество несогласованных пар, чем согласованных, лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В оценке набора данных COCO cFreD достиг корреляции 0,33 и точности ранжирования 66,67%, заняв третье место по соответствию с человеческими предпочтениями, уступая только метрикам, обученным на человеческих данных.

Процент побед, показывающий, как часто рейтинги каждого базового изображения соответствовали истинным рейтингам, полученным от людей, на наборе данных COCO.*Процент побед, показывающий, как часто рейтинги каждого базового изображения соответствовали истинным рейтингам, полученным от людей, на наборе данных COCO.*

Авторы также протестировали Inception V3 и обнаружили, что он уступает базовым моделям на основе трансформеров, таким как DINOv2-L/14 и ViT-L/16, которые стабильно лучше соответствовали человеческим рейтингам.

Заключение

Хотя решения с участием человека остаются оптимальным подходом для разработки метрик и функций потерь, масштаб и частота обновлений делают их непрактичными. Достоверность cFreD зависит от его соответствия человеческому суждению, хотя и косвенно. Легитимность метрики опирается на данные о человеческих предпочтениях, поскольку без таких ориентиров утверждения о человеческой оценке были бы недоказуемы.

Закрепление текущих критериев «реализма» в генеративном выводе в метрической функции может быть долгосрочной ошибкой, учитывая эволюционирующую природу нашего понимания реализма, обусловленного новой волной генеративных систем ИИ.

*На этом этапе я бы обычно включил примерный иллюстративный видеопример, возможно, из недавней академической заявки; но это было бы недоброжелательно – любой, кто провёл более 10–15 минут, просматривая генеративный вывод ИИ на Arxiv, уже столкнулся с дополнительными видео, чьё субъективно низкое качество указывает на то, что связанная заявка не будет признана знаковой статьёй.*

*В экспериментах использовалось в общей сложности 46 базовых моделей изображений, не все из которых учтены в графических результатах. Полный список см. в приложении к статье; те, что представлены в таблицах и рисунках, перечислены.*

Впервые опубликовано во вторник, 1 апреля 2025 года

Связанная статья
AI-управляемые инструменты для подкастов для упрощенного создания контента AI-управляемые инструменты для подкастов для упрощенного создания контента Создание и совершенствование подкаста может быть как трудоемким, так и приносящим удовлетворение. Многие подкастеры сталкиваются с проблемами, связанными с затратными по времени задачами, такими как у
Красный комбинезон Бритни Спирс: Определяющий момент в поп-моде Красный комбинезон Бритни Спирс: Определяющий момент в поп-моде Бритни Спирс, культовая поп-звезда, неизменно очаровывает публику своим смелым стилем. Её музыкальные клипы — это не только музыкальные хиты, но и вехи моды. Эта статья посвящена незабываемому красном
Исследование божественной преданности: вера, любовь и духовная свобода Исследование божественной преданности: вера, любовь и духовная свобода В мире, полном хаоса и отвлечений, выделение моментов покоя для духовной связи может изменить жизнь. Эта статья углубляется в глубокий акт почитания Иисуса, исследуя темы веры, божественной любви и ли
RalphMartínez
RalphMartínez 22 июля 2025 г., 4:25:03 GMT+03:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 25 апреля 2025 г., 5:29:53 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 23 апреля 2025 г., 14:09:01 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 22 апреля 2025 г., 12:56:13 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 апреля 2025 г., 11:55:54 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 20 апреля 2025 г., 5:22:28 GMT+03:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

Вернуться к вершине
OR