вариант
Дом
Новости
ИИ учится доставлять расширенные видео -критику

ИИ учится доставлять расширенные видео -критику

19 апреля 2025 г.
141

Проблема оценки видеоконтента в исследованиях ИИ

При погружении в мир литературы по компьютерному зрению крупные визуально-языковые модели (LVLMs) могут быть неоценимыми для интерпретации сложных материалов. Однако они сталкиваются с серьезным препятствием, когда речь идет об оценке качества и достоинств видеопримеров, сопровождающих научные статьи. Это важный аспект, поскольку убедительные визуальные материалы не менее важны, чем текст, для создания интереса и подтверждения утверждений, сделанных в исследовательских проектах.

Проекты по синтезу видео, в частности, в значительной степени зависят от демонстрации реального видеовыхода, чтобы не быть отвергнутыми. Именно в этих демонстрациях можно по-настоящему оценить реальную производительность проекта, часто выявляя разрыв между смелыми заявлениями проекта и его фактическими возможностями.

Я прочитал книгу, но не видел фильма

В настоящее время популярные крупные языковые модели (LLMs) и крупные визуально-языковые модели (LVLMs), основанные на API, не способны напрямую анализировать видеоконтент. Их возможности ограничены анализом транскриптов и других текстовых материалов, связанных с видео. Это ограничение становится очевидным, когда эти модели просят напрямую анализировать видеоконтент.

Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без использования транскриптов или других текстовых источников.*Разнообразные возражения GPT-4o, Google Gemini и Perplexity, когда их просят напрямую анализировать видео, без использования транскриптов или других текстовых источников.*

Некоторые модели, такие как ChatGPT-4o, могут даже пытаться предоставить субъективную оценку видео, но в итоге признают свою неспособность напрямую просматривать видео, если на них надавить.

Когда попросили предоставить субъективную оценку видео, связанных с новой научной статьей, и после того, как ChatGPT-4o выдал фальшивое мнение, он в конечном итоге признается, что не может напрямую просматривать видео.*Когда попросили предоставить субъективную оценку видео, связанных с новой научной статьей, и после того, как ChatGPT-4o выдал фальшивое мнение, он в конечном итоге признается, что не может напрямую просматривать видео.*

Хотя эти модели являются мультимодальными и могут анализировать отдельные фотографии, например, кадр, извлеченный из видео, их способность предоставлять качественные мнения сомнительна. LLMs часто склонны давать «угодливые» ответы, а не искренние критические замечания. Более того, многие проблемы в видео связаны с временными аспектами, что означает, что анализ одного кадра полностью упускает суть.

Единственный способ, которым LLM может предложить «оценочное суждение» о видео, — это использование текстовой информации, например, понимание deepfake-изображений или истории искусства, чтобы соотнести визуальные качества с изученными эмбеддингами, основанными на человеческих инсайтах.

Проект FakeVLM предлагает целевое обнаружение deepfake с помощью специализированной мультимодальной визуально-языковой модели. Источник: https://arxiv.org/pdf/2503.14905*Проект FakeVLM предлагает целевое обнаружение deepfake с помощью специализированной мультимодальной визуально-языковой модели.* Источник: https://arxiv.org/pdf/2503.14905

Хотя LLM может идентифицировать объекты в видео с помощью дополнительных систем ИИ, таких как YOLO, субъективная оценка остается недостижимой без метрики, основанной на функции потерь, которая отражает человеческое мнение.

Условное зрение

Функции потерь необходимы для обучения моделей, измеряя, насколько далеко предсказания от правильных ответов, и направляя модель к снижению ошибок. Они также используются для оценки контента, сгенерированного ИИ, такого как фотореалистичные видео.

Одна популярная метрика — это Fréchet Inception Distance (FID), которая измеряет сходство между распределением сгенерированных изображений и реальных изображений. FID использует сеть Inception v3 для расчета статистических различий, и более низкий балл указывает на более высокое визуальное качество и разнообразие.

Однако FID является само-референциальной и сравнительной. Условная Fréchet Distance (CFD), представленная в 2021 году, решает эту проблему, также учитывая, насколько хорошо сгенерированные изображения соответствуют дополнительным условиям, таким как метки классов или входные изображения.

Примеры из CFD 2021 года. Источник: https://github.com/Michael-Soloveitchik/CFID/*Примеры из CFD 2021 года.* Источник: https://github.com/Michael-Soloveitchik/CFID/

CFD стремится интегрировать качественную человеческую интерпретацию в метрики, но этот подход вводит такие проблемы, как потенциальная предвзятость, необходимость частых обновлений и бюджетные ограничения, которые могут влиять на последовательность и надежность оценок с течением времени.

cFreD

Недавняя статья из США представляет Conditional Fréchet Distance (cFreD), новую метрику, разработанную для лучшего отражения человеческих предпочтений путем оценки как визуального качества, так и соответствия тексту-изображению.

Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для запроса 'Гостиная с диваном и ноутбуком, стоящим на диване.' Зеленым выделена модель с наивысшей человеческой оценкой (FLUX.1-dev), фиолетовым — с наименьшей (SDv1.5). Только cFreD соответствует человеческим рейтингам. Полные результаты смотрите в исходной статье, так как у нас нет места для их воспроизведения здесь. Источник: https://arxiv.org/pdf/2503.21721*Частичные результаты из новой статьи: рейтинги изображений (1–9) по различным метрикам для запроса "Гостиная с диваном и ноутбуком, стоящим на диване." Зеленым выделена модель с наивысшей человеческой оценкой (FLUX.1-dev), фиолетовым — с наименьшей (SDv1.5). Только cFreD соответствует человеческим рейтингам. Полные результаты смотрите в исходной статье, так как у нас нет места для их воспроизведения здесь.* Источник: https://arxiv.org/pdf/2503.21721

Авторы утверждают, что традиционные метрики, такие как Inception Score (IS) и FID, недостаточны, поскольку они фокусируются только на качестве изображения, не учитывая, насколько хорошо изображения соответствуют их запросам. Они предлагают, что cFreD охватывает как качество изображения, так и соответствие входному тексту, что приводит к более высокой корреляции с человеческими предпочтениями.

Тесты статьи показывают, что предложенная авторами метрика cFreD последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех тестовых наборах данных (PartiPrompts, HPDv2 и COCO).*Тесты статьи показывают, что предложенная авторами метрика cFreD последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOv2, CLIPScore и CMMD на трех тестовых наборах данных (PartiPrompts, HPDv2 и COCO).*

Концепция и метод

Золотым стандартом для оценки моделей текст-в-изображение являются данные о человеческих предпочтениях, собранные через краудсорсинговые сравнения, аналогичные методам, используемым для крупных языковых моделей. Однако эти методы дороги и медленны, что приводит к тому, что некоторые платформы прекращают обновления.

Таблица лидеров Artificial Analysis Image Arena, которая ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ. Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard*Таблица лидеров Artificial Analysis Image Arena, которая ранжирует текущих предполагаемых лидеров в генеративном визуальном ИИ.* Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard

Автоматизированные метрики, такие как FID, CLIPScore и cFreD, имеют решающее значение для оценки будущих моделей, особенно по мере эволюции человеческих предпочтений. cFreD предполагает, что как реальные, так и сгенерированные изображения следуют гауссовым распределениям, и измеряет ожидаемое расстояние Фреше по запросам, оценивая как реализм, так и текстовую согласованность.

Данные и тесты

Для оценки корреляции cFreD с человеческими предпочтениями авторы использовали рейтинги изображений от нескольких моделей с одинаковыми текстовыми запросами. Они опирались на тестовый набор Human Preference Score v2 (HPDv2) и PartiPrompts Arena, объединяя данные в единый набор данных.

Для новых моделей они использовали 1000 запросов из тренировочных и валидационных наборов COCO, обеспечивая отсутствие пересечения с HPDv2, и сгенерировали изображения с использованием девяти моделей из таблицы лидеров Arena. cFreD был протестирован против нескольких статистических и обученных метрик, показав сильное соответствие с человеческими суждениями.

Рейтинги и баллы моделей на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги и баллы моделей на тестовом наборе HPDv2 с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

cFreD достиг наивысшего соответствия с человеческими предпочтениями, достигнув корреляции 0,97 и точности ранжирования 91,1%. Он превзошёл другие метрики, включая те, что обучены на данных человеческих предпочтений, демонстрируя свою надёжность для различных моделей.

Рейтинги и баллы моделей на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги и баллы моделей на PartiPrompt с использованием статистических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward и MPS). Лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В PartiPrompts Arena cFreD показал наивысшую корреляцию с человеческими оценками на уровне 0,73, за ним следовали FID и FDDINOv2. Однако HPSv2, обученная на человеческих предпочтениях, имела самое сильное соответствие на уровне 0,83.

Рейтинги моделей на случайно выбранных запросах COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на большее количество несогласованных пар, чем согласованных, лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*Рейтинги моделей на случайно выбранных запросах COCO с использованием автоматических метрик (FID, FDDINOv2, CLIPScore, CMMD и cFreD) и метрик, обученных на человеческих предпочтениях (Aesthetic Score, ImageReward, HPSv2 и MPS). Точность ранжирования ниже 0,5 указывает на большее количество несогласованных пар, чем согласованных, лучшие результаты выделены жирным, вторые по значимости подчёркнуты.*

В оценке набора данных COCO cFreD достиг корреляции 0,33 и точности ранжирования 66,67%, заняв третье место по соответствию с человеческими предпочтениями, уступая только метрикам, обученным на человеческих данных.

Процент побед, показывающий, как часто рейтинги каждого базового изображения соответствовали истинным рейтингам, полученным от людей, на наборе данных COCO.*Процент побед, показывающий, как часто рейтинги каждого базового изображения соответствовали истинным рейтингам, полученным от людей, на наборе данных COCO.*

Авторы также протестировали Inception V3 и обнаружили, что он уступает базовым моделям на основе трансформеров, таким как DINOv2-L/14 и ViT-L/16, которые стабильно лучше соответствовали человеческим рейтингам.

Заключение

Хотя решения с участием человека остаются оптимальным подходом для разработки метрик и функций потерь, масштаб и частота обновлений делают их непрактичными. Достоверность cFreD зависит от его соответствия человеческому суждению, хотя и косвенно. Легитимность метрики опирается на данные о человеческих предпочтениях, поскольку без таких ориентиров утверждения о человеческой оценке были бы недоказуемы.

Закрепление текущих критериев «реализма» в генеративном выводе в метрической функции может быть долгосрочной ошибкой, учитывая эволюционирующую природу нашего понимания реализма, обусловленного новой волной генеративных систем ИИ.

*На этом этапе я бы обычно включил примерный иллюстративный видеопример, возможно, из недавней академической заявки; но это было бы недоброжелательно – любой, кто провёл более 10–15 минут, просматривая генеративный вывод ИИ на Arxiv, уже столкнулся с дополнительными видео, чьё субъективно низкое качество указывает на то, что связанная заявка не будет признана знаковой статьёй.*

*В экспериментах использовалось в общей сложности 46 базовых моделей изображений, не все из которых учтены в графических результатах. Полный список см. в приложении к статье; те, что представлены в таблицах и рисунках, перечислены.*

Впервые опубликовано во вторник, 1 апреля 2025 года

Связанная статья
Ведомства правительства Великобритании спорят по поводу энергопотребления центров обработки данных для искусственного интеллекта Ведомства правительства Великобритании спорят по поводу энергопотребления центров обработки данных для искусственного интеллекта Правительство Великобритании стоит перед серьезной задачей: развивать сектор чистой энергетики и одновременно стремиться стать мировым лидером в области искусственного интеллекта. Однако между ведомст
Управление киберпространства Китая вводит обязательную маркировку коротких видеороликов, созданных с помощью искусственного интеллекта, а также вымышленных видеороликов Управление киберпространства Китая вводит обязательную маркировку коротких видеороликов, созданных с помощью искусственного интеллекта, а также вымышленных видеороликов Управление киберпространства Китая представило комплексный план по стандартизации маркировки контента коротких видеороликов, обязывающий платформы использовать шесть обязательных меток, в том числе «К
DeepL, известная своими услугами по переводу текстов, теперь занимается переводом речи DeepL, известная своими услугами по переводу текстов, теперь занимается переводом речи DeepL, компания-переводчик, наиболее известная своими инструментами для перевода текстов, сегодня представила набор решений для перевода «голос-голос», предназначенный для таких сценариев, как встречи
Рекомендации по связанным специальным темам
письмо Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков
Лучшие программы для создания персонажей в жанре научной фантастики: генерация последовательных мотиваций персонажей и их роковых недостатков

Откройте для себя 20 лучших инструментов 2026 года для создания персонажей с помощью искусственного интеллекта, которые помогут вам придать своим героям глубину. В тщательно подобранном списке XIX.AI представлены самые популярные и революционные инструменты, способные генерировать правдоподобные мотивации и роковые недостатки персонажей. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой потенциал в области создания историй уже сейчас.

10 инструментов
xix.ai
Бизнес Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине
Лучшее ПО для оптимизации цен с помощью ИИ: отслеживание конкурентов и автоматическая корректировка цен в магазине

Откройте для себя лучшее программное обеспечение 2026 года для оптимизации цен с помощью ИИ на сайте XIX.AI. В нашем тщательно подобранном списке представлены высокооцененные, революционные инструменты, которые отслеживают конкурентов и автоматически корректируют цены в вашем магазине для получения максимальной прибыли. Сравните бесплатные и платные варианты на основе реальных тестов. Получите преимущество в ценообразовании уже сейчас.

10 инструментов
xix.ai
код Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях
Лучшие системы проверки кода на основе ИИ: автоматизация обеспечения соответствия стандартам чистого кода и рефакторинг файлов в устаревших репозиториях

Откройте для себя 20 лучших рецензентов кода на базе ИИ 2026 года на XIX.AI. В нашем тщательно составленном списке представлены высокооцененные, революционные инструменты для автоматизации проверки соответствия стандартам чистого кода и рефакторинга файлов в устаревших репозиториях. Сравните бесплатные и платные варианты с помощью реальных тестов и еженедельно обновляемых рейтингов. Получите преимущество ИИ уже сегодня.

10 инструментов
xix.ai
Преобразование текста в речь Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения
Лучшие приложения с функцией преобразования текста в речь на базе ИИ для детей с дислексией: помощь в обучении и повышение эффективности чтения

Откройте для себя лучшие приложения с технологией TTS на базе искусственного интеллекта 2026 года, специально отобранные для помощи людям с дислексией. В нашем рейтинге экспертов сравниваются бесплатные и платные инструменты, а также освещаются мощные функции, способствующие повышению эффективности чтения и обучения. Откройте для себя революционные решения, которые обязательно стоит попробовать, чтобы раскрыть потенциал учащихся. Начните свое путешествие на XIX.AI.

10 инструментов
xix.ai
Создание комиксов Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии
Лучшие генераторы на базе ИИ для сёнэн-манги: создавайте динамичные сцены боевых действий и эффекты энергии

Откройте для себя лучшие генераторы искусственного интеллекта для манги в стиле «сёнен» 2026 года на сайте XIX.AI. В нашем тщательно отобранном списке представлены мощные инструменты для создания динамичных сцен боевых действий и эффектных энергетических эффектов. Сравните бесплатные и платные варианты на основе реальных тестов. Раскройте свой творческий потенциал и начните создавать эпическую мангу уже сегодня!

15 инструментов
xix.ai
Бизнес Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы
Лучшие приложения для учета расходов на базе ИИ: сканируйте чеки и автоматически классифицируйте корпоративные расходы

Лучшие программы для учета расходов с ИИ 2026 года: самые популярные инструменты для сканирования чеков и автоматической классификации корпоративных расходов. Откройте для себя мощные, революционные решения для удобного управления расходами, точного финансового мониторинга и оптимизации соблюдения нормативных требований. Наш тщательно составленный и еженедельно обновляемый обзор бесплатных и платных вариантов поможет вам найти идеальный вариант. Воспользуйтесь преимуществами ИИ с помощью рекомендаций экспертов XIX.AI.

10 инструментов
xix.ai
Комментарии (6)
0/500
RalphMartínez
RalphMartínez 22 июля 2025 г., 4:25:03 GMT+03:00

This AI video critique stuff is wild! Imagine a machine roasting your YouTube edits better than a film critic. 😄 Kinda scary how smart these models are getting, though—hope they don’t start judging my binge-watching habits next!

FrankSmith
FrankSmith 25 апреля 2025 г., 5:29:53 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

GaryGarcia
GaryGarcia 23 апреля 2025 г., 14:09:01 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

KennethKing
KennethKing 22 апреля 2025 г., 12:56:13 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 апреля 2025 г., 11:55:54 GMT+03:00

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

GaryGonzalez
GaryGonzalez 20 апреля 2025 г., 5:22:28 GMT+03:00

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

OR