вариант
Дом
Новости
ИИ учится доставлять расширенные видео -критику

ИИ учится доставлять расширенные видео -критику

19 апреля 2025 г.
55

Задача оценки видеоконтента в исследовании искусственного интеллекта

При погружении в мир литературы по компьютерному зрению, большие модели на языке зрения (LVLMS) могут быть неоценимы для интерпретации сложных представлений. Тем не менее, они достигли значительного препятствия, когда дело доходит до оценки качества и достоинств видео примеров , которые сопровождают научные документы. Это важный аспект, потому что убедительные визуальные эффекты так же важны, как и текст для создания волнения и подтверждения претензий, сделанных в исследовательских проектах.

Проекты синтеза видео, в частности, в значительной степени полагаются на демонстрацию фактического видео вывода, чтобы избежать увольнения. Именно в этих демонстрациях реальная производительность проекта может быть по-настоящему оценена, часто выявляя разрыв между смелыми претензиями проекта и его реальными возможностями.

Я читал книгу, не видел фильм

В настоящее время популярные модели с большими языками на основе API (LLMS) и крупные модели на языке зрения (LVLMS) не оснащены для непосредственного анализа видеоконтента. Их возможности ограничиваются анализом транскриптов и других текстовых материалов, связанных с видео. Это ограничение очевидно, когда эти модели просят напрямую проанализировать видеоконтент.

Разнообразные возражения GPT-4O, Google Gemini и недоумения, когда его просят напрямую проанализировать видео, без обращения к транскриптам или другим текстовым источникам. *Разнообразные возражения GPT-4O, Google Gemini и недоумения, когда его просят напрямую проанализировать видео, без обращения к транскриптам или другим текстовым источникам.***********************************

Некоторые модели, такие как CHATGPT-4O, могут даже попытаться провести субъективную оценку видео, но в конечном итоге признают их неспособность напрямую просматривать видео при нажатии.

Будучи попросили провести субъективную оценку связанных с ними видео-исследовательских документов и преданного реальному мнению, Chatgpt-4O в конечном итоге признается, что не может действительно просматривать видео напрямую. *Попросили предоставить субъективную оценку видео связанных с ними исследовательских документов, и, подделав реальное мнение, Chatgpt-4O в конечном итоге признается, что не может действительно просматривать видео напрямую.*

Хотя эти модели являются мультимодальными и могут анализировать отдельные фотографии, такие как кадр, извлеченная из видео, их способность предоставлять качественные мнения сомнительна. LLM часто склонны давать «приятные люди» ответы, а не искреннюю критику. Более того, многие проблемы в видео являются временными, что означает, что анализ одного кадра полностью упускает эту точку зрения.

Единственный способ, которым LLM может предложить «ценностное суждение» на видео,-это использование текстовых знаний, таких как понимание изображений DeepFake или истории искусства, для корреляции визуальных качеств с изученными встраиваниями, основанными на человеческих истях.

Проект FakeVLM предлагает целевое обнаружение глубоких черт с помощью специализированной многомодальной модели на языке зрения. Источник: https://arxiv.org/pdf/2503.14905 * Проект FAKEVLM предлагает целевое обнаружение глубоких чертов с помощью специализированной многомодальной модели на языке зрения.* Источник: https://arxiv.org/pdf/2503.14905

В то время как LLM может идентифицировать объекты в видео с помощью адъюнкт-систем, таких как YOLO, субъективная оценка остается неуловимой без метрики на основе потерь, которая отражает человеческое мнение.

Условное зрение

Функции потерь важны в тренировочных моделях, измеряя, насколько далеко прогнозируются от правильных ответов, и направляет модель к уменьшению ошибок. Они также используются для оценки контента, сгенерированного AI, таким как фотореалистические видео.

Одним из популярных метриков является расстояние на основе основания Фреше (FID), которое измеряет сходство между распределением сгенерированных изображений и реальными изображениями. FID использует сеть «Начало V3» для расчета статистических различий, а более низкий балл указывает на более высокое визуальное качество и разнообразие.

Однако FID является самореференциальным и сравнительным. Условное расстояние Фреше (CFD), представленное в 2021 году, рассматривает это, также учитывая, насколько хорошо сгенерированные изображения соответствуют дополнительным условиям, таким как метки класса или входные изображения.

Примеры из 2021 года CFD. Источник: https://github.com/michael-soloveitchik/cfid/ * Примеры из 2021 года CFD.

CFD стремится интегрировать качественную человеческую интерпретацию в метрики, но этот подход вводит такие проблемы, как потенциальное предвзятость, необходимость частых обновлений и бюджетные ограничения, которые могут повлиять на согласованность и надежность оценок с течением времени.

Cfred

Недавняя статья из США представляет собой условное расстояние Фреше (CFRED) , новую метрику, предназначенную для лучшего отражения человеческих предпочтений, оценивая как визуальное качество, так и выравнивание текста.

Частичные результаты новой статьи: рейтинги изображений (1–9) по различным показателям для быстрого «гостиная с диваном и ноутбук, отдыхающий на диване». Зеленый выделяет максимальную модель с человеком (Flux.1-DEV), фиолетовый самый низкий (SDV1.5). Только CFRED соответствует человеческому рейтингу. Пожалуйста, обратитесь к исходной бумаге для получения полных результатов, которые у нас нет места для воспроизведения здесь. Источник: https://arxiv.org/pdf/2503.21721 *Частичные результаты новой статьи: рейтинги изображений (1–9) по различным показателям для подсказки «Гостиная с диваном и ноутбук, отдыхающий на диване». Зеленый выделяет максимальную модель с человеком (Flux.1-DEV), фиолетовый самый низкий (SDV1.5). Только CFRED соответствует человеческому рейтингу. Пожалуйста, обратитесь к исходной бумаге для получения полных результатов, которые у нас нет места для воспроизведения здесь.* Источник: https://arxiv.org/pdf/2503.21721

Авторы утверждают, что традиционные метрики, такие как балл на основе начала (IS) и FID, терпят неудачу, потому что они фокусируются исключительно на качестве изображения, не учитывая, насколько хорошо изображения соответствуют их подсказкам. Они предполагают, что CFRED отражает как качество изображения, так и кондиционирование на входном тексте, что приводит к более высокой корреляции с предпочтениями человека.

Тесты статьи показывают, что предложенная метрика авторов, CFRED, последовательно достигает более высокой корреляции с предпочтениями человека, чем FID, FDDINOV2, CLIPSCORE и CMMD на трех эталонных наборах данных (PartiPrompts, HPDV2 и COCO). *Тесты статьи показывают, что предложенная метрика авторов, CFRED, последовательно достигает более высокой корреляции с человеческими предпочтениями, чем FID, FDDINOV2, CLIPSCORE и CMMD на трех эталонных наборах данных (PartiPrompts, HPDV2 и COCO).

Концепция и метод

Золотым стандартом для оценки моделей текста до изображения является данные о предпочтениях человека, собранные в рамках сравнений краудсорсинга, аналогичные методам, используемым для моделей крупных языков. Тем не менее, эти методы являются дорогостоящими и медленными, что приводит к тому, что некоторые платформы прекратят обновления.

Организации лидеров Arena Arena Arena Analysis Analys, которая оценивает в настоящее время лидеры по генеративному визуальному ИИ. Источник: https://artificialanalysis.ai/text-to-image/arena?tab=Leaderboard * Организации лидеров Arena Arena Arena Analifice, которая оценивает лидеров, оцениваемых в настоящее время в генеративном визуальном AI.* Источник: https://artificialanalysis.ai/text-image/arena?tab=Leaderboard

Автоматизированные метрики, такие как FID, Clipscore и CFRED, имеют решающее значение для оценки будущих моделей, особенно когда развиваются человеческие предпочтения. CFRED предполагает, что как реальные, так и сгенерированные изображения следуют гауссовому распределению и измеряют ожидаемое расстояние Фреше по подсказкам, оценивая как реализм, так и последовательность текста.

Данные и тесты

Чтобы оценить корреляцию CFRED с человеческими предпочтениями, авторы использовали рейтинг изображений из нескольких моделей с одинаковыми текстовыми подсказками. Они использовали тестовый набор тестовых показателей для человеческого предпочтения V2 (HPDV2) и арену Partiprompts, объединяя данные в один набор данных.

Для новых моделей они использовали 1000 подсказок из наборов поезда и валидации Coco, обеспечивая отсутствие совпадения с HPDV2 и сгенерированными изображениями с использованием девяти моделей из таблицы лидеров арены. CFRED был оценен по нескольким статистическим и изученным показателям, демонстрируя сильное согласование с человеческими суждениями.

Рейтинги и оценки модели на тестовом наборе HPDV2 с использованием статистических метрик (FID, FDDINOV2, ClipScore, CMMD и CFRED) и обученные человеческими предпочтениями показатели (эстетическая оценка, Imagereard, HPSV2 и MPS). Лучшие результаты показаны жирным шрифтом, вторые лучшие подчеркнуты. *Рейтинги и оценки модели на тестовом наборе HPDV2 с использованием статистических метрик (FID, FDDINOV2, CLIPSCORE, CMMD и CFRED) и показатели, обученные предпочтениями человека (эстетическая оценка, Imagereard, HPSV2 и MPS). Лучшие результаты показаны жирным шрифтом, вторые лучшие подчеркнуты.*

CFRED достиг наивысшего выравнивания с предпочтениями человека, достигнув корреляции 0,97 и точность ранга 91,1%. Он превзошел другие показатели, в том числе те, которые обучались данным о предпочтениях человека, демонстрируя ее надежность в разных моделях.

Рейтинги и оценки модели по партии с использованием статистических метрик (FID, FDDINOV2, Clipscore, CMMD и CFRED) и показатели, обученные предпочтениями человека (эстетическая оценка, ImagereWard и MPS). Лучшие результаты в жирных шрифтах, вторые лучшие подчеркнуты. *Модельные рейтинги и оценки по партии с использованием статистических метрик (FID, FDDINOV2, CLIPSCORE, CMMD и CFRED) и показатели, обученные предпочтениями человека (эстетическая оценка, ImagereWard и MPS). Лучшие результаты в жирных шрифтах, вторые лучшие подчеркнуты.*

На арене Partiprompts CFRED показала самую высокую корреляцию с оценками человека в 0,73, за которыми следуют FID и Fddinov2. Тем не менее, HPSV2, обученный человеческим предпочтениям, имел самое сильное выравнивание в 0,83.

Рейтинги модели на случайно отобранных подсказках COCO с использованием автоматических метрик (FID, FDDINOV2, CLIPSCORE, CMMD и CFRED) и метрик, обученные предпочтениями человека (эстетическая оценка, ImagereWard, HPSV2 и MPS). Точность ранга ниже 0,5 указывает на более несоответствующие, чем согласованные пары, и наилучшие результаты находятся в жирных жирных шрифтах, вторые лучшие подчеркнуты. *Рейтинг модели на случайно отобранных подсказках COCO с использованием автоматических метрик (FID, FDDINOV2, CLIPSCORE, CMMD и CFRED) и метрик, обученные предпочтениями человека (эстетическая оценка, Imagereard, HPSV2 и MPS). Точность ранга ниже 0,5 указывает на более разногласие, чем согласованные пары, и наилучшие результаты находятся в жирных жирных шрифтах, вторые лучшие подчеркнуты.*

В оценке наборов данных COCO CFRED достиг корреляции 0,33 и точность ранга 66,67%, заняв третье место по согласованию с предпочтениями человека, за то, что только показали показатели, обученные человеческим данным.

Показатели выигрыша, показывающие, как часто рейтинги каждого изображения соответствует истинному человеческому рейтингу на наборе данных COCO. *Показатели выигрыша, показывающие, как часто рейтинг каждого изображения соответствует истинному рейтингу людей на наборе данных COCO.*

Авторы также протестировали начало V3 и обнаружили, что его опережают с помощью трансформатора, таких как Dinov2-L/14 и Vit-L/16, которые последовательно выровнялись лучше с рейтингом человека.

Заключение

В то время как решения человека в петле остаются оптимальным подходом для разработки функций метрики и потерь, масштаб и частота обновлений делают их непрактичными. Доверие CFRED зависит от его согласования с человеческим суждением, хотя и косвенно. Легитимность метрики зависит от данных о предпочтениях человека, как и без таких критериев, утверждения об оценке, похожей на человека, были бы недоказуемыми.

Закрепление текущих критериев для «реализма» в генеративном выходе в метрическую функцию может быть долгосрочной ошибкой, учитывая развивающуюся природу нашего понимания реализма, обусловленная новой волной генеративных систем ИИ.

*На данный момент я обычно включал бы примерный пример иллюстративного видео, возможно, из недавнего академического представления; Но это было бы подлым-любой, кто потратил более 10-15 минут, пробивая генеративные результаты ИИ Arxiv, уже столкнулся с дополнительными видео, субъективно низкое качество указывает на то, что соответствующее представление не будет провозглашено как ориентир.*************

*Всего в экспериментах использовалось 46 моделей магистралей изображения, не все из которых рассматриваются в графических результатах. Пожалуйста, обратитесь к приложению газеты для полного списка; те, которые показаны в таблицах и цифрах, были перечислены.*

Впервые опубликовано вторник, 1 апреля 2025 года

Связанная статья
ИИ в медицинских консультациях: Трансформация здравоохранения ИИ в медицинских консультациях: Трансформация здравоохранения Искусственный интеллект стремительно меняет ландшафт здравоохранения, и несложно понять почему. Темпы технологического прогресса открыли двери к возможностям, ранее считавшимся невозможными. Эта стать
Aulani, Disney's Resort & Spa: Идеальный семейный отдых на Гавайях Aulani, Disney's Resort & Spa: Идеальный семейный отдых на Гавайях Откройте для себя Aulani: Гавайский рай с ноткой DisneyМечтаете о семейном отпуске, сочетающем магию Disney и потрясающую красоту Гавайев? Обратите внимание на Aulani, курорт и спа Disney в Ко Олине,
Airbnb тихо внедряет бота службы поддержки с ИИ в США Airbnb тихо внедряет бота службы поддержки с ИИ в США Airbnb поднимает службу поддержки с ИИ на новый уровеньВ прошлом месяце во время отчета о доходах за первый квартал генеральный директор Airbnb Брайан Чески объявил, что компания начала внедрять бота
GaryGarcia
GaryGarcia 23 апреля 2025 г., 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques is a cool tool but it still struggles with some nuances of video quality. It's great for getting a quick analysis but don't expect it to catch every subtle detail. Worth a try if you're into video critiquing! 😎

GaryGonzalez
GaryGonzalez 20 апреля 2025 г., 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiquesは便利ですが、ビデオの品質の微妙な部分を捉えるのはまだ難しいです。素早い分析には便利ですが、細部まで完璧を求めるなら他のツールも検討してみてください。試してみる価値はありますよ!😊

FrankSmith
FrankSmith 25 апреля 2025 г., 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques는 유용하지만 비디오 품질의 미묘한 부분을 잡아내는 데는 아직 부족함이 있습니다. 빠른 분석에는 좋지만, 세부 사항까지 완벽하게 원한다면 다른 도구도 고려해보세요. 한번 사용해볼 만해요! 😉

KennethKing
KennethKing 22 апреля 2025 г., 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques é uma ferramenta legal, mas ainda tem dificuldade com alguns detalhes da qualidade do vídeo. É ótimo para uma análise rápida, mas não espere que pegue todos os detalhes sutis. Vale a pena experimentar se você gosta de críticas de vídeo! 😄

DouglasPerez
DouglasPerez 22 апреля 2025 г., 0:00:00 GMT

AI Learns to Deliver Enhanced Video Critiques es una herramienta genial, pero todavía le cuesta captar algunos matices de la calidad del video. Es excelente para obtener un análisis rápido, pero no esperes que capture cada detalle sutil. ¡Vale la pena probarlo si te interesa la crítica de videos! 😃

Вернуться к вершине
OR