Дом
Apple представляет систему искусственного интеллекта RubiCap для описания изображений на фоне опасений по поводу производительности
В области компьютерного зрения одной из основных задач уже давно является обеспечение способности ИИ наблюдать и описывать каждую деталь изображения с точностью, сравнимой с человеческой. Недавно компания Apple в сотрудничестве с Университетом Висконсин-Мэдисон официально представила новую платформу для обучения ИИ под названием RubiCap .
Эта платформа специально разработана для «плотного описания изображений» и направлена на то, чтобы дать ИИ возможность точно улавливать и формулировать мельчайшие детали — такие как «красное яблоко на деревянном столе» или «пешеход вдали» — вместо того, чтобы предлагать лишь общие описания.

Обучение с подкреплением, имеющее большое значение: Qwen2.5 выступает в роли «судьи»
Традиционное описание изображений часто зависит от дорогостоящего аннотирования людьми или от больших моделей, склонных к галлюцинациям, что приводит к нестабильному качеству данных. Исследовательская команда Apple решила эту проблему с помощью инновационного подхода на основе обучения с подкреплением. Система сначала использует GPT-4 и Gemini 1.5 Pro для генерации вариантов описаний. Затем Gemini 1.5 Pro уточняет критерии оценки, а модель Qwen2.5 выступает в роли рефери, предоставляя оценки и обратную связь.
Эта структурированная и точная обратная связь позволяет обучаемой модели четко выявлять и исправлять ошибки, достигая более высокой точности описания даже при меньшем количестве параметров.
Преимущество компактной модели: более низкий уровень галлюцинаций, превосходящий модели с триллионами параметров
Модели серии RubiCap (с количеством параметров от 2 до 7 миллиардов), обученные на этой платформе, продемонстрировали исключительную эффективность в ходе оценок. Экспериментальные данные показывают, что модель RubiCap с 7 миллиардами параметров достигла максимальных результатов в слепых тестах, при этом уровень ошибок галлюцинаций был ниже, чем у ведущей большой модели с 720 миллиардами параметров. Примечательно, что мини-версия с 3 миллиардами параметров даже превзошла свою 7-миллиардную версию по некоторым показателям.
Связанная статья
Компания Reliance обнародовала план инвестиций в искусственный интеллект на сумму 110 млрд долларов на фоне ускорения технологического развития в Индии
Мукеш Амбани, миллиардер и председатель правления индийского конгломерата Reliance, объявил в четверг о плане стоимостью 10 трлн рупий (около 110 млрд долларов) по созданию инфраструктуры для искусств
Компания Zhiyuan WITA завершила проект «Naked» по взаимодействию с роботами, подав первую отчетную документацию
Сектор интеллектуальных роботов достиг важной вехи. Согласно последнему заявлению Управления киберпространства Шанхая, разработанная компанией Zhiyuan большая модель WITA успешно прошла процедуру реги
Исследование компании Anthropic показывает, что контент, созданный искусственным интеллектом, приводит к снижению уровня мыслительной активности у людей
Когда вы видите, как ИИ мгновенно генерирует хорошо структурированный и логически понятный фрагмент кода или документ, не возникает ли у вас желание довериться ему, не задумываясь? По данным AIbase, в
Рекомендации по связанным специальным темам
Комментарии (0)
В области компьютерного зрения одной из основных задач уже давно является обеспечение способности ИИ наблюдать и описывать каждую деталь изображения с точностью, сравнимой с человеческой. Недавно компания Apple в сотрудничестве с Университетом Висконсин-Мэдисон официально представила новую платформу для обучения ИИ под названием
Эта платформа специально разработана для «плотного описания изображений» и направлена на то, чтобы дать ИИ возможность точно улавливать и формулировать мельчайшие детали — такие как «красное яблоко на деревянном столе» или «пешеход вдали» — вместо того, чтобы предлагать лишь общие описания.

Обучение с подкреплением, имеющее большое значение: Qwen2.5 выступает в роли «судьи»
Традиционное описание изображений часто зависит от дорогостоящего аннотирования людьми или от больших моделей, склонных к галлюцинациям, что приводит к нестабильному качеству данных. Исследовательская команда Apple решила эту проблему с помощью инновационного подхода на основе обучения с подкреплением. Система сначала использует GPT-4 и Gemini 1.5 Pro для генерации вариантов описаний. Затем Gemini 1.5 Pro уточняет критерии оценки, а модель Qwen2.5 выступает в роли рефери, предоставляя оценки и обратную связь.
Эта структурированная и точная обратная связь позволяет обучаемой модели четко выявлять и исправлять ошибки, достигая более высокой точности описания даже при меньшем количестве параметров.
Преимущество компактной модели: более низкий уровень галлюцинаций, превосходящий модели с триллионами параметров
Модели серии RubiCap (с количеством параметров от 2 до 7 миллиардов), обученные на этой платформе, продемонстрировали исключительную эффективность в ходе оценок. Экспериментальные данные показывают, что модель RubiCap с 7 миллиардами параметров достигла максимальных результатов в слепых тестах, при этом уровень ошибок галлюцинаций был ниже, чем у ведущей большой модели с 720 миллиардами параметров. Примечательно, что мини-версия с 3 миллиардами параметров даже превзошла свою 7-миллиардную версию по некоторым показателям.
Компания Reliance обнародовала план инвестиций в искусственный интеллект на сумму 110 млрд долларов на фоне ускорения технологического развития в Индии
Мукеш Амбани, миллиардер и председатель правления индийского конгломерата Reliance, объявил в четверг о плане стоимостью 10 трлн рупий (около 110 млрд долларов) по созданию инфраструктуры для искусств
Компания Zhiyuan WITA завершила проект «Naked» по взаимодействию с роботами, подав первую отчетную документацию
Сектор интеллектуальных роботов достиг важной вехи. Согласно последнему заявлению Управления киберпространства Шанхая, разработанная компанией Zhiyuan большая модель WITA успешно прошла процедуру реги
Исследование компании Anthropic показывает, что контент, созданный искусственным интеллектом, приводит к снижению уровня мыслительной активности у людей
Когда вы видите, как ИИ мгновенно генерирует хорошо структурированный и логически понятный фрагмент кода или документ, не возникает ли у вас желание довериться ему, не задумываясь? По данным AIbase, в











