вариант
Дом
Новости
Cohere раскрывает модель AYA Vision AI-Vision

Cohere раскрывает модель AYA Vision AI-Vision

10 апреля 2025 г.
113

Некоммерческая исследовательская лаборатория Cohere только что представила новую мультимодальную модель ИИ под названием Aya Vision, и они называют её лучшей в своём классе. Эта модель весьма впечатляющая — она может создавать подписи к изображениям, отвечать на вопросы о картинках, переводить текст и даже обобщать информацию на 23 основных языках. Кроме того, Cohere предоставляет Aya Vision бесплатно через WhatsApp, заявляя, что это важный шаг к тому, чтобы эти технологические прорывы стали доступны исследователям по всему миру.

В своём блоге Cohere отметили, что, хотя ИИ и делает успехи, всё ещё существует огромный разрыв в том, насколько хорошо модели справляются с разными языками, особенно когда речь идёт одновременно о тексте и изображениях. Именно здесь Aya Vision вступает в игру, стремясь преодолеть этот разрыв.

Aya Vision представлена в двух версиях: более мощной Aya Vision 32B и более лёгкой Aya Vision 8B. Версия 32B, по словам Cohere, устанавливает "новую границу", превосходя модели вдвое большего размера, такие как Llama-3.2 90B Vision от Meta, в некоторых тестах на визуальное понимание. А версия 8B? Она успешно конкурирует с моделями, которые в 10 раз больше.

Обе модели можно получить на Hugging Face под лицензией Creative Commons 4.0, но есть нюанс — они не предназначены для коммерческого использования.

Cohere обучала Aya Vision, используя комбинацию англоязычных наборов данных, которые они перевели и превратили в синтетические аннотации. Эти аннотации, или теги, помогают модели разбираться в данных во время обучения. Например, если вы обучаете модель распознавания изображений, аннотации могут использоваться для обозначения объектов или добавления подписей о том, что изображено на картинке.

Cohere Aya Vision

Модель Aya Vision от Cohere способна выполнять ряд задач по визуальному пониманию. Источник изображения: Cohere
Использование синтетических аннотаций сейчас в моде, несмотря на свои недостатки. Крупные игроки, такие как OpenAI, также переходят на синтетические данные, поскольку реальные данные становится всё сложнее добывать. По оценкам Gartner, в прошлом году 60% данных, использованных для проектов ИИ и аналитики, были синтетическими.

Cohere утверждает, что обучение Aya Vision на синтетических аннотациях позволило им использовать меньше ресурсов, при этом достигая отличных результатов. Речь идёт об эффективности и достижении большего с меньшими затратами, что является хорошей новостью для исследователей, у которых не всегда есть доступ к большим вычислительным ресурсам.

Наряду с Aya Vision Cohere выпустила новый набор тестов под названием AyaVisionBench. Он разработан для проверки навыков модели в таких задачах, как обнаружение различий между изображениями и преобразование скриншотов в код.

Мир ИИ сталкивается с тем, что некоторые называют "кризисом оценки". Обычные тесты дают общий балл, который не отражает, насколько хорошо модель справляется с задачами, важными для большинства пользователей. Cohere считает, что AyaVisionBench может помочь исправить это, предлагая сложный и всесторонний способ проверки мультиязычных и мультимодальных возможностей модели.

Будем надеяться, что они правы. Исследователи Cohere говорят, что этот набор данных является надёжным ориентиром для тестирования моделей визуально-языкового взаимодействия в мультиязычных и реальных сценариях. Они сделали его доступным для исследовательского сообщества, чтобы способствовать развитию мультиязычных мультимодальных оценок.

Связанная статья
Объятие лица разрабатывает открытую альтернативу для инструмента исследования Openai Объятие лица разрабатывает открытую альтернативу для инструмента исследования Openai Команда разработчиков, в том числе соучредитель и главного ученого Томаса Вольфа, создала то, что они называют «открытой» версией глубоких исследований Openai. OpenAI представила Deep Research на недавнем мероприятии, где выяснилось, что инструмент исчезает в Интернете для создания исследовательских отчетов
Выбор лучшего инструмента для кодирования с ИИ для вашего проекта Выбор лучшего инструмента для кодирования с ИИ для вашего проекта Ландшафт разработки программного обеспечения стремительно трансформируется, и искусственный интеллект (ИИ) становится ключевым драйвером. Инструменты кодирования с ИИ позволяют разработчикам писать ко
AI-управляемые инструменты для подкастов для упрощенного создания контента AI-управляемые инструменты для подкастов для упрощенного создания контента Создание и совершенствование подкаста может быть как трудоемким, так и приносящим удовлетворение. Многие подкастеры сталкиваются с проблемами, связанными с затратными по времени задачами, такими как у
Комментарии (42)
KennethMartin
KennethMartin 10 августа 2025 г., 8:00:59 GMT+03:00

This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎

PaulKing
PaulKing 31 июля 2025 г., 14:35:39 GMT+03:00

This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎

JackMartinez
JackMartinez 21 апреля 2025 г., 4:32:08 GMT+03:00

Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟

WilliamYoung
WilliamYoung 20 апреля 2025 г., 3:58:05 GMT+03:00

Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍

StevenGonzalez
StevenGonzalez 19 апреля 2025 г., 21:53:55 GMT+03:00

아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍

FredBrown
FredBrown 18 апреля 2025 г., 4:22:30 GMT+03:00

J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊

Вернуться к вершине
OR