Cohere раскрывает модель AYA Vision AI-Vision
Некоммерческая исследовательская лаборатория Cohere только что представила новую мультимодальную модель ИИ под названием Aya Vision, и они называют её лучшей в своём классе. Эта модель весьма впечатляющая — она может создавать подписи к изображениям, отвечать на вопросы о картинках, переводить текст и даже обобщать информацию на 23 основных языках. Кроме того, Cohere предоставляет Aya Vision бесплатно через WhatsApp, заявляя, что это важный шаг к тому, чтобы эти технологические прорывы стали доступны исследователям по всему миру.
В своём блоге Cohere отметили, что, хотя ИИ и делает успехи, всё ещё существует огромный разрыв в том, насколько хорошо модели справляются с разными языками, особенно когда речь идёт одновременно о тексте и изображениях. Именно здесь Aya Vision вступает в игру, стремясь преодолеть этот разрыв.
Aya Vision представлена в двух версиях: более мощной Aya Vision 32B и более лёгкой Aya Vision 8B. Версия 32B, по словам Cohere, устанавливает "новую границу", превосходя модели вдвое большего размера, такие как Llama-3.2 90B Vision от Meta, в некоторых тестах на визуальное понимание. А версия 8B? Она успешно конкурирует с моделями, которые в 10 раз больше.
Обе модели можно получить на Hugging Face под лицензией Creative Commons 4.0, но есть нюанс — они не предназначены для коммерческого использования.
Cohere обучала Aya Vision, используя комбинацию англоязычных наборов данных, которые они перевели и превратили в синтетические аннотации. Эти аннотации, или теги, помогают модели разбираться в данных во время обучения. Например, если вы обучаете модель распознавания изображений, аннотации могут использоваться для обозначения объектов или добавления подписей о том, что изображено на картинке.

Модель Aya Vision от Cohere способна выполнять ряд задач по визуальному пониманию. Источник изображения: Cohere Использование синтетических аннотаций сейчас в моде, несмотря на свои недостатки. Крупные игроки, такие как OpenAI, также переходят на синтетические данные, поскольку реальные данные становится всё сложнее добывать. По оценкам Gartner, в прошлом году 60% данных, использованных для проектов ИИ и аналитики, были синтетическими.Cohere утверждает, что обучение Aya Vision на синтетических аннотациях позволило им использовать меньше ресурсов, при этом достигая отличных результатов. Речь идёт об эффективности и достижении большего с меньшими затратами, что является хорошей новостью для исследователей, у которых не всегда есть доступ к большим вычислительным ресурсам.
Наряду с Aya Vision Cohere выпустила новый набор тестов под названием AyaVisionBench. Он разработан для проверки навыков модели в таких задачах, как обнаружение различий между изображениями и преобразование скриншотов в код.
Мир ИИ сталкивается с тем, что некоторые называют "кризисом оценки". Обычные тесты дают общий балл, который не отражает, насколько хорошо модель справляется с задачами, важными для большинства пользователей. Cohere считает, что AyaVisionBench может помочь исправить это, предлагая сложный и всесторонний способ проверки мультиязычных и мультимодальных возможностей модели.
Будем надеяться, что они правы. Исследователи Cohere говорят, что этот набор данных является надёжным ориентиром для тестирования моделей визуально-языкового взаимодействия в мультиязычных и реальных сценариях. Они сделали его доступным для исследовательского сообщества, чтобы способствовать развитию мультиязычных мультимодальных оценок.
Связанная статья
Объятие лица разрабатывает открытую альтернативу для инструмента исследования Openai
Команда разработчиков, в том числе соучредитель и главного ученого Томаса Вольфа, создала то, что они называют «открытой» версией глубоких исследований Openai. OpenAI представила Deep Research на недавнем мероприятии, где выяснилось, что инструмент исчезает в Интернете для создания исследовательских отчетов
Minecraft Villager AI переосмысливает музыку с помощью уникальной звуковой обложки
Ландшафт музыкального производства продолжает трансформироваться, поскольку технологии искусственного интеллекта расширяют творческие границы неожиданными способами. Одна из особенно интересных разраб
Midjourney представляет передовой видеогенератор с искусственным интеллектом для креативного контента
Прорыв Midjourney в создании видео с помощью искусственного интеллектаКомпания Midjourney представила свой первый инструмент для создания видео на основе искусственного интеллекта, что знаменует собой
Комментарии (43)
MarkRoberts
4 сентября 2025 г., 7:30:34 GMT+03:00
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
0
KennethMartin
10 августа 2025 г., 8:00:59 GMT+03:00
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
0
PaulKing
31 июля 2025 г., 14:35:39 GMT+03:00
This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎
0
JackMartinez
21 апреля 2025 г., 4:32:08 GMT+03:00
Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟
0
WilliamYoung
20 апреля 2025 г., 3:58:05 GMT+03:00
Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍
0
StevenGonzalez
19 апреля 2025 г., 21:53:55 GMT+03:00
아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍
0
Некоммерческая исследовательская лаборатория Cohere только что представила новую мультимодальную модель ИИ под названием Aya Vision, и они называют её лучшей в своём классе. Эта модель весьма впечатляющая — она может создавать подписи к изображениям, отвечать на вопросы о картинках, переводить текст и даже обобщать информацию на 23 основных языках. Кроме того, Cohere предоставляет Aya Vision бесплатно через WhatsApp, заявляя, что это важный шаг к тому, чтобы эти технологические прорывы стали доступны исследователям по всему миру.
В своём блоге Cohere отметили, что, хотя ИИ и делает успехи, всё ещё существует огромный разрыв в том, насколько хорошо модели справляются с разными языками, особенно когда речь идёт одновременно о тексте и изображениях. Именно здесь Aya Vision вступает в игру, стремясь преодолеть этот разрыв.
Aya Vision представлена в двух версиях: более мощной Aya Vision 32B и более лёгкой Aya Vision 8B. Версия 32B, по словам Cohere, устанавливает "новую границу", превосходя модели вдвое большего размера, такие как Llama-3.2 90B Vision от Meta, в некоторых тестах на визуальное понимание. А версия 8B? Она успешно конкурирует с моделями, которые в 10 раз больше.
Обе модели можно получить на Hugging Face под лицензией Creative Commons 4.0, но есть нюанс — они не предназначены для коммерческого использования.
Cohere обучала Aya Vision, используя комбинацию англоязычных наборов данных, которые они перевели и превратили в синтетические аннотации. Эти аннотации, или теги, помогают модели разбираться в данных во время обучения. Например, если вы обучаете модель распознавания изображений, аннотации могут использоваться для обозначения объектов или добавления подписей о том, что изображено на картинке.
Cohere утверждает, что обучение Aya Vision на синтетических аннотациях позволило им использовать меньше ресурсов, при этом достигая отличных результатов. Речь идёт об эффективности и достижении большего с меньшими затратами, что является хорошей новостью для исследователей, у которых не всегда есть доступ к большим вычислительным ресурсам.
Наряду с Aya Vision Cohere выпустила новый набор тестов под названием AyaVisionBench. Он разработан для проверки навыков модели в таких задачах, как обнаружение различий между изображениями и преобразование скриншотов в код.
Мир ИИ сталкивается с тем, что некоторые называют "кризисом оценки". Обычные тесты дают общий балл, который не отражает, насколько хорошо модель справляется с задачами, важными для большинства пользователей. Cohere считает, что AyaVisionBench может помочь исправить это, предлагая сложный и всесторонний способ проверки мультиязычных и мультимодальных возможностей модели.
Будем надеяться, что они правы. Исследователи Cohere говорят, что этот набор данных является надёжным ориентиром для тестирования моделей визуально-языкового взаимодействия в мультиязычных и реальных сценариях. Они сделали его доступным для исследовательского сообщества, чтобы способствовать развитию мультиязычных мультимодальных оценок.




¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎




This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎




This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎




Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟




Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍




아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍












