Cohere presenta el modelo AIA AI mejor calificado
El laboratorio de investigación sin fines de lucro de Cohere acaba de lanzar un nuevo modelo de IA multimodal llamado Aya Vision, y lo califican como el mejor en su clase. Este modelo es bastante impresionante: puede generar subtítulos para imágenes, responder preguntas sobre fotos, traducir texto e incluso resumir contenido en 23 idiomas principales. Además, Cohere está poniendo Aya Vision a disposición de forma gratuita en WhatsApp, diciendo que es un gran paso para llevar estos avances tecnológicos a las manos de investigadores de todo el mundo.
En su publicación de blog, Cohere señaló que, aunque la IA ha estado avanzando, todavía existe una gran brecha en cómo los modelos manejan diferentes idiomas, especialmente cuando se combinan texto e imágenes. Ahí es donde entra Aya Vision, con el objetivo de cerrar esa brecha.
Aya Vision viene en dos versiones: la más robusta Aya Vision 32B y la más ligera Aya Vision 8B. La versión 32B, según Cohere, está estableciendo una "nueva frontera", superando a modelos el doble de grandes, como Llama-3.2 90B Vision de Meta, en algunas pruebas de comprensión visual. ¿Y la versión 8B? Se mantiene firme frente a modelos que son 10 veces más grandes.
Puedes obtener ambos modelos desde Hugging Face bajo una licencia Creative Commons 4.0, pero hay una condición: no son para uso comercial.
Cohere entrenó a Aya Vision usando una mezcla de conjuntos de datos en inglés, que tradujeron y convirtieron en anotaciones sintéticas. Estas anotaciones, o etiquetas, ayudan al modelo a entender los datos durante el entrenamiento. Por ejemplo, si estás entrenando un modelo de reconocimiento de imágenes, podrías usar anotaciones para marcar objetos o añadir subtítulos sobre lo que hay en la imagen.

El modelo Aya Vision de Cohere puede realizar una variedad de tareas de comprensión visual. Créditos de la imagen: Cohere El uso de anotaciones sintéticas está muy de moda ahora, aunque tiene sus inconvenientes. Grandes actores como OpenAI también están subiendo al carro de los datos sintéticos, ya que los datos del mundo real son cada vez más difíciles de conseguir. Gartner estima que el año pasado, el 60% de los datos utilizados para proyectos de IA y análisis fueron sintéticos.Cohere dice que entrenar a Aya Vision con anotaciones sintéticas les permitió usar menos recursos mientras obtenían resultados de primera calidad. Todo se trata de eficiencia y hacer más con menos, dicen, lo cual es una gran noticia para los investigadores que no siempre tienen acceso a grandes recursos computacionales.
Junto con Aya Vision, Cohere lanzó un nuevo conjunto de pruebas llamado AyaVisionBench. Está diseñado para evaluar las habilidades de un modelo en tareas como detectar diferencias entre imágenes y convertir capturas de pantalla en código.
El mundo de la IA ha estado lidiando con lo que algunos llaman una "crisis de evaluación". Los puntos de referencia habituales te dan una puntuación general que no refleja realmente qué tan bien un modelo realiza las tareas que más importan a los usuarios. Cohere piensa que AyaVisionBench puede ayudar a solucionar eso, ofreciendo una forma rigurosa y amplia de evaluar las capacidades multilingües y multimodales de un modelo.
Esperemos que tengan razón. Los investigadores de Cohere dicen que el conjunto de datos es un punto de referencia sólido para probar modelos de visión-lenguaje en escenarios multilingües y del mundo real. Lo han puesto a disposición de la comunidad de investigación para ayudar a avanzar en las evaluaciones multimodales y multilingües.
Artículo relacionado
Abrazar la cara desarrolla una alternativa abierta a la herramienta de investigación de OpenAi
Un equipo de desarrolladores de Hugging Face, incluido el cofundador y científico jefe Thomas Wolf, ha creado lo que llaman una versión "abierta" de la herramienta de investigación profunda de OpenAI. Operai introdujo una investigación profunda en un evento reciente, donde se reveló que la herramienta explota la web para generar informes de investigación
Selección de la Mejor Herramienta de Codificación AI para Tu Proyecto
El panorama del desarrollo de software está transformándose rápidamente, con la Inteligencia Artificial (AI) convirtiéndose en un motor clave. Las herramientas de codificación AI permiten a los desarr
Herramientas de Podcast Potenciadas por IA para una Creación de Contenido Simplificada
Producir y perfeccionar un podcast puede ser tanto exigente como gratificante. Muchos podcasters enfrentan desafíos con tareas que consumen mucho tiempo, como eliminar palabras de relleno, crear notas
comentario (42)
0/200
KennethMartin
10 de agosto de 2025 07:00:59 GMT+02:00
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
0
PaulKing
31 de julio de 2025 13:35:39 GMT+02:00
This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎
0
JackMartinez
21 de abril de 2025 03:32:08 GMT+02:00
Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟
0
WilliamYoung
20 de abril de 2025 02:58:05 GMT+02:00
Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍
0
StevenGonzalez
19 de abril de 2025 20:53:55 GMT+02:00
아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍
0
FredBrown
18 de abril de 2025 03:22:30 GMT+02:00
J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊
0
El laboratorio de investigación sin fines de lucro de Cohere acaba de lanzar un nuevo modelo de IA multimodal llamado Aya Vision, y lo califican como el mejor en su clase. Este modelo es bastante impresionante: puede generar subtítulos para imágenes, responder preguntas sobre fotos, traducir texto e incluso resumir contenido en 23 idiomas principales. Además, Cohere está poniendo Aya Vision a disposición de forma gratuita en WhatsApp, diciendo que es un gran paso para llevar estos avances tecnológicos a las manos de investigadores de todo el mundo.
En su publicación de blog, Cohere señaló que, aunque la IA ha estado avanzando, todavía existe una gran brecha en cómo los modelos manejan diferentes idiomas, especialmente cuando se combinan texto e imágenes. Ahí es donde entra Aya Vision, con el objetivo de cerrar esa brecha.
Aya Vision viene en dos versiones: la más robusta Aya Vision 32B y la más ligera Aya Vision 8B. La versión 32B, según Cohere, está estableciendo una "nueva frontera", superando a modelos el doble de grandes, como Llama-3.2 90B Vision de Meta, en algunas pruebas de comprensión visual. ¿Y la versión 8B? Se mantiene firme frente a modelos que son 10 veces más grandes.
Puedes obtener ambos modelos desde Hugging Face bajo una licencia Creative Commons 4.0, pero hay una condición: no son para uso comercial.
Cohere entrenó a Aya Vision usando una mezcla de conjuntos de datos en inglés, que tradujeron y convirtieron en anotaciones sintéticas. Estas anotaciones, o etiquetas, ayudan al modelo a entender los datos durante el entrenamiento. Por ejemplo, si estás entrenando un modelo de reconocimiento de imágenes, podrías usar anotaciones para marcar objetos o añadir subtítulos sobre lo que hay en la imagen.
Cohere dice que entrenar a Aya Vision con anotaciones sintéticas les permitió usar menos recursos mientras obtenían resultados de primera calidad. Todo se trata de eficiencia y hacer más con menos, dicen, lo cual es una gran noticia para los investigadores que no siempre tienen acceso a grandes recursos computacionales.
Junto con Aya Vision, Cohere lanzó un nuevo conjunto de pruebas llamado AyaVisionBench. Está diseñado para evaluar las habilidades de un modelo en tareas como detectar diferencias entre imágenes y convertir capturas de pantalla en código.
El mundo de la IA ha estado lidiando con lo que algunos llaman una "crisis de evaluación". Los puntos de referencia habituales te dan una puntuación general que no refleja realmente qué tan bien un modelo realiza las tareas que más importan a los usuarios. Cohere piensa que AyaVisionBench puede ayudar a solucionar eso, ofreciendo una forma rigurosa y amplia de evaluar las capacidades multilingües y multimodales de un modelo.
Esperemos que tengan razón. Los investigadores de Cohere dicen que el conjunto de datos es un punto de referencia sólido para probar modelos de visión-lenguaje en escenarios multilingües y del mundo real. Lo han puesto a disposición de la comunidad de investigación para ayudar a avanzar en las evaluaciones multimodales y multilingües.




This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎




This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎




Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟




Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍




아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍




J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊












