Cohere dévoile le modèle AY Vision AY de la meilleure note
Le laboratoire de recherche à but non lucratif de Cohere vient de lancer un nouveau modèle d'IA multimodal appelé Aya Vision, et ils affirment qu'il est le meilleur de sa catégorie. Ce modèle est assez impressionnant — il peut générer des légendes d'images, répondre à des questions sur des images, traduire du texte, et même résumer du contenu dans 23 langues principales. De plus, Cohere rend Aya Vision disponible gratuitement sur WhatsApp, déclarant que c'est un grand pas vers la mise à disposition de ces avancées technologiques pour les chercheurs du monde entier.
Dans leur article de blog, Cohere a souligné que, bien que l'IA ait fait des progrès, il existe encore un écart important dans la manière dont les modèles gèrent différentes langues, surtout lorsqu'il s'agit de combiner texte et images. C'est là qu'Aya Vision intervient, visant à combler cet écart.
Aya Vision est disponible en deux versions : la plus puissante Aya Vision 32B et la plus légère Aya Vision 8B. La version 32B, selon Cohere, établit une "nouvelle frontière", surpassant des modèles deux fois plus grands, comme le Llama-3.2 90B Vision de Meta, dans certains tests de compréhension visuelle. Et la version 8B ? Elle tient tête à des modèles dix fois plus grands.
Vous pouvez récupérer les deux modèles sur Hugging Face sous une licence Creative Commons 4.0, mais il y a une condition — ils ne sont pas destinés à un usage commercial.
Cohere a entraîné Aya Vision en utilisant un mélange de datasets en anglais, qu'ils ont traduits et transformés en annotations synthétiques. Ces annotations, ou étiquettes, aident le modèle à donner un sens aux données pendant l'entraînement. Par exemple, si vous entraînez un modèle de reconnaissance d'images, vous pourriez utiliser des annotations pour marquer des objets ou ajouter des légendes décrivant ce qui se trouve dans l'image.

Le modèle Aya Vision de Cohere peut effectuer une gamme de tâches de compréhension visuelle. Crédits image : Cohere L'utilisation d'annotations synthétiques est très en vogue en ce moment, même si cela présente des inconvénients. Les grands acteurs comme OpenAI se lancent également dans l'utilisation de données synthétiques, car les données réelles deviennent plus difficiles à obtenir. Gartner estime que l'année dernière, 60 % des données utilisées pour les projets d'IA et d'analyse étaient synthétiques.Cohere affirme que l'entraînement d'Aya Vision sur des annotations synthétiques leur a permis d'utiliser moins de ressources tout en obtenant des résultats de premier ordre. Tout est question d'efficacité et de faire plus avec moins, disent-ils, ce qui est une excellente nouvelle pour les chercheurs qui n'ont pas toujours accès à de grandes ressources de calcul.
Parallèlement à Aya Vision, Cohere a publié une nouvelle suite de benchmarks appelée AyaVisionBench. Elle est conçue pour tester les compétences d'un modèle dans des tâches comme repérer les différences entre des images et transformer des captures d'écran en code.
Le monde de l'IA lutte avec ce que certains appellent une "crise d'évaluation". Les benchmarks habituels donnent un score global qui ne reflète pas vraiment la performance d'un modèle sur les tâches qui importent le plus aux utilisateurs. Cohere pense qu'AyaVisionBench peut aider à résoudre ce problème, offrant un moyen robuste et large de vérifier les compétences multilingues et multimodales d'un modèle.
Espérons qu'ils ont raison. Les chercheurs de Cohere affirment que le dataset est un benchmark solide pour tester les modèles de vision-langage dans des scénarios multilingues et réels. Ils l'ont mis à disposition de la communauté de recherche pour aider à faire avancer les évaluations multimodales multilingues.
Article connexe
Cohere dévoile une gamme de modèles d'IA multilingues open source
La société d'IA d'entreprise Cohere a dévoilé une nouvelle famille de modèles multilingues, baptisée « Tiny Aya », lors du Sommet indien sur l'IA qui se tient actuellement. Ces modèles
Cohere et Aleph Alpha annoncent leur fusion
La start-up canadienne spécialisée dans l'IA Cohere rachète l'entreprise allemande Aleph Alpha avec le soutien du groupe Schwarz, société mère de la chaîne de supermarchés Lidl. Bénéficiant d'un souti
Cohere lance une plateforme d'IA sécurisée pour les entreprises North
Les outils d'agent IA ont le potentiel de réduire les tâches répétitives dans les flux de travail quotidiens, mais de nombreuses organisations restent prudentes quant à leur adoption. La sécurité des
Recommandations de sujets spéciaux liés
commentaires (46)
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
Le laboratoire de recherche à but non lucratif de Cohere vient de lancer un nouveau modèle d'IA multimodal appelé Aya Vision, et ils affirment qu'il est le meilleur de sa catégorie. Ce modèle est assez impressionnant — il peut générer des légendes d'images, répondre à des questions sur des images, traduire du texte, et même résumer du contenu dans 23 langues principales. De plus, Cohere rend Aya Vision disponible gratuitement sur WhatsApp, déclarant que c'est un grand pas vers la mise à disposition de ces avancées technologiques pour les chercheurs du monde entier.
Dans leur article de blog, Cohere a souligné que, bien que l'IA ait fait des progrès, il existe encore un écart important dans la manière dont les modèles gèrent différentes langues, surtout lorsqu'il s'agit de combiner texte et images. C'est là qu'Aya Vision intervient, visant à combler cet écart.
Aya Vision est disponible en deux versions : la plus puissante Aya Vision 32B et la plus légère Aya Vision 8B. La version 32B, selon Cohere, établit une "nouvelle frontière", surpassant des modèles deux fois plus grands, comme le Llama-3.2 90B Vision de Meta, dans certains tests de compréhension visuelle. Et la version 8B ? Elle tient tête à des modèles dix fois plus grands.
Vous pouvez récupérer les deux modèles sur Hugging Face sous une licence Creative Commons 4.0, mais il y a une condition — ils ne sont pas destinés à un usage commercial.
Cohere a entraîné Aya Vision en utilisant un mélange de datasets en anglais, qu'ils ont traduits et transformés en annotations synthétiques. Ces annotations, ou étiquettes, aident le modèle à donner un sens aux données pendant l'entraînement. Par exemple, si vous entraînez un modèle de reconnaissance d'images, vous pourriez utiliser des annotations pour marquer des objets ou ajouter des légendes décrivant ce qui se trouve dans l'image.

Cohere affirme que l'entraînement d'Aya Vision sur des annotations synthétiques leur a permis d'utiliser moins de ressources tout en obtenant des résultats de premier ordre. Tout est question d'efficacité et de faire plus avec moins, disent-ils, ce qui est une excellente nouvelle pour les chercheurs qui n'ont pas toujours accès à de grandes ressources de calcul.
Parallèlement à Aya Vision, Cohere a publié une nouvelle suite de benchmarks appelée AyaVisionBench. Elle est conçue pour tester les compétences d'un modèle dans des tâches comme repérer les différences entre des images et transformer des captures d'écran en code.
Le monde de l'IA lutte avec ce que certains appellent une "crise d'évaluation". Les benchmarks habituels donnent un score global qui ne reflète pas vraiment la performance d'un modèle sur les tâches qui importent le plus aux utilisateurs. Cohere pense qu'AyaVisionBench peut aider à résoudre ce problème, offrant un moyen robuste et large de vérifier les compétences multilingues et multimodales d'un modèle.
Espérons qu'ils ont raison. Les chercheurs de Cohere affirment que le dataset est un benchmark solide pour tester les modèles de vision-langage dans des scénarios multilingues et réels. Ils l'ont mis à disposition de la communauté de recherche pour aider à faire avancer les évaluations multimodales multilingues.
Cohere dévoile une gamme de modèles d'IA multilingues open source
La société d'IA d'entreprise Cohere a dévoilé une nouvelle famille de modèles multilingues, baptisée « Tiny Aya », lors du Sommet indien sur l'IA qui se tient actuellement. Ces modèles
Cohere et Aleph Alpha annoncent leur fusion
La start-up canadienne spécialisée dans l'IA Cohere rachète l'entreprise allemande Aleph Alpha avec le soutien du groupe Schwarz, société mère de la chaîne de supermarchés Lidl. Bénéficiant d'un souti
Cohere lance une plateforme d'IA sécurisée pour les entreprises North
Les outils d'agent IA ont le potentiel de réduire les tâches répétitives dans les flux de travail quotidiens, mais de nombreuses organisations restent prudentes quant à leur adoption. La sécurité des
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎





Maison






