Coere revela o modelo Aya Vision AI com melhor classificação
O laboratório de pesquisa sem fins lucrativos da Cohere acaba de lançar um novo modelo de IA multimodal chamado Aya Vision, e eles estão chamando-o de o melhor de sua classe. Este modelo é bastante impressionante — ele pode criar legendas para imagens, responder perguntas sobre fotos, traduzir textos e até resumir conteúdos em 23 idiomas principais. Além disso, a Cohere está disponibilizando o Aya Vision gratuitamente no WhatsApp, dizendo que é um grande passo para colocar essas inovações tecnológicas nas mãos de pesquisadores em todos os lugares.
Em seu post de blog, a Cohere destacou que, embora a IA tenha feito avanços, ainda há uma enorme lacuna na capacidade dos modelos de lidar com diferentes idiomas, especialmente quando se trata de texto e imagens juntos. É aí que o Aya Vision entra, com o objetivo de preencher essa lacuna.
O Aya Vision vem em duas versões: a mais robusta Aya Vision 32B e a mais leve Aya Vision 8B. A versão 32B, segundo a Cohere, está estabelecendo uma "nova fronteira", superando modelos duas vezes maiores, como o Llama-3.2 90B Vision da Meta, em alguns testes de compreensão visual. E a versão 8B? Ela se mantém firme contra modelos dez vezes maiores.
Você pode obter ambos os modelos no Hugging Face sob uma licença Creative Commons 4.0, mas há uma ressalva — eles não são para uso comercial.
A Cohere treinou o Aya Vision usando uma mistura de conjuntos de dados em inglês, que eles traduziram e transformaram em anotações sintéticas. Essas anotações, ou tags, ajudam o modelo a entender os dados durante o treinamento. Por exemplo, se você está treinando um modelo de reconhecimento de imagens, pode usar anotações para marcar objetos ou adicionar legendas sobre o que está na imagem.

O modelo Aya Vision da Cohere pode realizar uma variedade de tarefas de compreensão visual. Créditos da imagem: Cohere O uso de anotações sintéticas está em alta agora, mesmo que tenha suas desvantagens. Grandes players como a OpenAI estão aderindo à onda de dados sintéticos, já que dados do mundo real estão cada vez mais difíceis de obter. A Gartner estima que, no último ano, 60% dos dados usados para projetos de IA e análises foram sintéticos.A Cohere diz que treinar o Aya Vision com anotações sintéticas permitiu que eles usassem menos recursos enquanto ainda obtinham resultados de ponta. Tudo se resume a eficiência e fazer mais com menos, dizem eles, o que é uma ótima notícia para pesquisadores que nem sempre têm acesso a grandes recursos computacionais.
Junto com o Aya Vision, a Cohere lançou uma nova suíte de benchmarks chamada AyaVisionBench. Ela foi projetada para testar as habilidades de um modelo em tarefas como identificar diferenças entre imagens e transformar capturas de tela em código.
O mundo da IA tem enfrentado o que algumas pessoas chamam de "crise de avaliação". Os benchmarks usuais fornecem uma pontuação geral que não reflete realmente o quão bem um modelo desempenha nas tarefas que mais importam para os usuários. A Cohere acredita que o AyaVisionBench pode ajudar a corrigir isso, oferecendo uma maneira rigorosa e ampla de verificar as capacidades multilíngues e multimodais de um modelo.
Tomara que eles estejam certos. Os pesquisadores da Cohere dizem que o conjunto de dados é um benchmark sólido para testar modelos de visão-linguagem em cenários multilíngues e do mundo real. Eles o disponibilizaram para a comunidade de pesquisa para ajudar a avançar as avaliações multimodais multilíngues.
Artigo relacionado
A Cohere apresenta uma família de modelos de IA multilíngues de código aberto
A empresa de IA empresarial Cohere revelou uma nova família de modelos multilíngues, chamada Tiny Aya, durante a India AI Summit, que está ocorrendo neste momento. Esses modelos de código aberto — o q
Cohere e Aleph Alpha anunciam fusão
A startup canadense de IA Cohere está adquirindo a alemã Aleph Alpha com o apoio do Grupo Schwarz, empresa controladora da rede de supermercados Lidl. Com o apoio do governo, as empresas pretendem ofe
Cohere lança plataforma segura de IA empresarial North
As ferramentas de agentes de IA têm o potencial de reduzir tarefas repetitivas nos fluxos de trabalho diários, mas muitas organizações continuam cautelosas quanto à sua adoção. Uma das principais preo
Recomendações de tópicos especiais relacionados
Comentários (46)
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
O laboratório de pesquisa sem fins lucrativos da Cohere acaba de lançar um novo modelo de IA multimodal chamado Aya Vision, e eles estão chamando-o de o melhor de sua classe. Este modelo é bastante impressionante — ele pode criar legendas para imagens, responder perguntas sobre fotos, traduzir textos e até resumir conteúdos em 23 idiomas principais. Além disso, a Cohere está disponibilizando o Aya Vision gratuitamente no WhatsApp, dizendo que é um grande passo para colocar essas inovações tecnológicas nas mãos de pesquisadores em todos os lugares.
Em seu post de blog, a Cohere destacou que, embora a IA tenha feito avanços, ainda há uma enorme lacuna na capacidade dos modelos de lidar com diferentes idiomas, especialmente quando se trata de texto e imagens juntos. É aí que o Aya Vision entra, com o objetivo de preencher essa lacuna.
O Aya Vision vem em duas versões: a mais robusta Aya Vision 32B e a mais leve Aya Vision 8B. A versão 32B, segundo a Cohere, está estabelecendo uma "nova fronteira", superando modelos duas vezes maiores, como o Llama-3.2 90B Vision da Meta, em alguns testes de compreensão visual. E a versão 8B? Ela se mantém firme contra modelos dez vezes maiores.
Você pode obter ambos os modelos no Hugging Face sob uma licença Creative Commons 4.0, mas há uma ressalva — eles não são para uso comercial.
A Cohere treinou o Aya Vision usando uma mistura de conjuntos de dados em inglês, que eles traduziram e transformaram em anotações sintéticas. Essas anotações, ou tags, ajudam o modelo a entender os dados durante o treinamento. Por exemplo, se você está treinando um modelo de reconhecimento de imagens, pode usar anotações para marcar objetos ou adicionar legendas sobre o que está na imagem.

A Cohere diz que treinar o Aya Vision com anotações sintéticas permitiu que eles usassem menos recursos enquanto ainda obtinham resultados de ponta. Tudo se resume a eficiência e fazer mais com menos, dizem eles, o que é uma ótima notícia para pesquisadores que nem sempre têm acesso a grandes recursos computacionais.
Junto com o Aya Vision, a Cohere lançou uma nova suíte de benchmarks chamada AyaVisionBench. Ela foi projetada para testar as habilidades de um modelo em tarefas como identificar diferenças entre imagens e transformar capturas de tela em código.
O mundo da IA tem enfrentado o que algumas pessoas chamam de "crise de avaliação". Os benchmarks usuais fornecem uma pontuação geral que não reflete realmente o quão bem um modelo desempenha nas tarefas que mais importam para os usuários. A Cohere acredita que o AyaVisionBench pode ajudar a corrigir isso, oferecendo uma maneira rigorosa e ampla de verificar as capacidades multilíngues e multimodais de um modelo.
Tomara que eles estejam certos. Os pesquisadores da Cohere dizem que o conjunto de dados é um benchmark sólido para testar modelos de visão-linguagem em cenários multilíngues e do mundo real. Eles o disponibilizaram para a comunidade de pesquisa para ajudar a avançar as avaliações multimodais multilíngues.
A Cohere apresenta uma família de modelos de IA multilíngues de código aberto
A empresa de IA empresarial Cohere revelou uma nova família de modelos multilíngues, chamada Tiny Aya, durante a India AI Summit, que está ocorrendo neste momento. Esses modelos de código aberto — o q
Cohere e Aleph Alpha anunciam fusão
A startup canadense de IA Cohere está adquirindo a alemã Aleph Alpha com o apoio do Grupo Schwarz, empresa controladora da rede de supermercados Lidl. Com o apoio do governo, as empresas pretendem ofe
Cohere lança plataforma segura de IA empresarial North
As ferramentas de agentes de IA têm o potencial de reduzir tarefas repetitivas nos fluxos de trabalho diários, mas muitas organizações continuam cautelosas quanto à sua adoção. Uma das principais preo
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎





Lar






