Cohere enthüllt Top-bewertete Aya Vision AI-Modell
Das gemeinnützige Forschungslabor von Cohere hat gerade ein neues multimodales KI-Modell namens Aya Vision veröffentlicht und nennt es das beste seiner Klasse. Dieses Modell ist ziemlich beeindruckend – es kann Bildunterschriften erstellen, Fragen zu Bildern beantworten, Texte übersetzen und sogar Inhalte in 23 wichtigen Sprachen zusammenfassen. Außerdem stellt Cohere Aya Vision kostenlos auf WhatsApp zur Verfügung und sagt, dass dies ein großer Schritt ist, um diese technologischen Durchbrüche in die Hände von Forschern weltweit zu bringen.
In ihrem Blogbeitrag wies Cohere darauf hin, dass es trotz der Fortschritte in der KI immer noch eine große Lücke darin gibt, wie gut Modelle verschiedene Sprachen verarbeiten, insbesondere wenn sowohl Text als auch Bilder involviert sind. Hier setzt Aya Vision an, um diese Lücke zu schließen.
Aya Vision gibt es in zwei Versionen: die leistungsstärkere Aya Vision 32B und die leichtere Aya Vision 8B. Die 32B-Version setzt laut Cohere eine „neue Grenze“ und übertrifft Modelle, die doppelt so groß sind, wie Metas Llama-3.2 90B Vision, in einigen Tests zur visuellen Verständnis. Und die 8B-Version? Sie hält sich gegen Modelle, die zehnmal größer sind.
Beide Modelle können auf Hugging Face unter einer Creative Commons 4.0-Lizenz heruntergeladen werden, aber es gibt einen Haken – sie dürfen nicht für kommerzielle Zwecke genutzt werden.
Cohere hat Aya Vision mit einer Mischung aus englischsprachigen Datensätzen trainiert, die sie übersetzt und in synthetische Annotationen umgewandelt haben. Diese Annotationen, oder Tags, helfen dem Modell, die Daten während des Trainings zu verstehen. Zum Beispiel könnten bei der Schulung eines Bilderkennungsmodells Annotationen verwendet werden, um Objekte zu markieren oder Bildunterschriften hinzuzufügen.

Cohere’s Aya Vision-Modell kann eine Reihe von Aufgaben zum visuellen Verständnis ausführen. Bildnachweis: Cohere Die Verwendung synthetischer Annotationen ist derzeit sehr beliebt, auch wenn sie ihre Nachteile hat. Große Akteure wie OpenAI setzen ebenfalls auf synthetische Daten, da reale Daten immer schwerer zu bekommen sind. Gartner schätzt, dass im letzten Jahr 60 % der für KI- und Analyseprojekte verwendeten Daten synthetisch waren.Cohere sagt, dass das Training von Aya Vision mit synthetischen Annotationen es ihnen ermöglicht hat, weniger Ressourcen zu nutzen und dennoch erstklassige Ergebnisse zu erzielen. Es geht um Effizienz und darum, mit weniger mehr zu erreichen, sagen sie, was eine gute Nachricht für Forscher ist, die nicht immer Zugang zu großen Rechenressourcen haben.
Neben Aya Vision hat Cohere eine neue Benchmark-Suite namens AyaVisionBench veröffentlicht. Sie ist darauf ausgelegt, die Fähigkeiten eines Modells in Aufgaben wie dem Erkennen von Unterschieden zwischen Bildern und dem Umwandeln von Screenshots in Code zu testen.
Die KI-Welt hat mit einer sogenannten „Bewertungskrise“ zu kämpfen. Die üblichen Benchmarks geben eine Gesamtpunktzahl, die nicht wirklich widerspiegelt, wie gut ein Modell bei den Aufgaben abschneidet, die den meisten Nutzern wichtig sind. Cohere glaubt, dass AyaVisionBench dieses Problem lösen kann, indem es eine anspruchsvolle und umfassende Möglichkeit bietet, die multilingualen und multimodalen Fähigkeiten eines Modells zu überprüfen.
Man kann nur hoffen, dass sie recht haben. Die Forscher von Cohere sagen, der Datensatz sei ein solides Benchmark für die Prüfung von Vision-Sprachmodellen in mehrsprachigen und realen Szenarien. Sie haben ihn der Forschungsgemeinschaft zur Verfügung gestellt, um die Entwicklung mehrsprachiger multimodaler Bewertungen voranzutreiben.
Verwandter Artikel
Cohere stellt eine Familie von mehrsprachigen Open-Source-KI-Modellen vor
Das auf Unternehmens-KI spezialisierte Unternehmen Cohere hat auf dem derzeit stattfindenden India AI Summit eine neue Familie mehrsprachiger Modelle namens „Tiny Aya“ vorgestellt. Diese Open-Weight-M
Cohere und Aleph Alpha geben Fusion bekannt
Das kanadische KI-Startup Cohere übernimmt das deutsche Unternehmen Aleph Alpha mit Unterstützung der Schwarz-Gruppe, der Muttergesellschaft der Lebensmittelkette Lidl. Mit staatlicher Unterstützung w
Cohere startet sichere KI-Plattform für Unternehmen North
KI-Agent-Tools haben das Potenzial, sich wiederholende Aufgaben im täglichen Arbeitsablauf zu reduzieren, doch viele Unternehmen sind bei der Einführung noch zurückhaltend. Ein Hauptanliegen ist die D
Empfehlungen zu verwandten Spezialthemen
Kommentare (46)
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
Das gemeinnützige Forschungslabor von Cohere hat gerade ein neues multimodales KI-Modell namens Aya Vision veröffentlicht und nennt es das beste seiner Klasse. Dieses Modell ist ziemlich beeindruckend – es kann Bildunterschriften erstellen, Fragen zu Bildern beantworten, Texte übersetzen und sogar Inhalte in 23 wichtigen Sprachen zusammenfassen. Außerdem stellt Cohere Aya Vision kostenlos auf WhatsApp zur Verfügung und sagt, dass dies ein großer Schritt ist, um diese technologischen Durchbrüche in die Hände von Forschern weltweit zu bringen.
In ihrem Blogbeitrag wies Cohere darauf hin, dass es trotz der Fortschritte in der KI immer noch eine große Lücke darin gibt, wie gut Modelle verschiedene Sprachen verarbeiten, insbesondere wenn sowohl Text als auch Bilder involviert sind. Hier setzt Aya Vision an, um diese Lücke zu schließen.
Aya Vision gibt es in zwei Versionen: die leistungsstärkere Aya Vision 32B und die leichtere Aya Vision 8B. Die 32B-Version setzt laut Cohere eine „neue Grenze“ und übertrifft Modelle, die doppelt so groß sind, wie Metas Llama-3.2 90B Vision, in einigen Tests zur visuellen Verständnis. Und die 8B-Version? Sie hält sich gegen Modelle, die zehnmal größer sind.
Beide Modelle können auf Hugging Face unter einer Creative Commons 4.0-Lizenz heruntergeladen werden, aber es gibt einen Haken – sie dürfen nicht für kommerzielle Zwecke genutzt werden.
Cohere hat Aya Vision mit einer Mischung aus englischsprachigen Datensätzen trainiert, die sie übersetzt und in synthetische Annotationen umgewandelt haben. Diese Annotationen, oder Tags, helfen dem Modell, die Daten während des Trainings zu verstehen. Zum Beispiel könnten bei der Schulung eines Bilderkennungsmodells Annotationen verwendet werden, um Objekte zu markieren oder Bildunterschriften hinzuzufügen.

Cohere sagt, dass das Training von Aya Vision mit synthetischen Annotationen es ihnen ermöglicht hat, weniger Ressourcen zu nutzen und dennoch erstklassige Ergebnisse zu erzielen. Es geht um Effizienz und darum, mit weniger mehr zu erreichen, sagen sie, was eine gute Nachricht für Forscher ist, die nicht immer Zugang zu großen Rechenressourcen haben.
Neben Aya Vision hat Cohere eine neue Benchmark-Suite namens AyaVisionBench veröffentlicht. Sie ist darauf ausgelegt, die Fähigkeiten eines Modells in Aufgaben wie dem Erkennen von Unterschieden zwischen Bildern und dem Umwandeln von Screenshots in Code zu testen.
Die KI-Welt hat mit einer sogenannten „Bewertungskrise“ zu kämpfen. Die üblichen Benchmarks geben eine Gesamtpunktzahl, die nicht wirklich widerspiegelt, wie gut ein Modell bei den Aufgaben abschneidet, die den meisten Nutzern wichtig sind. Cohere glaubt, dass AyaVisionBench dieses Problem lösen kann, indem es eine anspruchsvolle und umfassende Möglichkeit bietet, die multilingualen und multimodalen Fähigkeiten eines Modells zu überprüfen.
Man kann nur hoffen, dass sie recht haben. Die Forscher von Cohere sagen, der Datensatz sei ein solides Benchmark für die Prüfung von Vision-Sprachmodellen in mehrsprachigen und realen Szenarien. Sie haben ihn der Forschungsgemeinschaft zur Verfügung gestellt, um die Entwicklung mehrsprachiger multimodaler Bewertungen voranzutreiben.
Cohere stellt eine Familie von mehrsprachigen Open-Source-KI-Modellen vor
Das auf Unternehmens-KI spezialisierte Unternehmen Cohere hat auf dem derzeit stattfindenden India AI Summit eine neue Familie mehrsprachiger Modelle namens „Tiny Aya“ vorgestellt. Diese Open-Weight-M
Cohere und Aleph Alpha geben Fusion bekannt
Das kanadische KI-Startup Cohere übernimmt das deutsche Unternehmen Aleph Alpha mit Unterstützung der Schwarz-Gruppe, der Muttergesellschaft der Lebensmittelkette Lidl. Mit staatlicher Unterstützung w
Cohere startet sichere KI-Plattform für Unternehmen North
KI-Agent-Tools haben das Potenzial, sich wiederholende Aufgaben im täglichen Arbeitsablauf zu reduzieren, doch viele Unternehmen sind bei der Einführung noch zurückhaltend. Ein Hauptanliegen ist die D
Aya Vision klingt beeindruckend! Besonders die 23 Sprachen sind praktisch. Hoffentlich bleibt die Übersetzungsqualität auch bei komplexen Themen konsistent. 🤔 Würde mich interessieren, wie es sich im Alltag gegen GPT-4 behauptet.
Incroyable modèle de Cohere ! Mais est-ce que cette IA 'top-rated' tiendra ses promesses face à GPT-4 ? 🤔 Les fonctionnalités multilingues sont impressionnantes, mais j'aimerais voir plus de démos concrètes.
¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎





Heim






