Option
Heim
Nachricht
Cohere enthüllt Top-bewertete Aya Vision AI-Modell

Cohere enthüllt Top-bewertete Aya Vision AI-Modell

10. April 2025
113

Das gemeinnützige Forschungslabor von Cohere hat gerade ein neues multimodales KI-Modell namens Aya Vision veröffentlicht und nennt es das beste seiner Klasse. Dieses Modell ist ziemlich beeindruckend – es kann Bildunterschriften erstellen, Fragen zu Bildern beantworten, Texte übersetzen und sogar Inhalte in 23 wichtigen Sprachen zusammenfassen. Außerdem stellt Cohere Aya Vision kostenlos auf WhatsApp zur Verfügung und sagt, dass dies ein großer Schritt ist, um diese technologischen Durchbrüche in die Hände von Forschern weltweit zu bringen.

In ihrem Blogbeitrag wies Cohere darauf hin, dass es trotz der Fortschritte in der KI immer noch eine große Lücke darin gibt, wie gut Modelle verschiedene Sprachen verarbeiten, insbesondere wenn sowohl Text als auch Bilder involviert sind. Hier setzt Aya Vision an, um diese Lücke zu schließen.

Aya Vision gibt es in zwei Versionen: die leistungsstärkere Aya Vision 32B und die leichtere Aya Vision 8B. Die 32B-Version setzt laut Cohere eine „neue Grenze“ und übertrifft Modelle, die doppelt so groß sind, wie Metas Llama-3.2 90B Vision, in einigen Tests zur visuellen Verständnis. Und die 8B-Version? Sie hält sich gegen Modelle, die zehnmal größer sind.

Beide Modelle können auf Hugging Face unter einer Creative Commons 4.0-Lizenz heruntergeladen werden, aber es gibt einen Haken – sie dürfen nicht für kommerzielle Zwecke genutzt werden.

Cohere hat Aya Vision mit einer Mischung aus englischsprachigen Datensätzen trainiert, die sie übersetzt und in synthetische Annotationen umgewandelt haben. Diese Annotationen, oder Tags, helfen dem Modell, die Daten während des Trainings zu verstehen. Zum Beispiel könnten bei der Schulung eines Bilderkennungsmodells Annotationen verwendet werden, um Objekte zu markieren oder Bildunterschriften hinzuzufügen.

Cohere Aya Vision

Cohere’s Aya Vision-Modell kann eine Reihe von Aufgaben zum visuellen Verständnis ausführen. Bildnachweis: Cohere
Die Verwendung synthetischer Annotationen ist derzeit sehr beliebt, auch wenn sie ihre Nachteile hat. Große Akteure wie OpenAI setzen ebenfalls auf synthetische Daten, da reale Daten immer schwerer zu bekommen sind. Gartner schätzt, dass im letzten Jahr 60 % der für KI- und Analyseprojekte verwendeten Daten synthetisch waren.

Cohere sagt, dass das Training von Aya Vision mit synthetischen Annotationen es ihnen ermöglicht hat, weniger Ressourcen zu nutzen und dennoch erstklassige Ergebnisse zu erzielen. Es geht um Effizienz und darum, mit weniger mehr zu erreichen, sagen sie, was eine gute Nachricht für Forscher ist, die nicht immer Zugang zu großen Rechenressourcen haben.

Neben Aya Vision hat Cohere eine neue Benchmark-Suite namens AyaVisionBench veröffentlicht. Sie ist darauf ausgelegt, die Fähigkeiten eines Modells in Aufgaben wie dem Erkennen von Unterschieden zwischen Bildern und dem Umwandeln von Screenshots in Code zu testen.

Die KI-Welt hat mit einer sogenannten „Bewertungskrise“ zu kämpfen. Die üblichen Benchmarks geben eine Gesamtpunktzahl, die nicht wirklich widerspiegelt, wie gut ein Modell bei den Aufgaben abschneidet, die den meisten Nutzern wichtig sind. Cohere glaubt, dass AyaVisionBench dieses Problem lösen kann, indem es eine anspruchsvolle und umfassende Möglichkeit bietet, die multilingualen und multimodalen Fähigkeiten eines Modells zu überprüfen.

Man kann nur hoffen, dass sie recht haben. Die Forscher von Cohere sagen, der Datensatz sei ein solides Benchmark für die Prüfung von Vision-Sprachmodellen in mehrsprachigen und realen Szenarien. Sie haben ihn der Forschungsgemeinschaft zur Verfügung gestellt, um die Entwicklung mehrsprachiger multimodaler Bewertungen voranzutreiben.

Verwandter Artikel
Umarme Gesicht entwickelt eine offene Alternative zum Forschungsinstrument von OpenAI Umarme Gesicht entwickelt eine offene Alternative zum Forschungsinstrument von OpenAI Ein Team von Entwicklern von Hugging Face, darunter Mitbegründer und Chefwissenschaftler Thomas Wolf, hat eine sogenannte "Open" -Version von OpenAs Deep Research Tool geschaffen. OpenAI führte bei einer kürzlich durchgeführten Veranstaltung Deep Research ein, bei dem sich herausstellt, dass das Tool das Web durchsucht, um Forschungsberichte zu generieren
Auswahl des besten KI-Coding-Tools für Ihr Projekt Auswahl des besten KI-Coding-Tools für Ihr Projekt Die Landschaft der Softwareentwicklung verändert sich rasant, wobei Künstliche Intelligenz (KI) zu einem entscheidenden Treiber wird. KI-Coding-Tools ermöglichen Entwicklern, schneller, präziser und e
KI-gestützte Podcast-Tools für optimierte Inhaltserstellung KI-gestützte Podcast-Tools für optimierte Inhaltserstellung Die Produktion und Verfeinerung eines Podcasts kann sowohl anspruchsvoll als auch erfüllend sein. Viele Podcaster stehen vor Herausforderungen bei zeitintensiven Aufgaben wie der Entfernung von Füllwö
Kommentare (42)
0/200
KennethMartin
KennethMartin 10. August 2025 07:00:59 MESZ

This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎

PaulKing
PaulKing 31. Juli 2025 13:35:39 MESZ

This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎

JackMartinez
JackMartinez 21. April 2025 03:32:08 MESZ

Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟

WilliamYoung
WilliamYoung 20. April 2025 02:58:05 MESZ

Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍

StevenGonzalez
StevenGonzalez 19. April 2025 20:53:55 MESZ

아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍

FredBrown
FredBrown 18. April 2025 03:22:30 MESZ

J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊

Zurück nach oben
OR