Cohereは、最高評価のAYA Vision AIモデルを発表します

家

ニュース

2025年4月10日

DanielAllen

128

# Open AI # Cohere

Cohereの非営利研究ラボが、Aya Visionという新しいマルチモーダルAIモデルを発表し、クラス最高と称しています。このモデルは非常に優れており、画像キャプションの作成、画像に関する質問への回答、テキストの翻訳、さらには23の主要言語での要約が可能です。さらに、CohereはAya VisionをWhatsAppで無料提供し、これらの技術的進歩を世界中の研究者の手に届ける大きな一歩だと述べています。

彼らのブログ投稿では、AIが進歩している一方で、モデルが異なる言語、特にテキストと画像の両方を扱う場合のパフォーマンスに大きな差があると指摘しています。そこでAya Visionが登場し、そのギャップを埋めることを目指しています。

Aya Visionには2つのバージョンがあります：より高性能なAya Vision 32Bと、軽量なAya Vision 8Bです。Cohereによると、32Bバージョンは「新たなフロンティア」を設定し、MetaのLlama-3.2 90B Visionのような2倍のサイズのモデルを、一部の視覚理解テストで上回っています。そして8Bバージョンは、10倍大きなモデルに対抗できる実力を持っています。

両モデルはHugging FaceからCreative Commons 4.0ライセンスで入手可能ですが、商用利用はできません。

Cohereは、英語のデータセットを翻訳し、合成アノテーションに変換してAya Visionを訓練しました。これらのアノテーション、つまりタグは、訓練中にモデルがデータを理解するのに役立ちます。たとえば、画像認識モデルの訓練では、アノテーションを使ってオブジェクトをマークしたり、画像の内容に関するキャプションを追加したりします。

Cohere Aya Vision

CohereのAya Visionモデルは、さまざまな視覚理解タスクを実行できます。画像提供：Cohere

合成アノテーションの使用は現在非常に流行していますが、欠点もあります。OpenAIのような大手企業も、現実世界のデータが入手しにくくなる中、合成データの活用に乗り出しています。Gartnerによると、昨年、AIおよび分析プロジェクトで使用されたデータの60％が合成データでした。

Cohereは、合成アノテーションでAya Visionを訓練することで、少ないリソースで最高の結果を得たと述べています。効率性と少ないリソースでより多くのことを行うことが、大きなコンピューティングリソースにアクセスできない研究者にとって朗報だと彼らは言います。

Aya Visionと同時に、CohereはAyaVisionBenchという新しいベンチマークスイートをリリースしました。これは、画像間の違いを特定したり、スクリーンショットをコードに変換したりするタスクで罐でモデルのスキルをテストするために設計されています。

AI業界では、いわゆる「評価危機」に悩まされています。通常のベンチマークでは、ユーザーにとって重要なタスクでのモデルのパフォーマンスを正確に反映しない全体的なスコアしか得られません。Cohereは、AyaVisionBenchがこの問題を解決し、モデルの多言語およびマルチモーダルな能力を厳しく幅広くチェックする方法を提供できると考えています。

その通りであってほしいものです。Cohereの研究者たちは、このデータセットが多言語および現実世界のシナリオでビジョン言語モデルのテストに適した強力なベンチマークだと述べています。彼らは研究コミュニティに提供し、多言語マルチモーダル評価の推進を支援しています。

Hugging Faceは、Openaiの研究ツールに代わるオープンな代替手段を開発します共同設立者でありチーフサイエンティストのトーマス・ウルフを含むハグ・フェイスの開発者チームは、OpenaiのDeep Research Toolの「オープン」バージョンと呼ばれるものを作成しました。 Openaiは最近のイベントで深い研究を導入しました。このイベントでは、ツールが研究レポートを生成するためにWebを精査することが明らかになりました

AIインペイントテクニックをマスターしよう：完璧な画像編集のための中間ガイド MidjourneyのAIインペインティング・テクノロジーは、クリエイターがAIで生成されたアートワークを精密かつ完璧に仕上げるための画期的な機能です。この決定版ガイドでは、この強力なツールを活用して、微妙な改良から劇的な構図の変更まで、Midjourneyの直感的なプラットフォームでクリエイティブなプロジェクトを向上させるための専門的なテクニックを紹介します。キーポイントMidjourneyのイ

Manus、ウェブスクレイピングのための100以上のエージェントを備えたAIツール「Wide Research」を発表中国のAIイノベーターであるManusは、コンシューマーとプロフェッショナルの両方に対応する先駆的なマルチエージェント・オーケストレーション・プラットフォームで注目を集めたが、従来のAI研究アプローチに挑戦する同社の技術の画期的なアプリケーションを発表した。AIを活用した研究の再考OpenAI、Google、xAIのような競合他社は、詳細なレポートを作成するために何時間も調査を行うことができる特別

コメント (43)

0/200

提出する

MarkRoberts

2025年9月4日 13:30:34 JST

¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎

KennethMartin

2025年8月10日 14:00:59 JST

This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎

PaulKing

2025年7月31日 20:35:39 JST

This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎

JackMartinez

2025年4月21日 10:32:08 JST

Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟

WilliamYoung

2025年4月20日 9:58:05 JST

Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍

StevenGonzalez

2025年4月20日 3:53:55 JST

아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍

トップニュース

Gemini 2.5 ProはClaudeよりも無制限で安価で、GPT-4O 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 AIボイスオーバー：リアルな声制作究極ガイドカンビウムのAIは、廃棄物を木材に変換します Openaiは、より良いチャットのためにAIの音声アシスタントを強化します AI統合のためにデータが信頼できることを確認する方法 Notebooklmはグローバルに拡張し、スライドを追加し、ファクトチェックを強化します米国のデータセンターへの微調整は、76 GWの新しい電源容量のロックを解除できます GoogleはAIを利用して、詐欺の疑いのために3900万を超える広告アカウントを一時停止します AIボイスクローン：音声変換を極めるための完全ガイド

もっと

特集