选项
首页
新闻
共同揭示了最高评级的AYA Vision AI模型

共同揭示了最高评级的AYA Vision AI模型

2025-04-10
128

Cohere的非营利研究实验室刚刚发布了一款新的多模态AI模型,名为Aya Vision,他们称其为同类最佳。这款模型非常出色——它可以生成图像描述,回答关于图片的问题,翻译文本,甚至能用23种主要语言进行内容总结。此外,Cohere在WhatsApp上免费提供Aya Vision,称这是让这些技术突破进入全球研究者手中的重要举措。

在他们的博客文章中,Cohere指出,尽管AI取得了进展,但在处理不同语言方面,模型的表现仍然存在巨大差距,尤其是在同时处理文本和图像时。Aya Vision的出现旨在弥补这一差距。

Aya Vision有两种版本:更强大的Aya Vision 32B和更轻量级的Aya Vision 8B。据Cohere称,32B版本开创了“新前沿”,在一些视觉理解测试中超越了比它大两倍的模型,如Meta的Llama-3.2 90B Vision。而8B版本也能与比它大10倍的模型一较高下。

你可以在Hugging Face上以Creative Commons 4.0许可证获取这两种模型,但有一个限制——它们不可用于商业用途。

Cohere使用英语数据集的混合进行Aya Vision的训练,将其翻译并转化为合成注释。这些注释或标签帮助模型在训练过程中理解数据。例如,如果你在训练一个图像识别模型,你可能会使用注释来标记对象或为图片添加描述。

Cohere Aya Vision

Cohere的Aya Vision模型可以执行一系列视觉理解任务。图片来源:Cohere
使用合成注释现在非常流行,尽管它也有其缺点。像OpenAI这样的大公司也在追随合成数据潮流,因为现实世界的数据越来越难获取。Gartner估计,去年用于AI和分析项目的数据中有60%是合成的。

Cohere表示,使用合成注释训练Aya Vision使他们能够以更少的资源获得顶尖结果。他们说,这一切都关乎效率和以更少资源做更多事情,这对那些不总能访问大型计算资源的研究者来说是个好消息。

与Aya Vision一起,Cohere发布了一个新的基准测试套件,名为AyaVisionBench。它旨在测试模型在诸如发现图像差异和将屏幕截图转化为代码等任务中的能力。

AI领域一直在挣扎于一些人所说的“评估危机”。常规基准测试给出的总体分数并不能真正反映模型在用户最关心的任务上的表现。Cohere认为AyaVisionBench可以帮助解决这一问题,提供一种严格且广泛的方法来检查模型的跨语言和多模态能力。

希望他们是对的。Cohere的研究人员表示,这个数据集是测试多语言和现实场景中视觉-语言模型的坚实基准。他们已将其提供给研究社区,以帮助推动多语言多模态评估的进展。

相关文章
拥抱面孔为OpenAI研究工具提供开放式替代方案 拥抱面孔为OpenAI研究工具提供开放式替代方案 包括联合创始人和首席科学家托马斯·沃尔夫(Thomas Wolf)在内的拥抱面孔的开发人员团队创建了他们所谓的OpenAI深入研究工具的“开放”版本。 Openai在最近的一项活动中介绍了深入的研究,据透露该工具搜寻网络以生成研究报告
Midjourney 推出用于创意内容的尖端人工智能视频生成器 Midjourney 推出用于创意内容的尖端人工智能视频生成器 Midjourney 的人工智能视频生成技术取得突破性进展Midjourney 发布了其首款人工智能视频生成工具,标志着其在著名的图像创建功能之外的重大扩展。最初的版本使用户能够将上传的图片和平台生成的作品转换成简短的 5 秒钟动画短片,并计划在未来进行增强。核心特点和功能直观的 "动画 "按钮,可将静态图像转换为动态图像根据文本提示生成 5 秒钟的基本视频通过手动提示编辑进行自定义动作控制视频扩
谷歌提前正式发布 Pixel 10 智能手机,遏制泄密行为 谷歌提前正式发布 Pixel 10 智能手机,遏制泄密行为 谷歌(Google)正在向粉丝们展示其即将推出的 Pixel 10 智能手机阵容,并在 8 月 20 日发布会前几周展示了官方设计。谷歌网站上的一段宣传视频展示了一款时尚的灰蓝色设备,它配备了三后置摄像头、LED 闪光灯和温度传感器--这是之前 Pro 机型独有的功能。虽然谷歌只是简单地将其命名为 "Pixel 10",但其设计与泄露的高端 Pro 机型的渲染图非常吻合。这已经不是谷歌第一次提前发
评论 (43)
0/200
MarkRoberts
MarkRoberts 2025-09-04 12:30:34

¡Interesante! Aya Vision parece ser un modelo bastante completo con esas capacidades multilingües. Me pregunto qué tan bien funcionará en idiomas menos comunes, sobre todo porque menciona '23 grandes idiomas'. ¿Habrá algún soporte para lenguas indígenas o regionales en el futuro? 🌎

KennethMartin
KennethMartin 2025-08-10 13:00:59

This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎

PaulKing
PaulKing 2025-07-31 19:35:39

This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎

JackMartinez
JackMartinez 2025-04-21 09:32:08

Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟

WilliamYoung
WilliamYoung 2025-04-20 08:58:05

Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍

StevenGonzalez
StevenGonzalez 2025-04-20 02:53:55

아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍

返回顶部
OR