Cohere tiết lộ mô hình AYA Vision được xếp hạng hàng đầu
Phòng nghiên cứu phi lợi nhuận của Cohere vừa ra mắt một mô hình AI đa phương thức mới có tên là Aya Vision, và họ gọi đây là mô hình xuất sắc nhất trong hạng mục của nó. Mô hình này rất ấn tượng—nó có thể tạo chú thích cho hình ảnh, trả lời các câu hỏi về hình ảnh, dịch văn bản, và thậm chí tóm tắt nội dung bằng 23 ngôn ngữ chính. Hơn nữa, Cohere đang cung cấp Aya Vision miễn phí trên WhatsApp, cho rằng đây là một bước tiến lớn để đưa những đột phá công nghệ này đến tay các nhà nghiên cứu ở khắp mọi nơi.
Trong bài đăng blog của mình, Cohere chỉ ra rằng mặc dù AI đã đạt được nhiều tiến bộ, vẫn còn một khoảng cách lớn trong việc các mô hình xử lý các ngôn ngữ khác nhau, đặc biệt khi kết hợp cả văn bản và hình ảnh. Đó là lúc Aya Vision xuất hiện, nhằm thu hẹp khoảng cách đó.
Aya Vision có hai phiên bản: phiên bản mạnh mẽ hơn Aya Vision 32B và phiên bản nhẹ hơn Aya Vision 8B. Theo Cohere, phiên bản 32B đang thiết lập một "biên giới mới", vượt qua các mô hình lớn gấp đôi kích thước của nó, như Llama-3.2 90B Vision của Meta, trong một số bài kiểm tra về khả năng hiểu hình ảnh. Còn phiên bản 8B? Nó cũng đang giữ vững vị trí của mình trước các mô hình lớn gấp 10 lần.
Bạn có thể tải cả hai mô hình từ Hugging Face theo giấy phép Creative Commons 4.0, nhưng có một lưu ý—chúng không được sử dụng cho mục đích thương mại.
Cohere đã huấn luyện Aya Vision bằng cách sử dụng một tập hợp dữ liệu tiếng Anh, mà họ đã dịch và biến thành các chú thích tổng hợp. Những chú thích này, hoặc các thẻ, giúp mô hình hiểu dữ liệu trong quá trình huấn luyện. Ví dụ, nếu bạn đang huấn luyện một mô hình nhận diện hình ảnh, bạn có thể sử dụng các chú thích để đánh dấu các đối tượng hoặc thêm chú thích về những gì có trong bức ảnh.

Mô hình Aya Vision của Cohere có thể thực hiện nhiều nhiệm vụ hiểu hình ảnh khác nhau. Nguồn hình ảnh: Cohere Việc sử dụng các chú thích tổng hợp đang rất thịnh hành hiện nay, mặc dù nó có những hạn chế. Các công ty lớn như OpenAI cũng đang tham gia vào xu hướng dữ liệu tổng hợp khi dữ liệu thực tế ngày càng khó kiếm. Gartner ước tính rằng năm ngoái, 60% dữ liệu được sử dụng cho các dự án AI và phân tích là dữ liệu tổng hợp.Cohere cho biết việc huấn luyện Aya Vision trên các chú thích tổng hợp cho phép họ sử dụng ít tài nguyên hơn mà vẫn đạt được kết quả hàng đầu. Họ nói rằng điều này liên quan đến hiệu quả và làm được nhiều hơn với ít tài nguyên hơn, đó là tin tuyệt vời cho các nhà nghiên cứu không phải lúc nào cũng có quyền truy cập vào các tài nguyên tính toán lớn.
Cùng với Aya Vision, Cohere đã phát hành một bộ công cụ đánh giá mới có tên là AyaVisionBench. Bộ công cụ này được thiết kế để kiểm tra kỹ năng của mô hình trong các nhiệm vụ như phát hiện sự khác biệt giữa các hình ảnh và chuyển đổi ảnh chụp màn hình thành mã.
Thế giới AI đã phải đối mặt với cái mà một số người gọi là "khủng hoảng đánh giá". Các tiêu chuẩn đánh giá thông thường cung cấp một điểm số tổng thể không thực sự phản ánh mức độ tốt của mô hình trong các nhiệm vụ quan trọng đối với hầu hết người dùng. Cohere tin rằng AyaVisionBench có thể giúp khắc phục điều đó, cung cấp một cách kiểm tra khó khăn và toàn diện để đánh giá khả năng đa ngôn ngữ và đa phương thức của mô hình.
Hy vọng họ đúng. Các nhà nghiên cứu của Cohere cho biết tập dữ liệu này là một tiêu chuẩn vững chắc để kiểm tra các mô hình ngôn ngữ-hình ảnh trong các kịch bản đa ngôn ngữ và thực tế. Họ đã cung cấp nó cho cộng đồng nghiên cứu để giúp thúc đẩy các đánh giá đa phương thức đa ngôn ngữ.
Bài viết liên quan
Face Face phát triển sự thay thế mở cho công cụ nghiên cứu của Openai
Một nhóm các nhà phát triển tại Hugging Face, bao gồm đồng sáng lập và nhà khoa học trưởng Thomas Wolf, đã tạo ra cái mà họ gọi là phiên bản "mở" của công cụ nghiên cứu sâu của Openai. Openai đã giới thiệu nghiên cứu sâu tại một sự kiện gần đây, nơi nó đã được tiết lộ rằng công cụ này đã quét web để tạo các báo cáo nghiên cứu
Lựa chọn Công cụ Mã hóa AI Tốt nhất cho Dự án của Bạn
Cảnh quan phát triển phần mềm đang thay đổi nhanh chóng, với Trí tuệ Nhân tạo (AI) trở thành động lực chính. Các công cụ mã hóa AI cho phép các nhà phát triển viết mã nhanh hơn, chính xác hơn và hiệu
Công cụ Podcast Được Hỗ trợ bởi AI để Tạo Nội dung Hiệu quả
Việc sản xuất và tinh chỉnh một podcast có thể vừa đòi hỏi nhiều công sức vừa mang lại sự thỏa mãn. Nhiều podcaster gặp khó khăn với các nhiệm vụ tốn thời gian như loại bỏ từ đệm, tạo ghi chú chương t
Nhận xét (42)
0/200
KennethMartin
12:00:59 GMT+07:00 Ngày 10 tháng 8 năm 2025
This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎
0
PaulKing
18:35:39 GMT+07:00 Ngày 31 tháng 7 năm 2025
This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎
0
JackMartinez
08:32:08 GMT+07:00 Ngày 21 tháng 4 năm 2025
Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟
0
WilliamYoung
07:58:05 GMT+07:00 Ngày 20 tháng 4 năm 2025
Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍
0
StevenGonzalez
01:53:55 GMT+07:00 Ngày 20 tháng 4 năm 2025
아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍
0
FredBrown
08:22:30 GMT+07:00 Ngày 18 tháng 4 năm 2025
J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊
0
Phòng nghiên cứu phi lợi nhuận của Cohere vừa ra mắt một mô hình AI đa phương thức mới có tên là Aya Vision, và họ gọi đây là mô hình xuất sắc nhất trong hạng mục của nó. Mô hình này rất ấn tượng—nó có thể tạo chú thích cho hình ảnh, trả lời các câu hỏi về hình ảnh, dịch văn bản, và thậm chí tóm tắt nội dung bằng 23 ngôn ngữ chính. Hơn nữa, Cohere đang cung cấp Aya Vision miễn phí trên WhatsApp, cho rằng đây là một bước tiến lớn để đưa những đột phá công nghệ này đến tay các nhà nghiên cứu ở khắp mọi nơi.
Trong bài đăng blog của mình, Cohere chỉ ra rằng mặc dù AI đã đạt được nhiều tiến bộ, vẫn còn một khoảng cách lớn trong việc các mô hình xử lý các ngôn ngữ khác nhau, đặc biệt khi kết hợp cả văn bản và hình ảnh. Đó là lúc Aya Vision xuất hiện, nhằm thu hẹp khoảng cách đó.
Aya Vision có hai phiên bản: phiên bản mạnh mẽ hơn Aya Vision 32B và phiên bản nhẹ hơn Aya Vision 8B. Theo Cohere, phiên bản 32B đang thiết lập một "biên giới mới", vượt qua các mô hình lớn gấp đôi kích thước của nó, như Llama-3.2 90B Vision của Meta, trong một số bài kiểm tra về khả năng hiểu hình ảnh. Còn phiên bản 8B? Nó cũng đang giữ vững vị trí của mình trước các mô hình lớn gấp 10 lần.
Bạn có thể tải cả hai mô hình từ Hugging Face theo giấy phép Creative Commons 4.0, nhưng có một lưu ý—chúng không được sử dụng cho mục đích thương mại.
Cohere đã huấn luyện Aya Vision bằng cách sử dụng một tập hợp dữ liệu tiếng Anh, mà họ đã dịch và biến thành các chú thích tổng hợp. Những chú thích này, hoặc các thẻ, giúp mô hình hiểu dữ liệu trong quá trình huấn luyện. Ví dụ, nếu bạn đang huấn luyện một mô hình nhận diện hình ảnh, bạn có thể sử dụng các chú thích để đánh dấu các đối tượng hoặc thêm chú thích về những gì có trong bức ảnh.
Cohere cho biết việc huấn luyện Aya Vision trên các chú thích tổng hợp cho phép họ sử dụng ít tài nguyên hơn mà vẫn đạt được kết quả hàng đầu. Họ nói rằng điều này liên quan đến hiệu quả và làm được nhiều hơn với ít tài nguyên hơn, đó là tin tuyệt vời cho các nhà nghiên cứu không phải lúc nào cũng có quyền truy cập vào các tài nguyên tính toán lớn.
Cùng với Aya Vision, Cohere đã phát hành một bộ công cụ đánh giá mới có tên là AyaVisionBench. Bộ công cụ này được thiết kế để kiểm tra kỹ năng của mô hình trong các nhiệm vụ như phát hiện sự khác biệt giữa các hình ảnh và chuyển đổi ảnh chụp màn hình thành mã.
Thế giới AI đã phải đối mặt với cái mà một số người gọi là "khủng hoảng đánh giá". Các tiêu chuẩn đánh giá thông thường cung cấp một điểm số tổng thể không thực sự phản ánh mức độ tốt của mô hình trong các nhiệm vụ quan trọng đối với hầu hết người dùng. Cohere tin rằng AyaVisionBench có thể giúp khắc phục điều đó, cung cấp một cách kiểm tra khó khăn và toàn diện để đánh giá khả năng đa ngôn ngữ và đa phương thức của mô hình.
Hy vọng họ đúng. Các nhà nghiên cứu của Cohere cho biết tập dữ liệu này là một tiêu chuẩn vững chắc để kiểm tra các mô hình ngôn ngữ-hình ảnh trong các kịch bản đa ngôn ngữ và thực tế. Họ đã cung cấp nó cho cộng đồng nghiên cứu để giúp thúc đẩy các đánh giá đa phương thức đa ngôn ngữ.




This Aya Vision model sounds like a game-changer! Captioning images and translating in 23 languages? That’s some next-level tech. Can’t wait to see how it stacks up against the big players like OpenAI. 😎




This Aya Vision model sounds like a game-changer! Being able to handle images and 23 languages is wild—imagine using it to instantly caption my travel photos or summarize foreign articles. Curious how it stacks up against other AI models in real-world tasks. 😎




Aya Vision es increíblemente útil. Lo utilizo para mis proyectos de diseño y me encanta cómo genera descripciones de imágenes. Aunque a veces se equivoca con los detalles, en general es muy preciso. ¡Lo recomiendo totalmente! 🌟




Aya Vision ist echt cool, aber es hat manchmal Schwierigkeiten mit der Übersetzung. Trotzdem ist es eine tolle Hilfe für meine Arbeit. Es könnte etwas schneller sein, aber insgesamt bin ich zufrieden. 👍




아야 비전은 멋지지만 완벽하지는 않아요. 이미지 캡션은 정확하지만 번역이 때때로 틀릴 때가 있어요. 그래도 빠른 요약을 위한 좋은 도구예요! 👍




J'adore Aya Vision, c'est super pratique pour résumer des textes en plusieurs langues. Par contre, il a du mal avec les images complexes. Mais pour le reste, c'est top ! Essayez-le, vous ne serez pas déçus. 😊












