Giám đốc điều hành DeepMind Demis Hassabis công bố tích hợp trong tương lai của các mô hình Song Tử và Veo AI của Google

Trong một tập gần đây của podcast Possible, do đồng sáng lập LinkedIn Reid Hoffman đồng dẫn chương trình, CEO của Google DeepMind Demis Hassabis đã chia sẻ một số tin tức thú vị về kế hoạch của Google. Ông tiết lộ rằng Google đang tìm cách hợp nhất các mô hình AI Gemini với các mô hình tạo video Veo. Sự kết hợp này nhằm nâng cao khả năng nắm bắt thế giới vật lý của Gemini, giúp nó hiểu rõ hơn về động lực thực tế trong cuộc sống.
Hassabis nhấn mạnh rằng ngay từ đầu, Gemini đã được thiết kế để là đa phương thức. "Chúng tôi luôn xây dựng Gemini, mô hình nền tảng của chúng tôi, để là đa phương thức từ đầu," ông giải thích. Động lực đằng sau cách tiếp cận này? Một tầm nhìn về một trợ lý số toàn diện có thể thực sự hỗ trợ trong cuộc sống hàng ngày. "Một trợ lý mà … thực sự giúp bạn trong thế giới thực," Hassabis nói thêm.
Ngành công nghiệp AI đang tiến bộ đều đặn hướng tới những gì bạn có thể gọi là mô hình "omni"—những mô hình có khả năng xử lý và tổng hợp các loại phương tiện khác nhau. Chẳng hạn, các phiên bản mới nhất của Gemini từ Google có thể tạo ra không chỉ văn bản mà còn cả âm thanh và hình ảnh. Trong khi đó, mô hình mặc định của ChatGPT từ OpenAI có thể tạo ra hình ảnh ngay lập tức, bao gồm cả nghệ thuật theo phong cách Studio Ghibli đầy thú vị. Amazon cũng không hề thua kém, với kế hoạch ra mắt một mô hình "bất kỳ sang bất kỳ" vào cuối năm nay.
Những mô hình omni này đòi hỏi một lượng dữ liệu huấn luyện khổng lồ—nghĩ đến hình ảnh, video, âm thanh và văn bản. Hassabis ám chỉ rằng dữ liệu video của Veo chủ yếu đến từ YouTube, một kho báu thuộc sở hữu của Google. "Về cơ bản, bằng cách xem các video YouTube — rất nhiều video YouTube — [Veo 2] có thể tìm ra, bạn biết đấy, vật lý của thế giới," ông lưu ý.
Google trước đây đã đề cập với TechCrunch rằng các mô hình của họ "có thể" được huấn luyện trên "một số" nội dung YouTube, phù hợp với các thỏa thuận đã ký với các nhà sáng tạo YouTube. Đáng chú ý là năm ngoái, Google đã mở rộng điều khoản dịch vụ của mình, một phần để tiếp cận thêm dữ liệu nhằm huấn luyện các mô hình AI của mình.
Bài viết liên quan
Google Ra Mắt Chế Độ AI và Veo 3 để Cách Mạng Hóa Tìm Kiếm và Sáng Tạo Video
Google gần đây đã ra mắt Chế Độ AI và Veo 3, hai công nghệ sáng tạo sẵn sàng định hình lại tìm kiếm web và sáng tạo nội dung số. Chế Độ AI mang đến trải nghiệm tìm kiếm được cải tiến bởi AI, vượt qua
Trò chuyện Gemini Nâng cao Khả năng Chỉnh sửa Hình ảnh
Ứng dụng trò chuyện Gemini của Google hiện cho phép người dùng chỉnh sửa hình ảnh do AI tạo ra và hình ảnh được tải lên từ điện thoại hoặc máy tính, công ty thông báo trong một bài đăng blog vào thứ T
Google Ra Mắt Deep Think để Nâng Cao Hiệu Suất AI Gemini
Google đang nâng cấp các mô hình AI Gemini hàng đầu của mình.Tại Google I/O 2025 vào thứ Ba, công ty đã giới thiệu Deep Think, một chế độ suy luận tiên tiến cho mô hình Gemini 2.5 Pro cao cấp. Deep Th
Nhận xét (1)
0/200
RalphSanchez
09:48:18 GMT+07:00 Ngày 01 tháng 8 năm 2025
Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅
0
Trong một tập gần đây của podcast Possible, do đồng sáng lập LinkedIn Reid Hoffman đồng dẫn chương trình, CEO của Google DeepMind Demis Hassabis đã chia sẻ một số tin tức thú vị về kế hoạch của Google. Ông tiết lộ rằng Google đang tìm cách hợp nhất các mô hình AI Gemini với các mô hình tạo video Veo. Sự kết hợp này nhằm nâng cao khả năng nắm bắt thế giới vật lý của Gemini, giúp nó hiểu rõ hơn về động lực thực tế trong cuộc sống.
Hassabis nhấn mạnh rằng ngay từ đầu, Gemini đã được thiết kế để là đa phương thức. "Chúng tôi luôn xây dựng Gemini, mô hình nền tảng của chúng tôi, để là đa phương thức từ đầu," ông giải thích. Động lực đằng sau cách tiếp cận này? Một tầm nhìn về một trợ lý số toàn diện có thể thực sự hỗ trợ trong cuộc sống hàng ngày. "Một trợ lý mà … thực sự giúp bạn trong thế giới thực," Hassabis nói thêm.
Ngành công nghiệp AI đang tiến bộ đều đặn hướng tới những gì bạn có thể gọi là mô hình "omni"—những mô hình có khả năng xử lý và tổng hợp các loại phương tiện khác nhau. Chẳng hạn, các phiên bản mới nhất của Gemini từ Google có thể tạo ra không chỉ văn bản mà còn cả âm thanh và hình ảnh. Trong khi đó, mô hình mặc định của ChatGPT từ OpenAI có thể tạo ra hình ảnh ngay lập tức, bao gồm cả nghệ thuật theo phong cách Studio Ghibli đầy thú vị. Amazon cũng không hề thua kém, với kế hoạch ra mắt một mô hình "bất kỳ sang bất kỳ" vào cuối năm nay.
Những mô hình omni này đòi hỏi một lượng dữ liệu huấn luyện khổng lồ—nghĩ đến hình ảnh, video, âm thanh và văn bản. Hassabis ám chỉ rằng dữ liệu video của Veo chủ yếu đến từ YouTube, một kho báu thuộc sở hữu của Google. "Về cơ bản, bằng cách xem các video YouTube — rất nhiều video YouTube — [Veo 2] có thể tìm ra, bạn biết đấy, vật lý của thế giới," ông lưu ý.
Google trước đây đã đề cập với TechCrunch rằng các mô hình của họ "có thể" được huấn luyện trên "một số" nội dung YouTube, phù hợp với các thỏa thuận đã ký với các nhà sáng tạo YouTube. Đáng chú ý là năm ngoái, Google đã mở rộng điều khoản dịch vụ của mình, một phần để tiếp cận thêm dữ liệu nhằm huấn luyện các mô hình AI của mình.



Wow, merging Gemini with Veo sounds like a game-changer! Can't wait to see how this powers up video creation. But, like, is Google trying to dominate every AI corner now? 😅












