Hiểu các cửa sổ bối cảnh dài: Những hiểu biết chính
Hôm qua, chúng tôi đã tiết lộ bước đột phá mới nhất của chúng tôi trong công nghệ AI với mô hình Gemini 1.5. Việc lặp lại mới này mang lại những cải tiến đáng kể về tốc độ và hiệu quả, nhưng bộ thay đổi trò chơi thực sự là cửa sổ bối cảnh dài sáng tạo của nó. Tính năng này cho phép mô hình xử lý một số lượng mã thông báo chưa từng có - các đơn vị cơ bản tạo nên từ, hình ảnh hoặc video - tất cả cùng một lúc. Để làm sáng tỏ sự tiến bộ này, chúng tôi đã chuyển sang nhóm dự án Google DeepMind để biết những hiểu biết về các cửa sổ bối cảnh dài là gì và cách họ có thể cách mạng hóa cách các nhà phát triển làm việc.
Hiểu các cửa sổ bối cảnh dài là rất quan trọng vì chúng cho phép các mô hình AI duy trì và nhớ lại thông tin trong suốt phiên. Hãy tưởng tượng cố gắng nhớ một cái tên chỉ vài phút sau khi nó được đề cập trong một cuộc trò chuyện, hoặc vội vã viết một số điện thoại trước khi nó trượt tâm trí của bạn. Các mô hình AI phải đối mặt với những thách thức tương tự, thường là "quên" các chi tiết sau một vài tương tác. Bối cảnh bối cảnh dài giải quyết vấn đề này bằng cách cho phép mô hình giữ thêm thông tin trong "bộ nhớ" của nó.
Trước đây, mô hình Gemini có thể xử lý đồng thời tới 32.000 mã thông báo. Tuy nhiên, với việc phát hành 1,5 Pro cho thử nghiệm sớm, chúng tôi đã đẩy các ranh giới lên tới 1 triệu mã thông báo đáng kinh ngạc-cửa sổ bối cảnh lớn nhất của bất kỳ mô hình nền tảng quy mô lớn nào cho đến nay. Nghiên cứu của chúng tôi thậm chí đã vượt qua điều này, thử nghiệm thành công tới 10 triệu mã thông báo. Cửa sổ bối cảnh càng lớn, dữ liệu càng đa dạng và mở rộng dữ liệu - văn bản, hình ảnh, âm thanh, mã hoặc video - mô hình có thể xử lý.
Nikolay Savinov, một nhà khoa học nghiên cứu của Google DeepMind và một trong những người dẫn đầu trong dự án bối cảnh dài, chia sẻ, "Mục tiêu ban đầu của chúng tôi là đạt 128.000 mã thông báo, nhưng tôi nghĩ rằng nhắm mục tiêu cao hơn sẽ có lợi, vì vậy tôi đã đề xuất 1 triệu mã thông báo. Và bây giờ, nghiên cứu của chúng tôi đã vượt quá 10 lần."
Đạt được bước nhảy vọt này đòi hỏi một loạt các đổi mới học tập sâu. Những khám phá ban đầu của Pranav Shyam đã cung cấp những hiểu biết quan trọng hướng dẫn nghiên cứu của chúng tôi. Denis Teplyashin, một kỹ sư của Google DeepMind, giải thích: "Mỗi bước đột phá dẫn đến một bước khác, mở ra những khả năng mới. Khi những đổi mới này kết hợp, chúng tôi đã rất ngạc nhiên về kết quả, thu nhỏ từ 128.000 token lên 512.000, sau đó 1 triệu, và gần đây, 10 triệu tokens trong nghiên cứu nội bộ của chúng tôi."
Công suất mở rộng 1,5 Pro mở ra các ứng dụng mới thú vị. Chẳng hạn, thay vì tóm tắt một tài liệu dài hàng chục trang, giờ đây nó có thể xử lý các tài liệu dài hàng ngàn trang. Trong trường hợp mô hình trước đó có thể phân tích hàng ngàn dòng mã, 1.5 Pro hiện có thể xử lý hàng chục ngàn dòng cùng một lúc.
Machel Reid, một nhà khoa học nghiên cứu khác của Google DeepMind, đã chia sẻ một số kết quả thử nghiệm hấp dẫn: "Trong một thử nghiệm, chúng tôi đã đưa toàn bộ mã hóa vào mô hình và nó đã tạo ra tài liệu toàn diện cho nó, thật không thể tin được.
1.5 Pro cũng vượt trội về lý luận trên dữ liệu trong một lời nhắc. Machel nhấn mạnh một ví dụ liên quan đến ngôn ngữ hiếm hoi Kalamang, được nói bởi ít hơn 200 người trên toàn thế giới. "Mô hình không thể tự chuyển thành Kalamang, nhưng với cửa sổ bối cảnh dài, chúng ta có thể bao gồm toàn bộ các câu hướng dẫn ngữ pháp và các câu ví dụ. Mô hình sau đó đã học cách dịch từ tiếng Anh sang Kalamang ở cấp độ tương đương với ai đó học từ cùng một tài liệu."
Gemini 1.5 Pro đi kèm với cửa sổ bối cảnh 128k tiêu chuẩn, nhưng một nhóm các nhà phát triển và khách hàng doanh nghiệp được chọn có thể truy cập vào cửa sổ bối cảnh 1 triệu mã thông qua AI Studio và Vertex AI trong bản xem trước riêng tư. Quản lý một cửa sổ bối cảnh lớn như vậy rất chuyên sâu về mặt tính toán và chúng tôi đang tích cực làm việc để tối ưu hóa để giảm độ trễ khi chúng tôi mở rộng quy mô.
Nhìn về phía trước, nhóm nghiên cứu tập trung vào việc làm cho mô hình nhanh hơn và hiệu quả hơn, với sự an toàn là ưu tiên. Họ cũng đang khám phá các cách để mở rộng thêm cửa sổ bối cảnh dài, tăng cường các kiến trúc cơ bản và tận dụng các cải tiến phần cứng mới. Nikolay lưu ý, "10 triệu mã thông báo cùng một lúc đang gần giới hạn nhiệt của các đơn vị xử lý tenxơ của chúng tôi. Chúng tôi không chắc giới hạn nằm ở đâu và mô hình có thể có khả năng thậm chí nhiều hơn khi phần cứng tiếp tục phát triển."
Nhóm nghiên cứu rất háo hức để thấy các ứng dụng sáng tạo mà các nhà phát triển và cộng đồng rộng lớn hơn sẽ tạo ra với các khả năng mới này. Machel phản ánh, "Khi tôi lần đầu tiên nhìn thấy chúng tôi có một triệu mã thông báo trong bối cảnh, tôi tự hỏi, 'Bạn thậm chí còn sử dụng cái này để làm gì?' Nhưng bây giờ, tôi tin rằng trí tưởng tượng của mọi người sẽ mở rộng, dẫn đến việc sử dụng sáng tạo hơn các khả năng mới này. "
[TTPP] [YYXX]

Bài viết liên quan
Google’s AI Futures Fund may have to tread carefully
Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging
Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’
Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
Nhận xét (25)
0/200
NicholasRoberts
22:59:46 GMT Ngày 14 tháng 4 năm 2025
Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀
0
HenryJackson
17:36:58 GMT Ngày 13 tháng 4 năm 2025
Gemini 1.5の長いコンテキストウィンドウは本当に革新的!でも、時々一度にたくさんのことをしようとして遅くなることがあるよね。それでも、大量のデータを処理するには最強だと思う。試してみる価値あり!🚀
0
ScottJackson
16:31:28 GMT Ngày 12 tháng 4 năm 2025
Gemini 1.5의 긴 컨텍스트 윈도우는 정말 혁신적이에요! 하지만 때때로 너무 많은 일을 한꺼번에 하려다 느려지는 것 같아요. 그래도 대량의 데이터를 처리하는 데는 최고예요. 한번 써보세요! 🚀
0
MatthewGonzalez
15:41:59 GMT Ngày 16 tháng 4 năm 2025
A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀
0
StevenGreen
14:12:10 GMT Ngày 10 tháng 4 năm 2025
La ventana de contexto largo de Gemini 1.5 es un cambio de juego, sin duda. Pero a veces parece que intenta hacer demasiado a la vez, lo que puede ralentizar las cosas. Aún así, para procesar grandes cantidades de datos, es insuperable. ¡Vale la pena probarlo! 🚀
0
DouglasMartinez
16:35:33 GMT Ngày 14 tháng 4 năm 2025
Gemini 1.5's long context window is a game-changer! It's amazing how much more it can process compared to older models. Just wish it was a bit faster. Still, a big step forward! 💪
0
Hôm qua, chúng tôi đã tiết lộ bước đột phá mới nhất của chúng tôi trong công nghệ AI với mô hình Gemini 1.5. Việc lặp lại mới này mang lại những cải tiến đáng kể về tốc độ và hiệu quả, nhưng bộ thay đổi trò chơi thực sự là cửa sổ bối cảnh dài sáng tạo của nó. Tính năng này cho phép mô hình xử lý một số lượng mã thông báo chưa từng có - các đơn vị cơ bản tạo nên từ, hình ảnh hoặc video - tất cả cùng một lúc. Để làm sáng tỏ sự tiến bộ này, chúng tôi đã chuyển sang nhóm dự án Google DeepMind để biết những hiểu biết về các cửa sổ bối cảnh dài là gì và cách họ có thể cách mạng hóa cách các nhà phát triển làm việc.
Hiểu các cửa sổ bối cảnh dài là rất quan trọng vì chúng cho phép các mô hình AI duy trì và nhớ lại thông tin trong suốt phiên. Hãy tưởng tượng cố gắng nhớ một cái tên chỉ vài phút sau khi nó được đề cập trong một cuộc trò chuyện, hoặc vội vã viết một số điện thoại trước khi nó trượt tâm trí của bạn. Các mô hình AI phải đối mặt với những thách thức tương tự, thường là "quên" các chi tiết sau một vài tương tác. Bối cảnh bối cảnh dài giải quyết vấn đề này bằng cách cho phép mô hình giữ thêm thông tin trong "bộ nhớ" của nó.
Trước đây, mô hình Gemini có thể xử lý đồng thời tới 32.000 mã thông báo. Tuy nhiên, với việc phát hành 1,5 Pro cho thử nghiệm sớm, chúng tôi đã đẩy các ranh giới lên tới 1 triệu mã thông báo đáng kinh ngạc-cửa sổ bối cảnh lớn nhất của bất kỳ mô hình nền tảng quy mô lớn nào cho đến nay. Nghiên cứu của chúng tôi thậm chí đã vượt qua điều này, thử nghiệm thành công tới 10 triệu mã thông báo. Cửa sổ bối cảnh càng lớn, dữ liệu càng đa dạng và mở rộng dữ liệu - văn bản, hình ảnh, âm thanh, mã hoặc video - mô hình có thể xử lý.
Nikolay Savinov, một nhà khoa học nghiên cứu của Google DeepMind và một trong những người dẫn đầu trong dự án bối cảnh dài, chia sẻ, "Mục tiêu ban đầu của chúng tôi là đạt 128.000 mã thông báo, nhưng tôi nghĩ rằng nhắm mục tiêu cao hơn sẽ có lợi, vì vậy tôi đã đề xuất 1 triệu mã thông báo. Và bây giờ, nghiên cứu của chúng tôi đã vượt quá 10 lần."
Đạt được bước nhảy vọt này đòi hỏi một loạt các đổi mới học tập sâu. Những khám phá ban đầu của Pranav Shyam đã cung cấp những hiểu biết quan trọng hướng dẫn nghiên cứu của chúng tôi. Denis Teplyashin, một kỹ sư của Google DeepMind, giải thích: "Mỗi bước đột phá dẫn đến một bước khác, mở ra những khả năng mới. Khi những đổi mới này kết hợp, chúng tôi đã rất ngạc nhiên về kết quả, thu nhỏ từ 128.000 token lên 512.000, sau đó 1 triệu, và gần đây, 10 triệu tokens trong nghiên cứu nội bộ của chúng tôi."
Công suất mở rộng 1,5 Pro mở ra các ứng dụng mới thú vị. Chẳng hạn, thay vì tóm tắt một tài liệu dài hàng chục trang, giờ đây nó có thể xử lý các tài liệu dài hàng ngàn trang. Trong trường hợp mô hình trước đó có thể phân tích hàng ngàn dòng mã, 1.5 Pro hiện có thể xử lý hàng chục ngàn dòng cùng một lúc.
Machel Reid, một nhà khoa học nghiên cứu khác của Google DeepMind, đã chia sẻ một số kết quả thử nghiệm hấp dẫn: "Trong một thử nghiệm, chúng tôi đã đưa toàn bộ mã hóa vào mô hình và nó đã tạo ra tài liệu toàn diện cho nó, thật không thể tin được.
1.5 Pro cũng vượt trội về lý luận trên dữ liệu trong một lời nhắc. Machel nhấn mạnh một ví dụ liên quan đến ngôn ngữ hiếm hoi Kalamang, được nói bởi ít hơn 200 người trên toàn thế giới. "Mô hình không thể tự chuyển thành Kalamang, nhưng với cửa sổ bối cảnh dài, chúng ta có thể bao gồm toàn bộ các câu hướng dẫn ngữ pháp và các câu ví dụ. Mô hình sau đó đã học cách dịch từ tiếng Anh sang Kalamang ở cấp độ tương đương với ai đó học từ cùng một tài liệu."
Gemini 1.5 Pro đi kèm với cửa sổ bối cảnh 128k tiêu chuẩn, nhưng một nhóm các nhà phát triển và khách hàng doanh nghiệp được chọn có thể truy cập vào cửa sổ bối cảnh 1 triệu mã thông qua AI Studio và Vertex AI trong bản xem trước riêng tư. Quản lý một cửa sổ bối cảnh lớn như vậy rất chuyên sâu về mặt tính toán và chúng tôi đang tích cực làm việc để tối ưu hóa để giảm độ trễ khi chúng tôi mở rộng quy mô.
Nhìn về phía trước, nhóm nghiên cứu tập trung vào việc làm cho mô hình nhanh hơn và hiệu quả hơn, với sự an toàn là ưu tiên. Họ cũng đang khám phá các cách để mở rộng thêm cửa sổ bối cảnh dài, tăng cường các kiến trúc cơ bản và tận dụng các cải tiến phần cứng mới. Nikolay lưu ý, "10 triệu mã thông báo cùng một lúc đang gần giới hạn nhiệt của các đơn vị xử lý tenxơ của chúng tôi. Chúng tôi không chắc giới hạn nằm ở đâu và mô hình có thể có khả năng thậm chí nhiều hơn khi phần cứng tiếp tục phát triển."
Nhóm nghiên cứu rất háo hức để thấy các ứng dụng sáng tạo mà các nhà phát triển và cộng đồng rộng lớn hơn sẽ tạo ra với các khả năng mới này. Machel phản ánh, "Khi tôi lần đầu tiên nhìn thấy chúng tôi có một triệu mã thông báo trong bối cảnh, tôi tự hỏi, 'Bạn thậm chí còn sử dụng cái này để làm gì?' Nhưng bây giờ, tôi tin rằng trí tưởng tượng của mọi người sẽ mở rộng, dẫn đến việc sử dụng sáng tạo hơn các khả năng mới này. "
[TTPP] [YYXX]



Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀




Gemini 1.5の長いコンテキストウィンドウは本当に革新的!でも、時々一度にたくさんのことをしようとして遅くなることがあるよね。それでも、大量のデータを処理するには最強だと思う。試してみる価値あり!🚀




Gemini 1.5의 긴 컨텍스트 윈도우는 정말 혁신적이에요! 하지만 때때로 너무 많은 일을 한꺼번에 하려다 느려지는 것 같아요. 그래도 대량의 데이터를 처리하는 데는 최고예요. 한번 써보세요! 🚀




A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀




La ventana de contexto largo de Gemini 1.5 es un cambio de juego, sin duda. Pero a veces parece que intenta hacer demasiado a la vez, lo que puede ralentizar las cosas. Aún así, para procesar grandes cantidades de datos, es insuperable. ¡Vale la pena probarlo! 🚀




Gemini 1.5's long context window is a game-changer! It's amazing how much more it can process compared to older models. Just wish it was a bit faster. Still, a big step forward! 💪












