вариант
Дом
Новости
Понимание длинных контекстных окон: ключевые идеи

Понимание длинных контекстных окон: ключевые идеи

10 апреля 2025 г.
153

Вчера мы представили наш последний прорыв в области ИИ-технологий с моделью Gemini 1.5. Эта новая итерация приносит значительные улучшения в скорости и эффективности, но настоящим прорывом является её инновационное окно долгого контекста. Эта функция позволяет модели обрабатывать беспрецедентное количество токенов — фундаментальных единиц, составляющих слова, изображения или видео — одновременно. Чтобы пролить свет на это достижение, мы обратились к команде проекта Google DeepMind за разъяснениями о том, что такое окна долгого контекста и как они могут революционизировать работу разработчиков.

Понимание окон долгого контекста крайне важно, поскольку они позволяют ИИ-моделям сохранять и вспоминать информацию на протяжении всей сессии. Представьте, что вы пытаетесь запомнить имя через несколько минут после того, как его упомянули в разговоре, или спешите записать номер телефона, пока он не вылетел из головы. ИИ-модели сталкиваются с похожими проблемами, часто «забывая» детали после нескольких взаимодействий. Окна долгого контекста решают эту проблему, позволяя модели сохранять больше информации в своей «памяти».

Ранее модель Gemini могла обрабатывать до 32 000 токенов одновременно. Однако с выпуском 1.5 Pro для раннего тестирования мы раздвинули границы до ошеломляющего 1 миллиона токенов — самого большого окна контекста среди всех крупномасштабных базовых моделей на сегодняшний день. Наши исследования пошли ещё дальше, успешно протестировав до 10 миллионов токенов. Чем больше окно контекста, тем более разнообразные и обширные данные — текст, изображения, аудио, код или видео — может обрабатывать модель.

Николай Савинов, научный сотрудник Google DeepMind и один из руководителей проекта по длинному контексту, поделился: «Наша изначальная цель была достичь 128 000 токенов, но я подумал, что стремление к большему будет полезным, поэтому я предложил 1 миллион токенов. И теперь наши исследования превзошли это в 10 раз».

Достижение этого скачка потребовало ряда инноваций в области глубокого обучения. Ранние исследования Пранав Шьяма предоставили ключевые идеи, которые направили наши исследования. Денис Тепляшин, инженер Google DeepMind, объяснил: «Каждый прорыв вёл к следующему, открывая новые возможности. Когда эти инновации объединились, мы были поражены результатами, масштабируясь с 128 000 токенов до 512 000, затем до 1 миллиона, и недавно — до 10 миллионов токенов в наших внутренних исследованиях».

Расширенная мощность 1.5 Pro открывает захватывающие новые приложения. Например, вместо суммирования документа длиной в десятки страниц, теперь он может обрабатывать документы длиной в тысячи страниц. Если предыдущая модель могла анализировать тысячи строк кода, то 1.5 Pro теперь может обрабатывать десятки тысяч строк одновременно.

Мачел Рид, ещё один научный сотрудник Google DeepMind, поделился интересными результатами тестов: «В одном тесте мы загрузили в модель всю кодовую базу, и она сгенерировала для неё полную документацию, что было невероятно. В другом тесте она точно ответила на вопросы о фильме 1924 года Шерлок-младший после того, как «посмотрела» весь 45-минутный фильм».

1.5 Pro также превосходно справляется с рассуждениями по данным в рамках запроса. Мачел привёл пример с редким языком Каламанг, на котором говорят менее 200 человек в мире. «Модель сама по себе не может переводить на Каламанг, но с окном долгого контекста мы смогли включить полное руководство по грамматике и примеры предложений. Модель затем научилась переводить с английского на Каламанг на уровне, сравнимом с человеком, изучающим тот же материал».

Gemini 1.5 Pro поставляется со стандартным окном контекста в 128 тысяч токенов, но избранная группа разработчиков и корпоративных клиентов может получить доступ к окну контекста в 1 миллион токенов через AI Studio и Vertex AI в закрытом предварительном просмотре. Управление таким большим окном контекста требует значительных вычислительных ресурсов, и мы активно работаем над оптимизацией для сокращения задержек по мере масштабирования.

В будущем команда сосредоточена на том, чтобы сделать модель быстрее и эффективнее, приоритет отдавая безопасности. Они также исследуют способы дальнейшего расширения окна долгого контекста, улучшения базовых архитектур и использования новых аппаратных улучшений. Николай отметил: «10 миллионов токенов одновременно приближаются к термическому пределу наших тензорных процессоров. Мы пока не знаем, где лежит предел, и модель, возможно, способна на большее по мере развития аппаратного обеспечения».

Команда с нетерпением ждёт, какие инновационные приложения создадут разработчики и более широкое сообщество с этими новыми возможностями. Мачел отметил: «Когда я впервые увидел, что у нас есть миллион токенов в контексте, я задался вопросом: «Зачем это вообще нужно?» Но теперь я верю, что воображение людей расширится, что приведёт к более креативному использованию этих новых возможностей».

[ttpp][yyxx]

Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI представит премиум-уровень и рекламу Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
Комментарии (28)
KeithSmith
KeithSmith 17 августа 2025 г., 10:00:59 GMT+03:00

Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.

RobertSanchez
RobertSanchez 31 июля 2025 г., 4:41:19 GMT+03:00

Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀

DavidGonzález
DavidGonzález 28 июля 2025 г., 4:19:30 GMT+03:00

The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔

RobertRoberts
RobertRoberts 17 апреля 2025 г., 2:56:25 GMT+03:00

Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪

MatthewGonzalez
MatthewGonzalez 16 апреля 2025 г., 18:41:59 GMT+03:00

A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀

NicholasRoberts
NicholasRoberts 15 апреля 2025 г., 1:59:46 GMT+03:00

Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀

Вернуться к вершине
OR