Понимание длинных контекстных окон: ключевые идеи
Вчера мы представили наш последний прорыв в области ИИ-технологий с моделью Gemini 1.5. Эта новая итерация приносит значительные улучшения в скорости и эффективности, но настоящим прорывом является её инновационное окно долгого контекста. Эта функция позволяет модели обрабатывать беспрецедентное количество токенов — фундаментальных единиц, составляющих слова, изображения или видео — одновременно. Чтобы пролить свет на это достижение, мы обратились к команде проекта Google DeepMind за разъяснениями о том, что такое окна долгого контекста и как они могут революционизировать работу разработчиков.
Понимание окон долгого контекста крайне важно, поскольку они позволяют ИИ-моделям сохранять и вспоминать информацию на протяжении всей сессии. Представьте, что вы пытаетесь запомнить имя через несколько минут после того, как его упомянули в разговоре, или спешите записать номер телефона, пока он не вылетел из головы. ИИ-модели сталкиваются с похожими проблемами, часто «забывая» детали после нескольких взаимодействий. Окна долгого контекста решают эту проблему, позволяя модели сохранять больше информации в своей «памяти».
Ранее модель Gemini могла обрабатывать до 32 000 токенов одновременно. Однако с выпуском 1.5 Pro для раннего тестирования мы раздвинули границы до ошеломляющего 1 миллиона токенов — самого большого окна контекста среди всех крупномасштабных базовых моделей на сегодняшний день. Наши исследования пошли ещё дальше, успешно протестировав до 10 миллионов токенов. Чем больше окно контекста, тем более разнообразные и обширные данные — текст, изображения, аудио, код или видео — может обрабатывать модель.
Николай Савинов, научный сотрудник Google DeepMind и один из руководителей проекта по длинному контексту, поделился: «Наша изначальная цель была достичь 128 000 токенов, но я подумал, что стремление к большему будет полезным, поэтому я предложил 1 миллион токенов. И теперь наши исследования превзошли это в 10 раз».
Достижение этого скачка потребовало ряда инноваций в области глубокого обучения. Ранние исследования Пранав Шьяма предоставили ключевые идеи, которые направили наши исследования. Денис Тепляшин, инженер Google DeepMind, объяснил: «Каждый прорыв вёл к следующему, открывая новые возможности. Когда эти инновации объединились, мы были поражены результатами, масштабируясь с 128 000 токенов до 512 000, затем до 1 миллиона, и недавно — до 10 миллионов токенов в наших внутренних исследованиях».
Расширенная мощность 1.5 Pro открывает захватывающие новые приложения. Например, вместо суммирования документа длиной в десятки страниц, теперь он может обрабатывать документы длиной в тысячи страниц. Если предыдущая модель могла анализировать тысячи строк кода, то 1.5 Pro теперь может обрабатывать десятки тысяч строк одновременно.
Мачел Рид, ещё один научный сотрудник Google DeepMind, поделился интересными результатами тестов: «В одном тесте мы загрузили в модель всю кодовую базу, и она сгенерировала для неё полную документацию, что было невероятно. В другом тесте она точно ответила на вопросы о фильме 1924 года Шерлок-младший после того, как «посмотрела» весь 45-минутный фильм».
1.5 Pro также превосходно справляется с рассуждениями по данным в рамках запроса. Мачел привёл пример с редким языком Каламанг, на котором говорят менее 200 человек в мире. «Модель сама по себе не может переводить на Каламанг, но с окном долгого контекста мы смогли включить полное руководство по грамматике и примеры предложений. Модель затем научилась переводить с английского на Каламанг на уровне, сравнимом с человеком, изучающим тот же материал».
Gemini 1.5 Pro поставляется со стандартным окном контекста в 128 тысяч токенов, но избранная группа разработчиков и корпоративных клиентов может получить доступ к окну контекста в 1 миллион токенов через AI Studio и Vertex AI в закрытом предварительном просмотре. Управление таким большим окном контекста требует значительных вычислительных ресурсов, и мы активно работаем над оптимизацией для сокращения задержек по мере масштабирования.
В будущем команда сосредоточена на том, чтобы сделать модель быстрее и эффективнее, приоритет отдавая безопасности. Они также исследуют способы дальнейшего расширения окна долгого контекста, улучшения базовых архитектур и использования новых аппаратных улучшений. Николай отметил: «10 миллионов токенов одновременно приближаются к термическому пределу наших тензорных процессоров. Мы пока не знаем, где лежит предел, и модель, возможно, способна на большее по мере развития аппаратного обеспечения».
Команда с нетерпением ждёт, какие инновационные приложения создадут разработчики и более широкое сообщество с этими новыми возможностями. Мачел отметил: «Когда я впервые увидел, что у нас есть миллион токенов в контексте, я задался вопросом: «Зачем это вообще нужно?» Но теперь я верю, что воображение людей расширится, что приведёт к более креативному использованию этих новых возможностей».
[ttpp][yyxx]

Связанная статья
Kakao Mobility представляет план развития автономного вождения 4-го уровня с использованием физического ИИ
Компания Kakao Mobility планирует самостоятельно разрабатывать технологии автономного вождения 4-го уровня в рамках своей стратегии «физического ИИ».На конференции World IT Show 2026, прошедшей в сеу
Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
Рекомендации по связанным специальным темам
Комментарии (30)
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔
Вчера мы представили наш последний прорыв в области ИИ-технологий с моделью Gemini 1.5. Эта новая итерация приносит значительные улучшения в скорости и эффективности, но настоящим прорывом является её инновационное окно долгого контекста. Эта функция позволяет модели обрабатывать беспрецедентное количество токенов — фундаментальных единиц, составляющих слова, изображения или видео — одновременно. Чтобы пролить свет на это достижение, мы обратились к команде проекта Google DeepMind за разъяснениями о том, что такое окна долгого контекста и как они могут революционизировать работу разработчиков.
Понимание окон долгого контекста крайне важно, поскольку они позволяют ИИ-моделям сохранять и вспоминать информацию на протяжении всей сессии. Представьте, что вы пытаетесь запомнить имя через несколько минут после того, как его упомянули в разговоре, или спешите записать номер телефона, пока он не вылетел из головы. ИИ-модели сталкиваются с похожими проблемами, часто «забывая» детали после нескольких взаимодействий. Окна долгого контекста решают эту проблему, позволяя модели сохранять больше информации в своей «памяти».
Ранее модель Gemini могла обрабатывать до 32 000 токенов одновременно. Однако с выпуском 1.5 Pro для раннего тестирования мы раздвинули границы до ошеломляющего 1 миллиона токенов — самого большого окна контекста среди всех крупномасштабных базовых моделей на сегодняшний день. Наши исследования пошли ещё дальше, успешно протестировав до 10 миллионов токенов. Чем больше окно контекста, тем более разнообразные и обширные данные — текст, изображения, аудио, код или видео — может обрабатывать модель.
Николай Савинов, научный сотрудник Google DeepMind и один из руководителей проекта по длинному контексту, поделился: «Наша изначальная цель была достичь 128 000 токенов, но я подумал, что стремление к большему будет полезным, поэтому я предложил 1 миллион токенов. И теперь наши исследования превзошли это в 10 раз».
Достижение этого скачка потребовало ряда инноваций в области глубокого обучения. Ранние исследования Пранав Шьяма предоставили ключевые идеи, которые направили наши исследования. Денис Тепляшин, инженер Google DeepMind, объяснил: «Каждый прорыв вёл к следующему, открывая новые возможности. Когда эти инновации объединились, мы были поражены результатами, масштабируясь с 128 000 токенов до 512 000, затем до 1 миллиона, и недавно — до 10 миллионов токенов в наших внутренних исследованиях».
Расширенная мощность 1.5 Pro открывает захватывающие новые приложения. Например, вместо суммирования документа длиной в десятки страниц, теперь он может обрабатывать документы длиной в тысячи страниц. Если предыдущая модель могла анализировать тысячи строк кода, то 1.5 Pro теперь может обрабатывать десятки тысяч строк одновременно.
Мачел Рид, ещё один научный сотрудник Google DeepMind, поделился интересными результатами тестов: «В одном тесте мы загрузили в модель всю кодовую базу, и она сгенерировала для неё полную документацию, что было невероятно. В другом тесте она точно ответила на вопросы о фильме 1924 года Шерлок-младший после того, как «посмотрела» весь 45-минутный фильм».
1.5 Pro также превосходно справляется с рассуждениями по данным в рамках запроса. Мачел привёл пример с редким языком Каламанг, на котором говорят менее 200 человек в мире. «Модель сама по себе не может переводить на Каламанг, но с окном долгого контекста мы смогли включить полное руководство по грамматике и примеры предложений. Модель затем научилась переводить с английского на Каламанг на уровне, сравнимом с человеком, изучающим тот же материал».
Gemini 1.5 Pro поставляется со стандартным окном контекста в 128 тысяч токенов, но избранная группа разработчиков и корпоративных клиентов может получить доступ к окну контекста в 1 миллион токенов через AI Studio и Vertex AI в закрытом предварительном просмотре. Управление таким большим окном контекста требует значительных вычислительных ресурсов, и мы активно работаем над оптимизацией для сокращения задержек по мере масштабирования.
В будущем команда сосредоточена на том, чтобы сделать модель быстрее и эффективнее, приоритет отдавая безопасности. Они также исследуют способы дальнейшего расширения окна долгого контекста, улучшения базовых архитектур и использования новых аппаратных улучшений. Николай отметил: «10 миллионов токенов одновременно приближаются к термическому пределу наших тензорных процессоров. Мы пока не знаем, где лежит предел, и модель, возможно, способна на большее по мере развития аппаратного обеспечения».
Команда с нетерпением ждёт, какие инновационные приложения создадут разработчики и более широкое сообщество с этими новыми возможностями. Мачел отметил: «Когда я впервые увидел, что у нас есть миллион токенов в контексте, я задался вопросом: «Зачем это вообще нужно?» Но теперь я верю, что воображение людей расширится, что приведёт к более креативному использованию этих новых возможностей».
[ttpp][yyxx]

Барри Диллер: доверие к Сэму Альтману теряет значение по мере приближения эры общей искусственной интеллигенции
Миллиардер и медиа-магнат Барри Диллер не считает генерального директора OpenAI Сэма Альтмана недостойным доверия, несмотря на недавние сообщения, свидетельствующие об обратном. Выступая на этой недел
YouTube расширяет сферу применения технологии искусственного интеллекта для выявления дипфейков, распространив её на политиков, государственных чиновников и журналистов
Во вторник YouTube объявил о расширении доступа к своей технологии обнаружения дипфейков для определенной группы государственных чиновников, политических кандидатов и журналистов. Этот инструмент выяв
すごい!長文コンテキストの機能が実用化されたら、研究やビジネス文書の分析が一気に楽になりそう🤩。でもこれ、倫理面でどうなんだろう?膨大なデータを読み込むということは、プライバシー問題も発生しそうで少し不安…。他社は今後どう追従するのか気になるなぁ。開発スピード速すぎて置いていかれそう!
Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.
Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀
The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔





Дом






