Понимание длинных контекстных окон: ключевые идеи

Дом

Новости

10 апреля 2025 г.

PatrickGonzález

153

# ai

Вчера мы представили наш последний прорыв в области ИИ-технологий с моделью Gemini 1.5. Эта новая итерация приносит значительные улучшения в скорости и эффективности, но настоящим прорывом является её инновационное окно долгого контекста. Эта функция позволяет модели обрабатывать беспрецедентное количество токенов — фундаментальных единиц, составляющих слова, изображения или видео — одновременно. Чтобы пролить свет на это достижение, мы обратились к команде проекта Google DeepMind за разъяснениями о том, что такое окна долгого контекста и как они могут революционизировать работу разработчиков.

Понимание окон долгого контекста крайне важно, поскольку они позволяют ИИ-моделям сохранять и вспоминать информацию на протяжении всей сессии. Представьте, что вы пытаетесь запомнить имя через несколько минут после того, как его упомянули в разговоре, или спешите записать номер телефона, пока он не вылетел из головы. ИИ-модели сталкиваются с похожими проблемами, часто «забывая» детали после нескольких взаимодействий. Окна долгого контекста решают эту проблему, позволяя модели сохранять больше информации в своей «памяти».

Ранее модель Gemini могла обрабатывать до 32 000 токенов одновременно. Однако с выпуском 1.5 Pro для раннего тестирования мы раздвинули границы до ошеломляющего 1 миллиона токенов — самого большого окна контекста среди всех крупномасштабных базовых моделей на сегодняшний день. Наши исследования пошли ещё дальше, успешно протестировав до 10 миллионов токенов. Чем больше окно контекста, тем более разнообразные и обширные данные — текст, изображения, аудио, код или видео — может обрабатывать модель.

Николай Савинов, научный сотрудник Google DeepMind и один из руководителей проекта по длинному контексту, поделился: «Наша изначальная цель была достичь 128 000 токенов, но я подумал, что стремление к большему будет полезным, поэтому я предложил 1 миллион токенов. И теперь наши исследования превзошли это в 10 раз».

Достижение этого скачка потребовало ряда инноваций в области глубокого обучения. Ранние исследования Пранав Шьяма предоставили ключевые идеи, которые направили наши исследования. Денис Тепляшин, инженер Google DeepMind, объяснил: «Каждый прорыв вёл к следующему, открывая новые возможности. Когда эти инновации объединились, мы были поражены результатами, масштабируясь с 128 000 токенов до 512 000, затем до 1 миллиона, и недавно — до 10 миллионов токенов в наших внутренних исследованиях».

Расширенная мощность 1.5 Pro открывает захватывающие новые приложения. Например, вместо суммирования документа длиной в десятки страниц, теперь он может обрабатывать документы длиной в тысячи страниц. Если предыдущая модель могла анализировать тысячи строк кода, то 1.5 Pro теперь может обрабатывать десятки тысяч строк одновременно.

Мачел Рид, ещё один научный сотрудник Google DeepMind, поделился интересными результатами тестов: «В одном тесте мы загрузили в модель всю кодовую базу, и она сгенерировала для неё полную документацию, что было невероятно. В другом тесте она точно ответила на вопросы о фильме 1924 года Шерлок-младший после того, как «посмотрела» весь 45-минутный фильм».

1.5 Pro также превосходно справляется с рассуждениями по данным в рамках запроса. Мачел привёл пример с редким языком Каламанг, на котором говорят менее 200 человек в мире. «Модель сама по себе не может переводить на Каламанг, но с окном долгого контекста мы смогли включить полное руководство по грамматике и примеры предложений. Модель затем научилась переводить с английского на Каламанг на уровне, сравнимом с человеком, изучающим тот же материал».

Gemini 1.5 Pro поставляется со стандартным окном контекста в 128 тысяч токенов, но избранная группа разработчиков и корпоративных клиентов может получить доступ к окну контекста в 1 миллион токенов через AI Studio и Vertex AI в закрытом предварительном просмотре. Управление таким большим окном контекста требует значительных вычислительных ресурсов, и мы активно работаем над оптимизацией для сокращения задержек по мере масштабирования.

В будущем команда сосредоточена на том, чтобы сделать модель быстрее и эффективнее, приоритет отдавая безопасности. Они также исследуют способы дальнейшего расширения окна долгого контекста, улучшения базовых архитектур и использования новых аппаратных улучшений. Николай отметил: «10 миллионов токенов одновременно приближаются к термическому пределу наших тензорных процессоров. Мы пока не знаем, где лежит предел, и модель, возможно, способна на большее по мере развития аппаратного обеспечения».

Команда с нетерпением ждёт, какие инновационные приложения создадут разработчики и более широкое сообщество с этими новыми возможностями. Мачел отметил: «Когда я впервые увидел, что у нас есть миллион токенов в контексте, я задался вопросом: «Зачем это вообще нужно?» Но теперь я верю, что воображение людей расширится, что приведёт к более креативному использованию этих новых возможностей».

[ttpp][yyxx]

Связанная статья

"Dot AI Companion объявляет о закрытии и прекращает предоставление персонализированных услуг" Dot, приложение-компаньон с искусственным интеллектом, предназначенное для работы в качестве личного друга и доверенного лица, прекращает свою работу, как сообщили в пятницу его разработчики. New Comp

Anthropic разрешила судебное дело о пиратстве книг, созданных искусственным интеллектом Компания Anthropic достигла разрешения значительного спора с американскими авторами по поводу авторских прав, согласившись на предложенное урегулирование коллективного иска, которое позволит избежать

Figma выпустила инструмент для создания приложений на основе искусственного интеллекта для всех пользователей Figma Make, инновационная платформа для разработки приложений с подсказками, представленная ранее в этом году, официально вышла из бета-версии и стала доступна для всех пользователей. Этот революционн

Комментарии (28)

0/200

Представлять на рассмотрение

KeithSmith

17 августа 2025 г., 10:00:59 GMT+03:00

Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.

RobertSanchez

31 июля 2025 г., 4:41:19 GMT+03:00

Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀

DavidGonzález

28 июля 2025 г., 4:19:30 GMT+03:00

The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔

RobertRoberts

17 апреля 2025 г., 2:56:25 GMT+03:00

Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪

MatthewGonzalez

16 апреля 2025 г., 18:41:59 GMT+03:00

A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀

NicholasRoberts

15 апреля 2025 г., 1:59:46 GMT+03:00

Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀

Лучшие новости

Топовые генераторы видео на AI в 2025: Pika Labs по сравнению с альтернативами Gemini 2.5 Pro в настоящее время неограничен и дешевле, чем Claude, GPT-4O Озвучка с помощью ИИ: Ультимативное руководство по созданию реалистичных голосов ИИ ИИ Cambium превращает отходы в пиломатериалы AI Builder и Power Automate Революционизируют Суммирование Документов OpenAI улучшает AI Voice Assistant для лучших чатов Как гарантировать, что ваши данные заслуживают доверия для интеграции искусственного интеллекта NoteBooklm расширяется во всем мире, добавляет слайды и расширенную проверку фактов Настройки для дата -центров США могут разблокировать 76 ГВт новой мощности. Google использует ИИ для приостановки более 39 миллионов счетов объявлений о подозрении на мошенничество

Более

Показан