Близнецы раскрывают улучшенную модель, расширенный контекст, агенты ИИ
В декабре мы представили нашу первую мультимодальную модель Gemini 1.0, доступную в трех размерах: Ultra, Pro и Nano. Спустя несколько месяцев мы выпустили 1.5 Pro с улучшенной производительностью и прорывным окном контекста в 1 миллион токенов.
Разработчики и корпоративные клиенты используют 1.5 Pro впечатляющими способами, ценя его большое окно контекста, мощные мультимодальные рассуждения и общую выдающуюся производительность.
Отзывы пользователей показали потребность в моделях с меньшей задержкой и стоимостью, что побудило нас продолжать расширять границы. Поэтому мы рады представить сегодня Gemini 1.5 Flash. Эта модель легче, чем 1.5 Pro, разработана для скорости и эффективности, идеальна для масштабирования.
Модели 1.5 Pro и 1.5 Flash теперь находятся в публичной предварительной версии с окном контекста в 1 миллион токенов, доступны через Google AI Studio и Vertex AI. Для тех, кому нужно больше, 1.5 Pro теперь предлагает окно контекста в 2 миллиона токенов, доступное через список ожидания для разработчиков, использующих API, и клиентов Google Cloud.
Мы не останавливаемся на этом. Мы также выпускаем обновления для всей семьи Gemini, представляем следующее поколение открытых моделей Gemma 2 и делаем шаги в будущее AI-ассистентов с Project Astra.
Длины контекста ведущих базовых моделей по сравнению с возможностью Gemini 1.5 в 2 миллиона токенов
Обновления семейства моделей Gemini
Новая 1.5 Flash, оптимизированная для скорости и эффективности
Представляем 1.5 Flash, новейшего и самого быстрого члена семейства Gemini, доступного через наш API. Она разработана для задач с высокой частотой и объемом, обеспечивая экономичное масштабирование при сохранении прорывного окна контекста.
Хотя 1.5 Flash легче, чем 1.5 Pro, она не уступает. Она превосходно справляется с мультимодальными рассуждениями на больших наборах данных, обеспечивая впечатляющее качество относительно своего размера.
Новая модель Gemini 1.5 Flash оптимизирована для скорости и эффективности, обладает высокой способностью к мультимодальным рассуждениям и имеет прорывное окно контекста.
1.5 Flash выделяется в задачах, таких как суммирование, чат-приложения, подписи к изображениям и видео. Она также эффективно извлекает данные из длинных документов и таблиц. Эта универсальность обусловлена обучением через "дистилляцию" от 1.5 Pro, где основные знания и навыки большей модели передаются более эффективной меньшей модели.
Для получения подробной информации о 1.5 Flash ознакомьтесь с обновленным техническим отчетом Gemini 1.5, страницей технологий Gemini и узнайте о доступности и ценах.
Значительное улучшение 1.5 Pro
За последние месяцы мы добились значительных успехов в улучшении 1.5 Pro, нашего лидера по широкому спектру задач.
Мы расширили окно контекста до 2 миллионов токенов и улучшили возможности в генерации кода, логических рассуждениях, планировании, многоходовых диалогах, а также понимании аудио и изображений. Эти улучшения подкреплены достижениями в данных и алгоритмах, показывая значительные улучшения как на публичных, так и на внутренних тестах.
1.5 Pro теперь справляется с все более сложными и нюансированными инструкциями, включая те, которые определяют поведение на уровне продукта, такие как роль, формат и стиль. Мы усовершенствовали контроль над ответами модели для конкретных случаев использования, таких как настройка персон чат-агентов или автоматизация рабочих процессов с множественными вызовами функций. Пользователи теперь могут управлять поведением модели с помощью системных инструкций.
Мы также добавили понимание аудио в Gemini API и Google AI Studio, позволяя 1.5 Pro обрабатывать изображения и аудио из видео, загруженных в Google AI Studio. Мы интегрируем 1.5 Pro в продукты Google, такие как Gemini Advanced и приложения Workspace.
Для получения дополнительной информации о 1.5 Pro ознакомьтесь с обновленным техническим отчетом Gemini 1.5 и страницей технологий Gemini.
Gemini Nano понимает мультимодальные входные данные
Gemini Nano выходит на новый уровень, переходя от текстовых входных данных к включению изображений. Начиная с Pixel, приложения, использующие Gemini Nano с мультимодальностью, смогут интерпретировать мир более человечным способом через текст, визуальные образы, звук и устную речь.
Узнайте больше о Gemini 1.0 Nano на Android.
Следующее поколение открытых моделей
Сегодня мы также обновляем Gemma, наше семейство открытых моделей, построенных на тех же исследованиях и технологиях, что и модели Gemini.
Мы запускаем Gemma 2, наши открытые модели следующего поколения для ответственных инноваций в AI. Gemma 2 имеет новую архитектуру для превосходной производительности и эффективности и будет доступна в новых размерах.
Семейство Gemma расширяется с PaliGemma, нашей первой моделью визуально-языкового типа, вдохновленной PaLI-3. Мы также обновили наш набор инструментов Responsible Generative AI Toolkit с LLM Comparator для оценки качества ответов модели.
Для получения подробной информации посетите блог для разработчиков.
Прогресс в разработке универсальных AI-агентов
В Google DeepMind наша миссия — создавать AI ответственно на благо человечества. Мы всегда стремились к созданию универсальных AI-агентов, которые могут помогать в повседневной жизни. Поэтому мы делимся прогрессом в будущем AI-ассистентов с Project Astra (продвинутый агент, реагирующий на зрение и речь).
Чтобы AI-агент был действительно полезен, он должен понимать и реагировать на мир, как человек, воспринимая и запоминая увиденное и услышанное, чтобы улавливать контекст и действовать соответственно. Он также должен быть проактивным, обучаемым и персонализированным, обеспечивая естественные диалоги без задержек.
Хотя мы добились больших успехов в обработке мультимодальной информации, достижение времени отклика в разговоре — сложная инженерная задача. На протяжении многих лет мы совершенствовали восприятие, рассуждения и диалоги наших моделей, чтобы взаимодействия были более естественными.
На основе Gemini мы разработали прототипы агентов, которые быстрее обрабатывают информацию, непрерывно кодируя видеокадры, объединяя видео и речевые входные данные в хронологию событий и кэшируя эти данные для быстрого доступа.
Используя наши лучшие речевые модели, мы также улучшили звучание этих агентов, придав им более широкий диапазон интонаций. Они лучше понимают контекст и быстро реагируют в разговоре.
С этой технологией легко представить будущее, где у каждого есть экспертный AI-ассистент, доступный через телефон или очки. Некоторые из этих возможностей появятся в продуктах Google, таких как приложение Gemini и веб-опыт, позже в этом году.
Продолжение исследований
Мы проделали большой путь с семейством моделей Gemini и стремимся раздвигать границы еще дальше. Через неустанные инновации мы исследуем новые горизонты, открывая захватывающие новые сценарии использования для Gemini.
Чтобы узнать больше о Gemini и его возможностях, ознакомьтесь с нашими ресурсами.




Получайте больше историй от Google в ваш почтовый ящик.Получайте больше историй от Google в ваш почтовый ящик.
Адрес электронной почтыВаша информация будет использована в соответствии с политикой конфиденциальности Google.
ПодписатьсяГотово. Еще один шаг.
Проверьте ваш почтовый ящик, чтобы подтвердить подписку.
Вы уже подписаны на нашу рассылку.
Вы также можете подписаться с другим адресом электронной почты.
Связанная статья
Salesforce представляет цифровых помощников с ИИ в Slack для конкуренции с Microsoft Copilot
Salesforce запустила новую стратегию ИИ для рабочего места, представив специализированных «цифровых помощников», интегрированных в беседы Slack, сообщила компания в понедельник.Новый инструмент, Agent
Инвестиция Oracle в $40 млрд на чипы Nvidia для AI-датцентра в Техасе
Oracle планирует инвестировать около $40 млрд в чипы Nvidia для нового крупного дата-центра в Техасе, разработанного OpenAI, как сообщает Financial Times. Эта сделка, одна из крупнейших по закупке чип
Приложение Meta AI представит премиум-уровень и рекламу
Приложение Meta AI вскоре может предложить платную подписку, аналогичную предложениям конкурентов, таких как OpenAI, Google и Microsoft. Во время отчета о доходах за первый квартал 2025 года генеральн
Комментарии (25)
LucasWalker
19 апреля 2025 г., 0:37:58 GMT+03:00
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
16 апреля 2025 г., 3:37:56 GMT+03:00
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
15 апреля 2025 г., 20:53:33 GMT+03:00
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
15 апреля 2025 г., 4:25:31 GMT+03:00
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
14 апреля 2025 г., 22:20:08 GMT+03:00
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
14 апреля 2025 г., 20:06:25 GMT+03:00
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
В декабре мы представили нашу первую мультимодальную модель Gemini 1.0, доступную в трех размерах: Ultra, Pro и Nano. Спустя несколько месяцев мы выпустили 1.5 Pro с улучшенной производительностью и прорывным окном контекста в 1 миллион токенов.
Разработчики и корпоративные клиенты используют 1.5 Pro впечатляющими способами, ценя его большое окно контекста, мощные мультимодальные рассуждения и общую выдающуюся производительность.
Отзывы пользователей показали потребность в моделях с меньшей задержкой и стоимостью, что побудило нас продолжать расширять границы. Поэтому мы рады представить сегодня Gemini 1.5 Flash. Эта модель легче, чем 1.5 Pro, разработана для скорости и эффективности, идеальна для масштабирования.
Модели 1.5 Pro и 1.5 Flash теперь находятся в публичной предварительной версии с окном контекста в 1 миллион токенов, доступны через Google AI Studio и Vertex AI. Для тех, кому нужно больше, 1.5 Pro теперь предлагает окно контекста в 2 миллиона токенов, доступное через список ожидания для разработчиков, использующих API, и клиентов Google Cloud.
Мы не останавливаемся на этом. Мы также выпускаем обновления для всей семьи Gemini, представляем следующее поколение открытых моделей Gemma 2 и делаем шаги в будущее AI-ассистентов с Project Astra.
Обновления семейства моделей Gemini
Новая 1.5 Flash, оптимизированная для скорости и эффективности
Представляем 1.5 Flash, новейшего и самого быстрого члена семейства Gemini, доступного через наш API. Она разработана для задач с высокой частотой и объемом, обеспечивая экономичное масштабирование при сохранении прорывного окна контекста.
Хотя 1.5 Flash легче, чем 1.5 Pro, она не уступает. Она превосходно справляется с мультимодальными рассуждениями на больших наборах данных, обеспечивая впечатляющее качество относительно своего размера.
1.5 Flash выделяется в задачах, таких как суммирование, чат-приложения, подписи к изображениям и видео. Она также эффективно извлекает данные из длинных документов и таблиц. Эта универсальность обусловлена обучением через "дистилляцию" от 1.5 Pro, где основные знания и навыки большей модели передаются более эффективной меньшей модели.
Для получения подробной информации о 1.5 Flash ознакомьтесь с обновленным техническим отчетом Gemini 1.5, страницей технологий Gemini и узнайте о доступности и ценах.
Значительное улучшение 1.5 Pro
За последние месяцы мы добились значительных успехов в улучшении 1.5 Pro, нашего лидера по широкому спектру задач.
Мы расширили окно контекста до 2 миллионов токенов и улучшили возможности в генерации кода, логических рассуждениях, планировании, многоходовых диалогах, а также понимании аудио и изображений. Эти улучшения подкреплены достижениями в данных и алгоритмах, показывая значительные улучшения как на публичных, так и на внутренних тестах.
1.5 Pro теперь справляется с все более сложными и нюансированными инструкциями, включая те, которые определяют поведение на уровне продукта, такие как роль, формат и стиль. Мы усовершенствовали контроль над ответами модели для конкретных случаев использования, таких как настройка персон чат-агентов или автоматизация рабочих процессов с множественными вызовами функций. Пользователи теперь могут управлять поведением модели с помощью системных инструкций.
Мы также добавили понимание аудио в Gemini API и Google AI Studio, позволяя 1.5 Pro обрабатывать изображения и аудио из видео, загруженных в Google AI Studio. Мы интегрируем 1.5 Pro в продукты Google, такие как Gemini Advanced и приложения Workspace.
Для получения дополнительной информации о 1.5 Pro ознакомьтесь с обновленным техническим отчетом Gemini 1.5 и страницей технологий Gemini.
Gemini Nano понимает мультимодальные входные данные
Gemini Nano выходит на новый уровень, переходя от текстовых входных данных к включению изображений. Начиная с Pixel, приложения, использующие Gemini Nano с мультимодальностью, смогут интерпретировать мир более человечным способом через текст, визуальные образы, звук и устную речь.
Узнайте больше о Gemini 1.0 Nano на Android.
Следующее поколение открытых моделей
Сегодня мы также обновляем Gemma, наше семейство открытых моделей, построенных на тех же исследованиях и технологиях, что и модели Gemini.
Мы запускаем Gemma 2, наши открытые модели следующего поколения для ответственных инноваций в AI. Gemma 2 имеет новую архитектуру для превосходной производительности и эффективности и будет доступна в новых размерах.
Семейство Gemma расширяется с PaliGemma, нашей первой моделью визуально-языкового типа, вдохновленной PaLI-3. Мы также обновили наш набор инструментов Responsible Generative AI Toolkit с LLM Comparator для оценки качества ответов модели.
Для получения подробной информации посетите блог для разработчиков.
Прогресс в разработке универсальных AI-агентов
В Google DeepMind наша миссия — создавать AI ответственно на благо человечества. Мы всегда стремились к созданию универсальных AI-агентов, которые могут помогать в повседневной жизни. Поэтому мы делимся прогрессом в будущем AI-ассистентов с Project Astra (продвинутый агент, реагирующий на зрение и речь).
Чтобы AI-агент был действительно полезен, он должен понимать и реагировать на мир, как человек, воспринимая и запоминая увиденное и услышанное, чтобы улавливать контекст и действовать соответственно. Он также должен быть проактивным, обучаемым и персонализированным, обеспечивая естественные диалоги без задержек.
Хотя мы добились больших успехов в обработке мультимодальной информации, достижение времени отклика в разговоре — сложная инженерная задача. На протяжении многих лет мы совершенствовали восприятие, рассуждения и диалоги наших моделей, чтобы взаимодействия были более естественными.
На основе Gemini мы разработали прототипы агентов, которые быстрее обрабатывают информацию, непрерывно кодируя видеокадры, объединяя видео и речевые входные данные в хронологию событий и кэшируя эти данные для быстрого доступа.
Используя наши лучшие речевые модели, мы также улучшили звучание этих агентов, придав им более широкий диапазон интонаций. Они лучше понимают контекст и быстро реагируют в разговоре.
С этой технологией легко представить будущее, где у каждого есть экспертный AI-ассистент, доступный через телефон или очки. Некоторые из этих возможностей появятся в продуктах Google, таких как приложение Gemini и веб-опыт, позже в этом году.
Продолжение исследований
Мы проделали большой путь с семейством моделей Gemini и стремимся раздвигать границы еще дальше. Через неустанные инновации мы исследуем новые горизонты, открывая захватывающие новые сценарии использования для Gemini.
Чтобы узнать больше о Gemini и его возможностях, ознакомьтесь с нашими ресурсами.




Получайте больше историй от Google в ваш почтовый ящик.Получайте больше историй от Google в ваш почтовый ящик.
ПодписатьсяГотово. Еще один шаг.
Проверьте ваш почтовый ящик, чтобы подтвердить подписку.
Вы уже подписаны на нашу рассылку.
Вы также можете подписаться с другим адресом электронной почты.



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












