Gêmeos revela o modelo aprimorado, contexto estendido, agentes de IA
Em dezembro, lançamos nosso primeiro modelo multimodal nativo, Gemini 1.0, disponível em três tamanhos: Ultra, Pro e Nano. Avançando alguns meses, apresentamos o 1.5 Pro, com desempenho aprimorado e uma janela de contexto longa e inovadora de 1 milhão de tokens.
Desenvolvedores e clientes empresariais têm aproveitado o 1.5 Pro de maneiras incríveis, valorizando sua janela de contexto longa, raciocínio multimodal robusto e desempenho geral excepcional.
O feedback dos usuários destacou a necessidade de modelos com menor latência e custo, o que nos incentivou a continuar inovando. Por isso, estamos empolgados em apresentar o Gemini 1.5 Flash hoje. Este modelo é mais leve que o 1.5 Pro, projetado para ser rápido e eficiente, e perfeito para escalabilidade.
Tanto o 1.5 Pro quanto o 1.5 Flash estão agora em visualização pública, com uma janela de contexto de 1 milhão de tokens, acessível pelo Google AI Studio e Vertex AI. E para aqueles que precisam de ainda mais, o 1.5 Pro agora oferece uma janela de contexto de 2 milhões de tokens, disponível por lista de espera para desenvolvedores usando a API e clientes do Google Cloud.
Não estamos parando por aí. Também estamos lançando atualizações em toda a família Gemini, apresentando nossa próxima geração de modelos abertos, Gemma 2, e avançando no futuro dos assistentes de IA com o Project Astra.
Comprimentos de contexto de modelos de fundação líderes comparados com a capacidade de 2 milhões de tokens do Gemini 1.5
Atualizações da família de modelos Gemini
O novo 1.5 Flash, otimizado para velocidade e eficiência
Apresentando o 1.5 Flash, o membro mais recente e rápido da família Gemini, servido por nossa API. Ele é projetado para tarefas de alto volume e alta frequência, oferecendo escalabilidade econômica enquanto mantém nossa inovação na janela de contexto longa.
Embora mais leve que o 1.5 Pro, o 1.5 Flash não deixa a desejar. Ele se destaca em raciocínio multimodal em grandes conjuntos de dados, oferecendo qualidade impressionante em relação ao seu tamanho.
O novo modelo Gemini 1.5 Flash é otimizado para velocidade e eficiência, é altamente capaz de raciocínio multimodal e apresenta nossa inovadora janela de contexto longa.
O 1.5 Flash brilha em tarefas como resumo, aplicativos de chat e legendagem de imagens e vídeos. Ele também é hábil na extração de dados de documentos longos e tabelas. Essa versatilidade vem de ser treinado pelo 1.5 Pro por meio de "destilação", onde o conhecimento e as habilidades principais de um modelo maior são transferidos para um modelo menor e mais eficiente.
Para mais detalhes sobre o 1.5 Flash, confira nosso relatório técnico atualizado do Gemini 1.5, a página de tecnologia Gemini e saiba mais sobre sua disponibilidade e preços.
Melhorias significativas no 1.5 Pro
Nos últimos meses, fizemos avanços significativos na melhoria do 1.5 Pro, nosso principal desempenho em uma ampla gama de tarefas.
Expandimos sua janela de contexto para 2 milhões de tokens e melhoramos suas capacidades em geração de código, raciocínio lógico, planejamento, conversas de múltiplas rodadas e entendimento de áudio e imagens. Essas melhorias são respaldadas por avanços em dados e algoritmos, mostrando melhorias notáveis em benchmarks públicos e internos.
O 1.5 Pro agora lida com instruções cada vez mais complexas e nuances, incluindo aquelas que definem comportamentos em nível de produto, como papel, formato e estilo. Refinamos o controle sobre as respostas do modelo para casos de uso específicos, como personalizar personas de agentes de chat ou automatizar fluxos de trabalho com várias chamadas de função. Os usuários agora podem direcionar o comportamento do modelo com instruções do sistema.
Também adicionamos entendimento de áudio à API Gemini e ao Google AI Studio, permitindo que o 1.5 Pro processe imagens e áudio de vídeos enviados ao Google AI Studio. Estamos integrando o 1.5 Pro em produtos do Google, como Gemini Advanced e aplicativos do Workspace.
Para mais informações sobre o 1.5 Pro, confira nosso relatório técnico atualizado do Gemini 1.5 e a página de tecnologia Gemini.
Gemini Nano entende entradas multimodais
O Gemini Nano está elevando seu nível, indo além de entradas apenas de texto para incluir imagens. Começando com o Pixel, aplicativos que usam o Gemini Nano com Multimodalidade poderão interpretar o mundo de maneira mais humana, por meio de texto, visuais, som e linguagem falada.
Saiba mais sobre o Gemini 1.0 Nano no Android.
Próxima geração de modelos abertos
Hoje, também estamos atualizando o Gemma, nossa família de modelos abertos, que são construídos com a mesma pesquisa e tecnologia dos modelos Gemini.
Estamos lançando o Gemma 2, nossos modelos abertos de próxima geração para inovação responsável em IA. O Gemma 2 apresenta uma nova arquitetura para desempenho e eficiência superiores, e estará disponível em novos tamanhos.
A família Gemma está crescendo com o PaliGemma, nosso primeiro modelo de visão-linguagem inspirado no PaLI-3. Também atualizamos nosso Kit de Ferramentas de IA Generativa Responsável com o LLM Comparator para avaliar a qualidade das respostas do modelo.
Para mais detalhes, acesse o blog do Desenvolvedor.
Progresso no desenvolvimento de agentes de IA universais
No Google DeepMind, nossa missão é construir IA de forma responsável para beneficiar a humanidade. Sempre buscamos criar agentes de IA universais que possam ajudar na vida cotidiana. Por isso, estamos compartilhando nosso progresso no futuro dos assistentes de IA com o Project Astra (agente responsivo avançado de visão e fala).
Para que um agente de IA seja verdadeiramente útil, ele precisa entender e reagir ao mundo como um humano, absorvendo e lembrando o que vê e ouve para compreender o contexto e agir de acordo. Ele também deve ser proativo, ensinável e pessoal, permitindo conversas naturais e sem atrasos.
Embora tenhamos feito grandes avanços no processamento de informações multimodais, alcançar tempos de resposta conversacional é um desafio de engenharia difícil. Ao longo dos anos, refinamos como nossos modelos percebem, raciocinam e conversam para tornar as interações mais naturais.
Com base no Gemini, desenvolvemos agentes protótipos que processam informações mais rapidamente ao codificar continuamente quadros de vídeo, mesclando entradas de vídeo e fala em uma linha do tempo de eventos e armazenando esses dados em cache para recuperação rápida.
Usando nossos modelos de fala de ponta, também melhoramos o som desses agentes, dando-lhes uma gama mais ampla de entonações. Eles podem entender melhor o contexto em que estão e responder rapidamente em conversas.
Com essa tecnologia, é fácil imaginar um futuro onde todos tenham um assistente de IA especializado ao seu lado, acessível por meio de um telefone ou óculos. Algumas dessas capacidades chegarão aos produtos do Google, como o aplicativo Gemini e a experiência na web, ainda este ano.
Exploração contínua
Avançamos muito com nossa família de modelos Gemini, e estamos comprometidos em ultrapassar os limites ainda mais. Por meio de inovação contínua, estamos explorando novas fronteiras enquanto desbloqueamos novos casos de uso emocionantes para o Gemini.
Para saber mais sobre o Gemini e suas capacidades, confira nossos recursos.




Receba mais histórias do Google na sua caixa de entrada. Receba mais histórias do Google na sua caixa de entrada.
Endereço de e-mail Suas informações serão usadas de acordo com a política de privacidade do Google.
Inscreva-seConcluído. Apenas mais um passo.
Verifique sua caixa de entrada para confirmar sua inscrição.
Você já está inscrito em nossa newsletter.
Você também pode se inscrever com um endereço de e-mail diferente.
Artigo relacionado
Salesforce Apresenta Companheiros Digitais de IA no Slack para Rivalizar com o Microsoft Copilot
A Salesforce lançou uma nova estratégia de IA para o local de trabalho, introduzindo “companheiros digitais” especializados integrados às conversas do Slack, revelou a empresa na segunda-feira.A nova
Investimento de US$ 40 bilhões da Oracle em chips Nvidia impulsiona centro de dados de IA no Texas
A Oracle planeja investir aproximadamente US$ 40 bilhões em chips Nvidia para alimentar um grande novo centro de dados no Texas, desenvolvido pela OpenAI, conforme relatado pelo Financial Times. Este
Aplicativo Meta AI Introduzirá Nível Premium e Anúncios
O aplicativo de IA da Meta pode em breve apresentar uma assinatura paga, seguindo o exemplo de concorrentes como OpenAI, Google e Microsoft. Durante uma teleconferência de resultados do primeiro trime
Comentários (25)
0/200
LucasWalker
18 de Abril de 2025 à58 22:37:58 WEST
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
16 de Abril de 2025 à56 01:37:56 WEST
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
15 de Abril de 2025 à33 18:53:33 WEST
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
15 de Abril de 2025 à31 02:25:31 WEST
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
14 de Abril de 2025 à8 20:20:08 WEST
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
14 de Abril de 2025 à25 18:06:25 WEST
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
Em dezembro, lançamos nosso primeiro modelo multimodal nativo, Gemini 1.0, disponível em três tamanhos: Ultra, Pro e Nano. Avançando alguns meses, apresentamos o 1.5 Pro, com desempenho aprimorado e uma janela de contexto longa e inovadora de 1 milhão de tokens.
Desenvolvedores e clientes empresariais têm aproveitado o 1.5 Pro de maneiras incríveis, valorizando sua janela de contexto longa, raciocínio multimodal robusto e desempenho geral excepcional.
O feedback dos usuários destacou a necessidade de modelos com menor latência e custo, o que nos incentivou a continuar inovando. Por isso, estamos empolgados em apresentar o Gemini 1.5 Flash hoje. Este modelo é mais leve que o 1.5 Pro, projetado para ser rápido e eficiente, e perfeito para escalabilidade.
Tanto o 1.5 Pro quanto o 1.5 Flash estão agora em visualização pública, com uma janela de contexto de 1 milhão de tokens, acessível pelo Google AI Studio e Vertex AI. E para aqueles que precisam de ainda mais, o 1.5 Pro agora oferece uma janela de contexto de 2 milhões de tokens, disponível por lista de espera para desenvolvedores usando a API e clientes do Google Cloud.
Não estamos parando por aí. Também estamos lançando atualizações em toda a família Gemini, apresentando nossa próxima geração de modelos abertos, Gemma 2, e avançando no futuro dos assistentes de IA com o Project Astra.
Atualizações da família de modelos Gemini
O novo 1.5 Flash, otimizado para velocidade e eficiência
Apresentando o 1.5 Flash, o membro mais recente e rápido da família Gemini, servido por nossa API. Ele é projetado para tarefas de alto volume e alta frequência, oferecendo escalabilidade econômica enquanto mantém nossa inovação na janela de contexto longa.
Embora mais leve que o 1.5 Pro, o 1.5 Flash não deixa a desejar. Ele se destaca em raciocínio multimodal em grandes conjuntos de dados, oferecendo qualidade impressionante em relação ao seu tamanho.
O 1.5 Flash brilha em tarefas como resumo, aplicativos de chat e legendagem de imagens e vídeos. Ele também é hábil na extração de dados de documentos longos e tabelas. Essa versatilidade vem de ser treinado pelo 1.5 Pro por meio de "destilação", onde o conhecimento e as habilidades principais de um modelo maior são transferidos para um modelo menor e mais eficiente.
Para mais detalhes sobre o 1.5 Flash, confira nosso relatório técnico atualizado do Gemini 1.5, a página de tecnologia Gemini e saiba mais sobre sua disponibilidade e preços.
Melhorias significativas no 1.5 Pro
Nos últimos meses, fizemos avanços significativos na melhoria do 1.5 Pro, nosso principal desempenho em uma ampla gama de tarefas.
Expandimos sua janela de contexto para 2 milhões de tokens e melhoramos suas capacidades em geração de código, raciocínio lógico, planejamento, conversas de múltiplas rodadas e entendimento de áudio e imagens. Essas melhorias são respaldadas por avanços em dados e algoritmos, mostrando melhorias notáveis em benchmarks públicos e internos.
O 1.5 Pro agora lida com instruções cada vez mais complexas e nuances, incluindo aquelas que definem comportamentos em nível de produto, como papel, formato e estilo. Refinamos o controle sobre as respostas do modelo para casos de uso específicos, como personalizar personas de agentes de chat ou automatizar fluxos de trabalho com várias chamadas de função. Os usuários agora podem direcionar o comportamento do modelo com instruções do sistema.
Também adicionamos entendimento de áudio à API Gemini e ao Google AI Studio, permitindo que o 1.5 Pro processe imagens e áudio de vídeos enviados ao Google AI Studio. Estamos integrando o 1.5 Pro em produtos do Google, como Gemini Advanced e aplicativos do Workspace.
Para mais informações sobre o 1.5 Pro, confira nosso relatório técnico atualizado do Gemini 1.5 e a página de tecnologia Gemini.
Gemini Nano entende entradas multimodais
O Gemini Nano está elevando seu nível, indo além de entradas apenas de texto para incluir imagens. Começando com o Pixel, aplicativos que usam o Gemini Nano com Multimodalidade poderão interpretar o mundo de maneira mais humana, por meio de texto, visuais, som e linguagem falada.
Saiba mais sobre o Gemini 1.0 Nano no Android.
Próxima geração de modelos abertos
Hoje, também estamos atualizando o Gemma, nossa família de modelos abertos, que são construídos com a mesma pesquisa e tecnologia dos modelos Gemini.
Estamos lançando o Gemma 2, nossos modelos abertos de próxima geração para inovação responsável em IA. O Gemma 2 apresenta uma nova arquitetura para desempenho e eficiência superiores, e estará disponível em novos tamanhos.
A família Gemma está crescendo com o PaliGemma, nosso primeiro modelo de visão-linguagem inspirado no PaLI-3. Também atualizamos nosso Kit de Ferramentas de IA Generativa Responsável com o LLM Comparator para avaliar a qualidade das respostas do modelo.
Para mais detalhes, acesse o blog do Desenvolvedor.
Progresso no desenvolvimento de agentes de IA universais
No Google DeepMind, nossa missão é construir IA de forma responsável para beneficiar a humanidade. Sempre buscamos criar agentes de IA universais que possam ajudar na vida cotidiana. Por isso, estamos compartilhando nosso progresso no futuro dos assistentes de IA com o Project Astra (agente responsivo avançado de visão e fala).
Para que um agente de IA seja verdadeiramente útil, ele precisa entender e reagir ao mundo como um humano, absorvendo e lembrando o que vê e ouve para compreender o contexto e agir de acordo. Ele também deve ser proativo, ensinável e pessoal, permitindo conversas naturais e sem atrasos.
Embora tenhamos feito grandes avanços no processamento de informações multimodais, alcançar tempos de resposta conversacional é um desafio de engenharia difícil. Ao longo dos anos, refinamos como nossos modelos percebem, raciocinam e conversam para tornar as interações mais naturais.
Com base no Gemini, desenvolvemos agentes protótipos que processam informações mais rapidamente ao codificar continuamente quadros de vídeo, mesclando entradas de vídeo e fala em uma linha do tempo de eventos e armazenando esses dados em cache para recuperação rápida.
Usando nossos modelos de fala de ponta, também melhoramos o som desses agentes, dando-lhes uma gama mais ampla de entonações. Eles podem entender melhor o contexto em que estão e responder rapidamente em conversas.
Com essa tecnologia, é fácil imaginar um futuro onde todos tenham um assistente de IA especializado ao seu lado, acessível por meio de um telefone ou óculos. Algumas dessas capacidades chegarão aos produtos do Google, como o aplicativo Gemini e a experiência na web, ainda este ano.
Exploração contínua
Avançamos muito com nossa família de modelos Gemini, e estamos comprometidos em ultrapassar os limites ainda mais. Por meio de inovação contínua, estamos explorando novas fronteiras enquanto desbloqueamos novos casos de uso emocionantes para o Gemini.
Para saber mais sobre o Gemini e suas capacidades, confira nossos recursos.




Receba mais histórias do Google na sua caixa de entrada. Receba mais histórias do Google na sua caixa de entrada.
Inscreva-seConcluído. Apenas mais um passo.
Verifique sua caixa de entrada para confirmar sua inscrição.
Você já está inscrito em nossa newsletter.
Você também pode se inscrever com um endereço de e-mail diferente.



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












