Gêmeos revela o modelo aprimorado, contexto estendido, agentes de IA

Lar

Notícias

10 de Abril de 2025

DavidThomas

# ai

Em dezembro, lançamos nosso primeiro modelo multimodal nativo, Gemini 1.0, disponível em três tamanhos: Ultra, Pro e Nano. Avançando alguns meses, apresentamos o 1.5 Pro, com desempenho aprimorado e uma janela de contexto longa e inovadora de 1 milhão de tokens.

Desenvolvedores e clientes empresariais têm aproveitado o 1.5 Pro de maneiras incríveis, valorizando sua janela de contexto longa, raciocínio multimodal robusto e desempenho geral excepcional.

O feedback dos usuários destacou a necessidade de modelos com menor latência e custo, o que nos incentivou a continuar inovando. Por isso, estamos empolgados em apresentar o Gemini 1.5 Flash hoje. Este modelo é mais leve que o 1.5 Pro, projetado para ser rápido e eficiente, e perfeito para escalabilidade.

Tanto o 1.5 Pro quanto o 1.5 Flash estão agora em visualização pública, com uma janela de contexto de 1 milhão de tokens, acessível pelo Google AI Studio e Vertex AI. E para aqueles que precisam de ainda mais, o 1.5 Pro agora oferece uma janela de contexto de 2 milhões de tokens, disponível por lista de espera para desenvolvedores usando a API e clientes do Google Cloud.

Não estamos parando por aí. Também estamos lançando atualizações em toda a família Gemini, apresentando nossa próxima geração de modelos abertos, Gemma 2, e avançando no futuro dos assistentes de IA com o Project Astra.

Comprimentos de contexto de modelos de fundação líderes comparados com a capacidade de 2 milhões de tokens do Gemini 1.5

Atualizações da família de modelos Gemini

O novo 1.5 Flash, otimizado para velocidade e eficiência

Apresentando o 1.5 Flash, o membro mais recente e rápido da família Gemini, servido por nossa API. Ele é projetado para tarefas de alto volume e alta frequência, oferecendo escalabilidade econômica enquanto mantém nossa inovação na janela de contexto longa.

Embora mais leve que o 1.5 Pro, o 1.5 Flash não deixa a desejar. Ele se destaca em raciocínio multimodal em grandes conjuntos de dados, oferecendo qualidade impressionante em relação ao seu tamanho.

O novo modelo Gemini 1.5 Flash é otimizado para velocidade e eficiência, é altamente capaz de raciocínio multimodal e apresenta nossa inovadora janela de contexto longa.

O 1.5 Flash brilha em tarefas como resumo, aplicativos de chat e legendagem de imagens e vídeos. Ele também é hábil na extração de dados de documentos longos e tabelas. Essa versatilidade vem de ser treinado pelo 1.5 Pro por meio de "destilação", onde o conhecimento e as habilidades principais de um modelo maior são transferidos para um modelo menor e mais eficiente.

Para mais detalhes sobre o 1.5 Flash, confira nosso relatório técnico atualizado do Gemini 1.5, a página de tecnologia Gemini e saiba mais sobre sua disponibilidade e preços.

Melhorias significativas no 1.5 Pro

Nos últimos meses, fizemos avanços significativos na melhoria do 1.5 Pro, nosso principal desempenho em uma ampla gama de tarefas.

Expandimos sua janela de contexto para 2 milhões de tokens e melhoramos suas capacidades em geração de código, raciocínio lógico, planejamento, conversas de múltiplas rodadas e entendimento de áudio e imagens. Essas melhorias são respaldadas por avanços em dados e algoritmos, mostrando melhorias notáveis em benchmarks públicos e internos.

O 1.5 Pro agora lida com instruções cada vez mais complexas e nuances, incluindo aquelas que definem comportamentos em nível de produto, como papel, formato e estilo. Refinamos o controle sobre as respostas do modelo para casos de uso específicos, como personalizar personas de agentes de chat ou automatizar fluxos de trabalho com várias chamadas de função. Os usuários agora podem direcionar o comportamento do modelo com instruções do sistema.

Também adicionamos entendimento de áudio à API Gemini e ao Google AI Studio, permitindo que o 1.5 Pro processe imagens e áudio de vídeos enviados ao Google AI Studio. Estamos integrando o 1.5 Pro em produtos do Google, como Gemini Advanced e aplicativos do Workspace.

Para mais informações sobre o 1.5 Pro, confira nosso relatório técnico atualizado do Gemini 1.5 e a página de tecnologia Gemini.

Gemini Nano entende entradas multimodais

O Gemini Nano está elevando seu nível, indo além de entradas apenas de texto para incluir imagens. Começando com o Pixel, aplicativos que usam o Gemini Nano com Multimodalidade poderão interpretar o mundo de maneira mais humana, por meio de texto, visuais, som e linguagem falada.

Saiba mais sobre o Gemini 1.0 Nano no Android.

Próxima geração de modelos abertos

Hoje, também estamos atualizando o Gemma, nossa família de modelos abertos, que são construídos com a mesma pesquisa e tecnologia dos modelos Gemini.

Estamos lançando o Gemma 2, nossos modelos abertos de próxima geração para inovação responsável em IA. O Gemma 2 apresenta uma nova arquitetura para desempenho e eficiência superiores, e estará disponível em novos tamanhos.

A família Gemma está crescendo com o PaliGemma, nosso primeiro modelo de visão-linguagem inspirado no PaLI-3. Também atualizamos nosso Kit de Ferramentas de IA Generativa Responsável com o LLM Comparator para avaliar a qualidade das respostas do modelo.

Para mais detalhes, acesse o blog do Desenvolvedor.

Progresso no desenvolvimento de agentes de IA universais

No Google DeepMind, nossa missão é construir IA de forma responsável para beneficiar a humanidade. Sempre buscamos criar agentes de IA universais que possam ajudar na vida cotidiana. Por isso, estamos compartilhando nosso progresso no futuro dos assistentes de IA com o Project Astra (agente responsivo avançado de visão e fala).

Para que um agente de IA seja verdadeiramente útil, ele precisa entender e reagir ao mundo como um humano, absorvendo e lembrando o que vê e ouve para compreender o contexto e agir de acordo. Ele também deve ser proativo, ensinável e pessoal, permitindo conversas naturais e sem atrasos.

Embora tenhamos feito grandes avanços no processamento de informações multimodais, alcançar tempos de resposta conversacional é um desafio de engenharia difícil. Ao longo dos anos, refinamos como nossos modelos percebem, raciocinam e conversam para tornar as interações mais naturais.

Com base no Gemini, desenvolvemos agentes protótipos que processam informações mais rapidamente ao codificar continuamente quadros de vídeo, mesclando entradas de vídeo e fala em uma linha do tempo de eventos e armazenando esses dados em cache para recuperação rápida.

Usando nossos modelos de fala de ponta, também melhoramos o som desses agentes, dando-lhes uma gama mais ampla de entonações. Eles podem entender melhor o contexto em que estão e responder rapidamente em conversas.

Com essa tecnologia, é fácil imaginar um futuro onde todos tenham um assistente de IA especializado ao seu lado, acessível por meio de um telefone ou óculos. Algumas dessas capacidades chegarão aos produtos do Google, como o aplicativo Gemini e a experiência na web, ainda este ano.

Exploração contínua

Avançamos muito com nossa família de modelos Gemini, e estamos comprometidos em ultrapassar os limites ainda mais. Por meio de inovação contínua, estamos explorando novas fronteiras enquanto desbloqueamos novos casos de uso emocionantes para o Gemini.

Para saber mais sobre o Gemini e suas capacidades, confira nossos recursos.

Receba mais histórias do Google na sua caixa de entrada. Receba mais histórias do Google na sua caixa de entrada.

Endereço de e-mail Suas informações serão usadas de acordo com a política de privacidade do Google.

Inscreva-seConcluído. Apenas mais um passo.

Verifique sua caixa de entrada para confirmar sua inscrição.

Você já está inscrito em nossa newsletter.

Você também pode se inscrever com um endereço de e-mail diferente.

Artigo relacionado

Anthropic resolve caso legal sobre pirataria de livros gerados por IA A Anthropic chegou a uma resolução em uma importante disputa de direitos autorais com autores norte-americanos, concordando com uma proposta de acordo de ação coletiva que evita um julgamento potencia

Figma lança ferramenta de criação de aplicativos com IA para todos os usuários Figma Make, a inovadora plataforma de desenvolvimento prompt-to-app revelada no início deste ano, saiu oficialmente da versão beta e foi lançada para todos os usuários. Essa ferramenta inovadora se ju

R1: Gigante da tecnologia chinesa revela robô humanoide semelhante ao Optimus Ant Group revela o primeiro protótipo de robô humanoideA divisão de robótica da gigante dos pagamentos estreou seu R1 humanoide nos principais eventos de tecnologia, apresentando demonstrações de cul

Comentários (25)

0/200

Enviar

LucasWalker

18 de Abril de 2025 à58 22:37:58 WEST

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない！🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです！🚀

FrankSmith

16 de Abril de 2025 à56 01:37:56 WEST

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller

15 de Abril de 2025 à33 18:53:33 WEST

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts

15 de Abril de 2025 à31 02:25:31 WEST

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia

14 de Abril de 2025 à8 20:20:08 WEST

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

RogerRoberts

14 de Abril de 2025 à25 18:06:25 WEST

¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓

Principais notícias

Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores AI Builder e Power Automate Revolucionam a Sumarização de Documentos Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude

Mais

Apresentou