Géminis presenta un modelo mejorado, contexto extendido, agentes de IA
En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.
Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.
Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.
Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.
No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.
Longitudes de contexto de los principales modelos fundacionales comparados con la capacidad de 2 millones de tokens de Gemini 1.5
Actualizaciones de la familia de modelos Gemini
El nuevo 1.5 Flash, optimizado para velocidad y eficiencia
Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.
Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.
El nuevo modelo Gemini 1.5 Flash está optimizado para velocidad y eficiencia, es altamente capaz en razonamiento multimodal y cuenta con nuestra innovadora ventana de contexto extensa.
1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.
Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.
Mejorando significativamente 1.5 Pro
En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.
Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.
1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.
También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.
Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.
Gemini Nano comprende entradas multimodales
Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.
Conoce más sobre Gemini 1.0 Nano en Android.
Próxima generación de modelos abiertos
Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.
Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.
La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.
Para más detalles, visita el blog de Desarrolladores.
Progreso en el desarrollo de agentes de IA universales
En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).
Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.
Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.
Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.
Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.
Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.
Exploración continua
Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.
Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.




Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.
Dirección de correo electrónico Tu información se usará de acuerdo con la política de privacidad de Google.
Suscríbete Hecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.
Artículo relacionado
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física
Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
Recomendaciones de temas especiales relacionados
comentario (26)
0/500
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.
Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.
Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.
Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.
No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.
Actualizaciones de la familia de modelos Gemini
El nuevo 1.5 Flash, optimizado para velocidad y eficiencia
Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.
Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.
1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.
Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.
Mejorando significativamente 1.5 Pro
En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.
Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.
1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.
También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.
Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.
Gemini Nano comprende entradas multimodales
Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.
Conoce más sobre Gemini 1.0 Nano en Android.
Próxima generación de modelos abiertos
Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.
Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.
La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.
Para más detalles, visita el blog de Desarrolladores.
Progreso en el desarrollo de agentes de IA universales
En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).
Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.
Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.
Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.
Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.
Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.
Exploración continua
Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.
Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.




Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.
Suscríbete Hecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas
WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general
Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.





Hogar






