Géminis presenta un modelo mejorado, contexto extendido, agentes de IA
En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.
Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.
Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.
Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.
No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.
Longitudes de contexto de los principales modelos fundacionales comparados con la capacidad de 2 millones de tokens de Gemini 1.5
Actualizaciones de la familia de modelos Gemini
El nuevo 1.5 Flash, optimizado para velocidad y eficiencia
Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.
Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.
El nuevo modelo Gemini 1.5 Flash está optimizado para velocidad y eficiencia, es altamente capaz en razonamiento multimodal y cuenta con nuestra innovadora ventana de contexto extensa.
1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.
Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.
Mejorando significativamente 1.5 Pro
En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.
Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.
1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.
También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.
Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.
Gemini Nano comprende entradas multimodales
Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.
Conoce más sobre Gemini 1.0 Nano en Android.
Próxima generación de modelos abiertos
Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.
Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.
La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.
Para más detalles, visita el blog de Desarrolladores.
Progreso en el desarrollo de agentes de IA universales
En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).
Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.
Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.
Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.
Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.
Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.
Exploración continua
Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.
Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.




Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.
Dirección de correo electrónico Tu información se usará de acuerdo con la política de privacidad de Google.
Suscríbete Hecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.
Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot
Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas
Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios
La aplicación de IA de Meta pronto podría incluir una suscripción de pago, siguiendo el modelo de competidores como OpenAI, Google y Microsoft. Durante una llamada de resultados del primer trimestre d
comentario (25)
0/200
LucasWalker
18 de abril de 2025 23:37:58 GMT+02:00
ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀
0
FrankSmith
16 de abril de 2025 02:37:56 GMT+02:00
젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓
0
JamesMiller
15 de abril de 2025 19:53:33 GMT+02:00
O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓
0
MarkRoberts
15 de abril de 2025 03:25:31 GMT+02:00
El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.
0
BillyGarcia
14 de abril de 2025 21:20:08 GMT+02:00
O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀
0
RogerRoberts
14 de abril de 2025 19:06:25 GMT+02:00
¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓
0
En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.
Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.
Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.
Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.
No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.
Actualizaciones de la familia de modelos Gemini
El nuevo 1.5 Flash, optimizado para velocidad y eficiencia
Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.
Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.
1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.
Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.
Mejorando significativamente 1.5 Pro
En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.
Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.
1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.
También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.
Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.
Gemini Nano comprende entradas multimodales
Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.
Conoce más sobre Gemini 1.0 Nano en Android.
Próxima generación de modelos abiertos
Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.
Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.
La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.
Para más detalles, visita el blog de Desarrolladores.
Progreso en el desarrollo de agentes de IA universales
En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).
Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.
Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.
Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.
Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.
Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.
Exploración continua
Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.
Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.




Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.
Suscríbete Hecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.



ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀




젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓




O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓




El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.




O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀




¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓












