Google I/O 2024: Innovaciones de presentación para la próxima generación
Google está abrazando completamente lo que llamamos la era Gemini.
Antes de entrar en los detalles, permíteme reflexionar un momento sobre dónde estamos. Hemos estado invirtiendo recursos en AI durante más de una década, empujando los límites en investigación, desarrollo de productos e infraestructura. Hoy, vamos a cubrir todo eso y más.
Todavía estamos al comienzo de este cambio de plataforma de AI, y el potencial es enorme: para creadores, desarrolladores, startups y todos los demás. De eso se trata la era Gemini: impulsar estas oportunidades hacia adelante. Así que, vamos a sumergirnos de lleno.
La era Gemini
El año pasado en I/O, revelamos nuestra visión para Gemini: un modelo de vanguardia diseñado para ser nativamente multimodal desde el inicio, capaz de procesar texto, imágenes, video, código y más. Es un gran salto hacia la transformación de cualquier entrada en cualquier salida: un "I/O" para la próxima generación.
Desde entonces, hemos lanzado los primeros modelos Gemini, que han establecido nuevos estándares en rendimiento multimodal. Solo dos meses después, presentamos Gemini 1.5 Pro, que trajo un avance importante en el manejo de contextos largos. Puede gestionar 1 millón de tokens en producción, superando a cualquier otro modelo de fundación a gran escala hasta la fecha.
Estamos comprometidos a asegurar que todos puedan beneficiarse de las capacidades de Gemini. Nos hemos movido rápidamente para compartir estos avances con ustedes. Hoy, más de 1.5 millones de desarrolladores están utilizando modelos Gemini en nuestras herramientas, desde depuración de código hasta obtener nuevos conocimientos y construir la próxima ola de aplicaciones de AI.
También estamos integrando las potentes funciones de Gemini en nuestros productos de manera significativa. Hoy verán ejemplos en Search, Photos, Workspace, Android y más allá.
Progreso en productos
Actualmente, todos nuestros productos con 2 mil millones de usuarios están impulsados por Gemini.
También hemos lanzado nuevas experiencias, incluyendo una aplicación móvil donde puedes interactuar directamente con Gemini, disponible tanto en Android como en iOS. Y con Gemini Advanced, obtienes acceso a nuestros modelos más avanzados. Más de 1 millón de personas se han inscrito para probarlo en solo tres meses, y el impulso sigue creciendo.
Ampliando AI Overviews en Search
Uno de los desarrollos más emocionantes con Gemini ha sido en Google Search.
Durante el último año, hemos manejado miles de millones de consultas a través de nuestra Experiencia Generativa de Búsqueda. Los usuarios están explorando Search de nuevas maneras, haciendo preguntas más largas y complejas, incluso usando fotos para buscar, y obteniendo los mejores resultados que la web tiene para ofrecer.

Hemos estado probando esta experiencia más allá de Labs, y estamos emocionados de ver no solo un aumento en el uso de Search, sino también una mayor satisfacción del usuario.
Estoy emocionado de anunciar que comenzaremos a implementar esta experiencia completamente renovada, AI Overviews, para todos en los EE. UU. esta semana, con más países que seguirán pronto.
Gracias a Gemini, estamos empujando los límites de lo que es posible en Search, incluyendo dentro de nuestros propios productos.
Presentando Ask Photos
Tomemos Google Photos, por ejemplo, que lanzamos hace casi nueve años. Se ha convertido en una herramienta esencial para organizar los recuerdos más preciosos de la vida, con más de 6 mil millones de fotos y videos subidos diariamente.
A la gente le encanta usar Photos para buscar en sus vidas. Con Gemini, estamos haciendo esto aún más fácil.
Imagina que estás en una estación de estacionamiento y no recuerdas tu matrícula. Antes, tendrías que buscar en Photos con palabras clave y desplazarte por años de fotos para encontrarla. Ahora, simplemente puedes preguntar a Photos. Reconoce los autos que usas con frecuencia, determina cuál es el tuyo y te da el número de la matrícula.
Ask Photos también puede ayudarte a profundizar en tus recuerdos. Digamos que estás recordando los primeros hitos de tu hija Lucía. Puedes preguntar a Photos, "¿Cuándo aprendió Lucía a nadar?"
Luego puedes seguir con algo más complejo, como, "Muéstrame cómo ha progresado la natación de Lucía."

Aquí, Gemini va más allá de una simple búsqueda, entendiendo diferentes contextos: desde vueltas en la piscina hasta snorkel en el océano, hasta el texto y las fechas en sus certificados de natación. Photos luego compila todo en un resumen, permitiéndote revivir esos recuerdos increíbles. Estamos implementando Ask Photos este verano, con más funciones en camino.
El enfoque de Gemini en multimodalidad está diseñado para desbloquear conocimiento en varios formatos. Es un modelo que entiende y conecta diferentes tipos de entrada.
Este enfoque amplía los tipos de preguntas que podemos hacer y las respuestas que recibimos. El contexto largo lleva esto más lejos, permitiéndonos procesar grandes cantidades de información: cientos de páginas de texto, horas de audio, una hora de video, repositorios de código completos, o incluso 96 menús de Cheesecake Factory.
Para esos muchos menús, necesitarías una ventana de contexto de un millón de tokens, lo que ahora es posible con Gemini 1.5 Pro. Los desarrolladores lo están usando de maneras bastante interesantes.

Hemos estado implementando Gemini 1.5 Pro con contexto largo en vista previa durante los últimos meses, haciendo mejoras de calidad en traducción, codificación y razonamiento. Estas actualizaciones ahora se reflejan en el modelo.
Estoy emocionado de anunciar que estamos haciendo esta versión mejorada de Gemini 1.5 Pro disponible para todos los desarrolladores globalmente. Además, Gemini 1.5 Pro con 1 millón de contexto ahora es directamente accesible para consumidores en Gemini Advanced, soportando 35 idiomas.
Ampliando a 2 millones de tokens en vista previa privada
Un millón de tokens ha abierto nuevas posibilidades, pero no nos detenemos ahí.
Hoy, estamos expandiendo la ventana de contexto a 2 millones de tokens, disponible para desarrolladores en vista previa privada.
Es increíble ver cuánto hemos avanzado en solo unos meses. Este es otro paso hacia nuestro objetivo final de contexto infinito.
Hemos discutido dos avances técnicos clave: multimodalidad y contexto largo. Cada uno es poderoso por sí solo, pero juntos, desbloquean capacidades e inteligencia aún más profundas.
Esto es evidente en Google Workspace.
Las personas a menudo buscan en sus correos en Gmail. Con Gemini, estamos haciendo esto mucho más poderoso. Por ejemplo, como padre, quieres mantenerte actualizado sobre las actividades escolares de tu hijo. Gemini puede ayudarte a seguirle la pista.
Puedes pedirle a Gemini que resuma los correos recientes de la escuela. En segundo plano, identifica los correos relevantes e incluso analiza archivos adjuntos como PDFs. Obtienes un resumen de los puntos clave y elementos de acción. Si te perdiste la reunión de la PTA porque estabas viajando, y la grabación dura una hora, Gemini puede resaltar las partes importantes si es de Google Meet. Si hay una convocatoria para voluntarios y estás libre, Gemini puede redactar una respuesta por ti.
Hay innumerables formas en que esto puede simplificar tu vida. Gemini 1.5 Pro está disponible hoy en Workspace Labs. Aparna compartirá más detalles.
Hemos visto ejemplos con salidas de texto, pero con un modelo multimodal, podemos hacer mucho más.
Estamos progresando aquí, con más por venir. Audio Overviews en NotebookLM lo demuestra. Usa Gemini 1.5 Pro para generar una conversación de audio personalizada e interactiva a partir de tus materiales fuente.
Este es el potencial de la multimodalidad. Pronto, podrás mezclar y combinar entradas y salidas. Esto es lo que queremos decir con un "I/O" para una nueva generación. Pero, ¿y si pudiéramos ir aún más lejos?
Una de las oportunidades emocionantes que vemos es con los Agentes de AI. Estos son sistemas inteligentes que pueden razonar, planificar y recordar. Pueden pensar varios pasos adelante y trabajar a través de software y sistemas para realizar tareas en tu nombre, siempre bajo tu supervisión.
Todavía estamos en las primeras etapas, pero déjame darte un vistazo de los tipos de casos de uso en los que estamos trabajando.
Tomemos las compras, por ejemplo. Es divertido comprar zapatos, pero no tanto devolverlos si no te quedan bien.
Imagina si Gemini pudiera manejar todos los pasos por ti:
- Buscando en tu bandeja de entrada el recibo...
- Localizando el número de pedido de tu correo...
- Rellenando un formulario de devolución...
- Incluso programando una recogida de UPS.
Eso es mucho más fácil, ¿verdad?
Consideremos un escenario más complejo. Digamos que te acabas de mudar a Chicago. Gemini y Chrome pueden trabajar juntos para ayudarte a establecerte: organizando, razonando y sintetizando información en tu nombre.
Querrás explorar la ciudad y encontrar servicios locales, desde tintorerías hasta paseadores de perros. También necesitarás actualizar tu nueva dirección en numerosos sitios web.
Gemini puede gestionar estas tareas y pedirá más información cuando sea necesario, asegurando que siempre tengas el control.
Esto es crucial: mientras desarrollamos estas experiencias, nos enfocamos en la privacidad, la seguridad y hacerlas accesibles para todos.
Estos son ejemplos simples, pero ilustran los tipos de problemas que pretendemos resolver construyendo sistemas inteligentes que piensen por adelantado, razonen y planifiquen en tu nombre.
Lo que significa para nuestra misión
El poder de Gemini, con su multimodalidad, contexto largo y agentes, nos acerca a nuestro objetivo final: hacer que la AI sea útil para todos.
Así es como haremos el mayor progreso hacia nuestra misión: organizar la información del mundo a través de cualquier entrada, haciéndola accesible mediante cualquier salida, y combinando la información del mundo con la información de TU mundo de una manera verdaderamente útil.
Rompiendo nuevos caminos
Para realizar completamente el potencial de la AI, necesitamos empujar los límites. El equipo de Google DeepMind ha estado trabajando arduamente en esto.
Hemos visto mucha emoción en torno a 1.5 Pro y su ventana de contexto largo. Pero los desarrolladores también querían algo más rápido y rentable. Así que, mañana, presentamos Gemini 1.5 Flash, un modelo más ligero diseñado para escala. Está optimizado para tareas donde la baja latencia y el costo son cruciales. 1.5 Flash estará disponible en AI Studio y Vertex AI el martes.
Mirando hacia el futuro, siempre hemos querido construir un agente universal útil en la vida cotidiana. El Proyecto Astra demuestra comprensión multimodal y capacidades conversacionales en tiempo real.

También hemos avanzado en la generación de video e imágenes con Veo e Imagen 3, y presentamos Gemma 2.0, nuestra próxima generación de modelos abiertos para la innovación responsable de AI. Puedes leer más de Demis Hassabis.
Infraestructura para la era de AI: Presentando Trillium
Entrenar modelos de vanguardia requiere mucha potencia de cálculo. La demanda de cómputo de ML ha crecido por un factor de 1 millón en los últimos seis años, y aumenta diez veces cada año.
Google fue construido para esto. Durante 25 años, hemos invertido en infraestructura técnica de clase mundial, desde el hardware de vanguardia que impulsa Search hasta nuestras unidades de procesamiento de tensores personalizadas que impulsan nuestros avances en AI.
Gemini fue entrenado y servido completamente en nuestras TPUs de cuarta y quinta generación. Otras empresas líderes de AI, incluyendo Anthropic, también han entrenado sus modelos en nuestras TPUs.
Hoy, estamos emocionados de anunciar nuestra sexta generación de TPUs, llamada Trillium. Trillium es nuestra TPU más performante y eficiente hasta la fecha, ofreciendo una mejora de 4.7x en el rendimiento de cómputo por chip sobre la generación anterior, TPU v5e.
Haremos que Trillium esté disponible para nuestros clientes de Cloud a finales de 2024.
Junto con nuestras TPUs, estamos orgullosos de ofrecer CPUs y GPUs para soportar cualquier carga de trabajo. Esto incluye los nuevos procesadores Axion que anunciamos el mes pasado, nuestra primera CPU basada en Arm personalizada que ofrece un rendimiento y eficiencia energética líderes en la industria.
También somos uno de los primeros proveedores de Cloud en ofrecer las GPUs Blackwell de vanguardia de Nvidia, disponibles a principios de 2025. Nuestra larga asociación con NVIDIA nos permite llevar las capacidades innovadoras de Blackwell a nuestros clientes.
Los chips son una parte fundamental de nuestro sistema integrado de extremo a extremo, desde hardware optimizado para el rendimiento y software abierto hasta modelos de consumo flexibles. Todo esto se une en nuestro AI Hypercomputer, una arquitectura de supercomputadora innovadora.
Las empresas y desarrolladores lo están usando para abordar desafíos más complejos, con más del doble de eficiencia en comparación con solo comprar el hardware y chips en bruto. Los avances de nuestro AI Hypercomputer son posibles en parte debido a nuestro enfoque de enfriamiento líquido en nuestros centros de datos.
Hemos estado haciendo esto durante casi una década, mucho antes de que se convirtiera en el estándar de la industria. Hoy, nuestra capacidad total desplegada para sistemas de enfriamiento líquido es de casi 1 gigavatio y sigue creciendo, eso es cerca de 70 veces la capacidad de cualquier otra flota.
Subyacente a esto está la escala pura de nuestra red, que conecta nuestra infraestructura globalmente. Nuestra red abarca más de 2 millones de millas de fibra terrestre y submarina: más de 10 veces el alcance del próximo proveedor de nube líder.
Continuaremos haciendo las inversiones necesarias para avanzar en la innovación de AI y ofrecer capacidades de vanguardia.

El capítulo más emocionante de Search hasta ahora
Una de nuestras mayores áreas de inversión e innovación está en nuestro producto fundacional, Search. Hace 25 años, creamos Search para ayudar a las personas a navegar por la avalancha de información que se trasladaba en línea.
Con cada cambio de plataforma, hemos entregado avances para responder mejor a tus preguntas. En móviles, desbloqueamos nuevos tipos de preguntas y respuestas, usando un mejor contexto, conciencia de ubicación e información en tiempo real. Con avances en la comprensión del lenguaje natural y la visión por computadora, habilitamos nuevas formas de buscar, como usar tu voz o tararear para encontrar tu nueva canción favorita, o usar una imagen de esa flor que viste en tu paseo. Y ahora incluso puedes Circle to Search esos zapatos nuevos y geniales que podrías querer comprar. ¡Adelante, siempre puedes devolverlos!
Por supuesto, Search en la era Gemini llevará esto a un nivel completamente nuevo, combinando nuestras fortalezas de infraestructura, las últimas capacidades de AI, nuestros altos estándares para la calidad de la información y nuestras décadas de experiencia conectándote con la riqueza de la web. El resultado es un producto que hace el trabajo por ti.
Google Search es AI generativa a la escala de la curiosidad humana. Y es nuestro capítulo más emocionante de Search hasta ahora. Lee más sobre la era Gemini de Search de Liz Reid.
Experiencias Gemini más inteligentes
Gemini es más que solo un chatbot; está diseñado para ser tu asistente personal útil que puede abordar tareas complejas y actuar en tu nombre.
Interactuar con Gemini debería sentirse conversacional e intuitivo. Así que, estamos anunciando una nueva experiencia Gemini llamada Live, que te permite tener una conversación en profundidad con Gemini usando tu voz. También llevaremos 2M de tokens a Gemini Advanced más adelante este año, haciendo posible subir y analizar archivos súper densos como videos y código largo. Sissie Hsiao comparte más detalles.
Gemini en Android
Con miles de millones de usuarios de Android en todo el mundo, estamos emocionados de integrar Gemini más profundamente en la experiencia del usuario. Como tu nuevo asistente de AI, Gemini está aquí para ayudarte en cualquier momento y lugar. Hemos incorporado modelos Gemini en Android, incluyendo nuestro último modelo en dispositivo: Gemini Nano con Multimodalidad, que procesa texto, imágenes, audio y habla para desbloquear nuevas experiencias mientras mantiene la información privada en tu dispositivo. Sameer Samat comparte las noticias de Android aquí.
Nuestro enfoque responsable hacia la AI
Seguimos abordando la oportunidad de la AI con audacia, con un sentido de emoción. También nos aseguramos de hacerlo de manera responsable. Estamos desarrollando una técnica de vanguardia llamada red teaming asistido por AI, que se basa en los avances de Google DeepMind en juegos como AlphaGo para mejorar nuestros modelos. Además, hemos ampliado SynthID, nuestra herramienta de marcado de agua que facilita la identificación de contenido generado por AI, a dos nuevas modalidades: texto y video. James Manyika comparte más.
Creando el futuro juntos
Todo esto muestra el importante progreso que estamos haciendo mientras adoptamos un enfoque audaz y responsable para hacer que la AI sea útil para todos.
Hemos sido AI-first en nuestro enfoque durante mucho tiempo. Nuestra liderazgo en investigación de décadas ha sido pionero en muchos de los avances modernos que impulsan el progreso de la AI, para nosotros y para la industria. Además de eso, tenemos:
- Infraestructura líder mundial construida para la era de AI
- Innovación de vanguardia en Search, ahora impulsado por Gemini
- Productos que ayudan a una escala extraordinaria, incluyendo 15 productos con medio billón de usuarios
- Y plataformas que permiten a todos—socios, clientes, creadores y todos ustedes—inventar el futuro.
Este progreso solo es posible gracias a nuestra increíble comunidad de desarrolladores. Ustedes lo están haciendo realidad, a través de las experiencias y aplicaciones que construyen todos los días. Así que, a todos aquí en Shoreline y a los millones más que miran alrededor del mundo, aquí está por las posibilidades que tenemos por delante y por crearlas juntos.

Recibe más historias de Google en tu bandeja de entrada.
Correo electrónicoTu información será utilizada de acuerdo con la política de privacidad de Google.
SuscribirseHecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.
Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot
Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas
Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios
La aplicación de IA de Meta pronto podría incluir una suscripción de pago, siguiendo el modelo de competidores como OpenAI, Google y Microsoft. Durante una llamada de resultados del primer trimestre d
comentario (27)
0/200
FredGreen
21 de agosto de 2025 09:01:19 GMT+02:00
Super cool to see Google's AI push at I/O 2024! The Gemini era sounds like a sci-fi movie, but I'm curious how it’ll actually change my daily apps. 😎
0
TimothyHernández
8 de agosto de 2025 15:00:59 GMT+02:00
Wow, Google's AI push at I/O 2024 sounds massive! The Gemini era feels like sci-fi coming to life. Curious how it’ll stack up against competitors. 😎
0
AlbertRodriguez
25 de abril de 2025 00:33:43 GMT+02:00
Google I/O 2024 foi incrível! A era Gemini parece ser o futuro que estávamos esperando. Eles têm trabalhado em IA por tanto tempo e finalmente está dando frutos. Mal posso esperar para ver o que vem a seguir! 🚀
0
StevenNelson
24 de abril de 2025 08:18:04 GMT+02:00
Google I/O 2024は本当に衝撃的だった!ジェミニ時代は待ち望んでいた未来そのものだね。彼らがAIにどれだけ投資してきたかを見ると、次に何が来るのか楽しみで仕方ないよ!🚀
0
MatthewGonzalez
23 de abril de 2025 18:59:25 GMT+02:00
O Google I/O 2024 foi incrível! A era Gemini parece o futuro que estávamos esperando. É legal ver quanto eles investiram em IA ao longo dos anos. Mal posso esperar para ver o que vem por aí! 🚀
0
ScottWalker
22 de abril de 2025 14:54:29 GMT+02:00
Google I/O 2024 was mind-blowing! The Gemini era sounds like the future we've been waiting for. They've been working on AI for so long, and it's finally paying off. Can't wait to see what they come up with next! 🚀
0
Google está abrazando completamente lo que llamamos la era Gemini.
Antes de entrar en los detalles, permíteme reflexionar un momento sobre dónde estamos. Hemos estado invirtiendo recursos en AI durante más de una década, empujando los límites en investigación, desarrollo de productos e infraestructura. Hoy, vamos a cubrir todo eso y más.
Todavía estamos al comienzo de este cambio de plataforma de AI, y el potencial es enorme: para creadores, desarrolladores, startups y todos los demás. De eso se trata la era Gemini: impulsar estas oportunidades hacia adelante. Así que, vamos a sumergirnos de lleno.
La era Gemini
El año pasado en I/O, revelamos nuestra visión para Gemini: un modelo de vanguardia diseñado para ser nativamente multimodal desde el inicio, capaz de procesar texto, imágenes, video, código y más. Es un gran salto hacia la transformación de cualquier entrada en cualquier salida: un "I/O" para la próxima generación.
Desde entonces, hemos lanzado los primeros modelos Gemini, que han establecido nuevos estándares en rendimiento multimodal. Solo dos meses después, presentamos Gemini 1.5 Pro, que trajo un avance importante en el manejo de contextos largos. Puede gestionar 1 millón de tokens en producción, superando a cualquier otro modelo de fundación a gran escala hasta la fecha.
Estamos comprometidos a asegurar que todos puedan beneficiarse de las capacidades de Gemini. Nos hemos movido rápidamente para compartir estos avances con ustedes. Hoy, más de 1.5 millones de desarrolladores están utilizando modelos Gemini en nuestras herramientas, desde depuración de código hasta obtener nuevos conocimientos y construir la próxima ola de aplicaciones de AI.
También estamos integrando las potentes funciones de Gemini en nuestros productos de manera significativa. Hoy verán ejemplos en Search, Photos, Workspace, Android y más allá.
Progreso en productos
Actualmente, todos nuestros productos con 2 mil millones de usuarios están impulsados por Gemini.
También hemos lanzado nuevas experiencias, incluyendo una aplicación móvil donde puedes interactuar directamente con Gemini, disponible tanto en Android como en iOS. Y con Gemini Advanced, obtienes acceso a nuestros modelos más avanzados. Más de 1 millón de personas se han inscrito para probarlo en solo tres meses, y el impulso sigue creciendo.
Ampliando AI Overviews en Search
Uno de los desarrollos más emocionantes con Gemini ha sido en Google Search.
Durante el último año, hemos manejado miles de millones de consultas a través de nuestra Experiencia Generativa de Búsqueda. Los usuarios están explorando Search de nuevas maneras, haciendo preguntas más largas y complejas, incluso usando fotos para buscar, y obteniendo los mejores resultados que la web tiene para ofrecer.
Hemos estado probando esta experiencia más allá de Labs, y estamos emocionados de ver no solo un aumento en el uso de Search, sino también una mayor satisfacción del usuario.
Estoy emocionado de anunciar que comenzaremos a implementar esta experiencia completamente renovada, AI Overviews, para todos en los EE. UU. esta semana, con más países que seguirán pronto.
Gracias a Gemini, estamos empujando los límites de lo que es posible en Search, incluyendo dentro de nuestros propios productos.
Presentando Ask Photos
Tomemos Google Photos, por ejemplo, que lanzamos hace casi nueve años. Se ha convertido en una herramienta esencial para organizar los recuerdos más preciosos de la vida, con más de 6 mil millones de fotos y videos subidos diariamente.
A la gente le encanta usar Photos para buscar en sus vidas. Con Gemini, estamos haciendo esto aún más fácil.
Imagina que estás en una estación de estacionamiento y no recuerdas tu matrícula. Antes, tendrías que buscar en Photos con palabras clave y desplazarte por años de fotos para encontrarla. Ahora, simplemente puedes preguntar a Photos. Reconoce los autos que usas con frecuencia, determina cuál es el tuyo y te da el número de la matrícula.
Ask Photos también puede ayudarte a profundizar en tus recuerdos. Digamos que estás recordando los primeros hitos de tu hija Lucía. Puedes preguntar a Photos, "¿Cuándo aprendió Lucía a nadar?"
Luego puedes seguir con algo más complejo, como, "Muéstrame cómo ha progresado la natación de Lucía."
Aquí, Gemini va más allá de una simple búsqueda, entendiendo diferentes contextos: desde vueltas en la piscina hasta snorkel en el océano, hasta el texto y las fechas en sus certificados de natación. Photos luego compila todo en un resumen, permitiéndote revivir esos recuerdos increíbles. Estamos implementando Ask Photos este verano, con más funciones en camino.
El enfoque de Gemini en multimodalidad está diseñado para desbloquear conocimiento en varios formatos. Es un modelo que entiende y conecta diferentes tipos de entrada.
Este enfoque amplía los tipos de preguntas que podemos hacer y las respuestas que recibimos. El contexto largo lleva esto más lejos, permitiéndonos procesar grandes cantidades de información: cientos de páginas de texto, horas de audio, una hora de video, repositorios de código completos, o incluso 96 menús de Cheesecake Factory.
Para esos muchos menús, necesitarías una ventana de contexto de un millón de tokens, lo que ahora es posible con Gemini 1.5 Pro. Los desarrolladores lo están usando de maneras bastante interesantes.
Hemos estado implementando Gemini 1.5 Pro con contexto largo en vista previa durante los últimos meses, haciendo mejoras de calidad en traducción, codificación y razonamiento. Estas actualizaciones ahora se reflejan en el modelo.
Estoy emocionado de anunciar que estamos haciendo esta versión mejorada de Gemini 1.5 Pro disponible para todos los desarrolladores globalmente. Además, Gemini 1.5 Pro con 1 millón de contexto ahora es directamente accesible para consumidores en Gemini Advanced, soportando 35 idiomas.
Ampliando a 2 millones de tokens en vista previa privada
Un millón de tokens ha abierto nuevas posibilidades, pero no nos detenemos ahí.
Hoy, estamos expandiendo la ventana de contexto a 2 millones de tokens, disponible para desarrolladores en vista previa privada.
Es increíble ver cuánto hemos avanzado en solo unos meses. Este es otro paso hacia nuestro objetivo final de contexto infinito.
Hemos discutido dos avances técnicos clave: multimodalidad y contexto largo. Cada uno es poderoso por sí solo, pero juntos, desbloquean capacidades e inteligencia aún más profundas.
Esto es evidente en Google Workspace.
Las personas a menudo buscan en sus correos en Gmail. Con Gemini, estamos haciendo esto mucho más poderoso. Por ejemplo, como padre, quieres mantenerte actualizado sobre las actividades escolares de tu hijo. Gemini puede ayudarte a seguirle la pista.
Puedes pedirle a Gemini que resuma los correos recientes de la escuela. En segundo plano, identifica los correos relevantes e incluso analiza archivos adjuntos como PDFs. Obtienes un resumen de los puntos clave y elementos de acción. Si te perdiste la reunión de la PTA porque estabas viajando, y la grabación dura una hora, Gemini puede resaltar las partes importantes si es de Google Meet. Si hay una convocatoria para voluntarios y estás libre, Gemini puede redactar una respuesta por ti.
Hay innumerables formas en que esto puede simplificar tu vida. Gemini 1.5 Pro está disponible hoy en Workspace Labs. Aparna compartirá más detalles.
Hemos visto ejemplos con salidas de texto, pero con un modelo multimodal, podemos hacer mucho más.
Estamos progresando aquí, con más por venir. Audio Overviews en NotebookLM lo demuestra. Usa Gemini 1.5 Pro para generar una conversación de audio personalizada e interactiva a partir de tus materiales fuente.
Este es el potencial de la multimodalidad. Pronto, podrás mezclar y combinar entradas y salidas. Esto es lo que queremos decir con un "I/O" para una nueva generación. Pero, ¿y si pudiéramos ir aún más lejos?
Una de las oportunidades emocionantes que vemos es con los Agentes de AI. Estos son sistemas inteligentes que pueden razonar, planificar y recordar. Pueden pensar varios pasos adelante y trabajar a través de software y sistemas para realizar tareas en tu nombre, siempre bajo tu supervisión.
Todavía estamos en las primeras etapas, pero déjame darte un vistazo de los tipos de casos de uso en los que estamos trabajando.
Tomemos las compras, por ejemplo. Es divertido comprar zapatos, pero no tanto devolverlos si no te quedan bien.
Imagina si Gemini pudiera manejar todos los pasos por ti:
- Buscando en tu bandeja de entrada el recibo...
- Localizando el número de pedido de tu correo...
- Rellenando un formulario de devolución...
- Incluso programando una recogida de UPS.
Eso es mucho más fácil, ¿verdad?
Consideremos un escenario más complejo. Digamos que te acabas de mudar a Chicago. Gemini y Chrome pueden trabajar juntos para ayudarte a establecerte: organizando, razonando y sintetizando información en tu nombre.
Querrás explorar la ciudad y encontrar servicios locales, desde tintorerías hasta paseadores de perros. También necesitarás actualizar tu nueva dirección en numerosos sitios web.
Gemini puede gestionar estas tareas y pedirá más información cuando sea necesario, asegurando que siempre tengas el control.
Esto es crucial: mientras desarrollamos estas experiencias, nos enfocamos en la privacidad, la seguridad y hacerlas accesibles para todos.
Estos son ejemplos simples, pero ilustran los tipos de problemas que pretendemos resolver construyendo sistemas inteligentes que piensen por adelantado, razonen y planifiquen en tu nombre.
Lo que significa para nuestra misión
El poder de Gemini, con su multimodalidad, contexto largo y agentes, nos acerca a nuestro objetivo final: hacer que la AI sea útil para todos.
Así es como haremos el mayor progreso hacia nuestra misión: organizar la información del mundo a través de cualquier entrada, haciéndola accesible mediante cualquier salida, y combinando la información del mundo con la información de TU mundo de una manera verdaderamente útil.
Rompiendo nuevos caminos
Para realizar completamente el potencial de la AI, necesitamos empujar los límites. El equipo de Google DeepMind ha estado trabajando arduamente en esto.
Hemos visto mucha emoción en torno a 1.5 Pro y su ventana de contexto largo. Pero los desarrolladores también querían algo más rápido y rentable. Así que, mañana, presentamos Gemini 1.5 Flash, un modelo más ligero diseñado para escala. Está optimizado para tareas donde la baja latencia y el costo son cruciales. 1.5 Flash estará disponible en AI Studio y Vertex AI el martes.
Mirando hacia el futuro, siempre hemos querido construir un agente universal útil en la vida cotidiana. El Proyecto Astra demuestra comprensión multimodal y capacidades conversacionales en tiempo real.
También hemos avanzado en la generación de video e imágenes con Veo e Imagen 3, y presentamos Gemma 2.0, nuestra próxima generación de modelos abiertos para la innovación responsable de AI. Puedes leer más de Demis Hassabis.
Infraestructura para la era de AI: Presentando Trillium
Entrenar modelos de vanguardia requiere mucha potencia de cálculo. La demanda de cómputo de ML ha crecido por un factor de 1 millón en los últimos seis años, y aumenta diez veces cada año.
Google fue construido para esto. Durante 25 años, hemos invertido en infraestructura técnica de clase mundial, desde el hardware de vanguardia que impulsa Search hasta nuestras unidades de procesamiento de tensores personalizadas que impulsan nuestros avances en AI.
Gemini fue entrenado y servido completamente en nuestras TPUs de cuarta y quinta generación. Otras empresas líderes de AI, incluyendo Anthropic, también han entrenado sus modelos en nuestras TPUs.
Hoy, estamos emocionados de anunciar nuestra sexta generación de TPUs, llamada Trillium. Trillium es nuestra TPU más performante y eficiente hasta la fecha, ofreciendo una mejora de 4.7x en el rendimiento de cómputo por chip sobre la generación anterior, TPU v5e.
Haremos que Trillium esté disponible para nuestros clientes de Cloud a finales de 2024.
Junto con nuestras TPUs, estamos orgullosos de ofrecer CPUs y GPUs para soportar cualquier carga de trabajo. Esto incluye los nuevos procesadores Axion que anunciamos el mes pasado, nuestra primera CPU basada en Arm personalizada que ofrece un rendimiento y eficiencia energética líderes en la industria.
También somos uno de los primeros proveedores de Cloud en ofrecer las GPUs Blackwell de vanguardia de Nvidia, disponibles a principios de 2025. Nuestra larga asociación con NVIDIA nos permite llevar las capacidades innovadoras de Blackwell a nuestros clientes.
Los chips son una parte fundamental de nuestro sistema integrado de extremo a extremo, desde hardware optimizado para el rendimiento y software abierto hasta modelos de consumo flexibles. Todo esto se une en nuestro AI Hypercomputer, una arquitectura de supercomputadora innovadora.
Las empresas y desarrolladores lo están usando para abordar desafíos más complejos, con más del doble de eficiencia en comparación con solo comprar el hardware y chips en bruto. Los avances de nuestro AI Hypercomputer son posibles en parte debido a nuestro enfoque de enfriamiento líquido en nuestros centros de datos.
Hemos estado haciendo esto durante casi una década, mucho antes de que se convirtiera en el estándar de la industria. Hoy, nuestra capacidad total desplegada para sistemas de enfriamiento líquido es de casi 1 gigavatio y sigue creciendo, eso es cerca de 70 veces la capacidad de cualquier otra flota.
Subyacente a esto está la escala pura de nuestra red, que conecta nuestra infraestructura globalmente. Nuestra red abarca más de 2 millones de millas de fibra terrestre y submarina: más de 10 veces el alcance del próximo proveedor de nube líder.
Continuaremos haciendo las inversiones necesarias para avanzar en la innovación de AI y ofrecer capacidades de vanguardia.
El capítulo más emocionante de Search hasta ahora
Una de nuestras mayores áreas de inversión e innovación está en nuestro producto fundacional, Search. Hace 25 años, creamos Search para ayudar a las personas a navegar por la avalancha de información que se trasladaba en línea.
Con cada cambio de plataforma, hemos entregado avances para responder mejor a tus preguntas. En móviles, desbloqueamos nuevos tipos de preguntas y respuestas, usando un mejor contexto, conciencia de ubicación e información en tiempo real. Con avances en la comprensión del lenguaje natural y la visión por computadora, habilitamos nuevas formas de buscar, como usar tu voz o tararear para encontrar tu nueva canción favorita, o usar una imagen de esa flor que viste en tu paseo. Y ahora incluso puedes Circle to Search esos zapatos nuevos y geniales que podrías querer comprar. ¡Adelante, siempre puedes devolverlos!
Por supuesto, Search en la era Gemini llevará esto a un nivel completamente nuevo, combinando nuestras fortalezas de infraestructura, las últimas capacidades de AI, nuestros altos estándares para la calidad de la información y nuestras décadas de experiencia conectándote con la riqueza de la web. El resultado es un producto que hace el trabajo por ti.
Google Search es AI generativa a la escala de la curiosidad humana. Y es nuestro capítulo más emocionante de Search hasta ahora. Lee más sobre la era Gemini de Search de Liz Reid.
Experiencias Gemini más inteligentes
Gemini es más que solo un chatbot; está diseñado para ser tu asistente personal útil que puede abordar tareas complejas y actuar en tu nombre.
Interactuar con Gemini debería sentirse conversacional e intuitivo. Así que, estamos anunciando una nueva experiencia Gemini llamada Live, que te permite tener una conversación en profundidad con Gemini usando tu voz. También llevaremos 2M de tokens a Gemini Advanced más adelante este año, haciendo posible subir y analizar archivos súper densos como videos y código largo. Sissie Hsiao comparte más detalles.
Gemini en Android
Con miles de millones de usuarios de Android en todo el mundo, estamos emocionados de integrar Gemini más profundamente en la experiencia del usuario. Como tu nuevo asistente de AI, Gemini está aquí para ayudarte en cualquier momento y lugar. Hemos incorporado modelos Gemini en Android, incluyendo nuestro último modelo en dispositivo: Gemini Nano con Multimodalidad, que procesa texto, imágenes, audio y habla para desbloquear nuevas experiencias mientras mantiene la información privada en tu dispositivo. Sameer Samat comparte las noticias de Android aquí.
Nuestro enfoque responsable hacia la AI
Seguimos abordando la oportunidad de la AI con audacia, con un sentido de emoción. También nos aseguramos de hacerlo de manera responsable. Estamos desarrollando una técnica de vanguardia llamada red teaming asistido por AI, que se basa en los avances de Google DeepMind en juegos como AlphaGo para mejorar nuestros modelos. Además, hemos ampliado SynthID, nuestra herramienta de marcado de agua que facilita la identificación de contenido generado por AI, a dos nuevas modalidades: texto y video. James Manyika comparte más.
Creando el futuro juntos
Todo esto muestra el importante progreso que estamos haciendo mientras adoptamos un enfoque audaz y responsable para hacer que la AI sea útil para todos.
Hemos sido AI-first en nuestro enfoque durante mucho tiempo. Nuestra liderazgo en investigación de décadas ha sido pionero en muchos de los avances modernos que impulsan el progreso de la AI, para nosotros y para la industria. Además de eso, tenemos:
- Infraestructura líder mundial construida para la era de AI
- Innovación de vanguardia en Search, ahora impulsado por Gemini
- Productos que ayudan a una escala extraordinaria, incluyendo 15 productos con medio billón de usuarios
- Y plataformas que permiten a todos—socios, clientes, creadores y todos ustedes—inventar el futuro.
Este progreso solo es posible gracias a nuestra increíble comunidad de desarrolladores. Ustedes lo están haciendo realidad, a través de las experiencias y aplicaciones que construyen todos los días. Así que, a todos aquí en Shoreline y a los millones más que miran alrededor del mundo, aquí está por las posibilidades que tenemos por delante y por crearlas juntos.
Recibe más historias de Google en tu bandeja de entrada.
Correo electrónicoTu información será utilizada de acuerdo con la política de privacidad de Google.
SuscribirseHecho. Solo un paso más.
Revisa tu bandeja de entrada para confirmar tu suscripción.
Ya estás suscrito a nuestro boletín.
También puedes suscribirte con una dirección de correo electrónico diferente.



Super cool to see Google's AI push at I/O 2024! The Gemini era sounds like a sci-fi movie, but I'm curious how it’ll actually change my daily apps. 😎




Wow, Google's AI push at I/O 2024 sounds massive! The Gemini era feels like sci-fi coming to life. Curious how it’ll stack up against competitors. 😎




Google I/O 2024 foi incrível! A era Gemini parece ser o futuro que estávamos esperando. Eles têm trabalhado em IA por tanto tempo e finalmente está dando frutos. Mal posso esperar para ver o que vem a seguir! 🚀




Google I/O 2024は本当に衝撃的だった!ジェミニ時代は待ち望んでいた未来そのものだね。彼らがAIにどれだけ投資してきたかを見ると、次に何が来るのか楽しみで仕方ないよ!🚀




O Google I/O 2024 foi incrível! A era Gemini parece o futuro que estávamos esperando. É legal ver quanto eles investiram em IA ao longo dos anos. Mal posso esperar para ver o que vem por aí! 🚀




Google I/O 2024 was mind-blowing! The Gemini era sounds like the future we've been waiting for. They've been working on AI for so long, and it's finally paying off. Can't wait to see what they come up with next! 🚀












