opción
Hogar
Noticias
Géminis presenta un modelo mejorado, contexto extendido, agentes de IA

Géminis presenta un modelo mejorado, contexto extendido, agentes de IA

10 de abril de 2025
149

En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.

Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.

Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.

Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.

No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.

Longitudes de contexto de los principales modelos fundacionales comparados con la capacidad de 2 millones de tokens de Gemini 1.5

Actualizaciones de la familia de modelos Gemini

El nuevo 1.5 Flash, optimizado para velocidad y eficiencia

Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.

Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.

El nuevo modelo Gemini 1.5 Flash está optimizado para velocidad y eficiencia, es altamente capaz en razonamiento multimodal y cuenta con nuestra innovadora ventana de contexto extensa.

1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.

Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.

Mejorando significativamente 1.5 Pro

En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.

Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.

1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.

También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.

Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.

Gemini Nano comprende entradas multimodales

Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.

Conoce más sobre Gemini 1.0 Nano en Android.

Próxima generación de modelos abiertos

Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.

Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.

La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.

Para más detalles, visita el blog de Desarrolladores.

Progreso en el desarrollo de agentes de IA universales

En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).

Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.

Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.

Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.

Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.

Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.

Exploración continua

Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.

Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.

Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.

Dirección de correo electrónico Tu información se usará de acuerdo con la política de privacidad de Google.

Suscríbete Hecho. Solo un paso más.

Revisa tu bandeja de entrada para confirmar tu suscripción.

Ya estás suscrito a nuestro boletín.

También puedes suscribirte con una dirección de correo electrónico diferente.

Artículo relacionado
WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas WordPress.com ya permite que los agentes de IA redacten y publiquen entradas, entre otras cosas WordPress.com, la popular plataforma de alojamiento web y publicación, está incorporando ahora agentes de IA, una iniciativa que podría transformar el aspecto y la experiencia de la web. La empresa an
Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física Kakao Mobility presenta su hoja de ruta para la conducción autónoma de nivel 4 basada en la IA física Kakao Mobility tiene previsto desarrollar internamente tecnologías de conducción autónoma de nivel 4 como parte de su estrategia de IA física.En la conferencia World IT Show 2026, celebrada en el COE
Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general Barry Diller: La confianza en Sam Altman es irrelevante a medida que se acerca la IA general Barry Diller, el multimillonario magnate de los medios de comunicación, no cree que Sam Altman, director ejecutivo de OpenAI, sea poco digno de confianza, a pesar de los recientes informes que sugiere
Recomendaciones de temas especiales relacionados
Negocio Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa
Los mejores gestores de gastos con IA: escanea recibos y clasifica automáticamente los gastos de la empresa

Los mejores gestores de gastos con IA de 2026: las herramientas mejor valoradas para escanear recibos y clasificar automáticamente los gastos de la empresa. Descubre soluciones potentes y revolucionarias para una gestión de gastos sin esfuerzo, un seguimiento financiero preciso y un cumplimiento normativo optimizado. Nuestra comparativa, seleccionada y actualizada semanalmente, entre opciones gratuitas y de pago te ayuda a encontrar la que mejor se adapta a tus necesidades. Aprovecha al máximo las ventajas de la IA con las recomendaciones de los expertos de XIX.AI.

10 herramientas
xix.ai
Negocio Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos
Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas
xix.ai
Productividad Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental
Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas
xix.ai
chatbot Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes
Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas
xix.ai
Educación y aprendizaje Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.
Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas
xix.ai
chatbot Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real
Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas
xix.ai
comentario (26)
0/500
GregoryWilson
GregoryWilson 27 de abril de 2026 22:00:25 GMT+02:00

Geminiの進化がすごいですね!長いコンテキストウィンドウは実用的なAIエージェント開発に革命をもたらしそう。でも、競争激化で倫理的なガイドラインが追いついてるか少し心配。🤔 個人的には、もっと小さなプロジェクトでも使える軽量版が早く出てくると嬉しいな。

LucasWalker
LucasWalker 18 de abril de 2025 23:37:58 GMT+02:00

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない!🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです!🚀

FrankSmith
FrankSmith 16 de abril de 2025 02:37:56 GMT+02:00

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller
JamesMiller 15 de abril de 2025 19:53:33 GMT+02:00

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts
MarkRoberts 15 de abril de 2025 03:25:31 GMT+02:00

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia
BillyGarcia 14 de abril de 2025 21:20:08 GMT+02:00

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

OR