Géminis presenta un modelo mejorado, contexto extendido, agentes de IA

Hogar

Noticias

10 de abril de 2025

DavidThomas

# ai

En diciembre, lanzamos nuestro primer modelo multimodal nativo, Gemini 1.0, disponible en tres tamaños: Ultra, Pro y Nano. Unos meses después, presentamos 1.5 Pro, con un rendimiento mejorado y una ventana de contexto innovadora de 1 millón de tokens.

Desarrolladores y clientes empresariales han aprovechado 1.5 Pro de maneras sorprendentes, valorando su ventana de contexto extensa, razonamiento multimodal robusto y un rendimiento estelar general.

Los comentarios de los usuarios destacaron la necesidad de modelos con menor latencia y costo, lo que nos motivó a seguir innovando. Por eso, hoy presentamos con entusiasmo Gemini 1.5 Flash. Este modelo es más ligero que 1.5 Pro, diseñado para ser rápido, eficiente y perfecto para escalar.

Tanto 1.5 Pro como 1.5 Flash están ahora en vista previa pública, con una ventana de contexto de 1 millón de tokens, accesibles a través de Google AI Studio y Vertex AI. Para quienes necesitan más, 1.5 Pro ahora ofrece una ventana de contexto de 2 millones de tokens, disponible mediante lista de espera para desarrolladores que usen la API y clientes de Google Cloud.

No nos detenemos ahí. También estamos implementando actualizaciones en toda la familia Gemini, presentando la próxima generación de modelos abiertos, Gemma 2, y avanzando en el futuro de los asistentes de IA con Project Astra.

Longitudes de contexto de los principales modelos fundacionales comparados con la capacidad de 2 millones de tokens de Gemini 1.5

Actualizaciones de la familia de modelos Gemini

El nuevo 1.5 Flash, optimizado para velocidad y eficiencia

Presentamos 1.5 Flash, el miembro más reciente y rápido de la familia Gemini, servido a través de nuestra API. Está diseñado para tareas de alto volumen y alta frecuencia, ofreciendo escalabilidad rentable mientras mantiene nuestra innovadora ventana de contexto extensa.

Aunque es más ligero que 1.5 Pro, 1.5 Flash no se queda atrás. Destaca en el razonamiento multimodal en grandes conjuntos de datos, ofreciendo una calidad impresionante en relación con su tamaño.

El nuevo modelo Gemini 1.5 Flash está optimizado para velocidad y eficiencia, es altamente capaz en razonamiento multimodal y cuenta con nuestra innovadora ventana de contexto extensa.

1.5 Flash destaca en tareas como resumen, aplicaciones de chat, y subtitulado de imágenes y videos. También es hábil en extraer datos de documentos largos y tablas. Esta versatilidad proviene de ser entrenado por 1.5 Pro a través de "destilación", donde el conocimiento y habilidades principales de un modelo más grande se transfieren a un modelo más eficiente y pequeño.

Para más detalles sobre 1.5 Flash, consulta nuestro informe técnico actualizado de Gemini 1.5, la página de tecnología de Gemini y conoce su disponibilidad y precios.

Mejorando significativamente 1.5 Pro

En los últimos meses, hemos logrado avances significativos en la mejora de 1.5 Pro, nuestro mejor intérprete en una amplia gama de tareas.

Hemos ampliado su ventana de contexto a 2 millones de tokens y mejorado sus capacidades en generación de código, razonamiento lógico, planificación, conversaciones multi-turno y comprensión de audio e imágenes. Estos avances están respaldados por mejoras en datos y algoritmos, mostrando mejoras marcadas en puntos de referencia públicos e internos.

1.5 Pro ahora maneja instrucciones cada vez más complejas y matizadas, incluidas aquellas que definen comportamientos a nivel de producto como rol, formato y estilo. Hemos refinado el control sobre las respuestas del modelo para casos de uso específicos, como personalizar personas de agentes de chat o automatizar flujos de trabajo con múltiples llamadas a funciones. Los usuarios ahora pueden dirigir el comportamiento del modelo con instrucciones del sistema.

También hemos añadido comprensión de audio a la API de Gemini y Google AI Studio, permitiendo a 1.5 Pro procesar imágenes y audio de videos subidos a Google AI Studio. Estamos integrando 1.5 Pro en productos de Google como Gemini Advanced y aplicaciones de Workspace.

Para más información sobre 1.5 Pro, consulta nuestro informe técnico actualizado de Gemini 1.5 y la página de tecnología de Gemini.

Gemini Nano comprende entradas multimodales

Gemini Nano está mejorando, pasando de entradas solo de texto a incluir imágenes. Comenzando con Pixel, las aplicaciones que usen Gemini Nano con Multimodalidad podrán interpretar el mundo de una manera más humana, a través de texto, imágenes, sonido y lenguaje hablado.

Conoce más sobre Gemini 1.0 Nano en Android.

Próxima generación de modelos abiertos

Hoy también actualizamos Gemma, nuestra familia de modelos abiertos, construidos con la misma investigación y tecnología que los modelos Gemini.

Lanzamos Gemma 2, nuestra próxima generación de modelos abiertos para la innovación responsable de IA. Gemma 2 cuenta con una nueva arquitectura para un rendimiento y eficiencia superiores, y estará disponible en nuevos tamaños.

La familia Gemma crece con PaliGemma, nuestro primer modelo de visión-lenguaje inspirado por PaLI-3. También hemos actualizado nuestro Kit de Herramientas de IA Generativa Responsable con LLM Comparator para evaluar la calidad de las respuestas del modelo.

Para más detalles, visita el blog de Desarrolladores.

Progreso en el desarrollo de agentes de IA universales

En Google DeepMind, nuestra misión es construir IA de manera responsable para beneficiar a la humanidad. Siempre hemos aspirado a crear agentes de IA universales que puedan asistir en la vida cotidiana. Por eso compartimos nuestro progreso en el futuro de los asistentes de IA con Project Astra (agente receptivo avanzado de visión y habla).

Para que un agente de IA sea realmente útil, debe entender y reaccionar al mundo como un humano, captando y recordando lo que ve y oye para comprender el contexto y actuar en consecuencia. También debe ser proactivo, enseñable y personal, permitiendo conversaciones naturales y sin retrasos.

Aunque hemos logrado grandes avances en el procesamiento de información multimodal, lograr tiempos de respuesta conversacionales es un desafío de ingeniería difícil. A lo largo de los años, hemos refinado cómo nuestros modelos perciben, razonan y conversan para que las interacciones sean más naturales.

Basándonos en Gemini, hemos desarrollado agentes prototipo que procesan información más rápido al codificar continuamente fotogramas de video, fusionando entradas de video y voz en una línea de tiempo de eventos y almacenando estos datos para un acceso rápido.

Usando nuestros modelos de voz de primer nivel, también hemos mejorado cómo suenan estos agentes, dándoles una gama más amplia de entonaciones. Pueden entender mejor el contexto en el que están y responder rápidamente en la conversación.

Con esta tecnología, es fácil imaginar un futuro donde todos tengan un asistente de IA experto a su lado, accesible a través de un teléfono o gafas. Algunas de estas capacidades llegarán a productos de Google como la aplicación Gemini y la experiencia web más adelante este año.

Exploración continua

Hemos recorrido un largo camino con nuestra familia de modelos Gemini, y estamos comprometidos a seguir empujando los límites aún más. A través de la innovación constante, estamos explorando nuevas fronteras mientras desbloqueamos casos de uso emocionantes para Gemini.

Para saber más sobre Gemini y sus capacidades, consulta nuestros recursos.

Recibe más historias de Google en tu bandeja de entrada. Recibe más historias de Google en tu bandeja de entrada.

Dirección de correo electrónico Tu información se usará de acuerdo con la política de privacidad de Google.

Suscríbete Hecho. Solo un paso más.

Revisa tu bandeja de entrada para confirmar tu suscripción.

Ya estás suscrito a nuestro boletín.

También puedes suscribirte con una dirección de correo electrónico diferente.

Artículo relacionado

Anthropic resuelve un caso de piratería de libros generados por inteligencia artificial Anthropic ha llegado a una resolución en un importante litigio sobre derechos de autor con autores estadounidenses, aceptando una propuesta de acuerdo de demanda colectiva que evita un juicio potencia

Figma pone a disposición de todos los usuarios su herramienta de creación de aplicaciones basada en inteligencia artificial Figma Make, la innovadora plataforma de desarrollo "prompt-to-app" presentada a principios de este año, ha salido oficialmente de la fase beta y se ha puesto a disposición de todos los usuarios. Esta

R1: El gigante tecnológico chino presenta un robot humanoide similar a Optimus Ant Group presenta su primer prototipo de robot humanoideLa división de robótica del gigante de los pagos ha presentado su humanoide R1 en importantes eventos tecnológicos, haciendo demostraciones de

comentario (25)

0/200

Entregar

LucasWalker

18 de abril de 2025 23:37:58 GMT+02:00

ジェミニの新しいモデルが100万トークンのコンテキストを持つとは信じられない！🤯 まるで何でも扱える超賢いAIを持っているようです。AIエージェントもゲームチェンジャーです。次に何を出すのか楽しみです！🚀

FrankSmith

16 de abril de 2025 02:37:56 GMT+02:00

젬니니의 새로운 모델 정말 멋지네요! 100만 토큰의 컨텍스트 윈도우는 정말 놀랍습니다. 마치 모든 대화를 기억하는 똑똑한 친구가 있는 것 같아요! 조금 더 빨랐으면 좋겠지만, 뭐 다 가질 수는 없죠? 🤓

JamesMiller

15 de abril de 2025 19:53:33 GMT+02:00

O novo modelo do Gemini é bem legal! A janela de contexto de 1 milhão de tokens é louca, é como ter um amigo superinteligente que lembra de tudo o que você já disse! Só queria que fosse um pouco mais rápido, mas, ei, não dá pra ter tudo, né? 🤓

MarkRoberts

15 de abril de 2025 03:25:31 GMT+02:00

El nuevo modelo Gemini es impresionante, especialmente la ventana de contexto larga. Es genial para desarrolladores, pero puede ser un poco abrumador para principiantes. Los agentes de IA son geniales, pero desearía que hubiera más documentación sobre cómo usarlos de manera efectiva.

BillyGarcia

14 de abril de 2025 21:20:08 GMT+02:00

O novo modelo do Gemini com um contexto de um milhão de tokens é loucura! 🤯 É como ter uma IA super inteligente que pode lidar com qualquer coisa. Os agentes de IA também são um divisor de águas. Mal posso esperar para ver o que eles vão lançar a seguir! 🚀

RogerRoberts

14 de abril de 2025 19:06:25 GMT+02:00

¡El nuevo modelo de Gemini es bastante genial! La ventana de contexto de 1 millón de tokens es una locura, es como tener un amigo súper inteligente que recuerda todo lo que has dicho alguna vez. Ojalá fuera un poco más rápido, pero bueno, no se puede tener todo, ¿verdad? 🤓

Noticias principales

Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera Operai mejora el asistente de voz de IA para mejores chats AI Builder y Power Automate Revolucionan la Sumarización de Documentos Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude

Más

Presentado