opción
Hogar
Noticias
Comprensión de las ventanas de contexto largo: información clave

Comprensión de las ventanas de contexto largo: información clave

10 de abril de 2025
153

Ayer, presentamos nuestro último avance en tecnología de IA con el modelo Gemini 1.5. Esta nueva iteración aporta mejoras significativas en velocidad y eficiencia, pero el verdadero cambio de juego es su innovadora ventana de contexto largo. Esta característica permite al modelo procesar un número sin precedentes de tokens —las unidades fundamentales que componen palabras, imágenes o videos— de una sola vez. Para arrojar luz sobre este avance, recurrimos al equipo del proyecto Google DeepMind para obtener información sobre qué son las ventanas de contexto largo y cómo pueden revolucionar el trabajo de los desarrolladores.

Comprender las ventanas de contexto largo es crucial porque permiten a los modelos de IA mantener y recordar información a lo largo de una sesión. Imagina intentar recordar un nombre minutos después de que se mencione en una conversación, o apresurarte a escribir un número de teléfono antes de que se te olvide. Los modelos de IA enfrentan desafíos similares, a menudo "olvidando" detalles tras pocas interacciones. Las ventanas de contexto largo abordan este problema al permitir que el modelo mantenga más información en su "memoria".

Anteriormente, el modelo Gemini podía manejar hasta 32,000 tokens simultáneamente. Sin embargo, con el lanzamiento de 1.5 Pro para pruebas iniciales, hemos llevado los límites a un asombroso 1 millón de tokens —la ventana de contexto más grande de cualquier modelo fundacional a gran escala hasta la fecha. Nuestra investigación ha ido más allá, probando con éxito hasta 10 millones de tokens. Cuanto más grande es la ventana de contexto, más diversos y extensos son los datos —texto, imágenes, audio, código o video— que el modelo puede procesar.

Nikolay Savinov, científico de investigación de Google DeepMind y uno de los líderes en el proyecto de contexto largo, compartió: "Nuestro objetivo inicial era alcanzar 128,000 tokens, pero pensé que apuntar más alto sería beneficioso, así que propuse 1 millón de tokens. Y ahora, nuestra investigación ha superado eso por 10 veces."

Lograr este salto requirió una serie de innovaciones en aprendizaje profundo. Las exploraciones iniciales de Pranav Shyam proporcionaron conocimientos cruciales que guiaron nuestra investigación. Denis Teplyashin, ingeniero de Google DeepMind, explicó: "Cada avance llevó a otro, abriendo nuevas posibilidades. Cuando estas innovaciones se combinaron, nos sorprendieron los resultados, escalando de 128,000 tokens a 512,000, luego a 1 millón, y recientemente, a 10 millones de tokens en nuestra investigación interna."

La capacidad ampliada de 1.5 Pro abre nuevas aplicaciones emocionantes. Por ejemplo, en lugar de resumir un documento de docenas de páginas, ahora puede manejar documentos de miles de páginas. Donde el modelo anterior podía analizar miles de líneas de código, 1.5 Pro ahora puede procesar decenas de miles de líneas a la vez.

Machel Reid, otro científico de investigación de Google DeepMind, compartió resultados de pruebas fascinantes: "En una prueba, alimentamos todo el código base al modelo, y generó una documentación completa para él, lo cual fue increíble. En otra, respondió con precisión preguntas sobre la película de 1924 Sherlock Jr. después de 'ver' la película completa de 45 minutos."

1.5 Pro también destaca en el razonamiento sobre datos dentro de un prompt. Machel destacó un ejemplo que involucra el idioma raro Kalamang, hablado por menos de 200 personas en todo el mundo. "El modelo no puede traducir al Kalamang por sí solo, pero con la ventana de contexto largo, pudimos incluir el manual de gramática completo y oraciones de ejemplo. El modelo entonces aprendió a traducir del inglés al Kalamang a un nivel comparable al de alguien que aprende del mismo material."

Gemini 1.5 Pro viene con una ventana de contexto estándar de 128K tokens, pero un grupo selecto de desarrolladores y clientes empresariales puede acceder a una ventana de contexto de 1 millón de tokens a través de AI Studio y Vertex AI en vista previa privada. Gestionar una ventana de contexto tan grande es computacionalmente intensivo, y estamos trabajando activamente en optimizaciones para reducir la latencia mientras escalamos.

De cara al futuro, el equipo se centra en hacer que el modelo sea más rápido y eficiente, con la seguridad como prioridad. También están explorando formas de expandir aún más la ventana de contexto largo, mejorar las arquitecturas subyacentes y aprovechar las mejoras en hardware. Nikolay señaló: "10 millones de tokens a la vez están acercándose al límite térmico de nuestras Unidades de Procesamiento de Tensores. No estamos seguros de dónde está el límite aún, y el modelo podría ser capaz de más a medida que el hardware siga evolucionando."

El equipo está ansioso por ver las aplicaciones innovadoras que los desarrolladores y la comunidad en general crearán con estas nuevas capacidades. Machel reflexionó: "Cuando vi por primera vez que teníamos un millón de tokens en contexto, me pregunté, '¿Para qué se usa esto?' Pero ahora, creo que la imaginación de las personas se expandirá, llevando a usos más creativos de estas nuevas capacidades."

[ttpp][yyxx]

Artículo relacionado
Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce Presenta Compañeros Digitales de IA en Slack para Competir con Microsoft Copilot Salesforce lanzó una nueva estrategia de IA para el lugar de trabajo, presentando “compañeros digitales” especializados integrados en las conversaciones de Slack, según reveló la compañía el lunes.La
Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Inversión de Oracle de $40 mil millones en chips Nvidia impulsa el centro de datos de IA en Texas Oracle planea invertir aproximadamente $40 mil millones en chips Nvidia para alimentar un importante centro de datos nuevo en Texas, desarrollado por OpenAI, según informó el Financial Times. Este acu
Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios Aplicación de Meta AI para Introducir un Nivel Premium y Anuncios La aplicación de IA de Meta pronto podría incluir una suscripción de pago, siguiendo el modelo de competidores como OpenAI, Google y Microsoft. Durante una llamada de resultados del primer trimestre d
comentario (28)
0/200
KeithSmith
KeithSmith 17 de agosto de 2025 09:00:59 GMT+02:00

Super cool to see Gemini 1.5's long context window in action! 😎 Makes me wonder how it'll handle massive datasets compared to older models.

RobertSanchez
RobertSanchez 31 de julio de 2025 03:41:19 GMT+02:00

Wow, the long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Excited to see where this takes AI! 🚀

DavidGonzález
DavidGonzález 28 de julio de 2025 03:19:30 GMT+02:00

The long context window in Gemini 1.5 sounds like a game-changer! I'm curious how it'll handle massive datasets in real-world apps. Any cool examples out there yet? 🤔

RobertRoberts
RobertRoberts 17 de abril de 2025 01:56:25 GMT+02:00

Cửa sổ ngữ cảnh dài của Gemini 1.5 thực sự là một bước tiến lớn! Thật đáng kinh ngạc khi nó có thể xử lý nhiều hơn so với các mô hình cũ. Chỉ mong nó nhanh hơn một chút. Tuy nhiên, đây là một bước tiến lớn! 💪

MatthewGonzalez
MatthewGonzalez 16 de abril de 2025 17:41:59 GMT+02:00

A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀

NicholasRoberts
NicholasRoberts 15 de abril de 2025 00:59:46 GMT+02:00

Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀

Volver arriba
OR