opción
Hogar Noticias Comprensión de las ventanas de contexto largo: información clave

Comprensión de las ventanas de contexto largo: información clave

Fecha de lanzamiento Fecha de lanzamiento 10 de abril de 2025
vistas vistas 97

Ayer, presentamos nuestro último avance en tecnología AI con el modelo Gemini 1.5. Esta nueva iteración trae mejoras significativas en la velocidad y la eficiencia, pero el verdadero cambio de juego es su innovadora ventana de contexto largo. Esta característica permite que el modelo procese un número de tokens sin precedentes, las unidades fundamentales que componen palabras, imágenes o videos, todo a la vez. Para arrojar luz sobre este avance, recurrimos al equipo del Proyecto Google DeepMind para obtener información sobre lo que son las ventanas de contexto largas y cómo pueden revolucionar la forma en que funcionan los desarrolladores.

Comprender las ventanas de contexto largo es crucial porque permiten que los modelos de IA mantengan y recuerden la información a lo largo de una sesión. Imagine tratar de recordar un nombre solo unos minutos después de que se mencione en una conversación, o apresurarse a escribir un número de teléfono antes de que le resulte. Los modelos de IA enfrentan desafíos similares, a menudo "olvidando" los detalles después de algunas interacciones. Windows de contexto largo abordan este problema al permitir que el modelo mantenga más información en su "memoria".

Anteriormente, el modelo Géminis podría manejar hasta 32,000 tokens simultáneamente. Sin embargo, con el lanzamiento de 1.5 Pro para pruebas tempranas, hemos llevado los límites a un asombroso 1 millón de tokens, la ventana de contexto más grande de cualquier modelo de base a gran escala hasta la fecha. Nuestra investigación incluso ha ido más allá de esto, probando con éxito hasta 10 millones de tokens. Cuanto más grande sea la ventana de contexto, más diversos y extensos son los datos (texto, imágenes, audio, código o video) que el modelo puede procesar.

Nikolay Savinov, un científico de investigación de Google Deepmind y uno de los protagonistas del proyecto de contexto largo, compartió: "Nuestro objetivo inicial era llegar a 128,000 tokens, pero pensé que apuntar más alto sería beneficioso, por lo que propuse 1 millón de tokens. Y ahora, nuestra investigación ha excedido eso por 10 veces".

Lograr este salto requirió una serie de innovaciones de aprendizaje profundo. Las primeras exploraciones de Pranav Shyam proporcionaron ideas cruciales que guiaron nuestra investigación. Denis Teplyashin, un ingeniero de Google Deepmind, explicó: "Cada avance condujo a otro, abriendo nuevas posibilidades. Cuando estas innovaciones combinadas, nos sorprendió los resultados, escenando de 128,000 tokens a 512,000, luego 1 millón y recientemente, 10 millones de tokens en nuestra investigación interna".

La capacidad ampliada de 1.5 Pro abre nuevas aplicaciones emocionantes. Por ejemplo, en lugar de resumir un documento que tiene docenas de páginas, ahora puede manejar documentos de miles de páginas de longitud. Cuando el modelo anterior podría analizar miles de líneas de código, 1.5 Pro ahora puede procesar decenas de miles de líneas a la vez.

Machel Reid, otro científico de investigación de Google Deepmind, compartió algunos resultados de las pruebas fascinantes: "En una prueba, alimentamos toda la base de código al modelo, y generó una documentación integral para ello, lo que fue increíble. En otra, respondió con precisión preguntas sobre la película de 1924 Sherlock Jr. después de 'ver' toda la película de 45 minutos".

1.5 Pro también se destaca en el razonamiento de los datos dentro de un aviso. Machel destacó un ejemplo que involucra el raro lenguaje Kalamang, hablado por menos de 200 personas en todo el mundo. "El modelo no puede traducirse en Kalamang por sí solo, pero con la larga ventana de contexto, podríamos incluir todo el manual de gramática y las oraciones de ejemplo. El modelo aprendió a traducirse del inglés al Kalamang a un nivel comparable a alguien que aprende del mismo material".

Gemini 1.5 Pro viene con una ventana de contexto estándar de 128k-token, pero un grupo selecto de desarrolladores y clientes empresariales puede acceder a una ventana de contexto de 1 millón de tokens a través de AI Studio y Vertex AI en una vista previa privada. La gestión de una ventana de contexto tan grande es computacionalmente intensivo, y estamos trabajando activamente en optimizaciones para reducir la latencia a medida que la escala.

Mirando hacia el futuro, el equipo se centra en hacer que el modelo sea más rápido y eficiente, con la seguridad como una prioridad. También están explorando formas de expandir aún más la larga ventana de contexto, mejorar las arquitecturas subyacentes y aprovechar las nuevas mejoras de hardware. Nikolay señaló: "10 millones de tokens a la vez se están acercando al límite térmico de nuestras unidades de procesamiento de tensor. No estamos seguros de dónde se encuentra el límite y el modelo podría ser capaz de ser aún más a medida que el hardware continúa evolucionando".

El equipo está ansioso por ver las aplicaciones innovadoras que los desarrolladores y la comunidad más amplia crearán con estas nuevas capacidades. Machel reflexionó: "Cuando vi por primera vez que teníamos un millón de tokens en contexto, me preguntaba:" ¿Para qué usas esto? " Pero ahora, creo que la imaginación de las personas se expandirá, lo que lleva a usos más creativos de estas nuevas capacidades ".

[TTPP] [yyxx]

Artículo relacionado
Google’s AI Futures Fund may have to tread carefully Google’s AI Futures Fund may have to tread carefully Google’s New AI Investment Initiative: A Strategic Shift Amid Regulatory ScrutinyGoogle's recent announcement of an AI Futures Fund marks a bold move in the tech giant's ongoing qu
Oura adds AI-powered glucose tracking and meal logging Oura adds AI-powered glucose tracking and meal logging Oura Reinforces Its Commitment to Metabolic Health with Two Exciting New FeaturesOura is stepping up its game in the world of metabolic health with two cutting-edge, AI-driven feat
Judge slams lawyers for ‘bogus AI-generated research’ Judge slams lawyers for ‘bogus AI-generated research’ Judge Penalizes Law Firms for Using AI Without DisclosureIn a recent ruling, California Judge Michael Wilner slapped two prominent law firms with a hefty fine of $31,000 for secret
comentario (25)
0/200
NicholasRoberts
NicholasRoberts 14 de abril de 2025 22:59:46 GMT

Gemini 1.5's long context window is a game-changer, no doubt! But sometimes it feels like it's trying to do too much at once, which can slow things down. Still, for processing huge chunks of data, it's unbeatable. Worth checking out! 🚀

HenryJackson
HenryJackson 13 de abril de 2025 17:36:58 GMT

Gemini 1.5の長いコンテキストウィンドウは本当に革新的!でも、時々一度にたくさんのことをしようとして遅くなることがあるよね。それでも、大量のデータを処理するには最強だと思う。試してみる価値あり!🚀

ScottJackson
ScottJackson 12 de abril de 2025 16:31:28 GMT

Gemini 1.5의 긴 컨텍스트 윈도우는 정말 혁신적이에요! 하지만 때때로 너무 많은 일을 한꺼번에 하려다 느려지는 것 같아요. 그래도 대량의 데이터를 처리하는 데는 최고예요. 한번 써보세요! 🚀

MatthewGonzalez
MatthewGonzalez 16 de abril de 2025 15:41:59 GMT

A janela de contexto longo do Gemini 1.5 é revolucionária, sem dúvida! Mas às vezes parece que está tentando fazer muito de uma vez, o que pode atrasar as coisas. Ainda assim, para processar grandes quantidades de dados, é imbatível. Vale a pena conferir! 🚀

StevenGreen
StevenGreen 10 de abril de 2025 14:12:10 GMT

La ventana de contexto largo de Gemini 1.5 es un cambio de juego, sin duda. Pero a veces parece que intenta hacer demasiado a la vez, lo que puede ralentizar las cosas. Aún así, para procesar grandes cantidades de datos, es insuperable. ¡Vale la pena probarlo! 🚀

DouglasMartinez
DouglasMartinez 14 de abril de 2025 16:35:33 GMT

Gemini 1.5's long context window is a game-changer! It's amazing how much more it can process compared to older models. Just wish it was a bit faster. Still, a big step forward! 💪

Volver arriba
OR