La expansión de la IA agencial exige sistemas de memoria avanzados

Hogar

Noticias

23 de febrero de 2026

PatrickGarcia

La IA agencial supone un cambio significativo, pasando de los simples chatbots a la gestión de flujos de trabajo complejos, y su escalabilidad exige un nuevo enfoque de la arquitectura de la memoria.

A medida que los modelos básicos crecen hasta alcanzar billones de parámetros y las ventanas de contexto se amplían a millones de tokens, el coste computacional de conservar el historial está superando nuestra capacidad para procesarlo de forma eficaz.

Las organizaciones que implementan estos sistemas se enfrentan ahora a un cuello de botella en el que el inmenso volumen de «memoria a largo plazo» (técnicamente, la caché de clave-valor (KV)) supera las capacidades de los diseños de hardware actuales.

La infraestructura existente ofrece opciones limitadas: almacenar el contexto de inferencia en la escasa memoria de GPU de alto ancho de banda (HBM) o trasladarlo a un almacenamiento más lento y de uso general. La primera opción resulta demasiado costosa para contextos grandes, mientras que la segunda introduce una latencia que hace que las interacciones agenticas en tiempo real sean poco prácticas.

Para salvar esta brecha creciente que dificulta la escalabilidad de la IA agencial, NVIDIA ha lanzado la plataforma Inference Context Memory Storage (ICMS) dentro de su arquitectura Rubin, introduciendo un nuevo nivel de almacenamiento creado específicamente para las demandas temporales y de alta velocidad de la memoria de IA.

«La IA está transformando toda la pila informática y, ahora, el almacenamiento», afirmó Huang. «La IA ha evolucionado más allá de los chatbots de respuesta única hasta convertirse en colaboradores inteligentes que comprenden el mundo físico, razonan durante largos periodos de tiempo, se basan en hechos, utilizan herramientas para tareas prácticas y mantienen la memoria a corto y largo plazo».

El problema operativo principal se deriva del funcionamiento de los modelos basados en transformadores. Para evitar tener que recalcular toda una conversación por cada nueva palabra generada, los modelos guardan los estados anteriores en la caché KV. En los flujos de trabajo agenticos, esta caché sirve como memoria persistente entre herramientas y sesiones, y se expande en proporción directa a la longitud de la secuencia.

Esto crea una categoría de datos única. A diferencia de los registros financieros o los registros de clientes, la caché KV es un dato derivado; es crucial para el rendimiento inmediato, pero no necesita las sólidas garantías de durabilidad de los sistemas de archivos empresariales. Los sistemas de almacenamiento de uso general, que funcionan con CPU estándar, consumen energía en la gestión y replicación de metadatos, de lo que no se benefician las cargas de trabajo agenticas.

La jerarquía existente, que va desde la GPU HBM (G1) hasta el almacenamiento compartido (G4), está demostrando ser cada vez más ineficiente:

(Crédito: NVIDIA)

A medida que los datos de contexto se trasladan de la GPU (G1) a la RAM del sistema (G2) y, finalmente, al almacenamiento compartido (G4), la eficiencia disminuye significativamente. La transferencia del contexto activo al nivel G4 introduce retrasos de milisegundos y aumenta el coste energético por token, lo que deja las costosas GPU inactivas mientras esperan los datos.

Para las empresas, esto se traduce en un mayor coste total de propiedad (TCO), ya que la energía se consume en la sobrecarga de la infraestructura en lugar de en tareas de razonamiento activas.

Un nuevo nivel de memoria para la fábrica de IA

La solución del sector consiste en añadir una capa personalizada a esta jerarquía. La plataforma ICMS crea un nivel «G3.5», una capa de almacenamiento flash conectada a Ethernet diseñada específicamente para la inferencia a gran escala.

Este método integra el almacenamiento directamente en el pod de computación. Al aprovechar el procesador de datos NVIDIA BlueField-4, la plataforma traslada la gestión de estos datos contextuales fuera de la CPU del host. El sistema ofrece petabytes de capacidad compartida por pod, lo que mejora la escalabilidad de la IA agencial al permitir que los agentes almacenen grandes cantidades de historial sin consumir costosa HBM.

La ventaja operativa es cuantificable tanto en rendimiento como en consumo energético. Al almacenar el contexto relevante en este nivel intermedio, que es más rápido que el almacenamiento estándar pero más asequible que la HBM, el sistema puede «precargar» la memoria en la GPU con antelación. Esto reduce el tiempo de inactividad del decodificador de la GPU, lo que permite hasta 5 veces más tokens por segundo (TPS) en cargas de trabajo de contexto largo.

Desde el punto de vista energético, las ventajas son igualmente significativas. Dado que la arquitectura elimina la sobrecarga de los protocolos de almacenamiento de uso general, consigue una eficiencia energética cinco veces superior a la de los enfoques convencionales.

Integración del plano de datos

La implementación de esta arquitectura requiere un cambio en la forma en que los equipos de TI perciben las redes de almacenamiento. La plataforma ICMS depende de NVIDIA Spectrum-X Ethernet para proporcionar la conectividad de alto ancho de banda y baja fluctuación necesaria para tratar el almacenamiento flash casi como si fuera memoria local.

Para los equipos de infraestructura empresarial, el punto clave de integración es la capa de orquestación. Marcos como NVIDIA Dynamo y la biblioteca de transferencia de inferencias (NIXL) gestionan el movimiento de bloques KV entre diferentes niveles.

Estas herramientas funcionan con la capa de almacenamiento para garantizar que el contexto correcto se cargue en la memoria de la GPU (G1) o en la memoria del host (G2) precisamente cuando el modelo de IA lo necesita. El marco NVIDIA DOCA lo respalda aún más al proporcionar una capa de comunicación KV que trata la caché de contexto como un recurso primario.

Los principales proveedores de almacenamiento ya están adoptando esta arquitectura. Empresas como AIC, Cloudian, DDN, Dell Technologies, HPE, Hitachi Vantara, IBM, Nutanix, Pure Storage, Supermicro, VAST Data y WEKA están desarrollando plataformas con BlueField-4. Se prevé que estas soluciones estén disponibles en la segunda mitad de este año.

Redefinición de la infraestructura para escalar la IA agencial

La adopción de un nivel de memoria contextual dedicado influye en la planificación de la capacidad y el diseño del centro de datos.

Reclasificación de datos: los directores de informática deben reconocer la caché KV como un tipo de datos distinto. Es «temporal pero sensible a la latencia», a diferencia de los datos de cumplimiento «duraderos y fríos». El nivel G3.5 gestiona los primeros, lo que permite que el almacenamiento G4 duradero se concentre en registros y artefactos a largo plazo.

Madurez de la orquestación: el éxito depende de un software que pueda asignar las cargas de trabajo de forma inteligente. El sistema utiliza una orquestación sensible a la topología (a través de NVIDIA Grove) para colocar los trabajos cerca de su contexto almacenado en caché, lo que reduce el movimiento de datos a través de la red.

Densidad de potencia: al incluir más capacidad útil en el mismo espacio de rack, las organizaciones pueden prolongar la vida útil de sus instalaciones actuales. Sin embargo, esto aumenta la densidad de cálculo por metro cuadrado, lo que requiere una planificación cuidadosa de la refrigeración y la distribución de energía.

El paso a la IA agencial requiere un rediseño físico del centro de datos. La práctica habitual de separar completamente la computación del almacenamiento lento y persistente no es adecuada para los requisitos de recuperación en tiempo real de los agentes con memorias extensas.

Al introducir un nivel de contexto especializado, las empresas pueden separar el crecimiento de la memoria del modelo del coste de la GPU HBM. Esta arquitectura de IA agencial permite que varios agentes compartan un gran pool de memoria de bajo consumo, lo que reduce el coste de gestionar consultas complejas y mejora la escalabilidad al admitir un razonamiento de alto rendimiento.

A medida que las organizaciones se preparan para su próxima ronda de inversión en infraestructura, evaluar la eficiencia de la jerarquía de memoria será tan importante como elegir la propia GPU.

Véase también: La guerra de los chips de IA en 2025: lo que los líderes empresariales aprendieron sobre la realidad de la cadena de suministro

¿Quiere saber más sobre la IA y el big data de la mano de los líderes del sector? Eche un vistazo a la AI & Big Data Expo que se celebra en Ámsterdam, California y Londres. Este completo evento forma parte de TechEx y se celebra junto con otros eventos tecnológicos de primer orden. Haga clic aquí para obtener más información.

AI News está impulsado por TechForge Media. Explore aquí otros eventos y seminarios web sobre tecnología empresarial que se celebrarán próximamente.

Artículo relacionado

Claude, la IA experimental de Anthropic, lleva a cabo negociaciones y transacciones en una prueba de comercio electrónico A medida que la inteligencia artificial avanza rápidamente, Anthropic puso en marcha discretamente el pasado viernes un experimento interno denominado «Project Deal», en el que se ponía de manifiesto

DeepSeek Code, listo para su lanzamiento A medida que la tecnología de IA avanza a pasos agigantados, DeepSeek se encuentra en un momento decisivo. La empresa de IA ha revelado recientemente que ha conseguido más de 70 000 millones de yuanes

Grok, de Musk: 1,5 billones de parámetros y absorción de código de cursor: ¿un punto de inflexión o un farol? Elon Musk por fin está dando un paso adelante.En la carrera por la programación de IA, OpenAI y Anthropic están acelerando, mientras que xAI parece quedarse atrás. Musk ha manifestado en numerosas oca

Recomendaciones de temas especiales relacionados

Negocio

Las mejores herramientas de selección de personal basadas en IA: filtrar currículos y automatizar la programación de entrevistas con los candidatos

Descubre las mejores herramientas de selección de personal basadas en IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada, incluye soluciones potentes y revolucionarias para la selección de currículos y la automatización de la programación de entrevistas con los candidatos. Compara las opciones gratuitas con las de pago gracias a pruebas reales y a clasificaciones que se actualizan semanalmente. ¡Encuentra tu asistente de selección de personal ideal y optimiza tu proceso de selección hoy mismo!

10 herramientas

xix.ai

Productividad

Entrenadores personales de bienestar y concentración basados en IA: controla el agotamiento y aumenta tus niveles de energía mental

Descubre los mejores entrenadores personales de bienestar y concentración basados en IA de 2026 en XIX.AI. Nuestras clasificaciones, cuidadosamente seleccionadas, incluyen herramientas revolucionarias y de primera categoría para gestionar el agotamiento y potenciar la energía mental. Compara las opciones gratuitas con las de pago gracias a información basada en casos reales. Descubre hoy mismo el camino hacia la máxima productividad y el bienestar.

10 herramientas

xix.ai

chatbot

Los mejores chatbots románticos con IA: crea relaciones duraderas con personalidades coherentes

Descubre los mejores chatbots románticos con IA de 2026 para establecer relaciones auténticas y duraderas. Nuestra lista seleccionada incluye personalidades sólidas y coherentes, comparativas entre versiones gratuitas y de pago, y pruebas en situaciones reales. Encuentra a tu compañero ideal y empieza a construir tu relación hoy mismo en XIX.AI.

10 herramientas

xix.ai

Educación y aprendizaje

Los mejores mentores en ciencia de datos y IA: dominan SQL, Pandas y flujos de trabajo de aprendizaje automático.

Descubra a los mejores mentores en ciencia de datos y AI de 2026 para dominar SQL, Pandas y flujos de trabajo de aprendizaje automático. Explore nuestra selección cuidadosamente seleccionada y altamente valorada en XIX.AI para obtener orientación poderosa que cambie completamente la situación. Compare las opciones gratuitas con las pagadas y obtenga información basada en casos reales. Desbloquee su dominio de la ciencia de datos hoy mismo.

10 herramientas

xix.ai

chatbot

Los mejores entrenadores de IA para ligar y conversar: mejora tu carisma social y tu confianza en tiempo real

Descubre los mejores cursos de 2026 sobre coqueteo y conversación con IA en XIX.AI. Nuestra selección, cuidadosamente seleccionada y con las mejores valoraciones, te ayuda a desarrollar tu carisma social y tu confianza en tiempo real. Explora herramientas imprescindibles y revolucionarias con comparativas entre versiones gratuitas y de pago, y clasificaciones que se actualizan semanalmente. Potencia hoy mismo tus habilidades sociales.

10 herramientas

xix.ai

código

Las mejores herramientas de IA para pruebas unitarias automatizadas: genera casos de prueba con Jest, PyTest y JUnit con un solo clic

Descubre las mejores herramientas de IA de 2026 para la automatización de pruebas unitarias. Nuestra selección incluye potentes soluciones revolucionarias que permiten generar casos de prueba para Jest, PyTest y JUnit al instante. Compara las opciones gratuitas con las de pago mediante pruebas reales y clasificaciones actualizadas semanalmente en XIX.AI. Aprovecha las ventajas de la IA y aumenta la productividad de tu desarrollo hoy mismo.

10 herramientas

xix.ai