Deepseek Shakes AI Industria: el próximo salto de IA puede depender del aumento de la inferencia, no más datos

Hogar

Noticias

18 de abril de 2025

AlbertWalker

151

# DeepSeek

Deepseek Shakes AI Industria: el próximo salto de IA puede depender del aumento de la inferencia, no más datos

La industria de la IA está en un estado de cambio constante, con 2025 trayendo algunos desarrollos revolucionarios que están sacudiendo las cosas. Un cambio importante ocurrió cuando el laboratorio chino de IA, DeepSeek, lanzó una bomba con un nuevo modelo que causó una caída del 17% en las acciones de Nvidia y afectó a otras acciones de centros de datos de IA. ¿El revuelo alrededor del modelo de DeepSeek? Está ofreciendo un rendimiento de primera categoría a una fracción de lo que cuesta a otros competidores estadounidenses, generando una tormenta sobre lo que esto significa para el futuro de los centros de datos de IA.

Pero para entender realmente lo que está haciendo DeepSeek, necesitamos tomar distancia y mirar el panorama general. El mundo de la IA está lidiando con una escasez de datos de entrenamiento. Los grandes actores ya han consumido la mayor parte de los datos públicos de internet, lo que significa que estamos chocando contra un muro en las mejoras de preentrenamiento. Como resultado, la industria está cambiando de marcha hacia el "cómputo en tiempo de prueba" (TTC). Piensa en ello como modelos de IA que toman un momento para "pensar" antes de responder, como con la serie "o" de OpenAI. Hay esperanza de que el TTC pueda ofrecer el mismo tipo de mejoras de escalado que alguna vez proporcionó el preentrenamiento, potencialmente marcando la próxima gran ola de avances en IA.

Estos cambios están señalando dos grandes transformaciones: primero, los laboratorios con presupuestos más pequeños ahora están en el juego, lanzando modelos de vanguardia. Segundo, el TTC se está convirtiendo en la nueva frontera para impulsar la IA hacia adelante. Vamos a desglosar estas tendencias y lo que podrían significar para el panorama y el mercado de la IA.

Implicaciones para la Industria de la IA

Creemos que el cambio hacia el TTC y el aumento en la competencia entre modelos de razonamiento podrían remodelar el panorama de la IA en varios frentes: hardware, plataformas en la nube, modelos fundacionales y software empresarial.

1. Hardware (GPUs, Chips Dedicados e Infraestructura de Cómputo)

El cambio hacia el TTC podría alterar lo que las empresas de IA necesitan en términos de hardware y cómo lo gestionan. En lugar de invertir grandes sumas en clústeres de GPUs cada vez más grandes para el entrenamiento, podrían comenzar a enfocarse más en fortalecer sus capacidades de inferencia para manejar las demandas de TTC. Aunque las GPUs seguirán siendo cruciales para la inferencia, la diferencia entre las cargas de trabajo de entrenamiento e inferencia podría afectar cómo se configuran y utilizan estos chips. Dado que las cargas de trabajo de inferencia son más impredecibles y "picosas", planificar la capacidad podría volverse más complicado.

También pensamos que este cambio podría impulsar el mercado de hardware diseñado específicamente para inferencia de baja latencia, como los ASICs. A medida que el TTC se vuelva más crucial que la capacidad de entrenamiento, el reinado de las GPUs de propósito general podría comenzar a decaer, abriendo puertas para fabricantes de chips de inferencia especializados.

2. Plataformas en la Nube: Hiperescaladores (AWS, Azure, GCP) y Cómputo en la Nube

Un gran obstáculo para la adopción de IA en las empresas, además de los problemas de precisión, es la falta de fiabilidad de las APIs de inferencia. Cosas como tiempos de respuesta inconsistentes, límites de tasa y problemas con solicitudes concurrentes pueden ser un verdadero dolor de cabeza. El TTC podría agravar estos problemas. En este escenario, un proveedor en la nube que pueda garantizar una alta calidad de servicio (QoS) para abordar estos problemas podría tener una gran ventaja.

Curiosamente, aunque los nuevos métodos podrían hacer que la IA sea más eficiente, no necesariamente reducirán la demanda de hardware. Siguiendo la Paradoja de Jevons, donde una mayor eficiencia lleva a un mayor consumo, modelos de inferencia más eficientes podrían impulsar a más desarrolladores a usar modelos de razonamiento, aumentando la necesidad de poder de cómputo. Creemos que las recientes mejoras en los modelos podrían generar más demanda de cómputo de IA en la nube, tanto para inferencia como para el entrenamiento de modelos más pequeños y especializados.

3. Proveedores de Modelos Fundacionales (OpenAI, Anthropic, Cohere, DeepSeek, Mistral)

Si nuevos participantes como DeepSeek pueden competir de igual a igual con los grandes a una fracción del costo, el dominio de los modelos preentrenados propietarios podría comenzar a desmoronarse. También podemos esperar más innovaciones en TTC para modelos transformadores, y como DeepSeek ha demostrado, estas innovaciones pueden provenir de lugares inesperados fuera de los sospechosos habituales en IA.

4. Adopción de IA Empresarial y SaaS (Capa de Aplicación)

Dado que DeepSeek tiene sus raíces en China, es probable que sus productos enfrenten un escrutinio continuo desde el punto de vista de la seguridad y la privacidad. Sus servicios de API y chatbots basados en China probablemente no tengan éxito entre los clientes de IA empresarial en los EE. UU., Canadá u otros países occidentales. Muchas empresas ya están bloqueando el sitio web y las aplicaciones de DeepSeek. Incluso cuando se alojan en centros de datos occidentales por terceros, los modelos de DeepSeek podrían enfrentar escrutinio, lo que podría limitar su adopción en las empresas. Los investigadores están señalando problemas como el jailbreaking, sesgos y la generación de contenido dañino. Aunque algunas empresas podrían experimentar con los modelos de DeepSeek, la adopción generalizada parece improbable debido a estas preocupaciones.

Por otro lado, la especialización vertical está ganando terreno. En el pasado, las aplicaciones verticales construidas sobre modelos fundacionales se centraban en crear flujos de trabajo personalizados. Técnicas como la generación aumentada por recuperación (RAG), el enrutamiento de modelos, la llamada a funciones y las barreras de seguridad han sido clave para ajustar modelos generalizados a casos de uso específicos. Pero siempre ha existido la preocupación de que mejoras importantes en los modelos subyacentes puedan dejar obsoletas estas aplicaciones. Sam Altman una vez advirtió que un gran salto en las capacidades de los modelos podría "aplastar" estas innovaciones.

Sin embargo, si estamos viendo un estancamiento en las ganancias de cómputo en tiempo de entrenamiento, la amenaza de ser superados rápidamente disminuye. En un mundo donde las mejoras en el rendimiento de los modelos provienen de optimizaciones de TTC, podrían surgir nuevas oportunidades para los actores de la capa de aplicación. Innovaciones como la optimización de prompts estructurados, estrategias de razonamiento conscientes de la latencia y técnicas de muestreo eficientes podrían ofrecer grandes mejoras de rendimiento en verticales específicos.

Estas mejoras son particularmente relevantes para modelos enfocados en el razonamiento como GPT-4o de OpenAI y DeepSeek-R1, que pueden tardar varios segundos en responder. En aplicaciones en tiempo real, reducir la latencia y mejorar la calidad de la inferencia dentro de un dominio específico podría brindar una ventaja competitiva. Como resultado, las empresas con un profundo conocimiento del dominio podrían desempeñar un papel crucial en la optimización de la eficiencia de la inferencia y en la afinación de los resultados.

El trabajo de DeepSeek muestra que estamos alejándonos de depender únicamente de más preentrenamiento para mejorar la calidad del modelo. En cambio, el TTC está volviéndose cada vez más importante. Aunque no está claro si los modelos de DeepSeek serán ampliamente adoptados en el software empresarial debido al escrutinio, su influencia en la mejora de otros modelos es cada vez más evidente.

Creemos que las innovaciones de DeepSeek están empujando a los laboratorios de IA establecidos a adoptar técnicas similares, complementando sus ventajas de hardware existentes. La caída prevista en los costos de los modelos parece estar impulsando un mayor uso de modelos, siguiendo el patrón de la Paradoja de Jevons.

Pashootan Vaezipoor es líder técnico en Georgian.

Artículo relacionado

DeepSeek-V3 Presentado: Cómo el Diseño de IA Consciente del Hardware Reduce Costos y Mejora el Rendimiento DeepSeek-V3: Un Salto Eficiente en Costos en el Desarrollo de IALa industria de la IA está en una encrucijada. Mientras los modelos de lenguaje grandes (LLMs) se vuelven más potentes, sus demandas com

DeepSeek-GRM: Revolucionando la IA escalable y de bajo costo para empresas Si tienes un negocio, sabrás lo difícil que puede ser integrar la Inteligencia Artificial (IA) en tus operaciones. Los altos costos y la complejidad técnica suelen poner fuera de a

La nueva técnica permite que Deepseek y otros modelos respondan a consultas sensibles Eliminar el sesgo y la censura de los grandes modelos de idiomas (LLM) como Deepseek de China es un desafío complejo que ha llamado la atención de los responsables políticos y los líderes empresariales de los Estados Unidos, que lo ven como una posible amenaza de seguridad nacional. Un informe reciente de un Comité Selecto del Congreso de EE. UU. Etiquetado Deeps

comentario (32)

0/200

Entregar

HenryDavis

31 de julio de 2025 13:35:39 GMT+02:00

DeepSeek's new model sounds like a game-changer! A 17% Nvidia stock dip is wild—wonder how this’ll shift the AI race. More compute at inference? Mind blown! 🤯

JoseGonzalez

29 de julio de 2025 14:25:16 GMT+02:00

Wow, DeepSeek's new model sounds like a game-changer! That 17% Nvidia stock dip is wild—makes me wonder if we're hitting a compute bottleneck. Anyone else curious how this shifts the AI race? 🤔

BrianMartinez

27 de abril de 2025 03:02:24 GMT+02:00

¡El nuevo modelo de DeepSeek está sacudiendo la industria de la IA! Es increíble ver cómo baja la acción de Nvidia por esto. Me pregunto si más capacidad de cómputo en la inferencia será realmente la próxima gran cosa o solo un hype. De cualquier manera, es emocionante ver cómo evoluciona la industria! 🚀

GeorgeKing

25 de abril de 2025 04:22:57 GMT+02:00

DeepSeek's new model is shaking up the AI industry! It's wild to see Nvidia's stock dip because of this. I'm curious if more compute at inference will really be the next big thing or if it's just hype. Either way, it's exciting to watch the industry evolve! 🚀

GeorgeNelson

23 de abril de 2025 16:51:14 GMT+02:00

O novo modelo da DeepSeek está abalando a indústria de IA! É louco ver a queda das ações da Nvidia por causa disso. Estou curioso se mais poder de computação na inferência será realmente a próxima grande coisa ou se é apenas hype. De qualquer forma, é emocionante ver a evolução da indústria! 🚀

GeorgeWilson

23 de abril de 2025 16:44:57 GMT+02:00

DeepSeek의 새로운 모델이 AI 산업을 흔들고 있어요! Nvidia의 주식이 이 때문에 떨어지는 걸 보니 정말 놀랍네요. 추론 시 더 많은 계산 능력이 정말 다음 큰 변화가 될지, 아니면 그냥 과대광고일지 궁금해요. 어쨌든 산업이 진화하는 걸 보는 건 흥미로워요! 🚀

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Doblaje AI: Guía Definitiva para la Creación de Voz Realista Operai mejora el asistente de voz de IA para mejores chats Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador Clonación de Voz IA: La guía definitiva para dominar la conversión de voz Experimente el crucigrama de E/S con IA: un giro moderno en el clásico juego de palabras El CEO de NVIDIA aclara los conceptos erróneos sobre el impacto del mercado de Deepseek

Más

Presentado