Hogar
Abrazar la cara: cómo pueden las empresas reducir los costes de la IA manteniendo el rendimiento

Muchas empresas parten de la base de que el desarrollo de la IA exige una enorme potencia de cálculo, lo que les lleva a dar prioridad a la adquisición de más recursos.
Sin embargo, Sasha Luccioni, responsable de IA y clima en Hugging Face, sugiere un camino diferente. ¿Y si nos centráramos en utilizar la IA de forma más inteligente? En lugar de buscar incesantemente capacidad de cálculo adicional (y a menudo excesiva), las empresas podrían mejorar el rendimiento y la precisión de los modelos.
Luccioni argumenta que el problema radica en el enfoque: las empresas deberían aspirar a una computación más inteligente, no sólo a más.
"Estamos pasando por alto métodos más inteligentes porque estamos obsesionados con necesitar más FLOPS, más GPU y más tiempo", explica.
He aquí cinco estrategias clave de Hugging Face para ayudar a las empresas de todos los tamaños a desplegar la IA de forma más eficiente.
1: Seleccionar el modelo adecuado para la tarea
Resista la tentación de utilizar por defecto modelos masivos de uso general para cada aplicación. Los modelos especializados o destilados pueden lograr a menudo una precisión equivalente, o incluso superior, para tareas específicas, a un coste significativamente inferior y con un consumo de energía reducido.
Las investigaciones de Luccioni indican que un modelo para una tarea específica puede consumir entre 20 y 30 veces menos energía que uno de uso general. "Estos modelos se construyen con un único propósito, a diferencia de los grandes modelos lingüísticos diseñados para gestionar cualquier consulta", afirma.
La destilación de modelos es crucial en este caso. Un modelo completo puede entrenarse inicialmente y refinarse posteriormente para una función concreta. Por ejemplo, Luccioni señaló que DeepSeek R1 es tan grande que la mayoría de las organizaciones no pueden permitirse ejecutarlo, ya que a menudo requiere al menos 8 GPU. En cambio, las versiones destiladas pueden ser entre 10 y 30 veces más pequeñas y funcionar con una sola GPU.
También destacó las ventajas de eficiencia de los modelos de código abierto, que eliminan la necesidad de entrenarlos desde cero. A diferencia de hace unos años, cuando las empresas malgastaban recursos buscando modelos adecuados, ahora pueden empezar con un modelo base y ajustarlo a sus necesidades.
"Esto fomenta la innovación colaborativa e incremental, en lugar de esfuerzos aislados en los que cada uno entrena sus propios modelos, con el consiguiente despilfarro de recursos informáticos", afirma Luccioni.
Cada vez se es más consciente de que los costes de la IA generativa a menudo superan sus beneficios, lo que provoca desilusión en las empresas. Aunque los usos genéricos, como la redacción de correos electrónicos o la transcripción de reuniones, son realmente útiles, los modelos para tareas específicas siguen exigiendo un esfuerzo considerable. Los modelos estándar suelen ser insuficientes y más caros, según Luccioni.
Colmar esta laguna representa la próxima frontera del valor añadido. "La mayoría de las empresas quieren realizar una tarea concreta", señala Luccioni. "No buscan inteligencia artificial general, sino inteligencia especializada. Ese es el reto que tenemos que abordar".
2. 2. Hacer de la eficiencia el valor por defecto
Integrar los principios de la "teoría del empujón" en el diseño del sistema, establecer presupuestos computacionales conservadores, limitar las funciones generativas siempre activas y exigir a los usuarios que opten por modos computacionales de alto coste.
En la ciencia del comportamiento, la "teoría del empujón" consiste en guiar sutilmente las elecciones para fomentar comportamientos positivos. Luccioni citó el ejemplo clásico de ofrecer cubiertos con la comida para llevar: hacer que los cubiertos sean una opción, en lugar de incluirlos por defecto, puede reducir drásticamente los residuos.
"El simple hecho de pasar de un modelo de exclusión a otro de inclusión puede influir poderosamente en el comportamiento del usuario", explicó Luccioni.
Los ajustes por defecto suelen provocar un uso innecesario y un aumento de los costes, ya que los modelos realizan tareas que no estaban obligados a hacer. Por ejemplo, algunos motores de búsqueda generan ahora automáticamente resúmenes de IA en la parte superior de los resultados. Luccioni también observó que, al utilizar recientemente el GPT-5 de OpenAI, el modelo pasaba por defecto al modo de razonamiento completo incluso para consultas muy sencillas.
"Para mí, esa debería ser la excepción", afirma. "Si pregunto: '¿Cuál es el sentido de la vida?', entonces claro que un resumen de IA podría ser útil. Pero para preguntas como "¿Qué tiempo hace en Montreal?" o "¿Cuál es el horario de mi farmacia?". No necesito un resumen generativo. Por defecto no debería haber razonamiento".
3. Optimizar la utilización del hardware
Implemente el procesamiento por lotes, ajuste la precisión numérica y afine el tamaño de los lotes para la generación de hardware específica con el fin de minimizar el desperdicio de memoria y el consumo de energía.
Las empresas deben evaluar sus necesidades específicas: ¿Necesita el modelo funcionar continuamente? ¿Recibirá solicitudes en tiempo real, quizá 100 a la vez? En estos casos, la optimización permanente es esencial, señala Luccioni. Sin embargo, en muchos otros casos, no lo es; los modelos pueden ejecutarse periódicamente para ahorrar memoria, y el procesamiento por lotes puede optimizar el uso de la memoria.
"Es un reto de ingeniería, pero muy específico, por lo que es difícil dar consejos generales del tipo 'destila todos los modelos' o 'cambia la precisión de todo'", explica Luccioni.
En un estudio reciente, descubrió que el tamaño de lote ideal depende en gran medida del hardware, hasta el modelo o versión concretos. Aumentar el tamaño del lote en una sola unidad puede elevar a veces el consumo de energía porque el modelo necesita más recursos de memoria.
"Este es un aspecto que la gente suele pasar por alto. Piensan: 'Me limitaré a maximizar el tamaño del lote', pero la verdadera eficiencia se consigue ajustando meticulosamente todas estas variables. El resultado es un sistema muy optimizado, pero adaptado a un contexto muy específico", explica Luccioni.
4. Incentivar la transparencia energética
Los incentivos impulsan el cambio. Con esto en mente, Hugging Face lanzó a principios de año la AI Energy Score. Esta iniciativa promueve la eficiencia energética mediante un sistema de clasificación de 1 a 5 estrellas, en el que los modelos más eficientes obtienen la designación de "cinco estrellas".
Se puede considerar como un "Energy Star para la IA", inspirado en el antiguo programa federal que establecía normas de eficiencia y etiquetaba con su logotipo los electrodomésticos que cumplían los requisitos.
"Durante décadas, la clasificación por estrellas fue una poderosa motivación. La gente la quería", afirma Luccioni. "Lograr un impacto similar con la puntuación energética sería fantástico".
Hugging Face ha creado una tabla de clasificación pública, que planea actualizar con nuevos modelos como DeepSeek y GPT-oss en septiembre, y seguir refrescando cada seis meses o a medida que surjan nuevos modelos. El objetivo es que los desarrolladores de modelos vean una puntuación alta como una "insignia de honor", remarcó Luccioni.
5. 5. Replantearse la idea de que "más computación es mejor
En lugar de perseguir los clusters de GPU más grandes, empiece por preguntarse: "¿Cuál es la forma más inteligente de conseguir el resultado deseado?". Para numerosas aplicaciones, las arquitecturas más inteligentes y los conjuntos de datos mejor seleccionados dan mejores resultados que el escalado por fuerza bruta.
"Creo que la mayoría de la gente probablemente no necesita tantas GPU como piensa", afirma Luccioni. También animó a las empresas a reconsiderar las tareas que realmente van a realizar sus GPU, por qué son necesarias, cómo se realizaban esas tareas anteriormente y qué beneficios tangibles aportarán las GPU adicionales.
"Se ha convertido en una carrera a la baja en la que todo el mundo cree que necesita un cluster más grande", afirma. "La clave está en analizar para qué se utiliza la IA, qué técnicas específicas se necesitan y qué exigen realmente esas técnicas".
Artículo relacionado
Amazon compromete $ 100B a IA en 2025
A pesar del reciente rumor que sugiere que Deepseek marcaría el comienzo de una era de presupuestos de IA reducidos, no hay indicios de que Big Tech esté golpeando los frenos. Por el contrario, están pisando el gas. Amazon es el último gigante en revelar un gran plan de gasto de IA, pronosticando más de $ 100 mil millones en Capi
Nvidia presenta GPU de próxima generación: Blackwell Ultra, Vera Rubin, Feynman
En la conferencia GTC 2025 de NVIDIA en San José el martes, el CEO Jensen Huang dio a conocer una alineación de las próximas GPU para llegar al mercado en los próximos meses. La estrella del espectáculo? La GPU de Vera Rubin, programada para una liberación de la segunda mitad 2026. Esta bestia cuenta con decenas de gigabytes de memoria y viene con un cust
Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA
El 19 de marzo, Cursor lanzó oficialmente su modelo de programación propio, Composer 2. El anuncio desató un debate inmediato en la comunidad de desarrolladores: según Cursor, Composer 2 obtuvo una pu
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

Muchas empresas parten de la base de que el desarrollo de la IA exige una enorme potencia de cálculo, lo que les lleva a dar prioridad a la adquisición de más recursos.
Sin embargo, Sasha Luccioni, responsable de IA y clima en Hugging Face, sugiere un camino diferente. ¿Y si nos centráramos en utilizar la IA de forma más inteligente? En lugar de buscar incesantemente capacidad de cálculo adicional (y a menudo excesiva), las empresas podrían mejorar el rendimiento y la precisión de los modelos.
Luccioni argumenta que el problema radica en el enfoque: las empresas deberían aspirar a una computación más inteligente, no sólo a más.
"Estamos pasando por alto métodos más inteligentes porque estamos obsesionados con necesitar más FLOPS, más GPU y más tiempo", explica.
He aquí cinco estrategias clave de Hugging Face para ayudar a las empresas de todos los tamaños a desplegar la IA de forma más eficiente.
1: Seleccionar el modelo adecuado para la tarea
Resista la tentación de utilizar por defecto modelos masivos de uso general para cada aplicación. Los modelos especializados o destilados pueden lograr a menudo una precisión equivalente, o incluso superior, para tareas específicas, a un coste significativamente inferior y con un consumo de energía reducido.
Las investigaciones de Luccioni indican que un modelo para una tarea específica puede consumir entre 20 y 30 veces menos energía que uno de uso general. "Estos modelos se construyen con un único propósito, a diferencia de los grandes modelos lingüísticos diseñados para gestionar cualquier consulta", afirma.
La destilación de modelos es crucial en este caso. Un modelo completo puede entrenarse inicialmente y refinarse posteriormente para una función concreta. Por ejemplo, Luccioni señaló que DeepSeek R1 es tan grande que la mayoría de las organizaciones no pueden permitirse ejecutarlo, ya que a menudo requiere al menos 8 GPU. En cambio, las versiones destiladas pueden ser entre 10 y 30 veces más pequeñas y funcionar con una sola GPU.
También destacó las ventajas de eficiencia de los modelos de código abierto, que eliminan la necesidad de entrenarlos desde cero. A diferencia de hace unos años, cuando las empresas malgastaban recursos buscando modelos adecuados, ahora pueden empezar con un modelo base y ajustarlo a sus necesidades.
"Esto fomenta la innovación colaborativa e incremental, en lugar de esfuerzos aislados en los que cada uno entrena sus propios modelos, con el consiguiente despilfarro de recursos informáticos", afirma Luccioni.
Cada vez se es más consciente de que los costes de la IA generativa a menudo superan sus beneficios, lo que provoca desilusión en las empresas. Aunque los usos genéricos, como la redacción de correos electrónicos o la transcripción de reuniones, son realmente útiles, los modelos para tareas específicas siguen exigiendo un esfuerzo considerable. Los modelos estándar suelen ser insuficientes y más caros, según Luccioni.
Colmar esta laguna representa la próxima frontera del valor añadido. "La mayoría de las empresas quieren realizar una tarea concreta", señala Luccioni. "No buscan inteligencia artificial general, sino inteligencia especializada. Ese es el reto que tenemos que abordar".
2. 2. Hacer de la eficiencia el valor por defecto
Integrar los principios de la "teoría del empujón" en el diseño del sistema, establecer presupuestos computacionales conservadores, limitar las funciones generativas siempre activas y exigir a los usuarios que opten por modos computacionales de alto coste.
En la ciencia del comportamiento, la "teoría del empujón" consiste en guiar sutilmente las elecciones para fomentar comportamientos positivos. Luccioni citó el ejemplo clásico de ofrecer cubiertos con la comida para llevar: hacer que los cubiertos sean una opción, en lugar de incluirlos por defecto, puede reducir drásticamente los residuos.
"El simple hecho de pasar de un modelo de exclusión a otro de inclusión puede influir poderosamente en el comportamiento del usuario", explicó Luccioni.
Los ajustes por defecto suelen provocar un uso innecesario y un aumento de los costes, ya que los modelos realizan tareas que no estaban obligados a hacer. Por ejemplo, algunos motores de búsqueda generan ahora automáticamente resúmenes de IA en la parte superior de los resultados. Luccioni también observó que, al utilizar recientemente el GPT-5 de OpenAI, el modelo pasaba por defecto al modo de razonamiento completo incluso para consultas muy sencillas.
"Para mí, esa debería ser la excepción", afirma. "Si pregunto: '¿Cuál es el sentido de la vida?', entonces claro que un resumen de IA podría ser útil. Pero para preguntas como "¿Qué tiempo hace en Montreal?" o "¿Cuál es el horario de mi farmacia?". No necesito un resumen generativo. Por defecto no debería haber razonamiento".
3. Optimizar la utilización del hardware
Implemente el procesamiento por lotes, ajuste la precisión numérica y afine el tamaño de los lotes para la generación de hardware específica con el fin de minimizar el desperdicio de memoria y el consumo de energía.
Las empresas deben evaluar sus necesidades específicas: ¿Necesita el modelo funcionar continuamente? ¿Recibirá solicitudes en tiempo real, quizá 100 a la vez? En estos casos, la optimización permanente es esencial, señala Luccioni. Sin embargo, en muchos otros casos, no lo es; los modelos pueden ejecutarse periódicamente para ahorrar memoria, y el procesamiento por lotes puede optimizar el uso de la memoria.
"Es un reto de ingeniería, pero muy específico, por lo que es difícil dar consejos generales del tipo 'destila todos los modelos' o 'cambia la precisión de todo'", explica Luccioni.
En un estudio reciente, descubrió que el tamaño de lote ideal depende en gran medida del hardware, hasta el modelo o versión concretos. Aumentar el tamaño del lote en una sola unidad puede elevar a veces el consumo de energía porque el modelo necesita más recursos de memoria.
"Este es un aspecto que la gente suele pasar por alto. Piensan: 'Me limitaré a maximizar el tamaño del lote', pero la verdadera eficiencia se consigue ajustando meticulosamente todas estas variables. El resultado es un sistema muy optimizado, pero adaptado a un contexto muy específico", explica Luccioni.
4. Incentivar la transparencia energética
Los incentivos impulsan el cambio. Con esto en mente, Hugging Face lanzó a principios de año la AI Energy Score. Esta iniciativa promueve la eficiencia energética mediante un sistema de clasificación de 1 a 5 estrellas, en el que los modelos más eficientes obtienen la designación de "cinco estrellas".
Se puede considerar como un "Energy Star para la IA", inspirado en el antiguo programa federal que establecía normas de eficiencia y etiquetaba con su logotipo los electrodomésticos que cumplían los requisitos.
"Durante décadas, la clasificación por estrellas fue una poderosa motivación. La gente la quería", afirma Luccioni. "Lograr un impacto similar con la puntuación energética sería fantástico".
Hugging Face ha creado una tabla de clasificación pública, que planea actualizar con nuevos modelos como DeepSeek y GPT-oss en septiembre, y seguir refrescando cada seis meses o a medida que surjan nuevos modelos. El objetivo es que los desarrolladores de modelos vean una puntuación alta como una "insignia de honor", remarcó Luccioni.
5. 5. Replantearse la idea de que "más computación es mejor
En lugar de perseguir los clusters de GPU más grandes, empiece por preguntarse: "¿Cuál es la forma más inteligente de conseguir el resultado deseado?". Para numerosas aplicaciones, las arquitecturas más inteligentes y los conjuntos de datos mejor seleccionados dan mejores resultados que el escalado por fuerza bruta.
"Creo que la mayoría de la gente probablemente no necesita tantas GPU como piensa", afirma Luccioni. También animó a las empresas a reconsiderar las tareas que realmente van a realizar sus GPU, por qué son necesarias, cómo se realizaban esas tareas anteriormente y qué beneficios tangibles aportarán las GPU adicionales.
"Se ha convertido en una carrera a la baja en la que todo el mundo cree que necesita un cluster más grande", afirma. "La clave está en analizar para qué se utiliza la IA, qué técnicas específicas se necesitan y qué exigen realmente esas técnicas".
Amazon compromete $ 100B a IA en 2025
A pesar del reciente rumor que sugiere que Deepseek marcaría el comienzo de una era de presupuestos de IA reducidos, no hay indicios de que Big Tech esté golpeando los frenos. Por el contrario, están pisando el gas. Amazon es el último gigante en revelar un gran plan de gasto de IA, pronosticando más de $ 100 mil millones en Capi
Nvidia presenta GPU de próxima generación: Blackwell Ultra, Vera Rubin, Feynman
En la conferencia GTC 2025 de NVIDIA en San José el martes, el CEO Jensen Huang dio a conocer una alineación de las próximas GPU para llegar al mercado en los próximos meses. La estrella del espectáculo? La GPU de Vera Rubin, programada para una liberación de la segunda mitad 2026. Esta bestia cuenta con decenas de gigabytes de memoria y viene con un cust
Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA
El 19 de marzo, Cursor lanzó oficialmente su modelo de programación propio, Composer 2. El anuncio desató un debate inmediato en la comunidad de desarrolladores: según Cursor, Composer 2 obtuvo una pu











