Un visage qui s'embrasse : comment les entreprises peuvent-elles réduire les coûts de l'IA tout en maintenant les performances ?

Maison

Nouvelles

2 décembre 2025

HenryWalker

# GPUS

Un visage qui s

De nombreuses entreprises partent du principe que le développement de l'IA exige une puissance de calcul massive, ce qui les conduit à donner la priorité à l'acquisition de ressources supplémentaires.

Cependant, Sasha Luccioni, responsable de l'IA et du climat chez Hugging Face, propose une voie différente. Et si l'accent était mis sur une utilisation plus intelligente de l'IA ? Au lieu de rechercher sans relâche une capacité de calcul supplémentaire (et souvent excessive), les entreprises pourraient améliorer la performance et la précision de leurs modèles.

Selon M. Luccioni, le cœur du problème réside dans l'approche : les entreprises devraient viser un calcul plus intelligent, et pas seulement une plus grande quantité.

"Nous négligeons des méthodes plus intelligentes parce que nous sommes obnubilés par le besoin de plus de FLOPS, de plus de GPU et de plus de temps", explique-t-elle.

Voici cinq stratégies clés de Hugging Face pour aider les entreprises de toutes tailles à déployer l'IA plus efficacement.

1 : Sélectionner le bon modèle pour la tâche

Résistez à l'envie d'utiliser par défaut des modèles massifs et polyvalents pour chaque application. Les modèles spécialisés ou distillés peuvent souvent atteindre une précision équivalente, voire supérieure, pour des tâches spécifiques, à un coût nettement inférieur et avec une consommation d'énergie réduite.

Les recherches de M. Luccioni indiquent qu'un modèle spécifique à une tâche peut consommer 20 à 30 fois moins d'énergie qu'un modèle à usage général. "Ces modèles sont construits dans un but unique, contrairement aux grands modèles de langage conçus pour traiter n'importe quelle requête", précise-t-elle.

La distillation des modèles est ici cruciale. Un modèle à grande échelle peut être initialement formé et ensuite affiné pour une fonction particulière. Par exemple, Mme Luccioni a souligné que DeepSeek R1 est tellement volumineux que la plupart des organisations ne peuvent pas se permettre de l'exécuter, car il nécessite souvent au moins 8 GPU. En revanche, les versions distillées peuvent être 10 à 30 fois plus petites et fonctionner sur un seul GPU.

Elle a également souligné les avantages en termes d'efficacité des modèles à source ouverte, qui éliminent la nécessité d'une formation à partir de zéro. Contrairement à ce qui se passait il y a quelques années, lorsque les entreprises gaspillaient des ressources à la recherche de modèles appropriés, elles peuvent désormais commencer par un modèle de base et l'adapter à leurs besoins.

"Cela favorise l'innovation collaborative et progressive au lieu d'efforts isolés où chacun forme son propre modèle, ce qui entraîne un gaspillage des ressources informatiques", a déclaré M. Luccioni.

On se rend de plus en plus compte que les coûts de l'IA générative dépassent souvent ses avantages, ce qui entraîne une certaine désillusion dans les entreprises. Si les utilisations génériques telles que la composition de courriels ou la transcription de réunions sont réellement utiles, les modèles spécifiques à une tâche demandent encore des efforts considérables. Selon M. Luccioni, les modèles prêts à l'emploi sont souvent insuffisants et plus coûteux.

Combler cette lacune représente la prochaine frontière de la valeur ajoutée. "La plupart des entreprises veulent qu'une tâche spécifique soit accomplie", note M. Luccioni. "Elles ne recherchent pas l'intelligence artificielle générale (AGI), mais une intelligence spécialisée. C'est le défi que nous devons relever".

2. Faire de l'efficacité une valeur par défaut

Intégrer les principes de la "théorie du coup de pouce" dans la conception du système, fixer des budgets de calcul prudents, limiter les fonctions génératives toujours actives et exiger des utilisateurs qu'ils optent pour des modes de calcul coûteux.

Dans les sciences du comportement, la "théorie du coup de pouce" consiste à guider subtilement les choix afin d'encourager les comportements positifs. M. Luccioni a cité l'exemple classique de l'offre de couverts pour les repas à emporter : le fait de proposer les ustensiles en option, plutôt que de les inclure par défaut, peut réduire considérablement les déchets.

Le simple fait de passer d'un modèle "opt-out" à un modèle "opt-in" peut influencer fortement le comportement de l'utilisateur", a expliqué M. Luccioni.

Les paramètres par défaut entraînent souvent une utilisation inutile et une augmentation des coûts, car les modèles effectuent des tâches qu'ils n'étaient pas tenus de faire. Par exemple, certains moteurs de recherche génèrent désormais automatiquement des résumés AI en haut des résultats. M. Luccioni a également observé que lors de l'utilisation récente du GPT-5 d'OpenAI, le modèle passait par défaut en mode de raisonnement complet, même pour des requêtes très simples.

"Pour moi, cela devrait être l'exception", a-t-elle déclaré. Si je demande "Quel est le sens de la vie ?", alors bien sûr, un résumé de l'IA peut être utile. Mais pour des questions comme "Quel temps fait-il à Montréal ?" ou "Quelles sont les heures d'ouverture de ma pharmacie locale ?", je n'ai pas besoin d'une IA générative. je n'ai pas besoin d'un résumé génératif. Par défaut, il ne devrait pas y avoir de raisonnement.

3. Optimiser l'utilisation du matériel

Mettre en œuvre le traitement par lots, ajuster la précision numérique et affiner la taille des lots pour la génération spécifique de matériel afin de minimiser les pertes de mémoire et la consommation d'énergie.

Les entreprises doivent évaluer leurs besoins spécifiques : Le modèle doit-il fonctionner en continu ? Sera-t-il confronté à des demandes en temps réel, peut-être 100 en même temps ? Dans ce cas, l'optimisation permanente est essentielle, note M. Luccioni. Toutefois, dans de nombreux autres scénarios, ce n'est pas le cas ; les modèles peuvent être exécutés périodiquement pour conserver la mémoire, et la mise en lots peut optimiser l'utilisation de la mémoire.

Il s'agit d'un défi d'ingénierie, mais d'un défi très spécifique, et il est donc difficile de donner des conseils généraux tels que "distiller tous les modèles" ou "changer la précision de tout"", a déclaré Mme Luccioni.

Dans une étude récente, elle a découvert que la taille idéale d'un lot dépendait fortement du matériel, jusqu'au modèle ou à la version spécifique. L'augmentation de la taille des lots d'une seule unité peut parfois accroître la consommation d'énergie parce que le modèle nécessite plus de ressources de mémoire.

"C'est un aspect que les gens négligent souvent. Ils se disent qu'il suffit de maximiser la taille des lots, mais la véritable efficacité vient de l'ajustement méticuleux de toutes ces variables. Le résultat est un système hautement optimisé, mais adapté à un contexte très spécifique", explique M. Luccioni.

4. Encourager la transparence énergétique

Les mesures d'incitation favorisent le changement. C'est dans cette optique que Hugging Face a lancé l'AI Energy Score au début de l'année. Cette initiative promeut l'efficacité énergétique à l'aide d'un système d'évaluation de 1 à 5 étoiles, où les modèles les plus efficaces obtiennent une désignation "cinq étoiles".

Il s'agit en quelque sorte d'un "Energy Star pour l'IA", inspiré par le programme fédéral de longue date qui fixe des normes d'efficacité et appose son logo sur les appareils qui remplissent les conditions requises.

"Pendant des décennies, le classement par étoiles a été un puissant facteur de motivation. Les gens la voulaient", a déclaré M. Luccioni. "Il serait fantastique d'obtenir un impact similaire avec le score énergétique.

Hugging Face a établi un classement public, qu'elle prévoit de mettre à jour avec de nouveaux modèles tels que DeepSeek et GPT-oss en septembre, et de continuer à le rafraîchir tous les six mois ou au fur et à mesure de l'apparition de nouveaux modèles. L'objectif est que les développeurs de modèles considèrent une note élevée comme un "badge d'honneur", a fait remarquer M. Luccioni.

5. Repenser l'état d'esprit "Plus de calcul, c'est mieux

Au lieu de rechercher les plus grandes grappes de GPU, commencez par vous demander : "Quelle est la manière la plus intelligente d'atteindre le résultat souhaité ?" Pour de nombreuses applications, des architectures plus intelligentes et des ensembles de données mieux sélectionnés donnent de meilleurs résultats qu'une mise à l'échelle brute.

"Je pense que la plupart des gens n'ont probablement pas besoin d'autant de GPU qu'ils le pensent", a déclaré Mme Luccioni. Elle a encouragé les entreprises à reconsidérer les tâches réelles que leurs GPU traiteront, pourquoi ils sont nécessaires, comment ces tâches étaient effectuées auparavant, et quels avantages tangibles les GPU supplémentaires apporteront réellement.

"C'est devenu une course vers le bas, où chacun pense qu'il a besoin d'un plus grand cluster", a-t-elle déclaré. "La clé est d'analyser l'utilisation que l'on fait de l'IA, les techniques spécifiques requises et ce que ces techniques exigent réellement.

Article connexe

Amazon engage 100 milliards de dollars à l'IA en 2025 Malgré le récent buzz suggérant que Deepseek inaugurerait une époque de budgets d'IA réduits, rien n'indique que Big Tech frappe les freins. Au contraire, ils marchent sur le gaz. Amazon est le dernier géant à révéler un plan de dépenses de l'IA, prévoyant plus de 100 milliards de dollars en CAPI

Nvidia dévoile les GPU de nouvelle génération: Blackwell Ultra, Vera Rubin, Feynman Lors de la conférence du GTC 2025 de NVIDIA à San Jose mardi, le PDG Jensen Huang a dévoilé une gamme de GPU à venir qui arrivera sur le marché dans les prochains mois. La star du spectacle? Le GPU Vera Rubin, prévu pour une version de deuxième mi-temps 2026. Cette bête possède des dizaines de gigaoctets de mémoire et est condamné

Baidu Health teste en interne son assistant médical basé sur l'IA, DoctorClaw, pour la recherche documentaire et l'assistance administrative à court terme Baidu Health aurait commencé à tester en interne un assistant intelligent basé sur l'IA, destiné aux médecins. Baptisé en interne « DoctorClaw » (la version « Lobster Doctor »), ce produit marque

Recommandations de sujets spéciaux liés

en écrivant

Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes

Découvrez les 20 meilleurs outils de scriptage AI pour la radio et la production de podcasts en 2026 sur XIX.AI. Notre liste, soigneusement sélectionnée et hautement réputée, propose des solutions puissantes et révolutionnaires pour créer rapidement des publicités audio captivantes. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mises à jour chaque semaine. Développez votre potentiel créatif dès aujourd’hui !

10 outils

xix.ai

Entreprise

Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils

xix.ai

Création d'animations

Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils

xix.ai

Création de bande dessinée

Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils

xix.ai

en écrivant

Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils

xix.ai

Entreprise

Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils

xix.ai