Démystifier les termes courants de l'IA que vous avez déjà entendus

Maison

Nouvelles

25 mai 2026

AmeliaAdams

# Glossary # artificial intelligence # evergreens

Démystifier les termes courants de l

L'intelligence artificielle est en train de transformer notre monde et, ce faisant, elle invente un vocabulaire entièrement nouveau pour décrire son fonctionnement. Il suffit de passer quelques minutes à lire des articles sur l'IA pour tomber sur des termes tels que LLM, RAG, RLHF et des dizaines d'autres qui peuvent laisser même les professionnels chevronnés de la technologie perplexes. Ce glossaire est notre tentative de démystifier ce langage. Nous le mettons à jour régulièrement à mesure que le domaine évolue ; considérez-le donc comme un document évolutif, à l'image des systèmes d'IA qu'il explique.

AGI

L'intelligence artificielle générale, ou AGI, est un concept quelque peu vague. De manière générale, elle désigne une IA plus performante que l'humain moyen dans un large éventail de tâches, voire dans la plupart d'entre elles. Sam Altman, PDG d'OpenAI, a un jour décrit l'AGI comme « l'équivalent d'un humain moyen que l'on pourrait embaucher comme collègue ». Par ailleurs, la charte d’OpenAI la définit comme « des systèmes hautement autonomes qui surpassent les humains dans la plupart des tâches à forte valeur économique ». Google DeepMind a une vision légèrement différente, considérant l’AGI comme « une IA au moins aussi performante que les humains dans la plupart des tâches cognitives ». Vous êtes perdu ? Ne vous inquiétez pas : les experts à la pointe de la recherche en IA le sont souvent aussi.

Agent IA

Un agent IA est un outil qui exploite l’IA pour effectuer de manière autonome une séquence de tâches à votre place. Il va au-delà de ce qu’un chatbot basique peut faire, en gérant des actions telles que la gestion des notes de frais, la réservation de voyages ou de restaurants, voire l’écriture et la maintenance de code. Cependant, comme nous l’avons noté, il s’agit d’un domaine émergent comportant de nombreux aspects en évolution, de sorte que le terme « agent IA » peut revêtir des significations différentes selon les personnes. L'infrastructure nécessaire pour exploiter pleinement ses capacités envisagées est encore en cours de développement. À la base, le concept implique un système autonome pouvant utiliser plusieurs modèles d'IA pour exécuter des tâches en plusieurs étapes.

Points de terminaison API

Considérez les points de terminaison API comme des « boutons » situés à l’arrière d’une application logicielle sur lesquels d’autres programmes peuvent appuyer pour déclencher des actions spécifiques. Les développeurs utilisent ces interfaces pour créer des intégrations — par exemple, pour permettre à une application d’extraire des données d’une autre, ou pour permettre à un agent IA de contrôler directement des services tiers sans intervention humaine manuelle. La plupart des appareils domestiques intelligents et des plateformes connectées disposent de ces boutons cachés, même si les utilisateurs lambda ne les voient jamais et n’interagissent jamais avec eux. À mesure que les agents IA gagnent en sophistication, ils sont de plus en plus capables de découvrir et d’utiliser ces points de terminaison de manière autonome, ouvrant ainsi la voie à des possibilités d’automatisation puissantes — et parfois surprenantes.

Chaîne de pensée

Face à une question simple, le cerveau humain peut souvent répondre sans trop réfléchir consciemment — des questions telles que « Quel animal est le plus grand, une girafe ou un chat ? » Mais pour des problèmes plus complexes, vous pourriez avoir besoin d’un stylo et d’une feuille de papier pour passer par des étapes intermédiaires. Par exemple, si un agriculteur possède des poulets et des vaches totalisant 40 têtes et 120 pattes, vous écririez probablement une équation simple pour trouver la réponse (20 poulets et 20 vaches).

En IA, le raisonnement par chaîne de pensée pour les grands modèles linguistiques consiste à décomposer un problème en étapes intermédiaires plus petites afin d’améliorer la précision du résultat final. Cette approche prend généralement plus de temps pour produire une réponse, mais le résultat a plus de chances d’être correct, en particulier dans des contextes de logique ou de codage. Les modèles de raisonnement sont développés à partir de grands modèles linguistiques traditionnels et optimisés pour cette réflexion étape par étape grâce à des techniques telles que l’apprentissage par renforcement.

(Voir : Grand modèle linguistique)

Il s'agit d'un concept plus spécifique que celui d'« agent IA » au sens large. Un agent de codage est un programme spécialisé capable d'effectuer de manière autonome des actions étape par étape pour atteindre un objectif de développement logiciel. Au lieu de se contenter de suggérer du code qu'un humain devra ensuite examiner et insérer, un agent de codage peut écrire, tester et déboguer du code de manière indépendante, en se chargeant du travail itératif et d'essais-erreurs qui occupe généralement la journée d'un développeur. Ces agents peuvent opérer sur l’ensemble d’une base de code, identifiant les bogues, exécutant des tests et déployant des correctifs avec un minimum de supervision humaine. Imaginez que vous embauchiez un stagiaire incroyablement rapide qui ne dort jamais et ne se déconcentre jamais — même si, comme pour tout stagiaire, un humain doit toujours examiner le travail final.

Calcul

Bien que le terme puisse avoir plusieurs significations, le « calcul » désigne généralement la puissance de calcul essentielle requise pour le fonctionnement des modèles d’IA. Cette capacité de traitement alimente le secteur de l’IA, permettant l’entraînement et le déploiement de modèles puissants. Le terme est souvent utilisé pour désigner le matériel qui fournit cette puissance : des composants tels que les GPU, les CPU, les TPU et d’autres infrastructures qui constituent le fondement de l’écosystème moderne de l’IA.

Apprentissage profond

Sous-ensemble de l'apprentissage automatique auto-améliorant où les algorithmes d'IA sont construits à partir d'une structure de réseau neuronal artificiel (RNA) multicouche. Cela leur permet d'identifier des modèles et des relations plus complexes que les systèmes d'apprentissage automatique plus simples, tels que les modèles linéaires ou les arbres de décision. La conception des algorithmes d'apprentissage profond s'inspire du réseau interconnecté de neurones du cerveau humain.

Les modèles d'apprentissage profond peuvent identifier eux-mêmes les caractéristiques clés des données, sans que des ingénieurs humains aient besoin de prédéfinir ces caractéristiques. Cette structure prend également en charge des algorithmes qui apprennent de leurs erreurs et, par la répétition et l'ajustement, améliorent leurs résultats au fil du temps. Cependant, les systèmes d'apprentissage profond nécessitent de vastes quantités de données (des millions de points ou plus) pour fournir de bons résultats. Leur apprentissage prend également généralement plus de temps que celui des algorithmes d'apprentissage automatique plus simples, ce qui entraîne des coûts de développement plus élevés.

(Voir : Réseau neuronal)

Diffusion

La diffusion est la technologie au cœur de nombreux modèles d'IA qui génèrent de l'art, de la musique et du texte. Inspirés de la physique, les systèmes de diffusion « détruisent » progressivement la structure des données — telles que des photos ou des chansons — en y ajoutant du bruit jusqu'à ce qu'il ne reste plus rien de reconnaissable. En physique, la diffusion est spontanée et irréversible (le sucre dissous dans le café ne peut pas reprendre sa forme initiale). Mais les systèmes de diffusion IA visent à apprendre un processus de « diffusion inverse » pour reconstruire les données d'origine à partir du bruit, acquérant ainsi la capacité de générer de nouvelles données à partir de zéro.

Distillation

La distillation est une technique permettant de transférer des connaissances d’un grand modèle d’IA (le « professeur ») vers un plus petit (l’« élève »). Les développeurs envoient des requêtes au modèle professeur et enregistrent ses résultats, en les comparant parfois à un ensemble de données pour évaluer leur précision. Ces résultats sont ensuite utilisés pour entraîner le modèle élève à imiter le comportement du professeur.

La distillation permet de créer un modèle plus petit et plus efficace à partir d'un modèle plus grand, avec une perte de performance minimale. C'est probablement ainsi qu'OpenAI a développé GPT-4 Turbo, une version plus rapide de GPT-4.

Si toutes les entreprises d'IA utilisent la distillation en interne, certaines l'ont peut-être également utilisée pour rattraper leur retard sur les modèles de pointe. Cependant, la distillation des connaissances à partir du modèle d'un concurrent enfreint généralement les conditions d'utilisation des API d'IA et des assistants de chat.

Réglage fin

Il s'agit de l'entraînement supplémentaire d'un modèle d'IA visant à optimiser ses performances pour une tâche ou un domaine spécifique, au-delà de l'objectif initial de son entraînement. Cela se fait généralement en alimentant le modèle avec de nouvelles données spécialisées pertinentes pour le domaine cible.

De nombreuses start-ups spécialisées dans l'IA commencent par un grand modèle linguistique comme base pour un produit commercial. Elles cherchent ensuite à améliorer son utilité pour un secteur ou une tâche spécifique en l'affinant avec leurs propres connaissances et leur expertise spécifiques au domaine, complétant ainsi les cycles d'entraînement antérieurs du modèle.

(Voir : Grand modèle linguistique [LLM])

GAN

Un réseau antagoniste génératif (GAN) est un type de cadre d'apprentissage automatique qui a permis des avancées significatives en IA générative, en particulier pour la création de données réalistes, y compris des outils pour les deepfakes. Les GAN impliquent deux réseaux neuronaux qui s'opposent : l'un (le générateur) crée une sortie basée sur ses données d'entraînement, et l'autre (le discriminateur) évalue cette sortie.

Les deux modèles sont essentiellement programmés pour s'affronter. Le générateur tente de produire des résultats suffisamment convaincants pour tromper le discriminateur, tandis que ce dernier s'efforce de repérer les données générées artificiellement. Ce processus antagoniste permet d'optimiser les résultats de l'IA pour les rendre plus réalistes sans intervention humaine supplémentaire. Les GAN sont plus efficaces pour des applications spécifiques, comme la génération de photos ou de vidéos réalistes, que pour l'IA à usage général.

Hallucination

Le terme « hallucination » est utilisé dans le secteur de l'IA pour désigner le fait que des modèles génèrent des informations incorrectes ou inventées. Il s'agit d'un défi majeur pour la qualité et la fiabilité de l'IA.

Les hallucinations peuvent produire des résultats d'IA générative trompeurs présentant des risques potentiels dans le monde réel, tels que des conseils médicaux préjudiciables suite à une requête de santé.

On pense que ce problème de fabrication par l'IA provient de lacunes dans les données d'entraînement. La prévalence des hallucinations entraîne une tendance vers des modèles d'IA plus spécialisés et verticaux — des systèmes spécifiques à un domaine avec une expertise plus étroite — afin de réduire les lacunes de connaissances et de minimiser le risque de désinformation.

Inférence

L'inférence est le processus consistant à exécuter un modèle d'IA entraîné pour faire des prédictions ou tirer des conclusions à partir de nouvelles données. Il est important de noter que l'inférence ne peut avoir lieu sans entraînement préalable ; un modèle doit d'abord apprendre des modèles à partir d'un ensemble de données avant de pouvoir extrapoler efficacement à partir de ces connaissances.

De nombreux types de matériel peuvent effectuer de l'inférence, des processeurs de smartphones aux puissants GPU en passant par les accélérateurs d'IA sur mesure. Cependant, tous les matériels n'ont pas les mêmes capacités. L'exécution de très grands modèles prendrait un temps déraisonnablement long sur un ordinateur portable standard par rapport à un serveur cloud équipé de puces d'IA haut de gamme.

[Voir : Entraînement]

Modèles linguistiques de grande taille (LLM)

Les grands modèles linguistiques (LLM) sont les modèles d'IA qui alimentent des assistants populaires tels que ChatGPT, Claude, Gemini de Google, Llama de Meta, Microsoft Copilot et Le Chat de Mistral. Lorsque vous interagissez avec un assistant IA, vous communiquez avec un LLM qui traite votre requête directement ou à l'aide de divers outils, tels que la navigation web ou des interpréteurs de code.

Les LLM sont des réseaux neuronaux profonds composés de milliards de paramètres numériques (ou poids) qui apprennent les relations entre les mots et les phrases, créant ainsi une représentation multidimensionnelle du langage — une sorte de carte linguistique.

Ces modèles sont entraînés en analysant les schémas présents dans des milliards de livres, d'articles et de transcriptions. Lorsque vous interrogez un LLM, celui-ci génère le schéma linguistique le plus probable qui correspond à votre saisie.

(Voir : Réseau neuronal)

Cache mémoire

Le cache mémoire désigne un processus qui améliore l'inférence (la génération de réponses par l'IA). Essentiellement, la mise en cache est une technique d'optimisation conçue pour rendre l'inférence plus efficace. L'IA repose sur des calculs mathématiques intensifs, chacun consommant de l'énergie. La mise en cache réduit le nombre de calculs qu'un modèle doit effectuer en stockant des calculs spécifiques pour les réutiliser lors de futures requêtes. Il existe différents types de mise en cache de mémoire, le cache KV (clé-valeur) étant un exemple bien connu pour les modèles basés sur des transformateurs. La mise en cache KV augmente l'efficacité et accélère les réponses en réduisant le temps et l'effort de calcul nécessaires pour générer des réponses.

(Voir : Inférence)

Réseau neuronal

Un réseau neuronal est la structure algorithmique multicouche qui sous-tend l'apprentissage profond et, plus largement, l'essor de l'IA générative qui a suivi l'avènement des grands modèles linguistiques.

Bien que l'idée de s'inspirer des neurones interconnectés du cerveau humain pour les algorithmes de traitement des données remonte aux années 1940, c'est la prolifération plus récente des processeurs graphiques (GPU) — sous l'impulsion de l'industrie du jeu vidéo — qui a véritablement libéré le potentiel de cette théorie. Ces puces se sont révélées exceptionnellement bien adaptées à l'entraînement d'algorithmes comportant bien plus de couches qu'auparavant, permettant aux systèmes d'IA basés sur des réseaux neuronaux d'atteindre des performances supérieures dans des domaines tels que la reconnaissance vocale, la navigation autonome et la découverte de médicaments.

(Voir : Modèle linguistique à grande échelle [LLM])

Open source

Le terme « open source » désigne les logiciels — ou, de plus en plus, les modèles d'IA — dont le code sous-jacent est accessible au public et peut être utilisé, inspecté ou modifié par n'importe qui. En IA, la famille de modèles Llama de Meta en est un exemple marquant ; dans le domaine des systèmes d'exploitation, Linux en est le parallèle historique classique. L'approche open source permet aux chercheurs, développeurs et entreprises du monde entier de s'appuyer sur les travaux les uns des autres, accélérant ainsi les progrès et permettant des audits de sécurité indépendants que les systèmes fermés ne peuvent pas facilement fournir. Le code source fermé signifie que le code est privé : vous pouvez utiliser le produit sans voir comment il fonctionne, comme c'est le cas avec les modèles GPT d'OpenAI. Cette distinction est devenue un débat central au sein du secteur de l'IA.

Parallélisation

La parallélisation consiste à effectuer de nombreuses opérations simultanément plutôt que séquentiellement — comme si dix employés travaillaient simultanément sur différentes parties d’un projet au lieu qu’une seule personne fasse tout étape par étape. En IA, la parallélisation est fondamentale tant pour l’entraînement que pour l’inférence. Les GPU modernes sont spécialement conçus pour effectuer des milliers de calculs en parallèle, ce qui explique en grande partie pourquoi ils sont devenus la colonne vertébrale matérielle du secteur. À mesure que les systèmes d'IA gagnent en complexité et que les modèles s'étoffent, la capacité à paralléliser le travail sur de nombreuses puces et machines est devenue un facteur déterminant pour établir à quelle vitesse et à quel coût les modèles peuvent être construits et déployés. La recherche de meilleures stratégies de parallélisation constitue désormais un domaine d'étude à part entière.

RAMageddon

RAMageddon est le nouveau terme ludique désignant une tendance sérieuse qui balaye l'industrie technologique : une pénurie croissante de puces de mémoire vive (RAM), qui alimentent presque tous les produits technologiques que nous utilisons quotidiennement. Alors que le secteur de l'IA a explosé, les grandes entreprises technologiques et les laboratoires d'IA — tous en concurrence pour construire l'IA la plus puissante et la plus efficace — achètent de telles quantités de RAM pour leurs centres de données qu'il n'en reste presque plus pour les autres. Ce goulot d'étranglement au niveau de l'offre fait grimper les prix des stocks restants.

L'impact touche des secteurs tels que le jeu vidéo (où les entreprises ont augmenté les prix des consoles en raison de la pénurie de puces mémoire), l'électronique grand public (où les pénuries pourraient entraîner la plus forte baisse des livraisons de smartphones depuis plus d'une décennie) et l'informatique d'entreprise en général (les entreprises ayant du mal à se procurer suffisamment de RAM pour leurs propres centres de données). La flambée des prix devrait se poursuivre jusqu'à la fin de la pénurie, mais malheureusement, rien n'indique que cela se produira bientôt.

Apprentissage par renforcement

L'apprentissage par renforcement est une méthode d'entraînement dans laquelle un système d'IA apprend par essais et erreurs, en recevant des récompenses pour les actions correctes — un peu comme on dresse un animal de compagnie avec des friandises, sauf que l'« animal » est un réseau neuronal et que la « friandise » est un signal mathématique indiquant la réussite. Contrairement à l'apprentissage supervisé, où un modèle est entraîné sur un ensemble de données fixe d'exemples étiquetés, l'apprentissage par renforcement permet à un modèle d'explorer son environnement, d'agir et de mettre à jour en continu son comportement en fonction du retour d'information. Cette approche s'est révélée particulièrement efficace pour former l'IA à jouer à des jeux, à contrôler des robots et, plus récemment, à affiner les capacités de raisonnement des grands modèles linguistiques. Des techniques telles que l'apprentissage par renforcement à partir du retour d'information humain (RLHF) sont désormais au cœur de la manière dont les principaux laboratoires d'IA affinent leurs modèles pour les rendre plus utiles, plus précis et plus sûrs.

Token

La communication homme-machine présente des défis évidents : les humains utilisent le langage humain, tandis que les programmes d'IA exécutent des tâches via des processus algorithmiques complexes basés sur des données. Les tokens comblent ce fossé. Ils constituent les éléments fondamentaux de la communication entre l'homme et l'IA, représentant des segments discrets de données traitées ou produites par un LLM. Ils sont créés par tokenisation, qui décompose le texte brut en unités digestibles qu'un modèle linguistique peut comprendre, de la même manière qu'un compilateur traduit le langage humain en code binaire pour un ordinateur. Dans le contexte des entreprises, les tokens déterminent également le coût : la plupart des entreprises d'IA facturent l'utilisation des LLM au token, ce qui signifie que plus une entreprise en utilise, plus elle paie.

Débit de tokens

Encore une fois, les tokens sont de petits morceaux de texte — souvent des parties de mots — en lesquels les modèles linguistiques d'IA décomposent le langage pour le traiter ; ils sont en gros analogues aux « mots » pour comprendre les charges de travail de l'IA. Le débit fait référence à la quantité pouvant être traitée en un temps donné, de sorte que le débit de tokens mesure essentiellement la quantité de travail d'IA qu'un système peut gérer simultanément. Un débit de tokens élevé est un objectif clé pour les équipes chargées des infrastructures d’IA, car il détermine le nombre d’utilisateurs qu’un modèle peut servir à la fois et la rapidité avec laquelle chacun reçoit une réponse. Le chercheur en IA Andrej Karpathy a décrit son sentiment d’anxiété lorsque ses abonnements IA restent inutilisés — faisant écho à ses préoccupations de l’époque où il était étudiant en master face au matériel coûteux sous-utilisé —, un sentiment qui explique pourquoi la maximisation du débit de tokens est devenue une obsession dans ce domaine.

Formation

Le développement de l'IA par apprentissage automatique implique un processus appelé « formation ». En termes simples, cela consiste à alimenter un modèle en données afin qu'il puisse apprendre des modèles et générer des résultats utiles. C'est le processus par lequel le système réagit aux caractéristiques des données, en adaptant ses résultats à un objectif souhaité — qu'il s'agisse d'identifier des images de chats ou de composer un haïku à la demande.

L'entraînement peut s'avérer coûteux car il nécessite d'énormes quantités de données, et les volumes requis ne cessent d'augmenter. C'est pourquoi des approches hybrides, comme le réglage fin d'une IA basée sur des règles à l'aide de données ciblées, peuvent aider à maîtriser les coûts sans repartir de zéro.

[Voir : Inférence]

Apprentissage par transfert

Technique consistant à utiliser un modèle d'IA pré-entraîné comme point de départ pour développer un nouveau modèle destiné à une tâche différente, mais généralement liée. Cela permet de réutiliser les connaissances acquises lors des cycles d'entraînement précédents.

L'apprentissage par transfert peut améliorer l'efficacité en raccourcissant le processus de développement du modèle. Il est également utile lorsque les données disponibles pour la nouvelle tâche sont limitées. Cependant, cette approche a ses limites. Les modèles qui s'appuient sur l'apprentissage par transfert pour obtenir des capacités généralisées auront probablement besoin d'un apprentissage supplémentaire sur des données spécifiques au domaine pour fonctionner correctement dans leur domaine d'application.

(Voir : Réglage fin)

Poids

Les poids sont au cœur de l'entraînement de l'IA, car ils déterminent l'importance (ou le « poids ») attribuée aux différentes caractéristiques (ou variables d'entrée) dans les données d'entraînement, façonnant ainsi la sortie du modèle.

En d'autres termes, les poids sont des paramètres numériques qui définissent ce qui est le plus significatif dans un ensemble de données pour une tâche d'entraînement donnée. Ils fonctionnent en multipliant les entrées. L'entraînement d'un modèle commence généralement avec des poids attribués de manière aléatoire, qui s'ajustent au fur et à mesure que le modèle itère pour produire des sorties qui correspondent davantage à la cible.

Par exemple, un modèle d'IA entraîné sur des données immobilières historiques pour prédire les prix des logements pourrait avoir des poids pour des caractéristiques telles que le nombre de chambres et de salles de bains, le type de propriété (maison individuelle ou jumelée), la disponibilité d'un parking, la présence d'un garage, etc. Les poids que le modèle attribue à chaque entrée reflètent leur influence sur la valeur du bien immobilier en fonction de l'ensemble de données.

Perte de validation

La perte de validation est une métrique qui indique dans quelle mesure un modèle d'IA apprend pendant l'entraînement — plus les chiffres sont bas, mieux c'est. Les chercheurs la surveillent de près comme un bulletin de notes en temps réel, l'utilisant pour décider quand arrêter l'entraînement, ajuster les hyperparamètres ou examiner les problèmes potentiels. Elle permet notamment d'identifier le surapprentissage, une situation où un modèle mémorise ses données d'entraînement plutôt que d'apprendre des modèles généralisables. Considérez cela comme la différence entre un élève qui comprend véritablement la matière et un autre qui s'est contenté de mémoriser l'examen de l'année dernière : la perte de validation aide à révéler la voie que suit votre modèle.

Cet article est régulièrement mis à jour avec de nouvelles informations.