Maison
Le modèle compact d'IA de Samsung surpasse ses concurrents plus grands en matière de raisonnement
Un nouvel article rédigé par un chercheur en IA de Samsung montre comment un réseau compact peut surpasser les grands modèles de langage massifs (LLM) dans la résolution de tâches de raisonnement complexes.
Dans la course à la domination de l'IA, le mantra dominant de l'industrie a été "plus c'est gros, mieux c'est". Alors que les géants de la technologie investissent des milliards dans le développement de modèles de plus en plus grands, Alexia Jolicoeur-Martineau de Samsung SAIL Montréal propose une approche différente et plus efficace en utilisant le Tiny Recursive Model (TRM).
Avec seulement 7 millions de paramètres, soit moins de 0,01 % de la taille des meilleurs LLM, le TRM obtient de nouveaux résultats de pointe sur des critères de référence notoirement difficiles comme le test d'intelligence ARC-AGI. Les résultats de Samsung remettent en question la croyance commune selon laquelle l'échelle est le seul moyen de faire progresser l'IA, en présentant une alternative plus durable et plus efficace en termes de paramètres.
Surmonter les limites de l'échelle
Bien que les LLM excellent dans la production de textes semblables à ceux des humains, leur capacité à gérer des raisonnements complexes en plusieurs étapes est souvent fragile. Étant donné qu'ils génèrent des réponses jeton par jeton, une erreur au début peut compromettre l'ensemble de la solution et entraîner une réponse finale incorrecte.
Des techniques telles que la chaîne de pensée, dans laquelle un modèle décompose un problème étape par étape, visent à atténuer ce problème. Toutefois, ces approches sont coûteuses en termes de calcul, nécessitent souvent des données de raisonnement substantielles et de haute qualité, et peuvent toujours produire une logique erronée. Même avec ces améliorations, les LLM ont du mal à résoudre les énigmes qui exigent une exécution logique sans faille.
Les recherches de Samsung s'appuient sur le récent modèle de raisonnement hiérarchique (MRH). Le MRH utilise deux petits réseaux neuronaux qui affinent récursivement les réponses à des fréquences différentes. Bien que prometteur, le modèle était complexe, reposant sur des arguments biologiques incertains et des théorèmes à point fixe qui n'étaient pas toujours applicables.
Au lieu de la structure à deux réseaux de la MRH, la CRT emploie un réseau unique et compact qui améliore de manière récursive à la fois son raisonnement interne et la réponse qu'il propose.
Le modèle reçoit la question, une première réponse supposée et une caractéristique de raisonnement latente. Il passe ensuite par plusieurs étapes pour affiner son raisonnement sur la base de ces trois données. À l'aide de ce raisonnement amélioré, il met à jour sa prédiction de réponse finale. L'ensemble de ce processus peut se répéter jusqu'à 16 fois, ce qui permet au modèle de s'autocorriger progressivement d'une manière très efficace sur le plan des paramètres.
De manière contre-intuitive, l'étude a révélé qu'un réseau à deux couches se généralisait beaucoup mieux qu'une version à quatre couches. La conception plus petite semble empêcher le surajustement - un problème courant lors de l'entraînement sur des ensembles de données limités et spécialisés.
La CRT élimine également les hypothèses mathématiques complexes de son prédécesseur. Le modèle original de GRH devait supposer la convergence de la fonction vers un point fixe pour justifier son apprentissage. Le modèle TRM contourne ce problème en procédant à une rétro-propagation par le biais de son processus de récursion complet. Ce changement a permis d'améliorer considérablement les performances, faisant passer la précision du test de référence Sudoku-Extreme de 56,5 % à 87,4 % dans les tests d'ablation.
Le modèle de Samsung pulvérise les critères d'évaluation de l'IA avec moins de ressources
Les résultats sont frappants. Sur l'ensemble de données Sudoku-Extreme, qui n'utilise que 1 000 exemples d'entraînement, le modèle TRM atteint une précision de test de 87,4 %, un bond considérable par rapport aux 55 % du modèle HRM. Sur le jeu de données Maze-Hard, qui consiste à parcourir de longs chemins dans des labyrinthes de 30×30, TRM obtient un score de 85,3 %, contre 74,5 % pour HRM.
Plus important encore, TRM fait des progrès significatifs sur le Corpus d'abstraction et de raisonnement (ARC-AGI), une référence conçue pour évaluer la véritable intelligence fluide dans le domaine de l'IA. Avec seulement 7 millions de paramètres, TRM atteint une précision de 44,6 % sur ARC-AGI-1 et de 7,8 % sur ARC-AGI-2. Ces résultats sont supérieurs à ceux de HRM, qui a utilisé 27 millions de paramètres, et surpassent même plusieurs des plus grands LLM du monde. À titre de comparaison, Gemini 2.5 Pro n'obtient que 4,9 % sur ARC-AGI-2.
Le processus de formation de TRM a également été optimisé. Un mécanisme adaptatif appelé ACT - qui détermine quand le modèle a suffisamment amélioré une réponse pour passer à autre chose - a été simplifié, éliminant la nécessité d'une deuxième passe coûteuse au cours de chaque étape de formation. Cet ajustement n'a pas nui à la généralisation globale.
La recherche de Samsung constitue un contrepoint solide à la tendance qui consiste à construire des modèles d'IA de plus en plus grands. Elle démontre qu'en concevant des architectures capables de raisonnement itératif et d'autocorrection, il est possible de résoudre des problèmes extrêmement difficiles en n'utilisant qu'une infime partie des ressources informatiques.
Voir aussi : Le nouvel agent d'IA de Google réécrit le code pour automatiser la correction des vulnérabilités

Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders de l'industrie ? Participez à l'exposition AI & Big Data à Amsterdam, en Californie et à Londres. Cet événement complet fait partie de TechEx et se déroule parallèlement à d'autres événements technologiques majeurs tels que le Cyber Security Expo. Cliquez ici pour en savoir plus.
AI News est alimenté par TechForge Media. Découvrez d'autres événements et webinaires à venir dans le domaine des technologies d'entreprise ici.
Article connexe
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Kakao Mobility présente sa feuille de route pour la conduite autonome de niveau 4 basée sur l'IA physique
Kakao Mobility prévoit de développer en interne des technologies de conduite autonome de niveau 4 dans le cadre de sa stratégie d'IA physique.Lors de la conférence World IT Show 2026 qui s'est tenue
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se
Recommandations de sujets spéciaux liés
commentaires (0)
Un nouvel article rédigé par un chercheur en IA de Samsung montre comment un réseau compact peut surpasser les grands modèles de langage massifs (LLM) dans la résolution de tâches de raisonnement complexes.
Dans la course à la domination de l'IA, le mantra dominant de l'industrie a été "plus c'est gros, mieux c'est". Alors que les géants de la technologie investissent des milliards dans le développement de modèles de plus en plus grands, Alexia Jolicoeur-Martineau de Samsung SAIL Montréal propose une approche différente et plus efficace en utilisant le Tiny Recursive Model (TRM).
Avec seulement 7 millions de paramètres, soit moins de 0,01 % de la taille des meilleurs LLM, le TRM obtient de nouveaux résultats de pointe sur des critères de référence notoirement difficiles comme le test d'intelligence ARC-AGI. Les résultats de Samsung remettent en question la croyance commune selon laquelle l'échelle est le seul moyen de faire progresser l'IA, en présentant une alternative plus durable et plus efficace en termes de paramètres.
Surmonter les limites de l'échelle
Bien que les LLM excellent dans la production de textes semblables à ceux des humains, leur capacité à gérer des raisonnements complexes en plusieurs étapes est souvent fragile. Étant donné qu'ils génèrent des réponses jeton par jeton, une erreur au début peut compromettre l'ensemble de la solution et entraîner une réponse finale incorrecte.
Des techniques telles que la chaîne de pensée, dans laquelle un modèle décompose un problème étape par étape, visent à atténuer ce problème. Toutefois, ces approches sont coûteuses en termes de calcul, nécessitent souvent des données de raisonnement substantielles et de haute qualité, et peuvent toujours produire une logique erronée. Même avec ces améliorations, les LLM ont du mal à résoudre les énigmes qui exigent une exécution logique sans faille.
Les recherches de Samsung s'appuient sur le récent modèle de raisonnement hiérarchique (MRH). Le MRH utilise deux petits réseaux neuronaux qui affinent récursivement les réponses à des fréquences différentes. Bien que prometteur, le modèle était complexe, reposant sur des arguments biologiques incertains et des théorèmes à point fixe qui n'étaient pas toujours applicables.
Au lieu de la structure à deux réseaux de la MRH, la CRT emploie un réseau unique et compact qui améliore de manière récursive à la fois son raisonnement interne et la réponse qu'il propose.
Le modèle reçoit la question, une première réponse supposée et une caractéristique de raisonnement latente. Il passe ensuite par plusieurs étapes pour affiner son raisonnement sur la base de ces trois données. À l'aide de ce raisonnement amélioré, il met à jour sa prédiction de réponse finale. L'ensemble de ce processus peut se répéter jusqu'à 16 fois, ce qui permet au modèle de s'autocorriger progressivement d'une manière très efficace sur le plan des paramètres.
De manière contre-intuitive, l'étude a révélé qu'un réseau à deux couches se généralisait beaucoup mieux qu'une version à quatre couches. La conception plus petite semble empêcher le surajustement - un problème courant lors de l'entraînement sur des ensembles de données limités et spécialisés.
La CRT élimine également les hypothèses mathématiques complexes de son prédécesseur. Le modèle original de GRH devait supposer la convergence de la fonction vers un point fixe pour justifier son apprentissage. Le modèle TRM contourne ce problème en procédant à une rétro-propagation par le biais de son processus de récursion complet. Ce changement a permis d'améliorer considérablement les performances, faisant passer la précision du test de référence Sudoku-Extreme de 56,5 % à 87,4 % dans les tests d'ablation.
Le modèle de Samsung pulvérise les critères d'évaluation de l'IA avec moins de ressources
Les résultats sont frappants. Sur l'ensemble de données Sudoku-Extreme, qui n'utilise que 1 000 exemples d'entraînement, le modèle TRM atteint une précision de test de 87,4 %, un bond considérable par rapport aux 55 % du modèle HRM. Sur le jeu de données Maze-Hard, qui consiste à parcourir de longs chemins dans des labyrinthes de 30×30, TRM obtient un score de 85,3 %, contre 74,5 % pour HRM.
Plus important encore, TRM fait des progrès significatifs sur le Corpus d'abstraction et de raisonnement (ARC-AGI), une référence conçue pour évaluer la véritable intelligence fluide dans le domaine de l'IA. Avec seulement 7 millions de paramètres, TRM atteint une précision de 44,6 % sur ARC-AGI-1 et de 7,8 % sur ARC-AGI-2. Ces résultats sont supérieurs à ceux de HRM, qui a utilisé 27 millions de paramètres, et surpassent même plusieurs des plus grands LLM du monde. À titre de comparaison, Gemini 2.5 Pro n'obtient que 4,9 % sur ARC-AGI-2.
Le processus de formation de TRM a également été optimisé. Un mécanisme adaptatif appelé ACT - qui détermine quand le modèle a suffisamment amélioré une réponse pour passer à autre chose - a été simplifié, éliminant la nécessité d'une deuxième passe coûteuse au cours de chaque étape de formation. Cet ajustement n'a pas nui à la généralisation globale.
La recherche de Samsung constitue un contrepoint solide à la tendance qui consiste à construire des modèles d'IA de plus en plus grands. Elle démontre qu'en concevant des architectures capables de raisonnement itératif et d'autocorrection, il est possible de résoudre des problèmes extrêmement difficiles en n'utilisant qu'une infime partie des ressources informatiques.
Voir aussi : Le nouvel agent d'IA de Google réécrit le code pour automatiser la correction des vulnérabilités

Vous souhaitez en savoir plus sur l'IA et le big data auprès des leaders de l'industrie ? Participez à l'exposition AI & Big Data à Amsterdam, en Californie et à Londres. Cet événement complet fait partie de TechEx et se déroule parallèlement à d'autres événements technologiques majeurs tels que le Cyber Security Expo. Cliquez ici pour en savoir plus.
AI News est alimenté par TechForge Media. Découvrez d'autres événements et webinaires à venir dans le domaine des technologies d'entreprise ici.
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Barry Diller : la confiance en Sam Altman n'a plus d'importance à l'approche de l'IA générale
Barry Diller, le magnat milliardaire des médias, ne considère pas que Sam Altman, PDG d’OpenAI, soit indigne de confiance, malgré des informations récentes suggérant le contraire. S’exprimant cette se











