Maison
Le modèle d'IA DeepSeek V3.2 offre des performances de haut niveau avec un coût de calcul minimal
Alors que les grandes entreprises technologiques investissent des milliards dans la puissance de calcul pour développer des modèles d'IA de pointe, la société chinoise DeepSeek a obtenu des résultats similaires grâce à des approches plus intelligentes plutôt qu'à une simple question d'échelle. Le modèle DeepSeek V3.2 égale le GPT-5 d'OpenAI dans les tests de raisonnement, bien qu'il utilise « moins de FLOPs d'entraînement au total » — une avancée qui pourrait redéfinir la manière dont l'industrie aborde la création d'une intelligence artificielle sophistiquée.
Pour les entreprises, cette version montre que des capacités d'IA de haut niveau ne nécessitent pas nécessairement des budgets informatiques élevés. La disponibilité open source de DeepSeek V3.2 permet aux organisations d'évaluer des fonctionnalités avancées de raisonnement et d'agentivité tout en conservant le contrôle de leur infrastructure de déploiement, un facteur crucial alors que la rentabilité devient de plus en plus centrale dans les plans d'adoption de l'IA.
Le laboratoire de recherche basé à Hangzhou a présenté lundi deux versions : la version de base DeepSeek V3.2 et DeepSeek-V3.2-Speciale. Cette dernière a obtenu la médaille d'or lors des Olympiades internationales de mathématiques et des Olympiades internationales d'informatique de 2025, des tests de performance qui n'avaient auparavant été réussis que par des modèles internes non commercialisés provenant de grandes entreprises américaines spécialisées dans l'IA.
Cette réussite est d'autant plus remarquable que DeepSeek a un accès limité aux puces semi-conductrices avancées en raison des réglementations en matière d'exportation.
L'efficacité des ressources comme avantage concurrentiel
Le succès de DeepSeek remet en question la croyance largement répandue dans l'industrie selon laquelle des performances d'IA de pointe nécessitent des ressources informatiques à très grande échelle. L'entreprise attribue cette efficacité à des avancées architecturales, en particulier DeepSeek Sparse Attention (DSA), qui réduit considérablement la complexité informatique sans compromettre les performances du modèle.
Le modèle de base DeepSeek V3.2 a atteint une précision de 93,1 % sur les problèmes mathématiques de l'AIME 2025 et une note Codeforces de 2386, ce qui le place au même niveau que le GPT-5 dans les évaluations de raisonnement.
La variante Speciale a obtenu des résultats encore meilleurs, avec un score de 96,0 % à l'American Invitational Mathematics Examination (AIME) 2025, 99,2 % au Harvard-MIT Mathematics Tournament (HMMT) de février 2025, et une médaille d'or à l'Olympiade internationale de mathématiques et à l'Olympiade internationale d'informatique de 2025.
Ces résultats sont particulièrement impressionnants compte tenu de l'accès limité de DeepSeek aux puces avancées en raison de la série de droits de douane et de contrôles à l'exportation qui affectent la Chine. Le rapport technique indique que l'entreprise a alloué un budget informatique post-formation supérieur à 10 % des dépenses pré-formation, un investissement considérable qui a permis de développer des capacités avancées grâce à l'optimisation de l'apprentissage par renforcement plutôt qu'à une mise à l'échelle par la force brute.
L'innovation technique au service de l'efficacité
Le mécanisme DSA marque une rupture avec les architectures d'attention conventionnelles. Plutôt que de traiter tous les tokens avec une intensité de calcul uniforme, le DSA utilise un « indexeur éclair » et un système de sélection de tokens finement granulé qui identifie et traite uniquement les informations les plus pertinentes pour chaque requête.
Cette méthode réduit la complexité de l'attention centrale de O(L²) à O(Lk), où k désigne le nombre de jetons sélectionnés, soit une fraction de la longueur totale de la séquence L. Au cours de la préformation prolongée à partir du point de contrôle DeepSeek-V3.1-Terminus, l'entreprise a formé le DSA sur 943,7 milliards de jetons en utilisant 480 séquences de 128 000 jetons par étape de formation.
L'architecture met également en œuvre une gestion du contexte conçue pour les situations d'appel d'outils. Contrairement aux modèles de raisonnement antérieurs qui rejetaient le contenu du raisonnement après chaque message utilisateur, le modèle DeepSeek V3.2 conserve les traces de raisonnement lorsque seuls des messages liés à l'outil sont ajoutés, ce qui améliore l'efficacité des jetons dans les flux de travail des agents à plusieurs tours en éliminant les raisonnements inutiles.
Applications d'entreprise et performances pratiques
Pour les organisations qui évaluent la mise en œuvre de l'IA, la méthodologie de DeepSeek offre des avantages tangibles qui vont au-delà des résultats des tests de performance. Sur Terminal Bench 2.0, qui mesure les capacités des flux de travail de codage, DeepSeek V3.2 a atteint une précision de 46,4 %.
Le modèle a obtenu un score de 73,1 % sur SWE-Verified, un benchmark de résolution de problèmes en génie logiciel, et de 70,2 % sur SWE Multilingual, démontrant ainsi sa valeur pratique dans les environnements de développement.
Dans les tâches agentifiques nécessitant l'utilisation autonome d'outils et un raisonnement en plusieurs étapes, le modèle a montré des améliorations substantielles par rapport aux systèmes open source précédents. La société a créé un pipeline de synthèse de tâches agentifiques à grande échelle qui a généré plus de 1 800 environnements distincts et 85 000 invites complexes, permettant au modèle de généraliser les stratégies de raisonnement à des scénarios d'utilisation d'outils inconnus.
DeepSeek a mis en open source le modèle de base V3.2 sur Hugging Face, permettant aux entreprises de le déployer et de le personnaliser sans dépendance vis-à-vis d'un fournisseur. La variante Speciale reste accessible uniquement via l'API en raison de ses exigences plus élevées en matière de consommation de jetons, ce qui constitue un compromis entre performances de pointe et efficacité de déploiement.
Implications et reconnaissance dans le secteur
Cette publication a suscité de nombreuses discussions au sein de la communauté des chercheurs en IA. Susan Zhang, ingénieure de recherche principale chez Google DeepMind, a salué la documentation technique complète de DeepSeek, soulignant en particulier les efforts de l'entreprise pour stabiliser les modèles après leur formation et renforcer leurs capacités d'action.
Le timing, juste avant la Conférence sur les systèmes de traitement de l'information neuronale, a attiré davantage l'attention. Florian Brand, expert de l'écosystème open source chinois en matière d'IA, présent à la NeurIPS à San Diego, a observé la réaction immédiate : « Toutes les discussions de groupe ont été animées aujourd'hui après l'annonce de DeepSeek. »
Limites reconnues et voie de développement
Le rapport technique de DeepSeek aborde les lacunes actuelles par rapport aux modèles de pointe. L'efficacité des jetons reste un défi : le modèle DeepSeek V3.2 nécessite généralement des séquences de génération plus longues pour égaler la qualité de sortie de systèmes tels que Gemini 3 Pro. L'entreprise reconnaît également que l'étendue de ses connaissances mondiales est inférieure à celle des principaux modèles propriétaires en raison d'une puissance de calcul globale moindre.
Les priorités de développement futur comprennent l'augmentation des ressources informatiques de pré-formation afin d'élargir les connaissances mondiales, l'optimisation de l'efficacité de la chaîne de raisonnement afin d'améliorer l'utilisation des jetons, et le perfectionnement de l'architecture fondamentale pour les tâches complexes de résolution de problèmes.
Voir aussi : La réalité des entreprises en matière d'IA : ce que les dirigeants d'entreprise doivent savoir

Vous souhaitez en savoir plus sur l'IA et le big data auprès d'experts du secteur ? Découvrez le salon AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet fait partie de TechEx et se déroule en même temps que d'autres événements technologiques majeurs. Cliquez ici pour plus de détails.
AI News est alimenté par TechForge Media. Découvrez ici les autres événements et webinaires à venir consacrés aux technologies d'entreprise.
Article connexe
DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe
Le laboratoire chinois d'IA DeepSeek a publié deux versions préliminaires de son tout dernier grand modèle linguistique, DeepSeek V4, une mise à jour très attendue du modèle V3.2 de l'année dernière e
Un tribunal allemand donne raison à Teradyne Robotics et prononce une injonction à l'encontre d'Elite Robots
Universal Robots, filiale de Teradyne, a récemment présenté son manipulateur mobile équipé d'un bras robotique collaboratif UR lors du salon MODEX. Source : TeradyneAlors que le salon Hannover Messe s
Hyundai présente son robot MobED à l'AW alors que l'IA transforme le secteur manufacturier
Hyundai présentera son robot MobED parmi d'autres systèmes coréens lors du salon AW 2026. Source : Hyundai Motor GroupLe laboratoire de robotique de Hyundai Motor Group présentera sa plateforme mobile
Recommandations de sujets spéciaux liés
commentaires (1)
Alors que les grandes entreprises technologiques investissent des milliards dans la puissance de calcul pour développer des modèles d'IA de pointe, la société chinoise DeepSeek a obtenu des résultats similaires grâce à des approches plus intelligentes plutôt qu'à une simple question d'échelle. Le modèle DeepSeek V3.2 égale le GPT-5 d'OpenAI dans les tests de raisonnement, bien qu'il utilise « moins de FLOPs d'entraînement au total » — une avancée qui pourrait redéfinir la manière dont l'industrie aborde la création d'une intelligence artificielle sophistiquée.
Pour les entreprises, cette version montre que des capacités d'IA de haut niveau ne nécessitent pas nécessairement des budgets informatiques élevés. La disponibilité open source de DeepSeek V3.2 permet aux organisations d'évaluer des fonctionnalités avancées de raisonnement et d'agentivité tout en conservant le contrôle de leur infrastructure de déploiement, un facteur crucial alors que la rentabilité devient de plus en plus centrale dans les plans d'adoption de l'IA.
Le laboratoire de recherche basé à Hangzhou a présenté lundi deux versions : la version de base DeepSeek V3.2 et DeepSeek-V3.2-Speciale. Cette dernière a obtenu la médaille d'or lors des Olympiades internationales de mathématiques et des Olympiades internationales d'informatique de 2025, des tests de performance qui n'avaient auparavant été réussis que par des modèles internes non commercialisés provenant de grandes entreprises américaines spécialisées dans l'IA.
Cette réussite est d'autant plus remarquable que DeepSeek a un accès limité aux puces semi-conductrices avancées en raison des réglementations en matière d'exportation.
L'efficacité des ressources comme avantage concurrentiel
Le succès de DeepSeek remet en question la croyance largement répandue dans l'industrie selon laquelle des performances d'IA de pointe nécessitent des ressources informatiques à très grande échelle. L'entreprise attribue cette efficacité à des avancées architecturales, en particulier DeepSeek Sparse Attention (DSA), qui réduit considérablement la complexité informatique sans compromettre les performances du modèle.
Le modèle de base DeepSeek V3.2 a atteint une précision de 93,1 % sur les problèmes mathématiques de l'AIME 2025 et une note Codeforces de 2386, ce qui le place au même niveau que le GPT-5 dans les évaluations de raisonnement.
La variante Speciale a obtenu des résultats encore meilleurs, avec un score de 96,0 % à l'American Invitational Mathematics Examination (AIME) 2025, 99,2 % au Harvard-MIT Mathematics Tournament (HMMT) de février 2025, et une médaille d'or à l'Olympiade internationale de mathématiques et à l'Olympiade internationale d'informatique de 2025.
Ces résultats sont particulièrement impressionnants compte tenu de l'accès limité de DeepSeek aux puces avancées en raison de la série de droits de douane et de contrôles à l'exportation qui affectent la Chine. Le rapport technique indique que l'entreprise a alloué un budget informatique post-formation supérieur à 10 % des dépenses pré-formation, un investissement considérable qui a permis de développer des capacités avancées grâce à l'optimisation de l'apprentissage par renforcement plutôt qu'à une mise à l'échelle par la force brute.
L'innovation technique au service de l'efficacité
Le mécanisme DSA marque une rupture avec les architectures d'attention conventionnelles. Plutôt que de traiter tous les tokens avec une intensité de calcul uniforme, le DSA utilise un « indexeur éclair » et un système de sélection de tokens finement granulé qui identifie et traite uniquement les informations les plus pertinentes pour chaque requête.
Cette méthode réduit la complexité de l'attention centrale de O(L²) à O(Lk), où k désigne le nombre de jetons sélectionnés, soit une fraction de la longueur totale de la séquence L. Au cours de la préformation prolongée à partir du point de contrôle DeepSeek-V3.1-Terminus, l'entreprise a formé le DSA sur 943,7 milliards de jetons en utilisant 480 séquences de 128 000 jetons par étape de formation.
L'architecture met également en œuvre une gestion du contexte conçue pour les situations d'appel d'outils. Contrairement aux modèles de raisonnement antérieurs qui rejetaient le contenu du raisonnement après chaque message utilisateur, le modèle DeepSeek V3.2 conserve les traces de raisonnement lorsque seuls des messages liés à l'outil sont ajoutés, ce qui améliore l'efficacité des jetons dans les flux de travail des agents à plusieurs tours en éliminant les raisonnements inutiles.
Applications d'entreprise et performances pratiques
Pour les organisations qui évaluent la mise en œuvre de l'IA, la méthodologie de DeepSeek offre des avantages tangibles qui vont au-delà des résultats des tests de performance. Sur Terminal Bench 2.0, qui mesure les capacités des flux de travail de codage, DeepSeek V3.2 a atteint une précision de 46,4 %.
Le modèle a obtenu un score de 73,1 % sur SWE-Verified, un benchmark de résolution de problèmes en génie logiciel, et de 70,2 % sur SWE Multilingual, démontrant ainsi sa valeur pratique dans les environnements de développement.
Dans les tâches agentifiques nécessitant l'utilisation autonome d'outils et un raisonnement en plusieurs étapes, le modèle a montré des améliorations substantielles par rapport aux systèmes open source précédents. La société a créé un pipeline de synthèse de tâches agentifiques à grande échelle qui a généré plus de 1 800 environnements distincts et 85 000 invites complexes, permettant au modèle de généraliser les stratégies de raisonnement à des scénarios d'utilisation d'outils inconnus.
DeepSeek a mis en open source le modèle de base V3.2 sur Hugging Face, permettant aux entreprises de le déployer et de le personnaliser sans dépendance vis-à-vis d'un fournisseur. La variante Speciale reste accessible uniquement via l'API en raison de ses exigences plus élevées en matière de consommation de jetons, ce qui constitue un compromis entre performances de pointe et efficacité de déploiement.
Implications et reconnaissance dans le secteur
Cette publication a suscité de nombreuses discussions au sein de la communauté des chercheurs en IA. Susan Zhang, ingénieure de recherche principale chez Google DeepMind, a salué la documentation technique complète de DeepSeek, soulignant en particulier les efforts de l'entreprise pour stabiliser les modèles après leur formation et renforcer leurs capacités d'action.
Le timing, juste avant la Conférence sur les systèmes de traitement de l'information neuronale, a attiré davantage l'attention. Florian Brand, expert de l'écosystème open source chinois en matière d'IA, présent à la NeurIPS à San Diego, a observé la réaction immédiate : « Toutes les discussions de groupe ont été animées aujourd'hui après l'annonce de DeepSeek. »
Limites reconnues et voie de développement
Le rapport technique de DeepSeek aborde les lacunes actuelles par rapport aux modèles de pointe. L'efficacité des jetons reste un défi : le modèle DeepSeek V3.2 nécessite généralement des séquences de génération plus longues pour égaler la qualité de sortie de systèmes tels que Gemini 3 Pro. L'entreprise reconnaît également que l'étendue de ses connaissances mondiales est inférieure à celle des principaux modèles propriétaires en raison d'une puissance de calcul globale moindre.
Les priorités de développement futur comprennent l'augmentation des ressources informatiques de pré-formation afin d'élargir les connaissances mondiales, l'optimisation de l'efficacité de la chaîne de raisonnement afin d'améliorer l'utilisation des jetons, et le perfectionnement de l'architecture fondamentale pour les tâches complexes de résolution de problèmes.
Voir aussi : La réalité des entreprises en matière d'IA : ce que les dirigeants d'entreprise doivent savoir

Vous souhaitez en savoir plus sur l'IA et le big data auprès d'experts du secteur ? Découvrez le salon AI & Big Data Expo qui se tiendra à Amsterdam, en Californie et à Londres. Cet événement complet fait partie de TechEx et se déroule en même temps que d'autres événements technologiques majeurs. Cliquez ici pour plus de détails.
AI News est alimenté par TechForge Media. Découvrez ici les autres événements et webinaires à venir consacrés aux technologies d'entreprise.
DeepSeek dévoile un modèle d'IA rivalisant avec les systèmes de pointe
Le laboratoire chinois d'IA DeepSeek a publié deux versions préliminaires de son tout dernier grand modèle linguistique, DeepSeek V4, une mise à jour très attendue du modèle V3.2 de l'année dernière e
Un tribunal allemand donne raison à Teradyne Robotics et prononce une injonction à l'encontre d'Elite Robots
Universal Robots, filiale de Teradyne, a récemment présenté son manipulateur mobile équipé d'un bras robotique collaboratif UR lors du salon MODEX. Source : TeradyneAlors que le salon Hannover Messe s
Hyundai présente son robot MobED à l'AW alors que l'IA transforme le secteur manufacturier
Hyundai présentera son robot MobED parmi d'autres systèmes coréens lors du salon AW 2026. Source : Hyundai Motor GroupLe laboratoire de robotique de Hyundai Motor Group présentera sa plateforme mobile











