option
Maison
Nouvelles
Une étude de Microsoft révèle qu'un plus grand nombre de jetons d'IA augmente les erreurs de raisonnement

Une étude de Microsoft révèle qu'un plus grand nombre de jetons d'IA augmente les erreurs de raisonnement

29 septembre 2025
1

Nouvelles perspectives sur l'efficacité du raisonnement dans les LLM

De nouvelles recherches menées par Microsoft démontrent que les techniques de raisonnement avancées dans les grands modèles de langage ne produisent pas d'améliorations uniformes dans les différents systèmes d'intelligence artificielle. Cette étude novatrice a analysé la façon dont neuf modèles de base de premier plan ont réagi à diverses approches de mise à l'échelle au cours de l'inférence.

Évaluation des méthodes de mise à l'échelle du temps d'inférence

L'équipe de recherche a mis en œuvre une méthodologie de test rigoureuse pour trois techniques d'échelonnement distinctes :

  • Invitation traditionnelle à la chaîne de pensée
  • Génération parallèle de réponses avec agrégation
  • Raffinement séquentiel grâce à des boucles de rétroaction
Cadre expérimental pour l'évaluation des performances de raisonnement

Huit critères de référence complets ont fourni des scénarios de test stimulants dans des disciplines telles que les mathématiques, le raisonnement scientifique, la résolution de problèmes complexes et l'analyse spatiale. Plusieurs évaluations comportaient des niveaux de difficulté gradués afin d'examiner comment les performances évoluent en fonction de la complexité des problèmes.

Principales découvertes concernant les performances en matière de raisonnement

L'évaluation complète a permis d'obtenir plusieurs informations essentielles pour les praticiens de l'IA :

  • Les gains de performance obtenus grâce aux techniques de mise à l'échelle varient considérablement en fonction de l'architecture du modèle et du domaine de la tâche
  • Les réponses plus longues ne sont pas systématiquement corrélées à de meilleures solutions.
  • Les coûts de calcul fluctuent de manière imprévisible, même pour des requêtes identiques.
  • Les modèles traditionnels peuvent parfois correspondre à des modèles de raisonnement spécialisés grâce à une mise à l'échelle importante.
  • Les mécanismes de vérification sont prometteurs pour améliorer l'efficacité
Performance par rapport au coût de calcul selon les modèles et les tâches

Implications pratiques pour le développement de l'IA

Ces résultats ont des implications significatives pour la mise en œuvre de l'IA dans les entreprises :

La prévisibilité des coûts apparaît comme un défi majeur, l'utilisation des jetons montrant une variance élevée même pour les réponses correctes. "Les développeurs ont besoin de modèles avec des schémas de calcul cohérents", note Besmira Nushi, chercheuse chez Microsoft.

La recherche identifie également la longueur des réponses comme un indicateur potentiel de la confiance dans le modèle, les réponses excessivement longues signalant souvent des solutions incorrectes au-delà de certains seuils.

Modèles d'échelle d'inférence dans les performances du GPT-4o

L'avenir des systèmes de raisonnement efficaces

L'étude met en évidence plusieurs orientations prometteuses pour le développement futur :

"Les mécanismes de vérification pourraient transformer la manière dont nous abordons les problèmes de raisonnement", explique Nushi, qui suggère que les systèmes de validation d'entreprise existants pourraient être adaptés aux applications de l'IA. Cette intégration permettrait aux interfaces en langage naturel d'exploiter une logique de validation spécialisée.

La recherche souligne le besoin croissant de solutions qui concilient la précision du raisonnement avec des coûts de calcul prévisibles, alors que les systèmes d'IA assument des tâches de plus en plus complexes dans le monde réel.

Article connexe
Pourquoi les LLM ignorent-ils les instructions et comment y remédier efficacement ? Pourquoi les LLM ignorent-ils les instructions et comment y remédier efficacement ? Comprendre pourquoi les grands modèles de langage sautent les instructionsLes grands modèles de langage ont transformé la façon dont nous interagissons avec l'IA, permettant des applications avancées
L'application Gemini de Google ajoute des vidéos d'IA en temps réel, Deep Research et de nouvelles fonctionnalités (120 chars) L'application Gemini de Google ajoute des vidéos d'IA en temps réel, Deep Research et de nouvelles fonctionnalités (120 chars) Google a dévoilé d'importantes améliorations de Gemini AI lors de sa conférence des développeurs I/O 2025, en étendant les capacités multimodales, en introduisant des modèles d'IA de nouvelle générati
Google Cloud permet des avancées dans le domaine de la recherche et de la découverte scientifiques Google Cloud permet des avancées dans le domaine de la recherche et de la découverte scientifiques La révolution numérique transforme les méthodologies scientifiques grâce à des capacités de calcul sans précédent. Les technologies de pointe renforcent désormais les cadres théoriques et les expérien
commentaires (0)
0/200
Retour en haut
OR