Une étude de Microsoft révèle qu'un plus grand nombre de jetons d'IA augmente les erreurs de raisonnement

Maison

Nouvelles

29 septembre 2025

ArthurCarter

# Gemini # research # llama # gpt-4o # LLMs # o3-mini # o1

Nouvelles perspectives sur l'efficacité du raisonnement dans les LLM

De nouvelles recherches menées par Microsoft démontrent que les techniques de raisonnement avancées dans les grands modèles de langage ne produisent pas d'améliorations uniformes dans les différents systèmes d'intelligence artificielle. Cette étude novatrice a analysé la façon dont neuf modèles de base de premier plan ont réagi à diverses approches de mise à l'échelle au cours de l'inférence.

Évaluation des méthodes de mise à l'échelle du temps d'inférence

L'équipe de recherche a mis en œuvre une méthodologie de test rigoureuse pour trois techniques d'échelonnement distinctes :

Invitation traditionnelle à la chaîne de pensée
Génération parallèle de réponses avec agrégation
Raffinement séquentiel grâce à des boucles de rétroaction

Cadre expérimental pour l'évaluation des performances de raisonnement

Huit critères de référence complets ont fourni des scénarios de test stimulants dans des disciplines telles que les mathématiques, le raisonnement scientifique, la résolution de problèmes complexes et l'analyse spatiale. Plusieurs évaluations comportaient des niveaux de difficulté gradués afin d'examiner comment les performances évoluent en fonction de la complexité des problèmes.

Principales découvertes concernant les performances en matière de raisonnement

L'évaluation complète a permis d'obtenir plusieurs informations essentielles pour les praticiens de l'IA :

Les gains de performance obtenus grâce aux techniques de mise à l'échelle varient considérablement en fonction de l'architecture du modèle et du domaine de la tâche
Les réponses plus longues ne sont pas systématiquement corrélées à de meilleures solutions.
Les coûts de calcul fluctuent de manière imprévisible, même pour des requêtes identiques.
Les modèles traditionnels peuvent parfois correspondre à des modèles de raisonnement spécialisés grâce à une mise à l'échelle importante.
Les mécanismes de vérification sont prometteurs pour améliorer l'efficacité

Performance par rapport au coût de calcul selon les modèles et les tâches

Implications pratiques pour le développement de l'IA

Ces résultats ont des implications significatives pour la mise en œuvre de l'IA dans les entreprises :

La prévisibilité des coûts apparaît comme un défi majeur, l'utilisation des jetons montrant une variance élevée même pour les réponses correctes. "Les développeurs ont besoin de modèles avec des schémas de calcul cohérents", note Besmira Nushi, chercheuse chez Microsoft.

La recherche identifie également la longueur des réponses comme un indicateur potentiel de la confiance dans le modèle, les réponses excessivement longues signalant souvent des solutions incorrectes au-delà de certains seuils.

Modèles d'échelle d'inférence dans les performances du GPT-4o

L'avenir des systèmes de raisonnement efficaces

L'étude met en évidence plusieurs orientations prometteuses pour le développement futur :

"Les mécanismes de vérification pourraient transformer la manière dont nous abordons les problèmes de raisonnement", explique Nushi, qui suggère que les systèmes de validation d'entreprise existants pourraient être adaptés aux applications de l'IA. Cette intégration permettrait aux interfaces en langage naturel d'exploiter une logique de validation spécialisée.

La recherche souligne le besoin croissant de solutions qui concilient la précision du raisonnement avec des coûts de calcul prévisibles, alors que les systèmes d'IA assument des tâches de plus en plus complexes dans le monde réel.

Article connexe

Pourquoi les LLM ignorent-ils les instructions et comment y remédier efficacement ? Comprendre pourquoi les grands modèles de langage sautent les instructionsLes grands modèles de langage ont transformé la façon dont nous interagissons avec l'IA, permettant des applications avancées

L'application Gemini de Google ajoute des vidéos d'IA en temps réel, Deep Research et de nouvelles fonctionnalités (120 chars) Google a dévoilé d'importantes améliorations de Gemini AI lors de sa conférence des développeurs I/O 2025, en étendant les capacités multimodales, en introduisant des modèles d'IA de nouvelle générati

Google Cloud permet des avancées dans le domaine de la recherche et de la découverte scientifiques La révolution numérique transforme les méthodologies scientifiques grâce à des capacités de calcul sans précédent. Les technologies de pointe renforcent désormais les cadres théoriques et les expérien

commentaires (0)

0/200

Soumettre

Top nouvelles

Gemini 2.5 Pro maintenant illimité et moins cher que Claude, GPT-4O Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives Doublage par IA : Guide ultime pour la création de voix réalistes L'IA du cambium transforme le bois de déchet en bois OpenAI améliore l'assistant vocal AI pour de meilleurs chats Comment vous assurer que vos données sont dignes de confiance pour l'intégration de l'IA Notebooklm se développe à l'échelle mondiale, ajoute des diapositives et une vérification des faits améliorée Les ajustements aux centres de données américains pourraient débloquer 76 GW de nouvelle capacité d'énergie Google utilise l'IA pour suspendre plus de 39 millions de comptes d'annonces pour une fraude présumée Clonage Vocal IA: Guide Ultime pour Maîtriser la Conversion de Voix

Plus

En vedette