option
Maison
Nouvelles
Modèles de «raisonnement» AI augmente, entraînant des coûts d'analyse comparative

Modèles de «raisonnement» AI augmente, entraînant des coûts d'analyse comparative

22 avril 2025
162

Modèles de «raisonnement» AI augmente, entraînant des coûts d'analyse comparative

Les coûts croissants de l'évaluation des modèles d'IA de raisonnement

Les laboratoires d'IA comme OpenAI vantent leurs modèles d'IA avancés de "raisonnement", conçus pour résoudre des problèmes complexes étape par étape. Ces modèles, particulièrement efficaces dans des domaines comme la physique, sont en effet impressionnants. Cependant, ils s'accompagnent d'un coût élevé lorsqu'il s'agit d'évaluation, rendant difficile la vérification indépendante de leurs capacités.

Selon les données d'Artificial Analysis, une entreprise tierce de test d'IA, le coût pour évaluer le modèle de raisonnement o1 d'OpenAI sur sept benchmarks populaires d'IA s'élève à un montant stupéfiant de 2 767,05 $. Ces benchmarks incluent MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 et MATH-500. En comparaison, l'évaluation du modèle de raisonnement "hybride" d'Anthropic, Claude 3.7 Sonnet, sur les mêmes tests a coûté 1 485,35 $, tandis que l'o3-mini-high d'OpenAI était significativement moins cher à 344,59 $.

Tous les modèles de raisonnement ne sont pas aussi coûteux à tester. Par exemple, Artificial Analysis n'a dépensé que 141,22 $ pour évaluer l'o1-mini d'OpenAI. Cependant, les coûts de ces modèles ont tendance à être élevés en moyenne. Artificial Analysis a déboursé environ 5 200 $ pour évaluer une douzaine de modèles de raisonnement, ce qui est presque le double des 2 400 $ dépensés pour analyser plus de 80 modèles non-raisonnants.

À titre de comparaison, le modèle non-raisonnant GPT-4o d'OpenAI, sorti en mai 2024, a coûté à Artificial Analysis seulement 108,85 $ à évaluer, tandis que Claude 3.6 Sonnet, le prédécesseur non-raisonnant de Claude 3.7 Sonnet, a coûté 81,41 $.

George Cameron, co-fondateur d'Artificial Analysis, a partagé avec TechCrunch que l'organisation est prête à augmenter son budget d'évaluation alors que davantage de laboratoires d'IA continuent de développer des modèles de raisonnement. "Chez Artificial Analysis, nous effectuons des centaines d'évaluations mensuelles et consacrons un budget significatif à celles-ci," a déclaré Cameron. "Nous prévoyons que ces dépenses augmenteront à mesure que les modèles sont plus fréquemment publiés."

Artificial Analysis n'est pas seule à faire face à ces coûts croissants. Ross Taylor, PDG de la startup d'IA General Reasoning, a récemment dépensé 580 $ pour évaluer Claude 3.7 Sonnet sur environ 3 700 prompts uniques. Taylor estime qu'une seule exécution de MMLU Pro, un benchmark conçu pour tester la compréhension du langage, dépasserait 1 800 $.

Taylor a souligné une préoccupation croissante dans un récent post sur X, déclarant : "Nous évoluons vers un monde où un laboratoire rapporte x% sur un benchmark où il dépense y montant de calcul, mais où les ressources pour les universitaires sont

Pourquoi les modèles de raisonnement sont-ils si coûteux à évaluer ?

La principale raison du coût élevé des tests des modèles de raisonnement est leur tendance à générer un grand nombre de tokens. Les tokens sont des unités de texte brut ; par exemple, le mot "fantastique" pourrait être décomposé en "fan", "tas" et "tique". Selon Artificial Analysis, le modèle o1 d'OpenAI a généré plus de 44 millions de tokens lors de leurs tests, ce qui est environ huit fois le nombre de tokens générés par le modèle non-raisonnant GPT-4o.

La plupart des entreprises d'IA facturent l'utilisation des modèles en fonction du nombre de tokens, ce qui s'additionne rapidement. De plus, les benchmarks modernes sont conçus pour susciter un grand nombre de tokens en incluant des questions qui impliquent des tâches complexes en plusieurs étapes. Jean-Stanislas Denain, chercheur senior chez Epoch AI, a expliqué à TechCrunch : "Les benchmarks actuels sont plus complexes même si le nombre de questions par benchmark a globalement diminué. Ils tentent souvent d'évaluer la capacité des modèles à effectuer des tâches du monde réel, telles que rédiger et exécuter du code, naviguer sur Internet et utiliser des ordinateurs."

Denain a également souligné que le coût par token pour les modèles les plus coûteux a augmenté. Par exemple, lorsque Claude 3 Opus d'Anthropic est sorti en mai 2024, il coûtait 75 $ par million de tokens de sortie. En revanche, GPT-4.5 et o1-pro d'OpenAI, lancés plus tôt cette année, coûtaient respectivement 150 $ et 600 $ par million de tokens de sortie.

Malgré l'augmentation du coût par token, Denain a noté : "Puisque les modèles se sont améliorés avec le temps, il est toujours vrai que le coût pour atteindre un niveau de performance donné a considérablement diminué au fil du temps. Mais si vous voulez évaluer les meilleurs modèles les plus grands à tout moment, vous payez toujours plus."

L'intégrité de l'évaluation

De nombreux laboratoires d'IA, y compris OpenAI, offrent un accès gratuit ou subventionné à leurs modèles à des fins d'évaluation. Cependant, cette pratique soulève des préoccupations concernant l'intégrité du processus d'évaluation. Même sans preuve de manipulation, la simple suggestion de l'implication d'un laboratoire d'IA peut jeter un doute sur l'objectivité des résultats.

Ross Taylor a exprimé cette préoccupation sur X, demandant : "D'un point de vue scientifique, si vous publiez un résultat que personne ne peut reproduire avec le même modèle, est-ce encore de la science ? (Était-ce jamais de la science, lol)"

Les coûts élevés et les biais potentiels dans l'évaluation de l'IA soulignent les défis auxquels le domaine est confronté alors qu'il s'efforce de développer et de valider des modèles de plus en plus sophistiqués.

Article connexe
Le jeu « Xiaolongxia » de Tencent dépasse toutes les attentes ; l'équipe multiplie par dix sa capacité, présente ses excuses et offre des compensations Le jeu « Xiaolongxia » de Tencent dépasse toutes les attentes ; l'équipe multiplie par dix sa capacité, présente ses excuses et offre des compensations Tencent a officiellement lancé WorkBuddy, un agent intelligent basé sur l'IA et adapté à tous les contextes, marquant ainsi une nouvelle étape dans la course aux applications des grands modèles, carac
Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur Principal investisseur de Suno : la suppression des publications ne comblera pas les lacunes en matière de poursuites pour violation du droit d'auteur La plateforme de génération musicale par IA très attendue, Suno, est confrontée à une rude bataille en matière de droits d'auteur, et une remarque sans détours de son principal investisseur pourrait b
Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence Claude Opus 4.7 fait son entrée sur le marché en misant davantage sur la fiabilité que sur l'intelligence Anthropic a maintenu un rythme soutenu cette année, en déployant de nouvelles fonctionnalités presque tous les deux jours. Le très attendu Claude Opus 4.7 vient d'être officiellement lancé, et il est
Recommandations de sujets spéciaux liés
Création de bande dessinée Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie
Les meilleurs générateurs IA pour les mangas shonen : créez des séquences d'action survoltées et des effets d'énergie

Découvrez les meilleurs générateurs IA de mangas shonen de 2026 sur XIX.AI. Notre sélection triée sur le volet comprend des outils performants pour créer des séquences d'action à couper le souffle et des effets d'énergie dynamiques. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez dès aujourd'hui à créer des mangas épiques !

15 outils
xix.ai
Entreprise Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise
Les meilleurs outils de suivi des dépenses basés sur l'IA : numérisez vos reçus et classez automatiquement les dépenses de l'entreprise

Les meilleurs outils de gestion des dépenses basés sur l'IA en 2026 : les outils les mieux notés pour numériser vos reçus et classer automatiquement les dépenses de votre entreprise. Découvrez des solutions puissantes et révolutionnaires pour une gestion des dépenses sans effort, un suivi financier précis et une conformité simplifiée. Notre comparatif, mis à jour chaque semaine, qui oppose les options gratuites aux options payantes, vous aide à trouver la solution qui vous convient le mieux. Tirez pleinement parti de l'IA grâce aux recommandations d'experts de XIX.AI.

10 outils
xix.ai
Entreprise Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats
Les meilleurs outils de recrutement basés sur l'IA : triez les CV et automatisez la planification des entretiens avec les candidats

Découvrez les meilleurs outils de recrutement basés sur l'IA de 2026 sur XIX.AI. Notre sélection propose des solutions performantes et révolutionnaires pour l'analyse des CV et l'automatisation de la planification des entretiens avec les candidats. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez l'assistant de recrutement idéal et optimisez votre processus de recrutement dès aujourd'hui !

10 outils
xix.ai
Productivité Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale
Coaches IA dédiés au bien-être et à la concentration : gérer l'épuisement professionnel et booster son énergie mentale

Découvrez sur XIX.AI les meilleurs coachs IA de 2026 spécialisés dans le bien-être personnel et la concentration. Notre classement, soigneusement établi, présente les outils les mieux notés et les plus innovants pour gérer le surmenage et booster votre énergie mentale. Comparez les options gratuites et payantes grâce à des avis concrets. Ouvrez-vous dès aujourd’hui la voie vers une productivité et un bien-être optimaux.

10 outils
xix.ai
chatbot Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes
Les meilleurs chatbots romantiques basés sur l'IA : nouez des relations durables grâce à des personnalités cohérentes

Découvrez les meilleurs chatbots romantiques basés sur l'IA de 2026, sélectionnés pour vous aider à nouer des relations authentiques et durables. Notre sélection comprend des personnalités fortes et cohérentes, des comparaisons entre versions gratuites et payantes, ainsi que des tests en conditions réelles. Trouvez le compagnon idéal et commencez dès aujourd'hui sur XIX.AI.

10 outils
xix.ai
Éducation et apprentissage Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique
Meilleurs mentors en science des données et intelligence artificielle : maîtrise de SQL, Pandas et des workflows d'apprentissage automatique

Découvrez les meilleurs mentors en sciences des données et en intelligence artificielle pour 2026 afin de maîtriser SQL, Pandas et les workflows d'apprentissage automatique. Explorez notre sélection soigneusement élaborée sur XIX.AI pour bénéficier d'une guidance puissante et révolutionnaire. Comparez les options gratuites et payantes en tenant compte de perspectives pratiques. Développez rapidement vos compétences en sciences des données.

10 outils
xix.ai
commentaires (17)
0/500
FrankJackson
FrankJackson 10 août 2025 11:01:00 UTC+02:00

These AI reasoning models are impressive for tackling complex physics problems step by step, but the surging benchmarking costs could stifle innovation for smaller labs. 😟 Reminds me of how tech giants dominate—maybe we need more affordable alternatives?

DouglasRodriguez
DouglasRodriguez 28 juillet 2025 03:20:21 UTC+02:00

These AI reasoning models sound cool, but the skyrocketing benchmarking costs are wild! 😳 Makes me wonder if smaller labs can even keep up with the big players like OpenAI.

StevenGonzalez
StevenGonzalez 24 avril 2025 14:58:05 UTC+02:00

These AI reasoning models are impressive, but the rising costs of benchmarking are a real bummer. It's great for fields like physics, but I hope they find a way to make it more affordable. Otherwise, it's just for the big players. 😕

JackPerez
JackPerez 24 avril 2025 09:52:48 UTC+02:00

Esses modelos de raciocínio de IA são impressionantes, mas o aumento dos custos de benchmarking é uma decepção. É ótimo para áreas como a física, mas espero que encontrem uma maneira de torná-lo mais acessível. Caso contrário, será apenas para os grandes jogadores. 😕

GregoryJones
GregoryJones 24 avril 2025 09:10:43 UTC+02:00

AI推論モデルは素晴らしいけど、ベンチマーキングのコストが上がるのは残念です。物理分野には良いけど、もっと手頃な価格になる方法を見つけてほしいです。さもないと、大手企業だけのものになってしまいますね。😕

SamuelRoberts
SamuelRoberts 24 avril 2025 06:23:58 UTC+02:00

Esses modelos de raciocínio de IA parecem legais, mas o aumento dos custos de benchmarking? Não tanto. Será que podemos ter os benefícios sem falir? 🤔

OR