option
Maison
Nouvelles
Le modèle d'IA o3 d'OpenAI obtient des scores plus bas dans un benchmark que ce qui avait été initialement suggéré

Le modèle d'IA o3 d'OpenAI obtient des scores plus bas dans un benchmark que ce qui avait été initialement suggéré

7 juin 2025
127

Le modèle d

L'importance des divergences entre les points de référence dans l'IA

En matière d'IA, les chiffres sont souvent révélateurs - et parfois, ils ne correspondent pas tout à fait à la réalité. Prenons par exemple le modèle o3 d'OpenAI. Les premières déclarations étaient tout simplement stupéfiantes : o3 pouvait apparemment traiter plus de 25 % des problèmes FrontierMath, qui sont notoirement difficiles. Dans le même temps, la concurrence ne dépassait pas les 10 %. Cependant, les développements récents ont permis à Epoch AI, un institut de recherche respecté, de remettre en cause cette affirmation. Ses conclusions suggèrent que les performances réelles d'o3 sont plus proches de 10 %. Ce n'est pas mal, mais ce n'est certainement pas le chiffre qui a fait la une des journaux, comme OpenAI l'avait initialement annoncé.

Que se passe-t-il réellement ?

Voyons les choses en détail. Le score initial d'OpenAI a probablement été obtenu dans des conditions optimales - des conditions qui pourraient ne pas être exactement reproductibles dans le monde réel. Epoch a souligné que son environnement de test pouvait être légèrement différent de celui d'OpenAI, et que même la version de FrontierMath qu'il a utilisée était plus récente. Cela ne veut pas dire qu'OpenAI a trompé qui que ce soit ; ses déclarations initiales correspondaient aux tests internes, mais la disparité met en évidence un problème plus large. Les repères ne sont pas toujours des comparaisons "pomme à pomme". Et ne nous voilons pas la face, les entreprises ont tout intérêt à se montrer sous leur meilleur jour.

Le rôle de la transparence

Cette situation soulève une question importante : Dans quelle mesure les entreprises d'IA doivent-elles être transparentes lorsqu'elles communiquent leurs résultats ? OpenAI n'a pas menti, mais son message a créé des attentes qui n'ont pas été pleinement satisfaites. Il s'agit d'un équilibre délicat. Les entreprises veulent présenter leurs avancées, mais elles doivent aussi être honnêtes quant à la signification réelle de ces chiffres. À mesure que l'IA s'intègre dans la vie quotidienne, les consommateurs et les chercheurs exigeront des réponses plus claires.

Autres controverses dans le secteur

L'OpenAI n'est pas la seule à avoir connu des problèmes de benchmarking. D'autres acteurs du secteur de l'IA ont fait l'objet d'un examen similaire. En janvier, Epoch s'est retrouvé dans l'eau chaude après avoir accepté un financement non divulgué d'OpenAI juste avant l'annonce d'o3. De son côté, xAI, la société d'Elon Musk, a été critiquée pour avoir prétendument modifié ses tableaux de référence afin de faire paraître Grok 3 meilleur qu'il ne l'était en réalité. Même Meta, l'un des géants de la technologie, a récemment admis avoir promu des scores basés sur un modèle qui n'était pas disponible publiquement. Il est clair que la course aux gros titres s'intensifie et que tout le monde ne joue pas franc jeu.

Perspectives d'avenir

Si ces controverses peuvent sembler décourageantes, elles sont en réalité un signe de progrès. À mesure que le paysage de l'IA mûrit, le discours sur la responsabilité évolue lui aussi. Les consommateurs et les chercheurs réclament une plus grande transparence, et c'est une bonne chose. Cela oblige les entreprises à être plus réfléchies sur la manière dont elles présentent leurs réalisations et garantit que les utilisateurs ne se laissent pas entraîner par un battage médiatique irréaliste. En fin de compte, l'objectif ne devrait pas être de jouer avec les chiffres, mais de construire des modèles qui font réellement progresser le domaine.

Article connexe
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours OpenAI présente les grandes lignes d'une économie de l'IA fondée sur des fonds de richesse publique, une taxe sur les robots et la semaine de quatre jours Alors que les gouvernements peinent à gérer l’impact économique des machines superintelligentes, OpenAI a publié une série de propositions politiques décrivant comment la richesse et le travail pourra
Greg Brockman révèle comment Elon Musk a quitté OpenAI Greg Brockman révèle comment Elon Musk a quitté OpenAI Fin août 2017, les principaux dirigeants d’OpenAI — alors un petit laboratoire de recherche à but non lucratif — se sont réunis pour discuter de la manière dont ils allaient créer une entité à but luc
Recommandations de sujets spéciaux liés
Création d'animations Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées
Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence
Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils
xix.ai
en écrivant Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales
Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils
xix.ai
Entreprise Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique
Les meilleurs logiciels d'optimisation des prix basés sur l'IA : suivez vos concurrents et ajustez automatiquement les prix de votre boutique

Découvrez les meilleurs logiciels d'optimisation des prix basés sur l'IA pour 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan qui changent la donne : ils surveillent vos concurrents et ajustent automatiquement les prix de votre boutique pour maximiser vos bénéfices. Comparez les options gratuites et payantes grâce à des tests concrets. Prenez dès maintenant une longueur d'avance en matière de tarification.

10 outils
xix.ai
code Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités
Les meilleurs outils d'analyse de code basés sur l'IA : automatisez la conformité au code propre et refactorisez les fichiers des dépôts hérités

Découvrez les meilleurs outils d'analyse de code par IA de 2026 sur XIX.AI. Notre sélection comprend des outils de premier plan, véritables révolutionnaires, permettant d'automatiser la conformité au code propre et de refactoriser les fichiers de dépôts hérités. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Prenez dès aujourd'hui une longueur d'avance grâce à l'IA.

10 outils
xix.ai
Synthèse vocale Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves
Les meilleures applications de synthèse vocale basées sur l'IA pour la dyslexie : un soutien à l'apprentissage et à l'efficacité en lecture pour les élèves

Découvrez les meilleures applications de synthèse vocale par IA de 2026, spécialement sélectionnées pour aider les personnes dyslexiques. Notre classement d'experts compare les outils gratuits et payants, en mettant en avant des fonctionnalités performantes qui améliorent l'efficacité de la lecture et l'apprentissage. Découvrez des solutions révolutionnaires à ne pas manquer pour libérer le potentiel des élèves. Commencez votre parcours sur XIX.AI.

10 outils
xix.ai
commentaires (6)
0/500
JackPerez
JackPerez 2 février 2026 23:00:45 UTC+01:00

Como usuário curioso sobre IA, fico um pouco desconfiado quando os benchmarks não batem. A OpenAI lançou o o3 com uma fanfarra enorme, falando de mais de 25% nos desafios do Frontier, mas agora parece que os resultados reais podem ser bem mais modestos. Isso me faz pensar: deveríamos confiar mais nas métricas das empresas ou em avaliações independentes? A competição entre os modelos está tão acirrada que às vezes a verdade parece ficar em segundo plano... Precisamos de mais transparência! 🤔

BruceRoberts
BruceRoberts 16 décembre 2025 11:30:42 UTC+01:00

Ces écarts sur les benchmarks montrent bien qu'on ne peut pas prendre toutes les déclarations des labos pour argent comptant. Du coup, ça soulève des questions sur la transparence des processus d'évaluation. C'est important pour les chercheurs et les développeurs qui basent leur travail sur ces résultats. 🤔

FrankSmith
FrankSmith 10 septembre 2025 08:30:33 UTC+02:00

오픈AI의 벤치마크 수치 조작 논란, 이젠 식상하네요 😅 경쟁이 치열해질수록 회사들이 성과를 부풀리는 건 드문 일이 아니지만... 진실은 결국 밝혀지잖아요. 이번 건으로 인공지능 업계의 신뢰도가 또 한 번 흔들리는 건 아닐지 걱정됩니다.

LiamWalker
LiamWalker 12 août 2025 08:50:10 UTC+02:00

I was hyped for o3, but these benchmark gaps are a letdown. Makes you wonder if the AI hype train is running on fumes. Still cool tech, tho! 😎

FrankLewis
FrankLewis 7 août 2025 04:41:14 UTC+02:00

The o3 model's benchmark slip-up is a bit of a letdown. 😕 I was hyped for OpenAI's big claims, but now I’m wondering if they’re overselling. Numbers don’t lie, but they can sure be misleading!

NicholasCarter
NicholasCarter 29 juillet 2025 14:25:16 UTC+02:00

The o3 model's benchmark slip-up is wild! I was hyped for those big claims, but now it’s like finding out your favorite superhero has a weak spot. Still, AI’s moving so fast, I wonder if these benchmarks even keep up with real-world use. 🤔 Anyone else feel like we’re chasing numbers instead of actual progress?

OR