option
Maison
Nouvelles
Benchmarks AI: devrions-nous les ignorer pour l'instant?

Benchmarks AI: devrions-nous les ignorer pour l'instant?

10 avril 2025
216

Bienvenue à la newsletter régulière sur l'IA de TechCrunch ! Nous prenons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours trouver toute notre couverture sur l'IA, y compris mes chroniques, analyses quotidiennes et actualités de dernière minute, ici même sur TechCrunch. Vous voulez recevoir ces articles directement dans votre boîte de réception chaque jour ? Inscrivez-vous simplement à nos newsletters quotidiennes ici.

Cette semaine, la startup d'IA d'Elon Musk, xAI, a lancé son dernier modèle d'IA phare, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont entraîné sur pas moins de 200 000 GPU, et il surpasse un grand nombre d'autres modèles de pointe, y compris certains d'OpenAI, dans des benchmarks pour les mathématiques, le codage, et plus encore.

Mais parlons de ce que ces benchmarks signifient réellement.

Ici à TC, nous rapportons ces chiffres de benchmarks, même si nous ne sommes pas toujours ravis de le faire, car ils sont l'un des rares moyens utilisés par l'industrie de l'IA pour montrer comment leurs modèles s'améliorent. Le problème, c'est que ces benchmarks d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la performance de l'IA sur ce qui intéresse réellement les gens.

Ethan Mollick, professeur à Wharton, a déclaré sur X qu'il y a un réel besoin de meilleurs tests et de groupes indépendants pour les réaliser. Il a souligné que les entreprises d'IA rapportent souvent leurs propres résultats de benchmarks, ce qui rend difficile de leur faire entièrement confiance.

« Les benchmarks publics sont à la fois 'bof' et saturés, laissant beaucoup de tests d'IA ressembler à des critiques gastronomiques, basées sur le goût », a écrit Mollick. « Si l'IA est cruciale pour le travail, nous avons besoin de plus. »

Il y a beaucoup de gens qui essaient de proposer de nouveaux benchmarks pour l'IA, mais personne ne s'accorde sur ce qui est le meilleur. Certains pensent que les benchmarks devraient se concentrer sur l'impact économique pour être utiles, tandis que d'autres estiment que l'adoption dans le monde réel et l'utilité sont les véritables mesures du succès.

Ce débat pourrait durer éternellement. Peut-être, comme le suggère l'utilisateur de X Roon, devrions-nous simplement prêter moins d'attention aux nouveaux modèles et benchmarks à moins qu'il n'y ait une percée majeure en IA. Cela pourrait être meilleur pour notre santé mentale, même si cela signifie manquer un peu de l'engouement pour l'IA.

Comme mentionné, This Week in AI prend une pause. Merci de rester avec nous, lecteurs, à travers tous les hauts et les bas. À la prochaine.

Actualités

Crédits image : Nathan Laine/Bloomberg / Getty Images
OpenAI tente de « décensurer » ChatGPT. Max a écrit sur la manière dont ils modifient leur approche du développement de l'IA pour adopter la « liberté intellectuelle », même sur des sujets difficiles ou controversés.

Mira Murati, ancienne CTO d'OpenAI, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour « faire fonctionner l'IA selon les besoins et objectifs uniques [des gens]. »

xAI a lancé Grok 3 et ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le web.

Meta organise sa première conférence pour développeurs axée sur l'IA générative ce printemps. Elle s'appelle LlamaCon, d'après leurs modèles Llama, et aura lieu le 29 avril.

Paul a écrit sur OpenEuroLLM, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour une « IA transparente en Europe » qui respecte la « diversité linguistique et culturelle » de toutes les langues de l'UE.

Article de recherche de la semaine

Le site web d'OpenAI ChatGPT affiché sur un écran d'ordinateur portable est visible dans cette photo d'illustration.

Crédits image : Jakub Porzycki/NurPhoto / Getty Images
Les chercheurs d'OpenAI ont mis au point un nouveau benchmark d'IA appelé SWE-Lancer pour tester la capacité de l'IA à coder. Il est composé de plus de 1 400 tâches d'ingénierie logicielle freelance, allant de la correction de bugs et l'ajout de fonctionnalités à la proposition d'implémentations techniques.

OpenAI indique que le modèle le plus performant, Claude 3.5 Sonnet d'Anthropic, nelige 40,3 % sur l'ensemble du benchmark SWE-Lancer, ce qui montre que l'IA a encore du chemin à parcourir. Ils n'ont pas testé de modèles plus récents comme o3-mini d'OpenAI ou R1 de DeepSeek en Chine.

Modèle de la semaine

Une entreprise d'IA chinoise appelée Stepfun a lancé un modèle d'IA « ouvert » nommé Step-Audio qui peut comprendre et générer de la parole en chinois, anglais et japonais. Les utilisateurs peuvent même ajuster l'émotion et le dialecte de l'audio synthétique, y compris le chant.

Stepfun est l'une des nombreuses startups d'IA chinoises bien financées qui publient des modèles avec des licences permissives. Fondée en 2023, elle a récemment conclu une levée de fonds de plusieurs centaines de millions auprès d'investisseurs, y compris des sociétés d'investissement privées appartenant à l'État chinois.

Mélange

Nous Research DeepHermes

Crédits image : Nous Research
Nous Research, un groupe de recherche en IA, prétend avoir lancé l'un des premiers modèles d'IA combinant le raisonnement avec des « capacités de modèle linguistique intuitif ».

Leur modèle, DeepHermes-3 Preview, peut passer de courtes à longues « chaînes de pensée » pour équilibrer précision et puissance de calcul. En mode « raisonnement », il prend plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.

Anthropic prévoirait de lancer un modèle similaire bientôt, et OpenAI dit que c'est sur leur feuille de route à court terme.

Article connexe
Grok s'en prend aux démocrates et aux Grok s'en prend aux démocrates et aux "cadres juifs" d'Hollywood dans des remarques controversées Vendredi matin, Elon Musk a annoncé d'importantes mises à jour de @Grok, déclarant que les utilisateurs remarqueraient une amélioration des performances lorsqu'ils interagissent avec l'assistant d'int
Un organisme à but non lucratif s'appuie sur des agents d'intelligence artificielle pour stimuler la collecte de fonds à des fins caritatives Un organisme à but non lucratif s'appuie sur des agents d'intelligence artificielle pour stimuler la collecte de fonds à des fins caritatives Alors que les grandes entreprises technologiques promeuvent les "agents" d'IA comme des stimulants de la productivité pour les entreprises, une organisation à but non lucratif démontre leur potentiel
Les plus grands laboratoires d'IA avertissent que l'humanité est en train de perdre le contrôle de la compréhension des systèmes d'IA Les plus grands laboratoires d'IA avertissent que l'humanité est en train de perdre le contrôle de la compréhension des systèmes d'IA Dans une démonstration d'unité sans précédent, des chercheurs d'OpenAI, de Google DeepMind, d'Anthropic et de Meta ont mis de côté leurs divergences pour lancer un avertissement collectif sur le dével
commentaires (61)
0/200
JonathanDavis
JonathanDavis 19 août 2025 08:26:53 UTC+02:00

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19 août 2025 07:00:59 UTC+02:00

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11 août 2025 21:00:59 UTC+02:00

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4 août 2025 08:01:00 UTC+02:00

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1 août 2025 04:48:18 UTC+02:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28 juillet 2025 03:20:02 UTC+02:00

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

Retour en haut
OR