Benchmarks AI: devrions-nous les ignorer pour l'instant?
Bienvenue à la newsletter régulière sur l'IA de TechCrunch ! Nous prenons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours trouver toute notre couverture sur l'IA, y compris mes chroniques, analyses quotidiennes et actualités de dernière minute, ici même sur TechCrunch. Vous voulez recevoir ces articles directement dans votre boîte de réception chaque jour ? Inscrivez-vous simplement à nos newsletters quotidiennes ici.
Cette semaine, la startup d'IA d'Elon Musk, xAI, a lancé son dernier modèle d'IA phare, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont entraîné sur pas moins de 200 000 GPU, et il surpasse un grand nombre d'autres modèles de pointe, y compris certains d'OpenAI, dans des benchmarks pour les mathématiques, le codage, et plus encore.
Mais parlons de ce que ces benchmarks signifient réellement.
Ici à TC, nous rapportons ces chiffres de benchmarks, même si nous ne sommes pas toujours ravis de le faire, car ils sont l'un des rares moyens utilisés par l'industrie de l'IA pour montrer comment leurs modèles s'améliorent. Le problème, c'est que ces benchmarks d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la performance de l'IA sur ce qui intéresse réellement les gens.
Ethan Mollick, professeur à Wharton, a déclaré sur X qu'il y a un réel besoin de meilleurs tests et de groupes indépendants pour les réaliser. Il a souligné que les entreprises d'IA rapportent souvent leurs propres résultats de benchmarks, ce qui rend difficile de leur faire entièrement confiance.
« Les benchmarks publics sont à la fois 'bof' et saturés, laissant beaucoup de tests d'IA ressembler à des critiques gastronomiques, basées sur le goût », a écrit Mollick. « Si l'IA est cruciale pour le travail, nous avons besoin de plus. »
Il y a beaucoup de gens qui essaient de proposer de nouveaux benchmarks pour l'IA, mais personne ne s'accorde sur ce qui est le meilleur. Certains pensent que les benchmarks devraient se concentrer sur l'impact économique pour être utiles, tandis que d'autres estiment que l'adoption dans le monde réel et l'utilité sont les véritables mesures du succès.
Ce débat pourrait durer éternellement. Peut-être, comme le suggère l'utilisateur de X Roon, devrions-nous simplement prêter moins d'attention aux nouveaux modèles et benchmarks à moins qu'il n'y ait une percée majeure en IA. Cela pourrait être meilleur pour notre santé mentale, même si cela signifie manquer un peu de l'engouement pour l'IA.
Comme mentionné, This Week in AI prend une pause. Merci de rester avec nous, lecteurs, à travers tous les hauts et les bas. À la prochaine.
Actualités

Crédits image : Nathan Laine/Bloomberg / Getty Images OpenAI tente de « décensurer » ChatGPT. Max a écrit sur la manière dont ils modifient leur approche du développement de l'IA pour adopter la « liberté intellectuelle », même sur des sujets difficiles ou controversés.Mira Murati, ancienne CTO d'OpenAI, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour « faire fonctionner l'IA selon les besoins et objectifs uniques [des gens]. »
xAI a lancé Grok 3 et ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le web.
Meta organise sa première conférence pour développeurs axée sur l'IA générative ce printemps. Elle s'appelle LlamaCon, d'après leurs modèles Llama, et aura lieu le 29 avril.
Paul a écrit sur OpenEuroLLM, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour une « IA transparente en Europe » qui respecte la « diversité linguistique et culturelle » de toutes les langues de l'UE.
Article de recherche de la semaine

Crédits image : Jakub Porzycki/NurPhoto / Getty Images Les chercheurs d'OpenAI ont mis au point un nouveau benchmark d'IA appelé SWE-Lancer pour tester la capacité de l'IA à coder. Il est composé de plus de 1 400 tâches d'ingénierie logicielle freelance, allant de la correction de bugs et l'ajout de fonctionnalités à la proposition d'implémentations techniques.OpenAI indique que le modèle le plus performant, Claude 3.5 Sonnet d'Anthropic, nelige 40,3 % sur l'ensemble du benchmark SWE-Lancer, ce qui montre que l'IA a encore du chemin à parcourir. Ils n'ont pas testé de modèles plus récents comme o3-mini d'OpenAI ou R1 de DeepSeek en Chine.
Modèle de la semaine
Une entreprise d'IA chinoise appelée Stepfun a lancé un modèle d'IA « ouvert » nommé Step-Audio qui peut comprendre et générer de la parole en chinois, anglais et japonais. Les utilisateurs peuvent même ajuster l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinoises bien financées qui publient des modèles avec des licences permissives. Fondée en 2023, elle a récemment conclu une levée de fonds de plusieurs centaines de millions auprès d'investisseurs, y compris des sociétés d'investissement privées appartenant à l'État chinois.
Mélange

Crédits image : Nous Research Nous Research, un groupe de recherche en IA, prétend avoir lancé l'un des premiers modèles d'IA combinant le raisonnement avec des « capacités de modèle linguistique intuitif ».Leur modèle, DeepHermes-3 Preview, peut passer de courtes à longues « chaînes de pensée » pour équilibrer précision et puissance de calcul. En mode « raisonnement », il prend plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic prévoirait de lancer un modèle similaire bientôt, et OpenAI dit que c'est sur leur feuille de route à court terme.
Article connexe
Ancien ingénieur d'OpenAI partage des idées sur la culture d'entreprise et la croissance rapide
Il y a trois semaines, Calvin French-Owen, un ingénieur qui a contribué à un produit clé d'OpenAI, a quitté l'entreprise.Il a récemment partagé un article de blog captivant détaillant son année chez O
Google dévoile les modèles AI Gemini 2.5 prêts pour la production pour rivaliser avec OpenAI sur le marché des entreprises
Google a intensifié sa stratégie AI lundi, lançant ses modèles avancés Gemini 2.5 pour une utilisation en entreprise et introduisant une variante économique pour concurrencer sur le prix et la perform
Meta Offre des Salaires Élevés pour les Talents en IA, Dément les Bonus de Signature de 100M$
Meta attire des chercheurs en IA vers son nouveau laboratoire de superintelligence avec des packages de rémunération de plusieurs millions de dollars. Cependant, les allégations de "bonus de signature
commentaires (58)
0/200
BillyLewis
4 août 2025 08:01:00 UTC+02:00
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1 août 2025 04:48:18 UTC+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28 juillet 2025 03:20:02 UTC+02:00
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
26 avril 2025 07:57:18 UTC+02:00
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
25 avril 2025 21:19:34 UTC+02:00
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
22 avril 2025 17:01:53 UTC+02:00
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
Bienvenue à la newsletter régulière sur l'IA de TechCrunch ! Nous prenons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours trouver toute notre couverture sur l'IA, y compris mes chroniques, analyses quotidiennes et actualités de dernière minute, ici même sur TechCrunch. Vous voulez recevoir ces articles directement dans votre boîte de réception chaque jour ? Inscrivez-vous simplement à nos newsletters quotidiennes ici.
Cette semaine, la startup d'IA d'Elon Musk, xAI, a lancé son dernier modèle d'IA phare, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont entraîné sur pas moins de 200 000 GPU, et il surpasse un grand nombre d'autres modèles de pointe, y compris certains d'OpenAI, dans des benchmarks pour les mathématiques, le codage, et plus encore.
Mais parlons de ce que ces benchmarks signifient réellement.
Ici à TC, nous rapportons ces chiffres de benchmarks, même si nous ne sommes pas toujours ravis de le faire, car ils sont l'un des rares moyens utilisés par l'industrie de l'IA pour montrer comment leurs modèles s'améliorent. Le problème, c'est que ces benchmarks d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la performance de l'IA sur ce qui intéresse réellement les gens.
Ethan Mollick, professeur à Wharton, a déclaré sur X qu'il y a un réel besoin de meilleurs tests et de groupes indépendants pour les réaliser. Il a souligné que les entreprises d'IA rapportent souvent leurs propres résultats de benchmarks, ce qui rend difficile de leur faire entièrement confiance.
« Les benchmarks publics sont à la fois 'bof' et saturés, laissant beaucoup de tests d'IA ressembler à des critiques gastronomiques, basées sur le goût », a écrit Mollick. « Si l'IA est cruciale pour le travail, nous avons besoin de plus. »
Il y a beaucoup de gens qui essaient de proposer de nouveaux benchmarks pour l'IA, mais personne ne s'accorde sur ce qui est le meilleur. Certains pensent que les benchmarks devraient se concentrer sur l'impact économique pour être utiles, tandis que d'autres estiment que l'adoption dans le monde réel et l'utilité sont les véritables mesures du succès.
Ce débat pourrait durer éternellement. Peut-être, comme le suggère l'utilisateur de X Roon, devrions-nous simplement prêter moins d'attention aux nouveaux modèles et benchmarks à moins qu'il n'y ait une percée majeure en IA. Cela pourrait être meilleur pour notre santé mentale, même si cela signifie manquer un peu de l'engouement pour l'IA.
Comme mentionné, This Week in AI prend une pause. Merci de rester avec nous, lecteurs, à travers tous les hauts et les bas. À la prochaine.
Actualités
Mira Murati, ancienne CTO d'OpenAI, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour « faire fonctionner l'IA selon les besoins et objectifs uniques [des gens]. »
xAI a lancé Grok 3 et ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le web.
Meta organise sa première conférence pour développeurs axée sur l'IA générative ce printemps. Elle s'appelle LlamaCon, d'après leurs modèles Llama, et aura lieu le 29 avril.
Paul a écrit sur OpenEuroLLM, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour une « IA transparente en Europe » qui respecte la « diversité linguistique et culturelle » de toutes les langues de l'UE.
Article de recherche de la semaine
OpenAI indique que le modèle le plus performant, Claude 3.5 Sonnet d'Anthropic, nelige 40,3 % sur l'ensemble du benchmark SWE-Lancer, ce qui montre que l'IA a encore du chemin à parcourir. Ils n'ont pas testé de modèles plus récents comme o3-mini d'OpenAI ou R1 de DeepSeek en Chine.
Modèle de la semaine
Une entreprise d'IA chinoise appelée Stepfun a lancé un modèle d'IA « ouvert » nommé Step-Audio qui peut comprendre et générer de la parole en chinois, anglais et japonais. Les utilisateurs peuvent même ajuster l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinoises bien financées qui publient des modèles avec des licences permissives. Fondée en 2023, elle a récemment conclu une levée de fonds de plusieurs centaines de millions auprès d'investisseurs, y compris des sociétés d'investissement privées appartenant à l'État chinois.
Mélange
Leur modèle, DeepHermes-3 Preview, peut passer de courtes à longues « chaînes de pensée » pour équilibrer précision et puissance de calcul. En mode « raisonnement », il prend plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic prévoirait de lancer un modèle similaire bientôt, et OpenAI dit que c'est sur leur feuille de route à court terme.




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












