Benchmarks AI: devrions-nous les ignorer pour l'instant?
10 avril 2025
MarkWilson
79
Bienvenue dans la newsletter régulière de l'IA de TechCrunch! Nous faisons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours obtenir toute notre couverture d'IA, y compris mes colonnes, mes analyses quotidiennes et les dernières nouvelles, ici chez TechCrunch. Vous voulez obtenir ces histoires directement dans votre boîte de réception tous les jours? Inscrivez-vous simplement à nos newsletters quotidiens ici.
Cette semaine, la startup d'IA d'Elon Musk, XAI, a abandonné son dernier modèle phare d'IA, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont formé sur un énorme 200 000 GPU, et cela surpasse un tas d'autres meilleurs modèles, dont certains d'Openai, dans des références pour les mathématiques, le codage, etc.
Mais parlons de ce que signifient réellement ces repères.
Chez TC, nous rapportons ces numéros de référence, même si nous n'en sommes pas toujours ravis, car ils sont l'une des rares façons dont l'industrie de l'IA essaie de montrer comment leurs modèles s'améliorent. Le fait est que ces repères d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la façon dont l'IA fait les choses que les gens se soucient réellement.
Ethan Mollick, professeur à Wharton, s'est rendu chez X pour dire qu'il y a un réel besoin pour de meilleurs tests et des groupes indépendants pour les gérer. Il a souligné que les entreprises d'IA signalent souvent leurs propres résultats de référence, ce qui rend difficile de leur faire confiance.
"Les références publiques sont à la fois« meh »et saturées, laissant beaucoup de tests sur l'IA comme des critiques alimentaires, en fonction du goût», a écrit Mollick. "Si l'IA est essentielle pour travailler, nous en avons besoin de plus."
Il y a beaucoup de gens qui essaient de proposer de nouvelles repères pour l'IA, mais personne ne peut s'entendre sur ce qui est le mieux. Certains pensent que les repères devraient se concentrer sur l'impact économique pour être utile, tandis que d'autres croient que l'adoption et l'utilité du monde réel sont les véritables mesures du succès.
Ce débat pourrait continuer pour toujours. Peut-être que, comme le suggère de X User Roon, nous devrions simplement prêter moins d'attention aux nouveaux modèles et références à moins qu'il n'y ait une percée d'IA majeure. Cela pourrait être mieux pour notre santé mentale, même si cela signifie manquer un battage médiatique d'IA.
Comme mentionné, cette semaine dans l'IA fait une pause. Merci de rester avec nous, les lecteurs, à travers tous les hauts et les bas. Jusqu'à la prochaine fois.
Nouvelles

Crédits d'image: Nathan Laine / Bloomberg / Getty Images Openai essaie de "Uncensor" Chatgpt. Max a écrit sur la façon dont ils changent leur approche au développement de l'IA pour adopter la «liberté intellectuelle», même sur des sujets difficiles ou controversés.
Mira Murati, ancien CTO d'Openai, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour "faire fonctionner l'IA pour les besoins et les objectifs uniques [des gens]".
XAI a sorti Grok 3 et a ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le Web.
Meta organise sa première conférence de développeur axée sur l'IA génératrice ce printemps. Cela s'appelle Llamacon, après leurs modèles de lama, et cela se produit le 29 avril.
Paul a écrit sur OpenEurollm, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour «l'IA transparent en Europe» qui respecte la «diversité linguistique et culturelle» de toutes les langues de l'UE.
Document de recherche de la semaine

Crédits d'image: Jakub Porzycki / Nurphoto / Getty Images Les chercheurs d'OpenAI ont créé une nouvelle référence d'IA appelée Swe-Lancer pour tester la façon dont l'IA peut coder. Il est composé de plus de 1 400 tâches de génie logiciel indépendant, de la correction des bogues et de l'ajout de fonctionnalités pour proposer des implémentations techniques.
Openai dit que le modèle le plus performant, le sonnet Claude 3.5 d'Anthropic, n'a marqué que 40,3% sur le référence Swe-Lancer complet, qui montre que l'IA a encore un long chemin à parcourir. Ils n'ont pas testé de nouveaux modèles comme O3-Mini d'Openai ou R1 de Deepseek depuis la Chine.
Modèle de la semaine
Une société d'IA chinoise appelée StepFun a publié un modèle d'IA "ouvert" nommé Step-Audio qui peut comprendre et générer un discours en chinois, en anglais et en japonais. Les utilisateurs peuvent même modifier l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinois bien financées libérant des modèles avec des licences permissives. Fondés en 2023, ils ont récemment clôturé un tour de financement d'une valeur de centaines de millions d'investisseurs, y compris des sociétés de capital-investissement d'État chinoises.
Sac à main

Crédits d'image: recherche de nous Nous Research, un groupe de recherche sur l'IA, prétend avoir publié l'un des premiers modèles d'IA qui combine le raisonnement avec des «capacités de modèle de langage intuitif».
Leur modèle, Deephermes-3 Aperçu, peut basculer entre les «chaînes de pensée» courtes et longues pour équilibrer la précision et la puissance de calcul. En mode "raisonnement", il faut plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic aurait bientôt prévu de publier un modèle similaire, et Openai dit que c'est sur leur feuille de route à court terme.
Article connexe
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
Commentaires (55)
0/200
FredAnderson
10 avril 2025 13:30:25 UTC
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 avril 2025 03:44:49 UTC
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 avril 2025 13:20:05 UTC
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
10 avril 2025 20:29:13 UTC
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 avril 2025 06:46:34 UTC
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 avril 2025 12:48:46 UTC
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0






Bienvenue dans la newsletter régulière de l'IA de TechCrunch! Nous faisons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours obtenir toute notre couverture d'IA, y compris mes colonnes, mes analyses quotidiennes et les dernières nouvelles, ici chez TechCrunch. Vous voulez obtenir ces histoires directement dans votre boîte de réception tous les jours? Inscrivez-vous simplement à nos newsletters quotidiens ici.
Cette semaine, la startup d'IA d'Elon Musk, XAI, a abandonné son dernier modèle phare d'IA, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont formé sur un énorme 200 000 GPU, et cela surpasse un tas d'autres meilleurs modèles, dont certains d'Openai, dans des références pour les mathématiques, le codage, etc.
Mais parlons de ce que signifient réellement ces repères.
Chez TC, nous rapportons ces numéros de référence, même si nous n'en sommes pas toujours ravis, car ils sont l'une des rares façons dont l'industrie de l'IA essaie de montrer comment leurs modèles s'améliorent. Le fait est que ces repères d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la façon dont l'IA fait les choses que les gens se soucient réellement.
Ethan Mollick, professeur à Wharton, s'est rendu chez X pour dire qu'il y a un réel besoin pour de meilleurs tests et des groupes indépendants pour les gérer. Il a souligné que les entreprises d'IA signalent souvent leurs propres résultats de référence, ce qui rend difficile de leur faire confiance.
"Les références publiques sont à la fois« meh »et saturées, laissant beaucoup de tests sur l'IA comme des critiques alimentaires, en fonction du goût», a écrit Mollick. "Si l'IA est essentielle pour travailler, nous en avons besoin de plus."
Il y a beaucoup de gens qui essaient de proposer de nouvelles repères pour l'IA, mais personne ne peut s'entendre sur ce qui est le mieux. Certains pensent que les repères devraient se concentrer sur l'impact économique pour être utile, tandis que d'autres croient que l'adoption et l'utilité du monde réel sont les véritables mesures du succès.
Ce débat pourrait continuer pour toujours. Peut-être que, comme le suggère de X User Roon, nous devrions simplement prêter moins d'attention aux nouveaux modèles et références à moins qu'il n'y ait une percée d'IA majeure. Cela pourrait être mieux pour notre santé mentale, même si cela signifie manquer un battage médiatique d'IA.
Comme mentionné, cette semaine dans l'IA fait une pause. Merci de rester avec nous, les lecteurs, à travers tous les hauts et les bas. Jusqu'à la prochaine fois.
Nouvelles
Mira Murati, ancien CTO d'Openai, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour "faire fonctionner l'IA pour les besoins et les objectifs uniques [des gens]".
XAI a sorti Grok 3 et a ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le Web.
Meta organise sa première conférence de développeur axée sur l'IA génératrice ce printemps. Cela s'appelle Llamacon, après leurs modèles de lama, et cela se produit le 29 avril.
Paul a écrit sur OpenEurollm, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour «l'IA transparent en Europe» qui respecte la «diversité linguistique et culturelle» de toutes les langues de l'UE.
Document de recherche de la semaine
Openai dit que le modèle le plus performant, le sonnet Claude 3.5 d'Anthropic, n'a marqué que 40,3% sur le référence Swe-Lancer complet, qui montre que l'IA a encore un long chemin à parcourir. Ils n'ont pas testé de nouveaux modèles comme O3-Mini d'Openai ou R1 de Deepseek depuis la Chine.
Modèle de la semaine
Une société d'IA chinoise appelée StepFun a publié un modèle d'IA "ouvert" nommé Step-Audio qui peut comprendre et générer un discours en chinois, en anglais et en japonais. Les utilisateurs peuvent même modifier l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinois bien financées libérant des modèles avec des licences permissives. Fondés en 2023, ils ont récemment clôturé un tour de financement d'une valeur de centaines de millions d'investisseurs, y compris des sociétés de capital-investissement d'État chinoises.
Sac à main
Leur modèle, Deephermes-3 Aperçu, peut basculer entre les «chaînes de pensée» courtes et longues pour équilibrer la précision et la puissance de calcul. En mode "raisonnement", il faut plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic aurait bientôt prévu de publier un modèle similaire, et Openai dit que c'est sur leur feuille de route à court terme.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












