Benchmarks AI: devrions-nous les ignorer pour l'instant?
Bienvenue dans la newsletter régulière de l'IA de TechCrunch! Nous faisons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours obtenir toute notre couverture d'IA, y compris mes colonnes, mes analyses quotidiennes et les dernières nouvelles, ici chez TechCrunch. Vous voulez obtenir ces histoires directement dans votre boîte de réception tous les jours? Inscrivez-vous simplement à nos newsletters quotidiens ici.
Cette semaine, la startup d'IA d'Elon Musk, XAI, a abandonné son dernier modèle phare d'IA, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont formé sur un énorme 200 000 GPU, et cela surpasse un tas d'autres meilleurs modèles, dont certains d'Openai, dans des références pour les mathématiques, le codage, etc.
Mais parlons de ce que signifient réellement ces repères.
Chez TC, nous rapportons ces numéros de référence, même si nous n'en sommes pas toujours ravis, car ils sont l'une des rares façons dont l'industrie de l'IA essaie de montrer comment leurs modèles s'améliorent. Le fait est que ces repères d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la façon dont l'IA fait les choses que les gens se soucient réellement.
Ethan Mollick, professeur à Wharton, s'est rendu chez X pour dire qu'il y a un réel besoin pour de meilleurs tests et des groupes indépendants pour les gérer. Il a souligné que les entreprises d'IA signalent souvent leurs propres résultats de référence, ce qui rend difficile de leur faire confiance.
"Les références publiques sont à la fois« meh »et saturées, laissant beaucoup de tests sur l'IA comme des critiques alimentaires, en fonction du goût», a écrit Mollick. "Si l'IA est essentielle pour travailler, nous en avons besoin de plus."
Il y a beaucoup de gens qui essaient de proposer de nouvelles repères pour l'IA, mais personne ne peut s'entendre sur ce qui est le mieux. Certains pensent que les repères devraient se concentrer sur l'impact économique pour être utile, tandis que d'autres croient que l'adoption et l'utilité du monde réel sont les véritables mesures du succès.
Ce débat pourrait continuer pour toujours. Peut-être que, comme le suggère de X User Roon, nous devrions simplement prêter moins d'attention aux nouveaux modèles et références à moins qu'il n'y ait une percée d'IA majeure. Cela pourrait être mieux pour notre santé mentale, même si cela signifie manquer un battage médiatique d'IA.
Comme mentionné, cette semaine dans l'IA fait une pause. Merci de rester avec nous, les lecteurs, à travers tous les hauts et les bas. Jusqu'à la prochaine fois.
Nouvelles

Crédits d'image: Nathan Laine / Bloomberg / Getty Images Openai essaie de "Uncensor" Chatgpt. Max a écrit sur la façon dont ils changent leur approche au développement de l'IA pour adopter la «liberté intellectuelle», même sur des sujets difficiles ou controversés.
Mira Murati, ancien CTO d'Openai, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour "faire fonctionner l'IA pour les besoins et les objectifs uniques [des gens]".
XAI a sorti Grok 3 et a ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le Web.
Meta organise sa première conférence de développeur axée sur l'IA génératrice ce printemps. Cela s'appelle Llamacon, après leurs modèles de lama, et cela se produit le 29 avril.
Paul a écrit sur OpenEurollm, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour «l'IA transparent en Europe» qui respecte la «diversité linguistique et culturelle» de toutes les langues de l'UE.
Document de recherche de la semaine

Crédits d'image: Jakub Porzycki / Nurphoto / Getty Images Les chercheurs d'OpenAI ont créé une nouvelle référence d'IA appelée Swe-Lancer pour tester la façon dont l'IA peut coder. Il est composé de plus de 1 400 tâches de génie logiciel indépendant, de la correction des bogues et de l'ajout de fonctionnalités pour proposer des implémentations techniques.
Openai dit que le modèle le plus performant, le sonnet Claude 3.5 d'Anthropic, n'a marqué que 40,3% sur le référence Swe-Lancer complet, qui montre que l'IA a encore un long chemin à parcourir. Ils n'ont pas testé de nouveaux modèles comme O3-Mini d'Openai ou R1 de Deepseek depuis la Chine.
Modèle de la semaine
Une société d'IA chinoise appelée StepFun a publié un modèle d'IA "ouvert" nommé Step-Audio qui peut comprendre et générer un discours en chinois, en anglais et en japonais. Les utilisateurs peuvent même modifier l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinois bien financées libérant des modèles avec des licences permissives. Fondés en 2023, ils ont récemment clôturé un tour de financement d'une valeur de centaines de millions d'investisseurs, y compris des sociétés de capital-investissement d'État chinoises.
Sac à main

Crédits d'image: recherche de nous Nous Research, un groupe de recherche sur l'IA, prétend avoir publié l'un des premiers modèles d'IA qui combine le raisonnement avec des «capacités de modèle de langage intuitif».
Leur modèle, Deephermes-3 Aperçu, peut basculer entre les «chaînes de pensée» courtes et longues pour équilibrer la précision et la puissance de calcul. En mode "raisonnement", il faut plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic aurait bientôt prévu de publier un modèle similaire, et Openai dit que c'est sur leur feuille de route à court terme.
Article connexe
OpenAI升級其Operator Agent的AI模型
OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準
為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權
Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
commentaires (55)
0/200
FredAnderson
10 avril 2025 00:00:00 UTC
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
11 avril 2025 00:00:00 UTC
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
10 avril 2025 00:00:00 UTC
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
11 avril 2025 00:00:00 UTC
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
11 avril 2025 00:00:00 UTC
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
11 avril 2025 00:00:00 UTC
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0
Bienvenue dans la newsletter régulière de l'IA de TechCrunch! Nous faisons une petite pause, mais ne vous inquiétez pas, vous pouvez toujours obtenir toute notre couverture d'IA, y compris mes colonnes, mes analyses quotidiennes et les dernières nouvelles, ici chez TechCrunch. Vous voulez obtenir ces histoires directement dans votre boîte de réception tous les jours? Inscrivez-vous simplement à nos newsletters quotidiens ici.
Cette semaine, la startup d'IA d'Elon Musk, XAI, a abandonné son dernier modèle phare d'IA, Grok 3, qui alimente les applications de chatbot Grok de l'entreprise. Ils l'ont formé sur un énorme 200 000 GPU, et cela surpasse un tas d'autres meilleurs modèles, dont certains d'Openai, dans des références pour les mathématiques, le codage, etc.
Mais parlons de ce que signifient réellement ces repères.
Chez TC, nous rapportons ces numéros de référence, même si nous n'en sommes pas toujours ravis, car ils sont l'une des rares façons dont l'industrie de l'IA essaie de montrer comment leurs modèles s'améliorent. Le fait est que ces repères d'IA populaires se concentrent souvent sur des choses obscures et donnent des scores qui ne reflètent pas vraiment la façon dont l'IA fait les choses que les gens se soucient réellement.
Ethan Mollick, professeur à Wharton, s'est rendu chez X pour dire qu'il y a un réel besoin pour de meilleurs tests et des groupes indépendants pour les gérer. Il a souligné que les entreprises d'IA signalent souvent leurs propres résultats de référence, ce qui rend difficile de leur faire confiance.
"Les références publiques sont à la fois« meh »et saturées, laissant beaucoup de tests sur l'IA comme des critiques alimentaires, en fonction du goût», a écrit Mollick. "Si l'IA est essentielle pour travailler, nous en avons besoin de plus."
Il y a beaucoup de gens qui essaient de proposer de nouvelles repères pour l'IA, mais personne ne peut s'entendre sur ce qui est le mieux. Certains pensent que les repères devraient se concentrer sur l'impact économique pour être utile, tandis que d'autres croient que l'adoption et l'utilité du monde réel sont les véritables mesures du succès.
Ce débat pourrait continuer pour toujours. Peut-être que, comme le suggère de X User Roon, nous devrions simplement prêter moins d'attention aux nouveaux modèles et références à moins qu'il n'y ait une percée d'IA majeure. Cela pourrait être mieux pour notre santé mentale, même si cela signifie manquer un battage médiatique d'IA.
Comme mentionné, cette semaine dans l'IA fait une pause. Merci de rester avec nous, les lecteurs, à travers tous les hauts et les bas. Jusqu'à la prochaine fois.
Nouvelles
Mira Murati, ancien CTO d'Openai, a une nouvelle startup appelée Thinking Machines Lab. Ils travaillent sur des outils pour "faire fonctionner l'IA pour les besoins et les objectifs uniques [des gens]".
XAI a sorti Grok 3 et a ajouté de nouvelles fonctionnalités aux applications Grok pour iOS et le Web.
Meta organise sa première conférence de développeur axée sur l'IA génératrice ce printemps. Cela s'appelle Llamacon, après leurs modèles de lama, et cela se produit le 29 avril.
Paul a écrit sur OpenEurollm, un projet d'une vingtaine d'organisations pour construire des modèles de fondation pour «l'IA transparent en Europe» qui respecte la «diversité linguistique et culturelle» de toutes les langues de l'UE.
Document de recherche de la semaine
Openai dit que le modèle le plus performant, le sonnet Claude 3.5 d'Anthropic, n'a marqué que 40,3% sur le référence Swe-Lancer complet, qui montre que l'IA a encore un long chemin à parcourir. Ils n'ont pas testé de nouveaux modèles comme O3-Mini d'Openai ou R1 de Deepseek depuis la Chine.
Modèle de la semaine
Une société d'IA chinoise appelée StepFun a publié un modèle d'IA "ouvert" nommé Step-Audio qui peut comprendre et générer un discours en chinois, en anglais et en japonais. Les utilisateurs peuvent même modifier l'émotion et le dialecte de l'audio synthétique, y compris le chant.
Stepfun est l'une des nombreuses startups d'IA chinois bien financées libérant des modèles avec des licences permissives. Fondés en 2023, ils ont récemment clôturé un tour de financement d'une valeur de centaines de millions d'investisseurs, y compris des sociétés de capital-investissement d'État chinoises.
Sac à main
Leur modèle, Deephermes-3 Aperçu, peut basculer entre les «chaînes de pensée» courtes et longues pour équilibrer la précision et la puissance de calcul. En mode "raisonnement", il faut plus de temps pour résoudre des problèmes plus difficiles et montre son processus de réflexion en cours de route.
Anthropic aurait bientôt prévu de publier un modèle similaire, et Openai dit que c'est sur leur feuille de route à court terme.




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












