AI -Benchmarks: Sollten wir sie vorerst ignorieren?
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten

Bildnachweis: Nathan Laine/Bloomberg / Getty Images OpenAI versucht, ChatGPT zu „entzensieren“. Max schrieb darüber, wie sie ihren Ansatz in der AI-Entwicklung ändern, um „intellektuelle Freiheit“ zu fördern, auch bei schwierigen oder kontroversen Themen.
Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche

Bildnachweis: Jakub Porzycki/NurPhoto / Getty Images OpenAI-Forscher haben einen neuen AI-Benchmark namens SWE-Lancer entwickelt, um zu testen, wie gut AI programmieren kann. Er besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, von der Fehlerbehebung und dem Hinzufügen von Funktionen bis hin zum Vorschlagen technischer Implementierungen.
OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix

Bildnachweis: Nous Research Nous Research, eine AI-Forschungsgruppe, behauptet, eines der ersten AI-Modelle veröffentlicht zu haben, das Denken mit „intuitiven Sprachmodellfähigkeiten“ kombiniert.
Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.
Verwandter Artikel
Ehemaliger OpenAI-Ingenieur gibt Einblicke in Unternehmenskultur und schnelles Wachstum
Vor drei Wochen verließ Calvin French-Owen, ein Ingenieur, der an einem wichtigen OpenAI-Produkt mitgearbeitet hat, das Unternehmen.Er veröffentlichte kürzlich einen fesselnden Blogbeitrag, in dem er
Google stellt produktionsreife Gemini 2.5 KI-Modelle vor, um mit OpenAI im Unternehmensmarkt zu konkurrieren
Google hat am Montag seine KI-Strategie intensiviert und seine fortschrittlichen Gemini 2.5 Modelle für den Unternehmenseinsatz gestartet sowie eine kosteneffiziente Variante eingeführt, um bei Preis
Meta bietet hohe Gehälter für KI-Talente, bestreitet 100-Millionen-Dollar-Unterschriftsboni
Meta lockt KI-Forscher in sein neues Superintelligenz-Labor mit beträchtlichen Millionen-Dollar-Vergütungspaketen. Behauptungen über 100-Millionen-Dollar-"Unterschriftsboni" sind jedoch laut einem rek
Kommentare (58)
0/200
BillyLewis
4. August 2025 08:01:00 MESZ
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1. August 2025 04:48:18 MESZ
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28. Juli 2025 03:20:02 MESZ
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
ChristopherThomas
26. April 2025 07:57:18 MESZ
I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔
0
BrianWalker
25. April 2025 21:19:34 MESZ
Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔
0
CharlesMartinez
22. April 2025 17:01:53 MESZ
Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔
0
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten
Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche
OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix
Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.




I'm on the fence about AI benchmarks. They seem useful but also kinda miss the point sometimes. It's like judging a book by its cover. Still, it's good to have some metrics, right? Maybe we should take them with a grain of salt for now. 🤔




Tôi không chắc về các tiêu chuẩn đánh giá AI. Chúng có vẻ hữu ích nhưng đôi khi cũng bỏ lỡ điểm chính. Giống như đánh giá một cuốn sách qua bìa của nó. Tuy nhiên, có một số chỉ số là tốt, đúng không? Có lẽ chúng ta nên xem xét chúng với một chút hoài nghi tạm thời. 🤔




Estou em dúvida sobre os benchmarks de IA. Eles parecem úteis, mas às vezes também perdem o ponto. É como julgar um livro pela capa. Ainda assim, é bom ter algumas métricas, certo? Talvez devêssemos levá-los com um grão de sal por enquanto. 🤔












