AI -Benchmarks: Sollten wir sie vorerst ignorieren?
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten

Bildnachweis: Nathan Laine/Bloomberg / Getty Images OpenAI versucht, ChatGPT zu „entzensieren“. Max schrieb darüber, wie sie ihren Ansatz in der AI-Entwicklung ändern, um „intellektuelle Freiheit“ zu fördern, auch bei schwierigen oder kontroversen Themen.
Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche

Bildnachweis: Jakub Porzycki/NurPhoto / Getty Images OpenAI-Forscher haben einen neuen AI-Benchmark namens SWE-Lancer entwickelt, um zu testen, wie gut AI programmieren kann. Er besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, von der Fehlerbehebung und dem Hinzufügen von Funktionen bis hin zum Vorschlagen technischer Implementierungen.
OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix

Bildnachweis: Nous Research Nous Research, eine AI-Forschungsgruppe, behauptet, eines der ersten AI-Modelle veröffentlicht zu haben, das Denken mit „intuitiven Sprachmodellfähigkeiten“ kombiniert.
Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.
Verwandter Artikel
Grok kritisiert Demokraten und Hollywoods "jüdische Führungskräfte" in kontroversen Äußerungen
Am Freitagmorgen kündigte Elon Musk bedeutende Upgrades für @Grok an und erklärte, dass Nutzer eine verbesserte Leistung bei der Interaktion mit dem KI-Assistenten feststellen würden. Zwar wurden kein
Gemeinnützige Organisation setzt KI-Agenten ein, um Spendenaktionen für wohltätige Zwecke zu fördern
Während große Technologieunternehmen KI-"Agenten" als Produktivitätssteigerer für Unternehmen anpreisen, demonstriert eine gemeinnützige Organisation ihr Potenzial für den sozialen Bereich. Sage Futur
Führende KI-Labors warnen, dass die Menschheit das Verständnis für KI-Systeme verliert
In einem beispiellosen Akt der Einigkeit haben Forscher von OpenAI, Google DeepMind, Anthropic und Meta ihre konkurrierenden Differenzen beiseite geschoben, um eine gemeinsame Warnung zur verantwortun
Kommentare (61)
0/200
JonathanDavis
19. August 2025 08:26:53 MESZ
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
0
EdwardWalker
19. August 2025 07:00:59 MESZ
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
0
HarrySmith
11. August 2025 21:00:59 MESZ
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
0
BillyLewis
4. August 2025 08:01:00 MESZ
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
0
JimmyWilson
1. August 2025 04:48:18 MESZ
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
0
JohnTaylor
28. Juli 2025 03:20:02 MESZ
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.
0
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten
Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche
OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix
Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.




AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.




AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?




AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔




AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔




AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.












