AI -Benchmarks: Sollten wir sie vorerst ignorieren?
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten

Bildnachweis: Nathan Laine/Bloomberg / Getty Images OpenAI versucht, ChatGPT zu „entzensieren“. Max schrieb darüber, wie sie ihren Ansatz in der AI-Entwicklung ändern, um „intellektuelle Freiheit“ zu fördern, auch bei schwierigen oder kontroversen Themen.
Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche

Bildnachweis: Jakub Porzycki/NurPhoto / Getty Images OpenAI-Forscher haben einen neuen AI-Benchmark namens SWE-Lancer entwickelt, um zu testen, wie gut AI programmieren kann. Er besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, von der Fehlerbehebung und dem Hinzufügen von Funktionen bis hin zum Vorschlagen technischer Implementierungen.
OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix

Bildnachweis: Nous Research Nous Research, eine AI-Forschungsgruppe, behauptet, eines der ersten AI-Modelle veröffentlicht zu haben, das Denken mit „intuitiven Sprachmodellfähigkeiten“ kombiniert.
Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.
Verwandter Artikel
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Die Dauer des Mietvertrags von Anthropic mit SpaceX spaltet die Meinungen
Anfang dieses Monats schloss xAI eine bedeutende Rechenkapazitätsvereinbarung mit Anthropic ab, in deren Rahmen xAI monatlich Milliardenbeträge für den exklusiven Zugang zum Colossus-Cluster bereitste
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Kommentare (61)
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔
Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.
Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.
Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.
Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.
Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.
„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“
Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.
Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.
Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.
Nachrichten

Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.
xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.
Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.
Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.
Forschungspapier der Woche

OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.
Modell der Woche
Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.
Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.
Bunter Mix

Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.
Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche
Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Die Dauer des Mietvertrags von Anthropic mit SpaceX spaltet die Meinungen
Anfang dieses Monats schloss xAI eine bedeutende Rechenkapazitätsvereinbarung mit Anthropic ab, in deren Rahmen xAI monatlich Milliardenbeträge für den exklusiven Zugang zum Colossus-Cluster bereitste
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat
Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.
AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?
AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔
AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐
AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔





Heim






