Option
Heim
Nachricht
AI -Benchmarks: Sollten wir sie vorerst ignorieren?

AI -Benchmarks: Sollten wir sie vorerst ignorieren?

10. April 2025
240

Willkommen zum regelmäßigen AI-Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können weiterhin unsere gesamte AI-Berichterstattung, einschließlich meiner Kolumnen, täglicher Analysen und aktueller Nachrichten, hier bei TechCrunch finden. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang? Melden Sie sich einfach hier für unsere täglichen Newsletter an.

Diese Woche hat Elon Musks AI-Startup xAI sein neuestes Flaggschiff-AI-Modell, Grok 3, veröffentlicht, das die Grok-Chatbot-Apps des Unternehmens antreibt. Es wurde auf beeindruckenden 200.000 GPUs trainiert und übertrifft in Benchmarks für Mathematik, Programmierung und mehr eine Reihe anderer Top-Modelle, einschließlich einiger von OpenAI.

Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.

Hier bei TC berichten wir über diese Benchmark-Zahlen, auch wenn wir nicht immer begeistert davon sind, weil sie eine der wenigen Möglichkeiten sind, wie die AI-Branche versucht zu zeigen, wie ihre Modelle verbessert werden. Das Problem ist, dass diese populären AI-Benchmarks oft auf obskuren Dingen basieren und Bewertungen liefern, die nicht wirklich widerspiegeln, wie gut die AI die Dinge macht, die die Menschen tatsächlich interessieren.

Ethan Mollick, Professor an der Wharton School, hat auf X erklärt, dass es einen echten Bedarf an besseren Tests und unabhängigen Gruppen gibt, die diese durchführen. Er wies darauf hin, dass AI-Unternehmen oft ihre eigenen Benchmark-Ergebnisse veröffentlichen, was es schwer macht, ihnen vollständig zu vertrauen.

„Öffentliche Benchmarks sind sowohl ‚meh‘ als auch gesättigt, was vieles beim AI-Testing wie Restaurantkritiken macht, basierend auf Geschmack“, schrieb Mollick. „Wenn AI für die Arbeit entscheidend ist, brauchen wir mehr.“

Es gibt viele Leute, die versuchen, neue Benchmarks für AI zu entwickeln, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass Benchmarks sich auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die tatsächliche Akzeptanz und Nützlichkeit in der realen Welt die wahren Maßstäbe für Erfolg sind.

Diese Debatte könnte ewig weitergehen. Vielleicht sollten wir, wie X-Nutzer Roon vorschlägt, einfach weniger Aufmerksamkeit auf neue Modelle und Benchmarks richten, es sei denn, es gibt einen großen Durchbruch in der AI. Das wäre vielleicht besser für unsere geistige Gesundheit, auch wenn es bedeutet, etwas vom AI-Hype zu verpassen.

Wie erwähnt, macht This Week in AI eine Pause. Danke, dass ihr bei uns geblieben seid, liebe Leser, durch alle Höhen und Tiefen. Bis zum nächsten Mal.

Nachrichten

Bildnachweis: Nathan Laine/Bloomberg / Getty Images
OpenAI versucht, ChatGPT zu „entzensieren“. Max schrieb darüber, wie sie ihren Ansatz in der AI-Entwicklung ändern, um „intellektuelle Freiheit“ zu fördern, auch bei schwierigen oder kontroversen Themen.

Mira Murati, ehemalige CTO von OpenAI, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um „AI für die einzigartigen Bedürfnisse und Ziele [der Menschen] arbeiten zu lassen“.

xAI hat Grok 3 veröffentlicht und neue Funktionen zu den Grok-Apps für iOS und das Web hinzugefügt.

Meta veranstaltet im Frühjahr seine erste Entwicklerkonferenz, die sich auf generative AI konzentriert. Sie heißt LlamaCon, nach ihren Llama-Modellen, und findet am 29. April statt.

Paul schrieb über OpenEuroLLM, ein Projekt von etwa 20 Organisationen, um Basismodelle für „transparente AI in Europa“ zu entwickeln, die die „sprachliche und kulturelle Vielfalt“ aller EU-Sprachen respektiert.

Forschungspapier der Woche

OpenAI ChatGPT Website auf einem Laptop-Bildschirm in dieser Illustrationsaufnahme.

Bildnachweis: Jakub Porzycki/NurPhoto / Getty Images
OpenAI-Forscher haben einen neuen AI-Benchmark namens SWE-Lancer entwickelt, um zu testen, wie gut AI programmieren kann. Er besteht aus über 1.400 freiberuflichen Software-Engineering-Aufgaben, von der Fehlerbehebung und dem Hinzufügen von Funktionen bis hin zum Vorschlagen technischer Implementierungen.

OpenAI sagt, dass das leistungsstärkste Modell, Anthropic's Claude 3.5 Sonnet, nur 40,3 % beim vollständigen SWE-Lancer-Benchmark erreicht hat, was zeigt, dass AI noch einen weiten Weg vor sich hat. Sie haben neuere Modelle wie OpenAI's o3-mini oder DeepSeek's R1 aus China nicht getestet.

Modell der Woche

Ein chinesisches AI-Unternehmen namens Stepfun hat ein „offenes“ AI-Modell namens Step-Audio veröffentlicht, das Sprache in Chinesisch, Englisch und Japanisch verstehen und generieren kann. Benutzer können sogar die Emotion und den Dialekt des synthetischen Audios anpassen, einschließlich Gesang.

Stepfun ist eines von mehreren gut finanzierten chinesischen AI-Startups, die Modelle mit permissiven Lizenzen veröffentlichen. Gegründet im Jahr 2023, schlossen sie kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen ab, von Investoren, einschließlich chinesischer staatlicher Private-Equity-Firmen.

Bunter Mix

Nous Research DeepHermes

Bildnachweis: Nous Research
Nous Research, eine AI-Forschungsgruppe, behauptet, eines der ersten AI-Modelle veröffentlicht zu haben, das Denken mit „intuitiven Sprachmodellfähigkeiten“ kombiniert.

Ihr Modell, DeepHermes-3 Preview, kann zwischen kurzen und langen „Gedankeketten“ wechseln, um Genauigkeit und Rechenleistung auszubalancieren. Im „Denk“-Modus nimmt es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt dabei seinen Denkprozess.

Anthropic plant Berichten zufolge bald ein ähnliches Modell zu veröffentlichen, und OpenAI sagt, es steht auf ihrer kurzfristigen Roadmap.

Verwandter Artikel
OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche OpenAI skizziert eine KI-Wirtschaft mit öffentlichen Vermögensfonds, Robotersteuern und einer Vier-Tage-Woche Während Regierungen darum ringen, die wirtschaftlichen Auswirkungen superintelligenter Maschinen zu bewältigen, hat OpenAI eine Reihe von politischen Vorschlägen veröffentlicht, in denen dargelegt wir
Die Dauer des Mietvertrags von Anthropic mit SpaceX spaltet die Meinungen Die Dauer des Mietvertrags von Anthropic mit SpaceX spaltet die Meinungen Anfang dieses Monats schloss xAI eine bedeutende Rechenkapazitätsvereinbarung mit Anthropic ab, in deren Rahmen xAI monatlich Milliardenbeträge für den exklusiven Zugang zum Colossus-Cluster bereitste
Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat Greg Brockman enthüllt, wie Elon Musk OpenAI verlassen hat Ende August 2017 trafen sich führende Persönlichkeiten von OpenAI – damals ein kleines gemeinnütziges Forschungslabor –, um zu erörtern, wie sie ein gewinnorientiertes Unternehmen gründen könnten, um
Empfehlungen zu verwandten Spezialthemen
Produktivität KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern
KI-Coaches für persönliches Wohlbefinden und Konzentration: Burnout bewältigen und die geistige Energie steigern

Entdecken Sie auf XIX.AI die besten KI-basierten Coaches für persönliches Wohlbefinden und Konzentration des Jahres 2026. Unsere sorgfältig zusammengestellte Rangliste umfasst erstklassige, bahnbrechende Tools zur Bewältigung von Burnout und zur Steigerung der mentalen Energie. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Erfahrungsberichten aus der Praxis. Schlagen Sie noch heute den Weg zu höchster Produktivität und Wohlbefinden ein.

10 Tools
xix.ai
Chatbot Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf
Die besten KI-basierten Romantik-Chatbots: Bauen Sie langfristige Beziehungen mit beständiger Persönlichkeit auf

Entdecken Sie die besten KI-Romantik-Chatbots des Jahres 2026, mit denen Sie echte, langfristige Beziehungen aufbauen können. Unsere sorgfältig zusammengestellte Liste bietet Ihnen überzeugende, konsistente Persönlichkeiten, Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten sowie Tests aus der Praxis. Finden Sie Ihren perfekten Begleiter und legen Sie noch heute bei XIX.AI los.

10 Tools
xix.ai
Bildung und Lernen Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.
Die besten AI-Datenwissenschafts-Mentoren: Beherrschen Sie SQL, Pandas und Arbeitsabläufe für maschinelles Lernen.

Entdecken Sie die besten AI-Data-Science-Mentoren von 2026, um SQL, Pandas und ML-Arbeitsabläufe zu meistern. Erfahren Sie mehr über unsere hochbewerteten, sorgfältig ausgewählten Angebote bei XIX.AI – für effektive und bahnbrechende Anleitung. Vergleichen Sie kostenlose und bezahlte Optionen mit praktischen Einblicken aus der Praxis. Entfalten Sie Ihr Potenzial in der Data Science noch heute.

10 Tools
xix.ai
Chatbot Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit
Die besten KI-Flirt- und Konversationstrainer: Steigere dein soziales Charisma und dein Selbstvertrauen in Echtzeit

Entdecken Sie auf XIX.AI die besten KI-Flirt- und Konversationstrainer des Jahres 2026. Unsere sorgfältig zusammengestellte, erstklassige Auswahl hilft Ihnen dabei, Ihr soziales Charisma und Ihr Selbstvertrauen in Echtzeit zu stärken. Entdecken Sie unverzichtbare, bahnbrechende Tools mit Vergleichen zwischen kostenlosen und kostenpflichtigen Angeboten sowie wöchentlich aktualisierten Rankings. Schaffen Sie sich noch heute einen sozialen Vorsprung.

10 Tools
xix.ai
Code Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.
Die besten KI-Tools für automatisierte Einheitstests: Generieren Sie mit nur einem Klick Jest-, PyTest- und JUnit-Testfälle.

Entdecken Sie die neuesten, hochbewerteten KI-Tools von 2026 für den automatisierten Unit-Testing-Prozess. Unsere sorgfältig ausgewählten Lösungen bieten leistungsstarke und bahnbrechende Funktionen, um sofort Jest-, PyTest- und JUnit-Testfälle zu generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von tatsächlichen Tests sowie wöchentlich aktualisierten Rankings auf XIX.AI. Entfalten Sie Ihr KI-Potenzial und steigern Sie noch heute die Produktivität Ihrer Entwicklungstätigkeit.

10 Tools
xix.ai
Datenanalyse Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren
Die besten KI-Tools zur Datenvisualisierung: Interaktive BI-Dashboards automatisch aus Rohdaten generieren

Entdecken Sie bei XIX.AI die besten KI-Tools zur Datenvisualisierung für 2026. Unsere sorgfältig zusammengestellte Auswahl der besten Tools hilft Ihnen dabei, leistungsstarke, interaktive BI-Dashboards sofort aus Rohdaten automatisch zu erstellen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Schöpfen Sie noch heute das Potenzial Ihrer Daten aus.

10 Tools
xix.ai
Kommentare (61)
0/500
JonathanDavis
JonathanDavis 19. August 2025 08:26:53 MESZ

AI benchmarks are getting so hyped, but are they even reliable yet? 🤔 Feels like companies just cherry-pick numbers to flex. I’d rather see real-world use cases than some random leaderboard scores.

EdwardWalker
EdwardWalker 19. August 2025 07:00:59 MESZ

AI benchmarks are getting so hyped, but are they even reliable yet? Feels like we're chasing numbers instead of real progress. 🤔 What do you all think—should we just ignore them for now?

HarrySmith
HarrySmith 11. August 2025 21:00:59 MESZ

AI benchmarks are cool, but are they just tech flexing? I’d rather see real-world uses than numbers on a chart. 🤔

BillyLewis
BillyLewis 4. August 2025 08:01:00 MESZ

AI benchmarks sound cool, but are they just overhyped numbers? I’m curious if they really tell us anything useful about real-world performance. 🧐

JimmyWilson
JimmyWilson 1. August 2025 04:48:18 MESZ

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI vibes in the real world? 🤔

JohnTaylor
JohnTaylor 28. Juli 2025 03:20:02 MESZ

AI benchmarks sound fancy, but are they just tech flexing? I mean, cool numbers, but do they really tell us how AI impacts daily life? 🤔 Curious if we’re hyping stats over real-world use.

OR