Heim Nachricht AI -Benchmarks: Sollten wir sie vorerst ignorieren?

AI -Benchmarks: Sollten wir sie vorerst ignorieren?

10. April 2025
MarkWilson
79

Willkommen im regulären KI -Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können immer noch alle unsere KI -Berichterstattung, einschließlich meiner Kolumnen, täglichen Analysen und brichten Nachrichten, hier bei TechCrunch erhalten. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang bringen? Melden Sie sich hier einfach für unsere täglichen Newsletter an.

Diese Woche hat das KI -Startup von Elon Musk, XAI, ihr neuestes Flaggschiff -AI -Modell GROK 3 fallen, das die Grok Chatbot -Apps des Unternehmens betreibt. Sie haben es auf satten 200.000 GPUs ausgebildet, und es übertrifft eine Reihe anderer Top -Modelle, darunter einige von Openai, in Benchmarks für Mathematik, Codierung und vieles mehr.

Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.

Hier bei TC berichten wir über diese Benchmark -Zahlen, auch wenn wir nicht immer begeistert sind, weil sie eine der wenigen Möglichkeiten sind, wie die KI -Branche versucht, sich zu verbessern, wie sich ihre Modelle verbessern. Die Sache ist, dass sich diese beliebten KI -Benchmarks oft auf dunkle Dinge konzentrieren und Punkte geben, die nicht wirklich widerspiegeln, wie gut die KI den Dingen, die Menschen tatsächlich interessieren, eignet.

Ethan Mollick, Professor bei Wharton, ging zu X, um zu sagen, dass es echte Notwendigkeit für bessere Tests und unabhängige Gruppen gibt, sie zu leiten. Er wies darauf hin, dass KI -Unternehmen häufig ihre eigenen Benchmark -Ergebnisse melden, was es schwierig macht, ihnen vollständig zu vertrauen.

"Öffentliche Benchmarks sind sowohl" meh "als auch gesättigt, sodass viele KI -Tests wie Lebensmittelbewertungen basieren", schrieb Mollick. "Wenn die KI für die Arbeit von entscheidender Bedeutung ist, brauchen wir mehr."

Es gibt viele Leute da draußen, die versuchen, neue Benchmarks für KI zu finden, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass die Benchmarks auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die Einführung und Nützlichkeit der realen Welt die wahren Erfolgsmaßnahmen sind.

Diese Debatte könnte für immer weitergehen. Vielleicht sollten wir, wie X -Benutzer Roon vorschlägt, nur neuen Modellen und Benchmarks weniger Aufmerksamkeit schenken, es sei denn, es gibt einen großen KI -Durchbruch. Es könnte besser für unsere geistige Gesundheit sein, auch wenn es bedeutet, einen KI -Hype zu verpassen.

Wie bereits erwähnt, macht diese Woche in AI eine Pause. Vielen Dank, dass Sie sich bei uns, Lesern, durch alle Höhen und Tiefen festhalten. Bis zum nächsten Mal.

Nachricht

Bildnachweis: Nathan Laine / Bloomberg / Getty Images
Openai versucht, Chatgpt zu "unzusammenwaren". Max schrieb darüber, wie sie ihre Herangehensweise an die KI -Entwicklung verändern, um "intellektuelle Freiheit" selbst auf harten oder kontroversen Themen zu nutzen.

Mira Murati, ehemalige CTO von Openai, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um "KI für die individuellen Bedürfnisse und Ziele der Menschen zu machen".

XAI veröffentlichte GROK 3 und fügte den GROK -Apps für iOS und dem Web neue Funktionen hinzu.

Meta veranstaltet seine erste Entwicklerkonferenz, die sich in diesem Frühjahr auf generative KI konzentriert. Es heißt Lamacon nach ihren Lama -Models und passiert am 29. April.

Paul schrieb über OpenEurollm, ein Projekt von rund 20 Organisationen zum Aufbau von Stiftungsmodellen für "transparente KI in Europa", das die "sprachliche und kulturelle Vielfalt" aller EU -Sprachen respektiert.

Forschungspapier der Woche

OpenAI CHATGPT -Website, die auf einem Laptop -Bildschirm angezeigt wird, wird in diesem Illustrationsfoto angezeigt.

Bildnachweis: Jakub Porzycki / Nurphoto / Getty Images
OpenAI-Forscher haben einen neuen KI-Benchmark namens Swe-Lancer entwickelt, um zu testen, wie gut KI codieren kann. Es besteht aus über 1.400 Aufgaben für freiberufliche Software -Engineering, von der Behebung von Fehler und dem Hinzufügen von Funktionen zum Vorschlag technischer Implementierungen.

Laut OpenAI erzielte das Top-Leistungsmodell, das Claude 3.5-Sonett von Anthropic, nur 40,3% auf der vollständigen Swe-Lancer-Benchmark, die zeigt, dass AI noch einen langen Weg vor sich hat. Sie testeten neuere Modelle wie Openai's O3-Mini oder Deepseeks R1 aus China nicht.

Modell der Woche

Eine chinesische KI-Firma namens Stepfun veröffentlichte ein "Open" -KI-Modell mit dem Namen Step-Audio, das in Chinesisch, Englisch und Japanisch Sprache verstehen und generieren kann. Benutzer können sogar die Emotionen und den Dialekt des synthetischen Audios, einschließlich des Singens, optimieren.

Stepfun ist eines von mehreren gut finanzierten chinesischen KI-Startups, die Modelle mit zulässigen Lizenzen veröffentlichen. Im Jahr 2023 wurde kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen von Investoren, einschließlich chinesischer staatlicher Private-Equity-Unternehmen, geschlossen.

Tasche greifen

Nous Forschung tiefe Hermungen

Bildnachweis: Nous Research
Nous Research, eine AI -Forschungsgruppe, behauptet, eines der ersten KI -Modelle veröffentlicht zu haben, das Argumentation mit "intuitiven Sprachmodellfunktionen" kombiniert.

Ihr Modell, Deephermes-3-Vorschau, kann zwischen kurzen und langen "Gedankenketten" wechseln, um Genauigkeit und Rechenleistung auszugleichen. Im "Argumentations" -Modus dauert es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt seinen Denkprozess auf dem Weg.

Anthropic plant Berichten zufolge, bald ein ähnliches Modell zu veröffentlichen, und Openai sagt, dass es sich um ihre kurzfristige Roadmap handelt.

Verwandter Artikel
Google搜索引入了复杂的多部分查询的“ AI模式” Google搜索引入了复杂的多部分查询的“ AI模式” Google推出了“ AI模式”,以搜索与竞争对手的困惑AI和ChatgptGoogle在AI Arena中加强游戏,并在其搜索引擎中启动了实验性的“ AI模式”功能。旨在进行困惑AI和Openai的Chatgpt搜索之类
Chatgpt主意使用用户名在某些人中引发了“令人毛骨悚然”的问题 Chatgpt主意使用用户名在某些人中引发了“令人毛骨悚然”的问题 Chatgpt的一些用户最近遇到了一个奇怪的新功能:聊天机器人偶尔在解决问题时使用他们的名字。这不是以前其通常行为的一部分,许多用户报告Chatgpt提到了他们的名字,而没有被告知该怎么称呼。意见
Openai增强了Chatgpt,以回忆以前的对话 Openai增强了Chatgpt,以回忆以前的对话 Openai在周四发表了一项重大宣布,内容涉及在Chatgpt中推出一个名为“ Memory”的新功能。这种漂亮的工具旨在通过记住您以前谈论的内容来使您与AI的聊天更为个性化。想象一下,每次开始新的转换时都不必重复自己
Kommentare (55)
0/200
FredAnderson
FredAnderson 10. April 2025 13:30:25 GMT

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 11. April 2025 03:44:49 GMT

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 10. April 2025 13:20:05 GMT

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 10. April 2025 20:29:13 GMT

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 11. April 2025 06:46:34 GMT

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 11. April 2025 12:48:46 GMT

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Back to Top
OR