Option
Heim
Nachricht
AI -Benchmarks: Sollten wir sie vorerst ignorieren?

AI -Benchmarks: Sollten wir sie vorerst ignorieren?

10. April 2025
115

Willkommen im regulären KI -Newsletter von TechCrunch! Wir machen eine kleine Pause, aber keine Sorge, Sie können immer noch alle unsere KI -Berichterstattung, einschließlich meiner Kolumnen, täglichen Analysen und brichten Nachrichten, hier bei TechCrunch erhalten. Möchten Sie diese Geschichten jeden Tag direkt in Ihren Posteingang bringen? Melden Sie sich hier einfach für unsere täglichen Newsletter an.

Diese Woche hat das KI -Startup von Elon Musk, XAI, ihr neuestes Flaggschiff -AI -Modell GROK 3 fallen, das die Grok Chatbot -Apps des Unternehmens betreibt. Sie haben es auf satten 200.000 GPUs ausgebildet, und es übertrifft eine Reihe anderer Top -Modelle, darunter einige von Openai, in Benchmarks für Mathematik, Codierung und vieles mehr.

Aber lassen Sie uns darüber sprechen, was diese Benchmarks tatsächlich bedeuten.

Hier bei TC berichten wir über diese Benchmark -Zahlen, auch wenn wir nicht immer begeistert sind, weil sie eine der wenigen Möglichkeiten sind, wie die KI -Branche versucht, sich zu verbessern, wie sich ihre Modelle verbessern. Die Sache ist, dass sich diese beliebten KI -Benchmarks oft auf dunkle Dinge konzentrieren und Punkte geben, die nicht wirklich widerspiegeln, wie gut die KI den Dingen, die Menschen tatsächlich interessieren, eignet.

Ethan Mollick, Professor bei Wharton, ging zu X, um zu sagen, dass es echte Notwendigkeit für bessere Tests und unabhängige Gruppen gibt, sie zu leiten. Er wies darauf hin, dass KI -Unternehmen häufig ihre eigenen Benchmark -Ergebnisse melden, was es schwierig macht, ihnen vollständig zu vertrauen.

"Öffentliche Benchmarks sind sowohl" meh "als auch gesättigt, sodass viele KI -Tests wie Lebensmittelbewertungen basieren", schrieb Mollick. "Wenn die KI für die Arbeit von entscheidender Bedeutung ist, brauchen wir mehr."

Es gibt viele Leute da draußen, die versuchen, neue Benchmarks für KI zu finden, aber niemand kann sich darauf einigen, was am besten ist. Einige denken, dass die Benchmarks auf wirtschaftliche Auswirkungen konzentrieren sollten, um nützlich zu sein, während andere glauben, dass die Einführung und Nützlichkeit der realen Welt die wahren Erfolgsmaßnahmen sind.

Diese Debatte könnte für immer weitergehen. Vielleicht sollten wir, wie X -Benutzer Roon vorschlägt, nur neuen Modellen und Benchmarks weniger Aufmerksamkeit schenken, es sei denn, es gibt einen großen KI -Durchbruch. Es könnte besser für unsere geistige Gesundheit sein, auch wenn es bedeutet, einen KI -Hype zu verpassen.

Wie bereits erwähnt, macht diese Woche in AI eine Pause. Vielen Dank, dass Sie sich bei uns, Lesern, durch alle Höhen und Tiefen festhalten. Bis zum nächsten Mal.

Nachricht

Bildnachweis: Nathan Laine / Bloomberg / Getty Images
Openai versucht, Chatgpt zu "unzusammenwaren". Max schrieb darüber, wie sie ihre Herangehensweise an die KI -Entwicklung verändern, um "intellektuelle Freiheit" selbst auf harten oder kontroversen Themen zu nutzen.

Mira Murati, ehemalige CTO von Openai, hat ein neues Startup namens Thinking Machines Lab. Sie arbeiten an Tools, um "KI für die individuellen Bedürfnisse und Ziele der Menschen zu machen".

XAI veröffentlichte GROK 3 und fügte den GROK -Apps für iOS und dem Web neue Funktionen hinzu.

Meta veranstaltet seine erste Entwicklerkonferenz, die sich in diesem Frühjahr auf generative KI konzentriert. Es heißt Lamacon nach ihren Lama -Models und passiert am 29. April.

Paul schrieb über OpenEurollm, ein Projekt von rund 20 Organisationen zum Aufbau von Stiftungsmodellen für "transparente KI in Europa", das die "sprachliche und kulturelle Vielfalt" aller EU -Sprachen respektiert.

Forschungspapier der Woche

OpenAI CHATGPT -Website, die auf einem Laptop -Bildschirm angezeigt wird, wird in diesem Illustrationsfoto angezeigt.

Bildnachweis: Jakub Porzycki / Nurphoto / Getty Images
OpenAI-Forscher haben einen neuen KI-Benchmark namens Swe-Lancer entwickelt, um zu testen, wie gut KI codieren kann. Es besteht aus über 1.400 Aufgaben für freiberufliche Software -Engineering, von der Behebung von Fehler und dem Hinzufügen von Funktionen zum Vorschlag technischer Implementierungen.

Laut OpenAI erzielte das Top-Leistungsmodell, das Claude 3.5-Sonett von Anthropic, nur 40,3% auf der vollständigen Swe-Lancer-Benchmark, die zeigt, dass AI noch einen langen Weg vor sich hat. Sie testeten neuere Modelle wie Openai's O3-Mini oder Deepseeks R1 aus China nicht.

Modell der Woche

Eine chinesische KI-Firma namens Stepfun veröffentlichte ein "Open" -KI-Modell mit dem Namen Step-Audio, das in Chinesisch, Englisch und Japanisch Sprache verstehen und generieren kann. Benutzer können sogar die Emotionen und den Dialekt des synthetischen Audios, einschließlich des Singens, optimieren.

Stepfun ist eines von mehreren gut finanzierten chinesischen KI-Startups, die Modelle mit zulässigen Lizenzen veröffentlichen. Im Jahr 2023 wurde kürzlich eine Finanzierungsrunde im Wert von Hunderten von Millionen von Investoren, einschließlich chinesischer staatlicher Private-Equity-Unternehmen, geschlossen.

Tasche greifen

Nous Forschung tiefe Hermungen

Bildnachweis: Nous Research
Nous Research, eine AI -Forschungsgruppe, behauptet, eines der ersten KI -Modelle veröffentlicht zu haben, das Argumentation mit "intuitiven Sprachmodellfunktionen" kombiniert.

Ihr Modell, Deephermes-3-Vorschau, kann zwischen kurzen und langen "Gedankenketten" wechseln, um Genauigkeit und Rechenleistung auszugleichen. Im "Argumentations" -Modus dauert es mehr Zeit, um schwierigere Probleme zu lösen, und zeigt seinen Denkprozess auf dem Weg.

Anthropic plant Berichten zufolge, bald ein ähnliches Modell zu veröffentlichen, und Openai sagt, dass es sich um ihre kurzfristige Roadmap handelt.

Verwandter Artikel
OpenAI升級其Operator Agent的AI模型 OpenAI升級其Operator Agent的AI模型 OpenAI將Operator推向全新境界OpenAI正為其自主AI代理Operator進行重大升級。這項變革意味著Operator即將採用基於o3模型的架構,這是OpenAI尖端o系列推理模型的最新成員。此前Operator一直使用客製化版本的GPT-4o驅動,但這次迭代將帶來顯著改進。o3的突破性意義在數學與邏輯推理任務方面,o3幾乎在所有指標上都超越前
OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 OpenAI的o3 AI模型在基準測試中的得分低於最初暗示的水準 為什麼 AI 基準測試的差異很重要?提到 AI 時,數字往往能說明一切——有時,這些數字並不一定完全相符。以 OpenAI 的 o3 模型為例。最初的聲稱簡直令人驚嘆:據報導,o3 可以處理超過 25% 的 notoriously tough FrontierMath 問題。作為參考,競爭對手還停留在個位數。但隨著近期的發展,受人尊敬的研究機構 Epoch
Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis指控OpenAI涉嫌侵權 Ziff Davis控告OpenAI版權侵權訴訟這起事件在科技和出版界掀起了軒然大波,Ziff Davis——旗下擁有CNET、PCMag、IGN和Everyday Health等品牌的龐大企業聯盟——已對OpenAI提起版權侵權訴訟。根據《紐約時報》的報導,該訴訟聲稱OpenAI故意未經許可使用Ziff Davis的內容,製作了其作品的「精確副本」。這是截
Kommentare (55)
0/200
FredAnderson
FredAnderson 10. April 2025 00:00:00 GMT

Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!

WilliamYoung
WilliamYoung 11. April 2025 00:00:00 GMT

AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!

ChristopherDavis
ChristopherDavis 10. April 2025 00:00:00 GMT

Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!

StephenLee
StephenLee 11. April 2025 00:00:00 GMT

Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!

TimothyRoberts
TimothyRoberts 11. April 2025 00:00:00 GMT

Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!

NoahGreen
NoahGreen 11. April 2025 00:00:00 GMT

I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!

Zurück nach oben
OR