Option
Heim Nachricht Metas KI -Modell Benchmarks: irreführend?

Metas KI -Modell Benchmarks: irreführend?

Veröffentlichungsdatum Veröffentlichungsdatum 10. April 2025
Autor Autor TimothyMitchell
Ansichten Ansichten 10

Metas KI -Modell Benchmarks: irreführend?

Also ließ Meta über das Wochenende ihr neues KI -Model Maverick fallen, und es macht bereits Wellen, indem es in der LM Arena den zweiten Platz schnappt. Weißt du, das ist der Ort, an dem Menschen Richter und Jury spielen, verschiedene KI -Modelle vergleichen und ihre Favoriten auswählen. Aber halten Sie es, es gibt eine Wendung! Es stellt sich heraus, dass die Maverick -Version, die ihre Sachen in der LM Arena stolziert, nicht ganz derselbe ist, mit dem Sie als Entwickler herunterladen und spielen können.

Einige AI-Forscher von Adleraugen auf X (ja, die Plattform, die früher als Twitter bekannt war) entdeckte, dass Meta die LM Arena-Version als "experimentelle Chat-Version" bezeichnete. Und wenn Sie auf die Lama -Website schauen, gibt es eine Tabelle, die die Bohnen verschüttet und die Tests mit "LLAMA 4 Maverick für die Konversation" durchgeführt haben. Jetzt haben wir schon einmal darüber gesprochen, aber die LM Arena ist nicht genau der Goldstandard für die Messung der KI -Leistung. Die meisten KI -Unternehmen haben sich nicht mit ihren Modellen anlegen, um bei diesem Test besser zu punkten - oder zumindest zugeben sie nicht.

Die Sache ist, wenn Sie ein Modell an eine Benchmark optimieren, aber dann eine andere "Vanilla" -Ver Version für die Öffentlichkeit veröffentlichen, ist es für Entwickler schwierig, herauszufinden, wie gut das Modell tatsächlich in realen Szenarien abschneiden wird. Außerdem ist es irgendwie irreführend, oder? Benchmarks, fehlerhaft wie sie sind, sollten uns ein klares Bild davon geben, was ein Modell in verschiedenen Aufgaben über verschiedene Aufgaben erledigt werden kann und was nicht.

Forscher auf X haben schnell einige große Unterschiede zwischen dem Maverick bemerkt, den Sie herunterladen können, und dem in der LM Arena. In der Arena-Version geht es anscheinend nur um Emojis und liebt es, Ihnen lange, gezogene Antworten zu geben.

Wir haben uns an Meta und die Leute in der Chatbot Arena, die die LM Arena betreiben, gewandt haben, um zu sehen, was sie über all das zu sagen haben. Bleiben Sie dran!

Verwandter Artikel
Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Meta Defends Llama 4 Release, Cites Bugs as Cause of Mixed Quality Reports Over the weekend, Meta, the powerhouse behind Facebook, Instagram, WhatsApp, and Quest VR, surprised everyone by unveiling their latest AI language model, Llama 4. Not just one, but three new versions were introduced, each boasting enhanced capabilities thanks to the "Mixture-of-Experts" architectur
Law Professors Support Authors in AI Copyright Battle Against Meta Law Professors Support Authors in AI Copyright Battle Against Meta A group of copyright law professors has thrown their support behind authors suing Meta, alleging that the tech giant trained its Llama AI models on e-books without the authors' consent. The professors filed an amicus brief on Friday in the U.S. District Court for the Northern District of California,
Meta AI will soon train on EU users’ data Meta AI will soon train on EU users’ data Meta has recently revealed its plans to train its AI using data from EU users of its platforms, such as Facebook and Instagram. This initiative will tap into public posts, comments, and even chat histories with Meta AI, but rest assured, your private messages with friends and family are off-limits.
Kommentare (35)
0/200
JerryGonzalez
JerryGonzalez 10. April 2025 10:18:45 GMT

Meta's AI model benchmarks seem a bit off to me. Maverick got second place, but I've used it and it's not that great. The interface is clunky and the results are hit or miss. Maybe they're just trying to hype it up? I'd give it a pass for now.

CarlKing
CarlKing 10. April 2025 10:18:45 GMT

MetaのAIモデルのベンチマークは私には少しおかしいように感じます。Maverickは2位を獲得しましたが、使ってみた感じではそれほど良くありません。インターフェースがぎこちなく、結果も当たり外れがあります。もしかしたら、ただ盛り上げようとしているだけかもしれませんね。今はパスしておきます。

SamuelEvans
SamuelEvans 10. April 2025 10:18:45 GMT

Meta의 AI 모델 벤치마크가 내겐 좀 이상해 보여. Maverick이 2위를 했지만, 써보니 그리 대단하지 않아. 인터페이스가 어색하고 결과도 들쑥날쑥해. 어쩌면 그냥 과대광고하려고 하는 건지도 몰라. 지금은 패스할게.

BenWalker
BenWalker 10. April 2025 10:18:45 GMT

Os benchmarks do modelo de IA da Meta parecem um pouco estranhos para mim. O Maverick ficou em segundo lugar, mas eu usei e não é tão bom assim. A interface é desajeitada e os resultados são inconsistentes. Talvez eles estejam apenas tentando criar hype? Eu passaria por agora.

RobertLewis
RobertLewis 10. April 2025 10:18:45 GMT

Los benchmarks del modelo de IA de Meta me parecen un poco extraños. Maverick quedó en segundo lugar, pero lo he usado y no es tan bueno. La interfaz es torpe y los resultados son inconsistentes. ¿Quizás solo están tratando de generar hype? Por ahora, lo dejaría pasar.

KevinBaker
KevinBaker 11. April 2025 18:25:04 GMT

I tried Meta's Maverick and it's pretty good, but those benchmarks seem a bit off to me. It's not as smooth as they claim, and sometimes it's just plain wrong. I'm not sure if it's worth the hype. Maybe they need to tweak their testing methods?

Zurück nach oben
OR