Heim Nachricht Debatten über AI -Benchmarking haben Pokémon erreicht

Debatten über AI -Benchmarking haben Pokémon erreicht

3. Mai 2025
JonathanDavis
0

Debatten über AI -Benchmarking haben Pokémon erreicht

Sogar die geliebte Welt von Pokémon ist nicht immun gegen das Drama, das KI -Benchmarks umgibt. Ein aktueller viraler Beitrag auf X war ein wesentlicher Bestand, und behauptete, dass Googles neuestes Gemini -Modell das führende Claude -Modell von Anthropic in der klassischen Pokémon -Videospiel -Trilogie übertroffen habe. Laut dem Posten hatte Gemini es beeindruckend in Lavender Town in einem Entwickler -Twitch -Bach geschafft, während Claude Ende Februar auf dem Mount Moon zurückgeblieben war.

Gemini ist buchstäblich vor Claude ATM in Pokemon, nachdem er Lavendelstadt erreicht hatte

119 Live -Aufrufe nur übrigens, unglaublich unterschätzte Stream pic.twitter.com/8avsovai4x

- JUSH (@JUSH21E8) 10. April 2025

Was dieser Beitrag jedoch bequem ausgelassen hat, war die Tatsache, dass Gemini einen etwas unfairen Vorteil hatte. Savvy -Benutzer bei Reddit wiesen schnell darauf hin, dass der Entwickler hinter dem Gemini -Stream eine benutzerdefinierte Minimap erstellt habe. Dieses raffinierte Tool fördert das Modell bei der Erkennung von "Fliesen" im Spiel, wie z. B. Cuttable -Bäume, was die Zeit, die Gemini benötigt, um Screenshots zu analysieren, erheblich verkürzt, bevor er sich für den nächsten Schritt entscheidet.

Während Pokémon vielleicht nicht der schwerwiegendste KI -Benchmark da draußen ist, dient es als lustiges, aber aussagekräftiges Beispiel dafür, wie unterschiedliche Setups die Ergebnisse dieser Tests verzerren können. Nehmen Sie beispielsweise Anthropics aktuelles Modell Anthropic 3.7 Sonett. Auf dem verifizierten Benchmark der SWE-Bench, der Codierungskenntnisse testen soll, erzielte sie eine Genauigkeit von 62,3%. Aber mit einem "benutzerdefinierten Gerüst", das anthropisch aufpeitschte, stieg diese Punktzahl auf 70,3%.

Und es hört hier nicht auf. Meta nahm eines seiner neueren Models, Lama 4 Maverick, und fand es speziell für die LM Arena Benchmark. Die Vanilleversion des Modells färbte sich bei demselben Test nicht annähernd so gut.

Angesichts der Tatsache, dass KI-Benchmarks, einschließlich unseres freundlichen Pokémon-Beispiels, bereits ein bisschen Hit-or-Miss sind, machen diese benutzerdefinierten Optimierungen und nicht standardmäßigen Ansätze es einfach noch schwieriger, sinnvolle Vergleiche zwischen Modellen zu ziehen, wenn sie auf den Markt kommen. Es scheint, als würde der Vergleich von Äpfeln mit Äpfeln von Tag zu Tag schwieriger werden.

Verwandter Artikel
Top 10 AI Marketing Tools for April 2025 Top 10 AI Marketing Tools for April 2025 Artificial intelligence (AI) is shaking up industries left and right, and marketing is no exception. From small startups to big corporations, businesses are increasingly turning to AI marketing tools to boost their brand visibility and drive their growth. Incorporating these tools into your business
Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia is giving AI developers its data to fend off bot scrapers Wikipedia's New Strategy to Manage AI Data Scraping Wikipedia, through the Wikimedia Foundation, is taking a proactive step to manage the impact of AI data scraping on its servers. On Wednesday, they announced a collaboration with Kaggle, a platform owned by Google and dedicated to data science and
Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's AI Hardware Breakthrough Poses Challenge to Nvidia's Dominance Huawei's Bold Move in the Global AI Chip Race Huawei, the Chinese tech giant, has taken a significant step forward that could shake up the global AI chip race. They've introduced a new computing system called the CloudMatrix 384 Supernode, which, according to local media, outperforms similar techno
Kommentare (0)
0/200
Back to Top
OR