Heim Nachricht Debatten über AI -Benchmarking haben Pokémon erreicht

Debatten über AI -Benchmarking haben Pokémon erreicht

3. Mai 2025
JonathanDavis
0

Debatten über AI -Benchmarking haben Pokémon erreicht

Sogar die geliebte Welt von Pokémon ist nicht immun gegen das Drama, das KI -Benchmarks umgibt. Ein aktueller viraler Beitrag auf X war ein wesentlicher Bestand, und behauptete, dass Googles neuestes Gemini -Modell das führende Claude -Modell von Anthropic in der klassischen Pokémon -Videospiel -Trilogie übertroffen habe. Laut dem Posten hatte Gemini es beeindruckend in Lavender Town in einem Entwickler -Twitch -Bach geschafft, während Claude Ende Februar auf dem Mount Moon zurückgeblieben war.

Gemini ist buchstäblich vor Claude ATM in Pokemon, nachdem er Lavendelstadt erreicht hatte

119 Live -Aufrufe nur übrigens, unglaublich unterschätzte Stream pic.twitter.com/8avsovai4x

- JUSH (@JUSH21E8) 10. April 2025

Was dieser Beitrag jedoch bequem ausgelassen hat, war die Tatsache, dass Gemini einen etwas unfairen Vorteil hatte. Savvy -Benutzer bei Reddit wiesen schnell darauf hin, dass der Entwickler hinter dem Gemini -Stream eine benutzerdefinierte Minimap erstellt habe. Dieses raffinierte Tool fördert das Modell bei der Erkennung von "Fliesen" im Spiel, wie z. B. Cuttable -Bäume, was die Zeit, die Gemini benötigt, um Screenshots zu analysieren, erheblich verkürzt, bevor er sich für den nächsten Schritt entscheidet.

Während Pokémon vielleicht nicht der schwerwiegendste KI -Benchmark da draußen ist, dient es als lustiges, aber aussagekräftiges Beispiel dafür, wie unterschiedliche Setups die Ergebnisse dieser Tests verzerren können. Nehmen Sie beispielsweise Anthropics aktuelles Modell Anthropic 3.7 Sonett. Auf dem verifizierten Benchmark der SWE-Bench, der Codierungskenntnisse testen soll, erzielte sie eine Genauigkeit von 62,3%. Aber mit einem "benutzerdefinierten Gerüst", das anthropisch aufpeitschte, stieg diese Punktzahl auf 70,3%.

Und es hört hier nicht auf. Meta nahm eines seiner neueren Models, Lama 4 Maverick, und fand es speziell für die LM Arena Benchmark. Die Vanilleversion des Modells färbte sich bei demselben Test nicht annähernd so gut.

Angesichts der Tatsache, dass KI-Benchmarks, einschließlich unseres freundlichen Pokémon-Beispiels, bereits ein bisschen Hit-or-Miss sind, machen diese benutzerdefinierten Optimierungen und nicht standardmäßigen Ansätze es einfach noch schwieriger, sinnvolle Vergleiche zwischen Modellen zu ziehen, wenn sie auf den Markt kommen. Es scheint, als würde der Vergleich von Äpfeln mit Äpfeln von Tag zu Tag schwieriger werden.

Verwandter Artikel
Top 10 herramientas de marketing de IA para abril de 2025 Top 10 herramientas de marketing de IA para abril de 2025 La inteligencia artificial (IA) está sacudiendo a las industrias a la izquierda y a la derecha, y el marketing no es una excepción. Desde pequeñas nuevas empresas hasta grandes corporaciones, las empresas recurren cada vez más a las herramientas de marketing de IA para impulsar la visibilidad de su marca e impulsar su crecimiento. Incorporando estas herramientas en su negocio
Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots Wikipedia está dando a los desarrolladores de IA sus datos para defenderse de los raspadores de bots La nueva estrategia de Wikipedia para administrar datos de IA raspando Wikipedia, a través de la Fundación Wikimedia, está dando un paso proactivo para gestionar el impacto del raspado de datos de IA en sus servidores. El miércoles, anunciaron una colaboración con Kaggle, una plataforma propiedad de Google y dedicada a la ciencia de datos y
El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia El avance de hardware de IA de Huawei plantea el desafío para el dominio de Nvidia El audaz movimiento de Huawei en la carrera mundial de chips de IA, Huawei, el gigante tecnológico chino, ha dado un paso adelante significativo que podría sacudir la carrera global de chips de IA. Han introducido un nuevo sistema de computación llamado CloudMatrix 384 SuperNode, que, según los medios locales, supera a TechnO similar
Kommentare (0)
0/200
Back to Top
OR