Option
Heim Nachricht Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

Veröffentlichungsdatum Veröffentlichungsdatum 10. April 2025
Autor Autor AvaHill
Ansichten Ansichten 41

In einem überraschenden Schritt beschloss Anthropic, das neueste KI -Modell Claude 3.7 Sonnet mit dem klassischen Game -Boy -Spiel Pokémon Red auf den Test zu bringen. Laut einem am Montag veröffentlichten Blog -Beitrag hat das Unternehmen das Modell mit den Essentials: Memory, dem Lesen von Bildschirmpixeln und der Kraft zum Drücken von Schaltflächen und zur Bewegen des Spielbildschirms ausgestattet. Dieses Setup ermöglichte es Claude 3.7 Sonett, in die Welt von Pokémon einzutauchen und weiter zu spielen.

Was Claude 3.7 Sonnet auszeichnet, ist sein Talent für "verlängertes Denken". Ähnlich wie bei anderen Modellen wie Openais O3-Mini und Deepseeks R1 kann es schwierige Probleme angehen, indem es die Rechenleistung erhöht und seine süße Zeit nimmt, um die Dinge durchzudenken.

Diese Funktion erwies sich als Game-Changer in Pokémon Red. Während das ältere Claude 3.0 -Sonett es nicht einmal aus dem Startbereich in der Palettenstadt schaffen konnte, gelang es Claude 3.7 Sonett, drei Führungskräfte im Fitnessstudio zu besiegen und sich ihre Abzeichen zu schnappen.

Anthropic Pokemon Rot

Bildnachweis: Anthropic
Jetzt verschüttete Anthrop die Bohnen nicht genau, wie viel Rechenleistung benötigt wurde oder wie lange es dauerte, bis Claude 3.7 Sonett diese Meilensteine ​​erreichte. Sie erwähnten gerade, dass das Modell satte 35.000 Aktionen durchführte, um sich gegen den letzten Fitnessstudio -Anführer Surge zu stellen.

Letzte Woche probierte ein Forscher eine frühe Vorschau des Claude 3.7 -Sonetts aus.

Die Ergebnisse waren auffällig. Innerhalb weniger Stunden besiegte Claude Brock. Tage später tauchte es Misty aus. Fortschritte, die ältere Modelle wenig Hoffnung hatten, zu erreichen.

Es stellt sich heraus, dass erweiterter Denken super effektiv ist. pic.twitter.com/rspslgj2uf

- Anthropic (@anthropicai) 25. Februar 2025

Es wird nicht lange dauern, bis einige clevere Entwickler die Details mit strapazierfähigem Gritt herausfinden.

Während Pokémon Red wie ein lustiger Test scheint, wurden Spiele seit Ewigkeiten tatsächlich für AI -Benchmarking verwendet. In den letzten Monaten haben wir gesehen, wie eine Reihe neuer Apps und Plattformen getestet wurden, um zu testen, wie gut KI -Modelle von Street Fighter bis zu Pictionary spielen können.

Verwandter Artikel
Debates over AI benchmarking have reached Pokémon Debates over AI benchmarking have reached Pokémon Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
AI-gesteuerte Facebook-Anzeigenkopie: Erstellen Sie schnell Anzeigen AI-gesteuerte Facebook-Anzeigenkopie: Erstellen Sie schnell Anzeigen Die Revolution der KI bei der Erstellung von Facebook -Anzeigen -Kopien in der Wirbelwind -Welt des digitalen Marketings ist die Fähigkeit, schnell auf Facebook -Werbung einzusteigen, schnell zu verhindern. Geben Sie künstliche Intelligenz (KI) ein, einen Game-Changer, der umgestaltet wird, wie wir uns der Werbung nähern. Diese Anleitung d
AI -Rubrikgenerator: Bewertung mit lebhaftem Unterricht rationalisieren AI -Rubrikgenerator: Bewertung mit lebhaftem Unterricht rationalisieren In der dynamischen Welt der Bildung sind die Lehrer immer auf der Suche nach Tools, die ihre Arbeit vereinfachen und gleichzeitig das Lernen der Schüler stärken. Geben Sie den KI-Rubrikgenerator von Spnisk Teaching ein-einen Spielveränderer im Bereich der Bewertung. Dieses raffinierte Tool hilft Pädagogen, personalisierte Rubriken in einem Snap zu erstellen, en, en
Kommentare (15)
0/200
GeorgeWilliams
GeorgeWilliams 11. April 2025 17:22:08 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12. April 2025 03:40:24 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13. April 2025 05:05:35 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 14. April 2025 22:24:40 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 14. April 2025 19:59:47 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12. April 2025 04:11:07 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Zurück nach oben
OR