Option
Heim Nachricht Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

Veröffentlichungsdatum Veröffentlichungsdatum 10. April 2025
Autor Autor AvaHill
Ansichten Ansichten 41

In einem überraschenden Schritt beschloss Anthropic, das neueste KI -Modell Claude 3.7 Sonnet mit dem klassischen Game -Boy -Spiel Pokémon Red auf den Test zu bringen. Laut einem am Montag veröffentlichten Blog -Beitrag hat das Unternehmen das Modell mit den Essentials: Memory, dem Lesen von Bildschirmpixeln und der Kraft zum Drücken von Schaltflächen und zur Bewegen des Spielbildschirms ausgestattet. Dieses Setup ermöglichte es Claude 3.7 Sonett, in die Welt von Pokémon einzutauchen und weiter zu spielen.

Was Claude 3.7 Sonnet auszeichnet, ist sein Talent für "verlängertes Denken". Ähnlich wie bei anderen Modellen wie Openais O3-Mini und Deepseeks R1 kann es schwierige Probleme angehen, indem es die Rechenleistung erhöht und seine süße Zeit nimmt, um die Dinge durchzudenken.

Diese Funktion erwies sich als Game-Changer in Pokémon Red. Während das ältere Claude 3.0 -Sonett es nicht einmal aus dem Startbereich in der Palettenstadt schaffen konnte, gelang es Claude 3.7 Sonett, drei Führungskräfte im Fitnessstudio zu besiegen und sich ihre Abzeichen zu schnappen.

Anthropic Pokemon Rot

Bildnachweis: Anthropic
Jetzt verschüttete Anthrop die Bohnen nicht genau, wie viel Rechenleistung benötigt wurde oder wie lange es dauerte, bis Claude 3.7 Sonett diese Meilensteine ​​erreichte. Sie erwähnten gerade, dass das Modell satte 35.000 Aktionen durchführte, um sich gegen den letzten Fitnessstudio -Anführer Surge zu stellen.

Letzte Woche probierte ein Forscher eine frühe Vorschau des Claude 3.7 -Sonetts aus.

Die Ergebnisse waren auffällig. Innerhalb weniger Stunden besiegte Claude Brock. Tage später tauchte es Misty aus. Fortschritte, die ältere Modelle wenig Hoffnung hatten, zu erreichen.

Es stellt sich heraus, dass erweiterter Denken super effektiv ist. pic.twitter.com/rspslgj2uf

- Anthropic (@anthropicai) 25. Februar 2025

Es wird nicht lange dauern, bis einige clevere Entwickler die Details mit strapazierfähigem Gritt herausfinden.

Während Pokémon Red wie ein lustiger Test scheint, wurden Spiele seit Ewigkeiten tatsächlich für AI -Benchmarking verwendet. In den letzten Monaten haben wir gesehen, wie eine Reihe neuer Apps und Plattformen getestet wurden, um zu testen, wie gut KI -Modelle von Street Fighter bis zu Pictionary spielen können.

Verwandter Artikel
Debatten über AI -Benchmarking haben Pokémon erreicht Debatten über AI -Benchmarking haben Pokémon erreicht Sogar die geliebte Welt von Pokémon ist nicht immun gegen das Drama, das KI -Benchmarks umgibt. Ein aktueller viraler Beitrag auf X war ein wesentlicher Bestand, und behauptete, dass Googles neuestes Gemini -Modell das führende Claude -Modell von Anthropic in der klassischen Pokémon -Videospiel -Trilogie übertroffen habe. Nach der Post, Gemini
Die KI -Farbpalette von Filmora 14 revolutioniert Videobearbeitung Die KI -Farbpalette von Filmora 14 revolutioniert Videobearbeitung Haben Sie schon einmal im sorgfältigen Prozess der Farbabstufung Ihrer Videos festgehalten? Nun, Filmora 14 hat sich einen Game-Changer ausgedacht: die KI-Farbpalette. Dieses raffinierte Tool wird revolutionieren, wie Sie sich der Farbanpassung nähern, und macht es zum Kinderspiel, um den polierten, professionellen Look zu erreichen, den Sie sind
Meta AI verbessert Dienstleistungen mit arabischer Unterstützung in der MENA -Region Meta AI verbessert Dienstleistungen mit arabischer Unterstützung in der MENA -Region Die Ausweitung der KI-Dienste durch Meta auf die Kritik des Nahen Ostens und Nordafrikas in Bezug auf die mangelnde sprachliche Vielfalt in großen Sprachmodellen steigt die wichtigsten KI-Unternehmen, um dieses Problem durch die Entwicklung regionspezifischer Modelle anzugehen. Meta schließt sich jetzt dieser Bewegung an, indem sie sie erweitert
Kommentare (15)
0/200
GeorgeWilliams
GeorgeWilliams 11. April 2025 17:22:08 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12. April 2025 03:40:24 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13. April 2025 05:05:35 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 14. April 2025 22:24:40 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 14. April 2025 19:59:47 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12. April 2025 04:11:07 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Zurück nach oben
OR