Option
Heim
Nachricht
Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

Anthropisch verwendet Pokémon, um sein neuestes KI -Modell zu bewerten

10. April 2025
89

In einem überraschenden Schritt beschloss Anthropic, das neueste KI -Modell Claude 3.7 Sonnet mit dem klassischen Game -Boy -Spiel Pokémon Red auf den Test zu bringen. Laut einem am Montag veröffentlichten Blog -Beitrag hat das Unternehmen das Modell mit den Essentials: Memory, dem Lesen von Bildschirmpixeln und der Kraft zum Drücken von Schaltflächen und zur Bewegen des Spielbildschirms ausgestattet. Dieses Setup ermöglichte es Claude 3.7 Sonett, in die Welt von Pokémon einzutauchen und weiter zu spielen.

Was Claude 3.7 Sonnet auszeichnet, ist sein Talent für "verlängertes Denken". Ähnlich wie bei anderen Modellen wie Openais O3-Mini und Deepseeks R1 kann es schwierige Probleme angehen, indem es die Rechenleistung erhöht und seine süße Zeit nimmt, um die Dinge durchzudenken.

Diese Funktion erwies sich als Game-Changer in Pokémon Red. Während das ältere Claude 3.0 -Sonett es nicht einmal aus dem Startbereich in der Palettenstadt schaffen konnte, gelang es Claude 3.7 Sonett, drei Führungskräfte im Fitnessstudio zu besiegen und sich ihre Abzeichen zu schnappen.

Anthropic Pokemon Rot

Bildnachweis: Anthropic
Jetzt verschüttete Anthrop die Bohnen nicht genau, wie viel Rechenleistung benötigt wurde oder wie lange es dauerte, bis Claude 3.7 Sonett diese Meilensteine ​​erreichte. Sie erwähnten gerade, dass das Modell satte 35.000 Aktionen durchführte, um sich gegen den letzten Fitnessstudio -Anführer Surge zu stellen.

Letzte Woche probierte ein Forscher eine frühe Vorschau des Claude 3.7 -Sonetts aus.

Die Ergebnisse waren auffällig. Innerhalb weniger Stunden besiegte Claude Brock. Tage später tauchte es Misty aus. Fortschritte, die ältere Modelle wenig Hoffnung hatten, zu erreichen.

Es stellt sich heraus, dass erweiterter Denken super effektiv ist. pic.twitter.com/rspslgj2uf

- Anthropic (@anthropicai) 25. Februar 2025

Es wird nicht lange dauern, bis einige clevere Entwickler die Details mit strapazierfähigem Gritt herausfinden.

Während Pokémon Red wie ein lustiger Test scheint, wurden Spiele seit Ewigkeiten tatsächlich für AI -Benchmarking verwendet. In den letzten Monaten haben wir gesehen, wie eine Reihe neuer Apps und Plattformen getestet wurden, um zu testen, wie gut KI -Modelle von Street Fighter bis zu Pictionary spielen können.

Verwandter Artikel
关于AI基准测试的辩论已达到神奇宝贝 关于AI基准测试的辩论已达到神奇宝贝 即使是神奇宝贝的挚爱世界也不能免疫AI基准的戏剧。最近在X上的病毒帖子引起了轰动,声称Google的最新双子座模特在经典的Pokémon视频游戏三部曲中超过了Anthropic的领先Claude模型。根据帖子,双子座
Mit KI-gesteuerten Emoji-Reels die Interaktion steigern für virales Wachstum Mit KI-gesteuerten Emoji-Reels die Interaktion steigern für virales Wachstum Der ultimative Leitfaden zur Erstellung viraler Emoji-Reels mit KI (und wie man damit Geld verdient)Möchtest du deine Social-Media-Präsenz in eine Geldmaschine verwandeln? Hier ist ein kleines Geheimn
Storyboard-Erstellung mit ChatGPT meistern: Schritt-für-Schritt-Anleitung Storyboard-Erstellung mit ChatGPT meistern: Schritt-für-Schritt-Anleitung Wie man Storyboards mit ChatGPT erstellt (auch wenn man nicht zeichnen kann)Storyboarding ist ein Wendepunkt für Filmemacher, Animatoren und Spieleentwickler – es hilft, Szenen zu visualisieren, Kamer
Kommentare (15)
0/200
GeorgeWilliams
GeorgeWilliams 12. April 2025 00:00:00 GMT

Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮

StephenGreen
StephenGreen 12. April 2025 00:00:00 GMT

ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮

RogerSanchez
RogerSanchez 13. April 2025 00:00:00 GMT

포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮

HenryTurner
HenryTurner 15. April 2025 00:00:00 GMT

Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮

JohnGarcia
JohnGarcia 15. April 2025 00:00:00 GMT

¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮

TerryGonzález
TerryGonzález 12. April 2025 00:00:00 GMT

Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂

Zurück nach oben
OR