選項
首頁
新聞
人類使用神奇寶貝來基准其最新的AI型號

人類使用神奇寶貝來基准其最新的AI型號

2025-04-10
138

在令人意外的舉動中,Anthropic決定讓其最新的AI模型Claude 3.7 Sonnet接受經典Game Boy遊戲《Pokémon Red》的考驗。根據週一發表的部落格文章,該公司為此模型配備了必要的功能:記憶力、讀取螢幕像素的能力,以及按壓按鈕和在遊戲螢幕中移動的能力。這樣的設定讓Claude 3.7 Sonnet能夠深入Pokémon世界並持續遊戲。

Claude 3.7 Sonnet的獨特之處在於其「延伸思考」的能力。與OpenAI的o3-mini和DeepSeek的R1等其他模型類似,它能透過提升運算能力並花時間仔細思考來解決棘手的問題。

這項功能在《Pokémon Red》中被證明是改變遊戲規則的關鍵。舊版的Claude 3.0 Sonnet甚至無法離開起始地點Pallet Town,而Claude 3.7 Sonnet卻成功擊敗三位道館領袖並獲得他們的徽章。

Anthropic Pokémon Red

圖片來源:Anthropic
現在,Anthropic並未透露Claude 3.7 Sonnet達成這些里程碑究竟需要多少運算能力或花費多少時間。他們僅提到該模型執行了多達35,000次動作,以對抗最後一位道館領袖Surge。

上週,一位研究人員試用了Claude 3.7 Sonnet的早期預覽版。

結果令人震驚。幾小時內,Claude擊敗了Brock。幾天後,它又輕鬆戰勝Misty。這些進展是舊版模型幾乎無望達成的。

事實證明,延伸思考非常有效。pic.twitter.com/RspsLgj2Uf

— Anthropic (@AnthropicAI) 2025年2月25日

不久後,某位聰明的開發者應該會弄清楚這些細節。

雖然《Pokémon Red》看似只是一個有趣的測試,但遊戲其實長期以來都被用於AI基準測試。就在過去幾個月,我們看到許多新應用程式和平台湧現,測試AI模型在從《Street Fighter》到《Pictionary》等各種遊戲中的表現。

相關文章
關於AI基準測試的辯論已達到神奇寶貝 關於AI基準測試的辯論已達到神奇寶貝 即使是神奇寶貝的摯愛世界也不能免疫AI基準的戲劇。最近在X上的病毒帖子引起了轟動,聲稱Google的最新雙子座模特在經典的Pokémon視頻遊戲三部曲中超過了Anthropic的領先Claude模型。根據帖子,雙子座
AI驅動的音樂創作:輕鬆打造歌曲與影片 AI驅動的音樂創作:輕鬆打造歌曲與影片 音樂創作可能複雜,需耗費時間、資源與專業知識。人工智慧已改變此過程,使其簡單且易於上手。本指南介紹如何利用AI讓任何人免費創作獨特的歌曲與視覺效果,開啟新的創意可能性。我們探索具有直觀介面與先進AI的平台,將您的音樂創意轉化為現實,且無需高昂成本。重點AI可生成完整歌曲,包括人聲,不僅限於器樂。Suno AI與Hailuo AI等平台提供免費音樂創作工具。ChatGPT等AI工具簡化歌詞創作,加速
創建AI驅動的著色書:全面指南 創建AI驅動的著色書:全面指南 設計著色書是一項有益的追求,結合藝術表達與為使用者提供平靜的體驗。然而,此過程可能相當勞力密集。幸運的是,AI工具能輕鬆簡化高品質、一致的著色頁創建。本指南提供使用AI製作著色書的逐步方法,專注於保持一致風格和最佳效率的技術。關鍵要點使用AI提示工具開發詳細、結構化的著色頁提示。確保著色書中所有頁面的藝術風格一致。生成單一著色頁設計的多樣變化。利用Ideogram等AI平台快速高效創建著色書。精煉
評論 (17)
0/200
FrankSanchez
FrankSanchez 2025-08-12 01:01:02

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez
PaulSanchez 2025-07-23 12:59:29

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez
LawrenceLopez 2025-04-22 12:33:07

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez
JeffreyRamirez 2025-04-20 16:47:48

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

FrankSmith
FrankSmith 2025-04-17 22:27:49

포켓몬으로 AI를 테스트하다니 신기해! 클라우드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만 좀 이상해. 화면 픽셀을 읽고 기억하는 건 대단한데, 정말 모든 포켓몬을 잡을 수 있을까? 🤔 재미있는 아이디어야, 하지만 실제 생활에서 얼마나 유용할지 궁금해. 다 잡아야지! 😂

JoeLee
JoeLee 2025-04-17 09:15:28

¿Usar Pokémon para probar IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Rojo es genial, pero un poco raro. Es increíble que pueda leer píxeles de la pantalla y recordar cosas, pero ¿realmente atrapa a todos? 🤔 Idea divertida, pero me pregunto qué tan práctico es en la vida real. ¡A atraparlos a todos, verdad? 😂

回到頂部
OR