選項
首頁
新聞
人類使用神奇寶貝來基准其最新的AI型號

人類使用神奇寶貝來基准其最新的AI型號

2025-04-10
313

在令人意外的舉動中,Anthropic決定讓其最新的AI模型Claude 3.7 Sonnet接受經典Game Boy遊戲《Pokémon Red》的考驗。根據週一發表的部落格文章,該公司為此模型配備了必要的功能:記憶力、讀取螢幕像素的能力,以及按壓按鈕和在遊戲螢幕中移動的能力。這樣的設定讓Claude 3.7 Sonnet能夠深入Pokémon世界並持續遊戲。

Claude 3.7 Sonnet的獨特之處在於其「延伸思考」的能力。與OpenAI的o3-mini和DeepSeek的R1等其他模型類似,它能透過提升運算能力並花時間仔細思考來解決棘手的問題。

這項功能在《Pokémon Red》中被證明是改變遊戲規則的關鍵。舊版的Claude 3.0 Sonnet甚至無法離開起始地點Pallet Town,而Claude 3.7 Sonnet卻成功擊敗三位道館領袖並獲得他們的徽章。

Anthropic Pokémon Red

圖片來源:Anthropic
現在,Anthropic並未透露Claude 3.7 Sonnet達成這些里程碑究竟需要多少運算能力或花費多少時間。他們僅提到該模型執行了多達35,000次動作,以對抗最後一位道館領袖Surge。

上週,一位研究人員試用了Claude 3.7 Sonnet的早期預覽版。

結果令人震驚。幾小時內,Claude擊敗了Brock。幾天後,它又輕鬆戰勝Misty。這些進展是舊版模型幾乎無望達成的。

事實證明,延伸思考非常有效。pic.twitter.com/RspsLgj2Uf

— Anthropic (@AnthropicAI) 2025年2月25日

不久後,某位聰明的開發者應該會弄清楚這些細節。

雖然《Pokémon Red》看似只是一個有趣的測試,但遊戲其實長期以來都被用於AI基準測試。就在過去幾個月,我們看到許多新應用程式和平台湧現,測試AI模型在從《Street Fighter》到《Pictionary》等各種遊戲中的表現。

相關文章
Google 的 Gemini AI 在協助下征服 Pokémon Blue Google 的 Gemini AI 在協助下征服 Pokémon Blue Google 的 AI 里程碑:征服經典 Pokémon 冒險遊戲Google 最先進的 AI 模型似乎取得了顯著的遊戲突破 - 完成 1996 年 Game Boy 遊戲《Pokémon Blue》。首席執行長 Sundar Pichai 在社交媒體上慶祝這項成就,不過這項成就有其重要的背景。Gemini Plays Pokémon Liveestream 專案其實是由軟體工程師 Joel Z
關於AI基準測試的辯論已達到神奇寶貝 關於AI基準測試的辯論已達到神奇寶貝 即使是神奇寶貝的摯愛世界也不能免疫AI基準的戲劇。最近在X上的病毒帖子引起了轟動,聲稱Google的最新雙子座模特在經典的Pokémon視頻遊戲三部曲中超過了Anthropic的領先Claude模型。根據帖子,雙子座
Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能 Google I/O 2026 發表了與 Gmail 收件匣的語音互動功能 Google 持續將人工智慧整合至您的收件匣中。在週二舉行的 IO 2026 開發者大會上,該公司透過對話式人工智慧擴充了 Gmail 的「AI 收件匣」功能,讓使用者能針對收件匣內容提出問題,而非僅依賴搜尋關鍵字。據 Google 表示,這項由 Gemini AI 驅動的工具名為「Gmail Live」,能協助使用者快速找出埋藏在收件匣中的資訊。圖片來源:Google舉例來說,您可能需要查詢即將
相關專題推薦
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
生產率 AI 個人健康與專注力教練:管理倦怠感並提升精神能量
AI 個人健康與專注力教練:管理倦怠感並提升精神能量

立即在 XIX.AI 探索 2026 年最佳 AI 個人健康與專注力教練。我們精心策劃的排行榜收錄了備受好評、能帶來革命性改變的工具,助您管理倦怠感並提升精神能量。透過實際使用心得,比較免費與付費方案的差異。立即開啟通往巔峰生產力與身心健康的道路。

10 個工具
xix.ai
評論 (19)
0/500
GaryWilson
GaryWilson 2025-10-30 02:31:10

와, AI로 포켓몬을 플레이하다니 너무 신기하다 🦄 어떤 기술로 게임을 클리어했는지 궁금해요. 아마도 화면 픽셀 인식과 결정 과정을 학습하는 방식이겠죠? 이렇게 발전하다 보면 AI가 슈퍼마리오도 깰 수 있을까?

BillyAdams
BillyAdams 2025-08-27 20:59:25

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handled the Elite Four—bet it overanalyzed every move like a pro gamer. 😎

FrankSanchez
FrankSanchez 2025-08-12 01:01:02

Whoa, using Pokémon Red to test Claude 3.7? That's such a nostalgic flex! I wonder how it handles those tricky Gym battles—hope it didn't get stuck in Rock Tunnel! 😄

PaulSanchez
PaulSanchez 2025-07-23 12:59:29

Whoa, using Pokémon Red to test Claude 3.7? That’s such a nostalgic flex! Makes me wonder if AI could ever master my childhood Pikachu strats. 🕹️

LawrenceLopez
LawrenceLopez 2025-04-22 12:33:07

Usar Pokémon Red para testar o Claude 3.7 Sonnet? Isso é loucura! É legal ver a IA enfrentando jogos clássicos, mas será que consegue vencer a Elite Four? As habilidades de memória e leitura de pixels da IA são impressionantes. Talvez na próxima tentem com o Pokémon Blue! 😂

JeffreyRamirez
JeffreyRamirez 2025-04-20 16:47:48

Using Pokémon Red to benchmark Claude 3.7 Sonnet? That's wild! It's cool to see AI tackling classic games, but I wonder if it can beat the Elite Four. The AI's memory and pixel reading skills are impressive, though. Maybe next time they'll try it on Pokémon Blue! 😂

OR