एन्थ्रोपिक ने पोकेमोन को अपने सबसे नए एआई मॉडल को बेंचमार्क करने के लिए इस्तेमाल किया
10 अप्रैल 2025
AvaHill
41
एक आश्चर्यजनक कदम में, एंथ्रिक ने अपने नवीनतम एआई मॉडल, क्लाउड 3.7 सॉनेट को क्लासिक गेम बॉय गेम, पोकेमॉन रेड के साथ परीक्षण के लिए डालने का फैसला किया। सोमवार को जारी एक ब्लॉग पोस्ट के अनुसार, कंपनी ने मॉडल को आवश्यक के साथ बाहर कर दिया: मेमोरी, स्क्रीन पिक्सेल पढ़ने की क्षमता, और बटन दबाने और गेम स्क्रीन के चारों ओर घूमने की शक्ति। इस सेटअप ने क्लाउड 3.7 सॉनेट को पोकेमोन की दुनिया में गोता लगाने और खेलते रहने की अनुमति दी।
क्लाउड 3.7 सॉनेट को अलग करने के लिए "विस्तारित सोच" के लिए इसकी आदत है। Openai के O3-Mini और DeepSeek के R1 जैसे अन्य मॉडलों के समान, यह कंप्यूटिंग शक्ति को क्रैंक करके और चीजों के माध्यम से सोचने के लिए अपना मीठा समय लेने से कठिन समस्याओं से निपट सकता है।
यह सुविधा पोकेमोन रेड में गेम-चेंजर साबित हुई। जबकि पुराने क्लाउड 3.0 सॉनेट भी इसे फूस टाउन में शुरुआती क्षेत्र से बाहर नहीं कर सकते थे, क्लाउड 3.7 सॉनेट ने तीन जिम नेताओं को नीचे ले जाने और उनके बैज को छीनने में कामयाबी हासिल की।

छवि क्रेडिट: एन्थ्रोपिक अब, एंथ्रोपिक ने बीन्स को बिल्कुल इस बात पर नहीं फैलाते थे कि इन मील के पत्थर तक पहुंचने के लिए क्लाउड 3.7 सॉनेट के लिए कितना कम्प्यूटिंग पावर की आवश्यकता थी या कितना समय लगा। उन्होंने सिर्फ यह उल्लेख किया कि मॉडल ने अंतिम जिम नेता, सर्ज के खिलाफ सामना करने के लिए 35,000 कार्रवाई की।
पिछले हफ्ते, एक शोधकर्ता ने क्लाउड 3.7 सॉनेट के शुरुआती पूर्वावलोकन की कोशिश की।
परिणाम हड़ताली थे। घंटों के भीतर, क्लाउड ने ब्रॉक को हराया। दिनों के बाद, यह मिस्टी को ट्राउट करता है। प्रगति कि पुराने मॉडलों को प्राप्त करने की बहुत कम उम्मीद थी।
विस्तारित सोच सुपर प्रभावी है। pic.twitter.com/rspslgj2uf
- एंथ्रोपिक (@एंथ्रोपिकाई) 25 फरवरी, 2025
कुछ चतुर डेवलपर के बारे में बताने से पहले यह बहुत लंबा नहीं होगा।
जबकि पोकेमॉन रेड एक मजेदार परीक्षण की तरह लग सकता है, खेल वास्तव में उम्र के लिए एआई बेंचमार्किंग के लिए उपयोग किया गया है। पिछले कुछ महीनों में, हमने नए ऐप्स और प्लेटफार्मों का एक समूह देखा है, जो यह परीक्षण करने के लिए पॉप अप करते हैं कि एआई मॉडल कितनी अच्छी तरह से स्ट्रीट फाइटर से पिक्चनरी तक सब कुछ खेल सकते हैं।
संबंधित लेख
Debates over AI benchmarking have reached Pokémon
Even the beloved world of Pokémon isn't immune to the drama surrounding AI benchmarks. A recent viral post on X stirred up quite the buzz, claiming that Google's latest Gemini model had outpaced Anthropic's leading Claude model in the classic Pokémon video game trilogy. According to the post, Gemini
AI- चालित फेसबुक विज्ञापन कॉपी: विज्ञापन जल्दी से उत्पन्न करें
एआई की क्रांति को आकर्षक फेसबुक विज्ञापन की प्रतिलिपि बनाने में डिजिटल मार्केटिंग की बवंडर वर्ल्ड, फेसबुक एड कॉपी को तेजी से आकर्षक बनाने की क्षमता आवश्यक से कम नहीं है। आर्टिफिशियल इंटेलिजेंस (एआई) दर्ज करें, एक गेम-चेंजर जो कि हम विज्ञापन निर्माण के बारे में बता रहे हैं। यह गाइड डी
एआई रूब्रिक जनरेटर: तेज शिक्षण के साथ स्ट्रीमलाइन मूल्यांकन
शिक्षा की गतिशील दुनिया में, शिक्षक हमेशा ऐसे उपकरणों की तलाश में रहते हैं जो छात्र सीखने को बढ़ावा देते हुए उनके काम को सरल बना सकते हैं। मूल्यांकन के दायरे में ब्रिस्क टीचिंग के एआई रूब्रिक जनरेटर- एक गेम-चेंजर दर्ज करें। यह निफ्टी टूल शिक्षकों को एक स्नैप, एन में व्यक्तिगत रूप से रूब्रिक्स को शिल्प करने में मदद करता है
सूचना (15)
0/200
GeorgeWilliams
11 अप्रैल 2025 5:22:08 अपराह्न GMT
Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮
0
StephenGreen
12 अप्रैल 2025 3:40:24 पूर्वाह्न GMT
ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮
0
RogerSanchez
13 अप्रैल 2025 5:05:35 पूर्वाह्न GMT
포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮
0
HenryTurner
14 अप्रैल 2025 10:24:40 अपराह्न GMT
Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮
0
JohnGarcia
14 अप्रैल 2025 7:59:47 अपराह्न GMT
¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮
0
TerryGonzález
12 अप्रैल 2025 4:11:07 पूर्वाह्न GMT
Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂
0






एक आश्चर्यजनक कदम में, एंथ्रिक ने अपने नवीनतम एआई मॉडल, क्लाउड 3.7 सॉनेट को क्लासिक गेम बॉय गेम, पोकेमॉन रेड के साथ परीक्षण के लिए डालने का फैसला किया। सोमवार को जारी एक ब्लॉग पोस्ट के अनुसार, कंपनी ने मॉडल को आवश्यक के साथ बाहर कर दिया: मेमोरी, स्क्रीन पिक्सेल पढ़ने की क्षमता, और बटन दबाने और गेम स्क्रीन के चारों ओर घूमने की शक्ति। इस सेटअप ने क्लाउड 3.7 सॉनेट को पोकेमोन की दुनिया में गोता लगाने और खेलते रहने की अनुमति दी।
क्लाउड 3.7 सॉनेट को अलग करने के लिए "विस्तारित सोच" के लिए इसकी आदत है। Openai के O3-Mini और DeepSeek के R1 जैसे अन्य मॉडलों के समान, यह कंप्यूटिंग शक्ति को क्रैंक करके और चीजों के माध्यम से सोचने के लिए अपना मीठा समय लेने से कठिन समस्याओं से निपट सकता है।
यह सुविधा पोकेमोन रेड में गेम-चेंजर साबित हुई। जबकि पुराने क्लाउड 3.0 सॉनेट भी इसे फूस टाउन में शुरुआती क्षेत्र से बाहर नहीं कर सकते थे, क्लाउड 3.7 सॉनेट ने तीन जिम नेताओं को नीचे ले जाने और उनके बैज को छीनने में कामयाबी हासिल की।
पिछले हफ्ते, एक शोधकर्ता ने क्लाउड 3.7 सॉनेट के शुरुआती पूर्वावलोकन की कोशिश की।
परिणाम हड़ताली थे। घंटों के भीतर, क्लाउड ने ब्रॉक को हराया। दिनों के बाद, यह मिस्टी को ट्राउट करता है। प्रगति कि पुराने मॉडलों को प्राप्त करने की बहुत कम उम्मीद थी।
विस्तारित सोच सुपर प्रभावी है। pic.twitter.com/rspslgj2uf
- एंथ्रोपिक (@एंथ्रोपिकाई) 25 फरवरी, 2025
कुछ चतुर डेवलपर के बारे में बताने से पहले यह बहुत लंबा नहीं होगा।
जबकि पोकेमॉन रेड एक मजेदार परीक्षण की तरह लग सकता है, खेल वास्तव में उम्र के लिए एआई बेंचमार्किंग के लिए उपयोग किया गया है। पिछले कुछ महीनों में, हमने नए ऐप्स और प्लेटफार्मों का एक समूह देखा है, जो यह परीक्षण करने के लिए पॉप अप करते हैं कि एआई मॉडल कितनी अच्छी तरह से स्ट्रीट फाइटर से पिक्चनरी तक सब कुछ खेल सकते हैं।




Using Pokémon to benchmark AI? That's wild! Claude 3.7 Sonnet playing Pokémon Red is pretty cool, but does it really show off its capabilities? I mean, it's fun to watch, but I'm not sure it's the best test. Still, props for creativity! 🤓🎮




ポケモンを使ってAIをベンチマークするなんて面白い!クロード3.7ソネットがポケモン赤をプレイするのはかっこいいけど、本当にその能力を示しているのかな?楽しめるけど、ベストなテストかどうかはわからないね。それでも、創造性には拍手を!👏🎮




포켓몬으로 AI를 벤치마크하다니 신기해! 클로드 3.7 소넷이 포켓몬 레드를 플레이하는 건 멋지지만, 정말 그 능력을 보여주는 건지 모르겠어. 재미있지만, 최고의 테스트인지 의문이야. 그래도 창의성에 박수를! 👏🎮




Usar Pokémon para benchmark de IA? Isso é loucura! Claude 3.7 Sonnet jogando Pokémon Red é bem legal, mas será que realmente mostra suas capacidades? É divertido de assistir, mas não tenho certeza se é o melhor teste. Mesmo assim, parabéns pela criatividade! 🤓🎮




¡Usar Pokémon para benchmark de IA? ¡Eso es una locura! Que Claude 3.7 Sonnet juegue a Pokémon Red es genial, pero ¿realmente muestra sus capacidades? Es divertido verlo, pero no estoy seguro de que sea la mejor prueba. Aún así, ¡felicidades por la creatividad! 🤓🎮




Using Pokémon to test AI? That's wild! Claude 3.7 Sonnet tackling Pokémon Red is so cool, but kinda weird too. It's neat that it can read screen pixels and remember stuff, but does it actually catch 'em all? 🤔 Fun idea, but I wonder how practical it is in real life. Gotta catch 'em all, right? 😂












