Google का जेम्मा 3 सिर्फ एक GPU के साथ डीपसेक की सटीकता का 98% प्राप्त करता है
1 मई 2025
RichardJackson
0
आर्टिफिशियल इंटेलिजेंस का अर्थशास्त्र हाल ही में एक प्रमुख फोकस बन गया है, विशेष रूप से स्टार्टअप डीपसेक एआई के साथ जीपीयू चिप्स का उपयोग करने में पैमाने की प्रभावशाली अर्थव्यवस्थाओं को दिखाने के लिए। लेकिन Google आगे बढ़ने वाला नहीं है। बुधवार को, टेक दिग्गज ने अपने नवीनतम ओपन-सोर्स बड़े भाषा मॉडल, जेम्मा 3 का अनावरण किया, जो लगभग दीपसेक के आर 1 मॉडल की सटीकता से मेल खाता है, फिर भी काफी कम कंप्यूटिंग शक्ति का उपयोग करता है।
Google ने "ELO" स्कोर का उपयोग करके इस प्रदर्शन को मापा, एक प्रणाली जिसे आमतौर पर शतरंज और खेलों में प्रतियोगियों को रैंक करने के लिए उपयोग किया जाता है। GEMMA 3 ने R1 के 1363 में से सिर्फ एक 1338 का स्कोर किया, जिसका अर्थ है कि R1 तकनीकी रूप से echmerforms Gemma 3। हालांकि, Google का अनुमान है कि यह R1 के स्कोर तक पहुंचने के लिए NVIDIA के H100 GPU चिप्स के 32 को ले जाएगा, जबकि GEMMA 3 केवल एक H100 GPU के साथ अपने परिणाम प्राप्त करता है। Google "स्वीट स्पॉट" के रूप में गणना और ईएलओ स्कोर के इस संतुलन को टाल देता है।
एक ब्लॉग पोस्ट में, Google ने Gemma 3 को "सबसे सक्षम मॉडल के रूप में वर्णित किया है, जिसे आप एकल GPU या TPU पर चला सकते हैं," अपने स्वयं के कस्टम AI चिप, "टेंसर प्रसंस्करण इकाई" का जिक्र करते हुए। कंपनी का दावा है कि जेम्मा 3 "अपने आकार के लिए अत्याधुनिक प्रदर्शन को वितरित करती है," Lmarena के लीडरबोर्ड पर मानव वरीयता मूल्यांकन में Llama-405B, DeepSeekeek-V3, और O3-MINI जैसे मॉडल आउटशिनिंग मॉडल। यह प्रदर्शन एकल GPU या TPU होस्ट पर आकर्षक उपयोगकर्ता अनुभव बनाना आसान बनाता है।
गूगल
Google का मॉडल ईएलओ स्कोर में मेटा के लामा 3 को भी पार करता है, जिसे Google अनुमान के लिए 16 GPU की आवश्यकता होगी। यह ध्यान देने योग्य है कि प्रतिस्पर्धी मॉडल के लिए ये आंकड़े Google के अनुमान हैं; दीपसेक एआई ने केवल R1 के लिए NVIDIA के कम-शक्तिशाली H800 GPU के 1,814 का उपयोग करके खुलासा किया है।
अधिक गहराई से जानकारी एक डेवलपर ब्लॉग पोस्ट में हगिंगफेस पर पाई जा सकती है, जहां जेम्मा 3 रिपॉजिटरी उपलब्ध है। डेटा सेंटरों के बजाय ऑन-डिवाइस उपयोग के लिए डिज़ाइन किया गया, GEMMA 3 में R1 और अन्य ओपन-सोर्स मॉडल की तुलना में काफी कम मापदंडों की संख्या है। 1 बिलियन से 27 बिलियन तक के पैरामीटर की गिनती के साथ, जेम्मा 3 वर्तमान मानकों से काफी मामूली है, जबकि R1 में 671 बिलियन पैरामीटर का एक बड़ा हिस्सा है, हालांकि यह चुनिंदा रूप से केवल 37 बिलियन का उपयोग कर सकता है।
Gemma 3 की दक्षता की कुंजी एक व्यापक रूप से उपयोग की जाने वाली AI तकनीक है जिसे डिस्टिलेशन कहा जाता है, जहां एक बड़े मॉडल से प्रशिक्षित मॉडल वेट को एक छोटे से स्थानांतरित किया जाता है, इसकी क्षमताओं को बढ़ाता है। इसके अतिरिक्त, डिस्टिल्ड मॉडल तीन गुणवत्ता नियंत्रण उपायों से गुजरता है: मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने, मशीन प्रतिक्रिया (RLMF) से सुदृढीकरण सीखने और निष्पादन प्रतिक्रिया (RLEF) से सुदृढीकरण सीखने। ये मदद मॉडल के आउटपुट को परिष्कृत करते हैं, जिससे वे अधिक सहायक होते हैं और इसकी गणित और कोडिंग क्षमताओं में सुधार करते हैं।
Google के डेवलपर ब्लॉग में इन दृष्टिकोणों का विवरण है, और एक अन्य पोस्ट मोबाइल उपकरणों के उद्देश्य से सबसे छोटे 1 बिलियन पैरामीटर मॉडल के लिए अनुकूलन तकनीकों पर चर्चा करता है। इनमें परिमाणीकरण, कुंजी-मूल्य कैश लेआउट को अद्यतन करना, चर लोडिंग समय में सुधार, और जीपीयू वजन साझाकरण शामिल हैं।
Google न केवल ईएलओ स्कोर पर, बल्कि अपने पूर्ववर्ती, जेम्मा 2, और इसके बंद-स्रोत मिथुन मॉडल के खिलाफ भी LiveCodeBench जैसे विभिन्न बेंचमार्क पर Gemma 3 की तुलना करता है। जबकि GEMMA 3 आम तौर पर मिथुन 1.5 और मिथुन 2.0 से सटीकता में कम हो जाता है, Google नोट करता है कि यह कम मापदंडों के बावजूद "बंद मिथुन मॉडल की तुलना में प्रतिस्पर्धी प्रदर्शन दिखाता है।"
गूगल
Gemma 3 पर Gemma 2 में एक महत्वपूर्ण उन्नयन इसकी लंबी "संदर्भ विंडो" है, जो 8,000 से 128,000 टोकन तक विस्तारित है। यह मॉडल को पूरे कागजात या पुस्तकों जैसे बड़े ग्रंथों को संसाधित करने की अनुमति देता है। जेम्मा 3 भी बहु-मोडल है, जो अपने पूर्ववर्ती के विपरीत पाठ और छवि इनपुट दोनों को संभालने में सक्षम है। इसके अतिरिक्त, यह 140 से अधिक भाषाओं का समर्थन करता है, जेम्मा 2 की अंग्रेजी-केवल क्षमताओं पर एक विशाल सुधार।
इन मुख्य विशेषताओं से परे, जेम्मा 3 के लिए कई अन्य दिलचस्प पहलू हैं। बड़ी भाषा मॉडल के साथ एक मुद्दा उनके प्रशिक्षण डेटा के कुछ हिस्सों को याद करने की क्षमता है, जिससे गोपनीयता के उल्लंघन हो सकते हैं। Google के शोधकर्ताओं ने इसके लिए GEMMA 3 का परीक्षण किया और पाया कि यह अपने पूर्ववर्तियों की तुलना में कम दर पर लंबे समय के पाठ को याद करता है, बेहतर गोपनीयता सुरक्षा का सुझाव देता है।
Nitty-vitty में रुचि रखने वालों के लिए, Gemma 3 तकनीकी पेपर मॉडल की क्षमताओं और विकास का पूरी तरह से टूटना प्रदान करता है।
संबंधित लेख
एक बेहतर कवर पत्र शिल्प करने के लिए चैट का उपयोग करें: टिप्स और ट्रिक्स
एक फिर से शुरू करना जो आपके करियर को पूरी तरह से संक्षेप में प्रस्तुत करता है, पर्याप्त चुनौतीपूर्ण है, लेकिन नौकरी के अनुप्रयोगों को अक्सर कवर पत्र की भी आवश्यकता होती है। यह पत्र आपके लिए इस बात की बारीकियों में गोता लगाने का मौका है कि आप कंपनी में रुचि क्यों रखते हैं, आपको स्थिति के लिए क्या योग्यता है, और आप सबसे अच्छे उम्मीदवार क्यों हैं
ग्यारह लैब्स की एआई वॉयस जनरेशन मुद्दों को हल करने के लिए तीन समाधान
यदि आप ग्यारह लैब्स के प्रशंसक हैं, तो ए-एआई वॉयस जनरेटर, आप रास्ते में कुछ हिचकी में भाग सकते हैं। चिंता मत करो, हालांकि; यह लेख यहां उन निराशाजनक मुद्दों को नेविगेट करने में मदद करने के लिए है और अपनी एआई वॉयस सामग्री को सुचारू रूप से प्रवाहित करता है। आईपी पते प्रतिबंधों से निपटने से लेकर वेरी तक
Pika.art ने नए AI वीडियो फीचर्स और अपडेट को रिडिजाइन में अनावरण किया
Pika.art, AI- चालित वीडियो जनरेशन दृश्य में एक ट्रेलब्लेज़र, ने एक प्रमुख फेसलिफ्ट को रोल आउट किया है। प्लेटफ़ॉर्म की वेबसाइट ने एक पूर्ण रीडिज़ाइन किया है, और उन्होंने कुछ गेम-चेंजिंग फीचर्स पेश किए हैं जो आपके वीडियो बनाने के अनुभव को बढ़ाने का वादा करते हैं। ये अपडेट सभी बनाने के बारे में हैं
सूचना (0)
0/200






आर्टिफिशियल इंटेलिजेंस का अर्थशास्त्र हाल ही में एक प्रमुख फोकस बन गया है, विशेष रूप से स्टार्टअप डीपसेक एआई के साथ जीपीयू चिप्स का उपयोग करने में पैमाने की प्रभावशाली अर्थव्यवस्थाओं को दिखाने के लिए। लेकिन Google आगे बढ़ने वाला नहीं है। बुधवार को, टेक दिग्गज ने अपने नवीनतम ओपन-सोर्स बड़े भाषा मॉडल, जेम्मा 3 का अनावरण किया, जो लगभग दीपसेक के आर 1 मॉडल की सटीकता से मेल खाता है, फिर भी काफी कम कंप्यूटिंग शक्ति का उपयोग करता है।
Google ने "ELO" स्कोर का उपयोग करके इस प्रदर्शन को मापा, एक प्रणाली जिसे आमतौर पर शतरंज और खेलों में प्रतियोगियों को रैंक करने के लिए उपयोग किया जाता है। GEMMA 3 ने R1 के 1363 में से सिर्फ एक 1338 का स्कोर किया, जिसका अर्थ है कि R1 तकनीकी रूप से echmerforms Gemma 3। हालांकि, Google का अनुमान है कि यह R1 के स्कोर तक पहुंचने के लिए NVIDIA के H100 GPU चिप्स के 32 को ले जाएगा, जबकि GEMMA 3 केवल एक H100 GPU के साथ अपने परिणाम प्राप्त करता है। Google "स्वीट स्पॉट" के रूप में गणना और ईएलओ स्कोर के इस संतुलन को टाल देता है।
एक ब्लॉग पोस्ट में, Google ने Gemma 3 को "सबसे सक्षम मॉडल के रूप में वर्णित किया है, जिसे आप एकल GPU या TPU पर चला सकते हैं," अपने स्वयं के कस्टम AI चिप, "टेंसर प्रसंस्करण इकाई" का जिक्र करते हुए। कंपनी का दावा है कि जेम्मा 3 "अपने आकार के लिए अत्याधुनिक प्रदर्शन को वितरित करती है," Lmarena के लीडरबोर्ड पर मानव वरीयता मूल्यांकन में Llama-405B, DeepSeekeek-V3, और O3-MINI जैसे मॉडल आउटशिनिंग मॉडल। यह प्रदर्शन एकल GPU या TPU होस्ट पर आकर्षक उपयोगकर्ता अनुभव बनाना आसान बनाता है।
गूगल
Google का मॉडल ईएलओ स्कोर में मेटा के लामा 3 को भी पार करता है, जिसे Google अनुमान के लिए 16 GPU की आवश्यकता होगी। यह ध्यान देने योग्य है कि प्रतिस्पर्धी मॉडल के लिए ये आंकड़े Google के अनुमान हैं; दीपसेक एआई ने केवल R1 के लिए NVIDIA के कम-शक्तिशाली H800 GPU के 1,814 का उपयोग करके खुलासा किया है।
अधिक गहराई से जानकारी एक डेवलपर ब्लॉग पोस्ट में हगिंगफेस पर पाई जा सकती है, जहां जेम्मा 3 रिपॉजिटरी उपलब्ध है। डेटा सेंटरों के बजाय ऑन-डिवाइस उपयोग के लिए डिज़ाइन किया गया, GEMMA 3 में R1 और अन्य ओपन-सोर्स मॉडल की तुलना में काफी कम मापदंडों की संख्या है। 1 बिलियन से 27 बिलियन तक के पैरामीटर की गिनती के साथ, जेम्मा 3 वर्तमान मानकों से काफी मामूली है, जबकि R1 में 671 बिलियन पैरामीटर का एक बड़ा हिस्सा है, हालांकि यह चुनिंदा रूप से केवल 37 बिलियन का उपयोग कर सकता है।
Gemma 3 की दक्षता की कुंजी एक व्यापक रूप से उपयोग की जाने वाली AI तकनीक है जिसे डिस्टिलेशन कहा जाता है, जहां एक बड़े मॉडल से प्रशिक्षित मॉडल वेट को एक छोटे से स्थानांतरित किया जाता है, इसकी क्षमताओं को बढ़ाता है। इसके अतिरिक्त, डिस्टिल्ड मॉडल तीन गुणवत्ता नियंत्रण उपायों से गुजरता है: मानव प्रतिक्रिया (RLHF) से सुदृढीकरण सीखने, मशीन प्रतिक्रिया (RLMF) से सुदृढीकरण सीखने और निष्पादन प्रतिक्रिया (RLEF) से सुदृढीकरण सीखने। ये मदद मॉडल के आउटपुट को परिष्कृत करते हैं, जिससे वे अधिक सहायक होते हैं और इसकी गणित और कोडिंग क्षमताओं में सुधार करते हैं।
Google के डेवलपर ब्लॉग में इन दृष्टिकोणों का विवरण है, और एक अन्य पोस्ट मोबाइल उपकरणों के उद्देश्य से सबसे छोटे 1 बिलियन पैरामीटर मॉडल के लिए अनुकूलन तकनीकों पर चर्चा करता है। इनमें परिमाणीकरण, कुंजी-मूल्य कैश लेआउट को अद्यतन करना, चर लोडिंग समय में सुधार, और जीपीयू वजन साझाकरण शामिल हैं।
Google न केवल ईएलओ स्कोर पर, बल्कि अपने पूर्ववर्ती, जेम्मा 2, और इसके बंद-स्रोत मिथुन मॉडल के खिलाफ भी LiveCodeBench जैसे विभिन्न बेंचमार्क पर Gemma 3 की तुलना करता है। जबकि GEMMA 3 आम तौर पर मिथुन 1.5 और मिथुन 2.0 से सटीकता में कम हो जाता है, Google नोट करता है कि यह कम मापदंडों के बावजूद "बंद मिथुन मॉडल की तुलना में प्रतिस्पर्धी प्रदर्शन दिखाता है।"
गूगल
Gemma 3 पर Gemma 2 में एक महत्वपूर्ण उन्नयन इसकी लंबी "संदर्भ विंडो" है, जो 8,000 से 128,000 टोकन तक विस्तारित है। यह मॉडल को पूरे कागजात या पुस्तकों जैसे बड़े ग्रंथों को संसाधित करने की अनुमति देता है। जेम्मा 3 भी बहु-मोडल है, जो अपने पूर्ववर्ती के विपरीत पाठ और छवि इनपुट दोनों को संभालने में सक्षम है। इसके अतिरिक्त, यह 140 से अधिक भाषाओं का समर्थन करता है, जेम्मा 2 की अंग्रेजी-केवल क्षमताओं पर एक विशाल सुधार।
इन मुख्य विशेषताओं से परे, जेम्मा 3 के लिए कई अन्य दिलचस्प पहलू हैं। बड़ी भाषा मॉडल के साथ एक मुद्दा उनके प्रशिक्षण डेटा के कुछ हिस्सों को याद करने की क्षमता है, जिससे गोपनीयता के उल्लंघन हो सकते हैं। Google के शोधकर्ताओं ने इसके लिए GEMMA 3 का परीक्षण किया और पाया कि यह अपने पूर्ववर्तियों की तुलना में कम दर पर लंबे समय के पाठ को याद करता है, बेहतर गोपनीयता सुरक्षा का सुझाव देता है।
Nitty-vitty में रुचि रखने वालों के लिए, Gemma 3 तकनीकी पेपर मॉडल की क्षमताओं और विकास का पूरी तरह से टूटना प्रदान करता है।












