विकल्प
घर समाचार मेटा ने लंबे संदर्भ स्काउट और मावेरिक मॉडल के साथ Llama 4 का अनावरण किया, 2T पैरामीटर Behemoth जल्द ही आ रहा है!

मेटा ने लंबे संदर्भ स्काउट और मावेरिक मॉडल के साथ Llama 4 का अनावरण किया, 2T पैरामीटर Behemoth जल्द ही आ रहा है!

रिलीज़ की तारीख रिलीज़ की तारीख 16 अप्रैल 2025
लेखक लेखक HenryWalker
दृश्य दृश्य 59

जनवरी 2025 में, एआई दुनिया को तब हिलाया गया जब एक अपेक्षाकृत अज्ञात चीनी एआई स्टार्टअप, डीपसेक ने अपने ग्राउंडब्रेकिंग ओपन-सोर्स लैंग्वेज रीज़निंग मॉडल, डीपसेक आर 1 के साथ गौंटलेट को नीचे फेंक दिया। इस मॉडल ने न केवल मेटा की पसंद से बेहतर प्रदर्शन किया, बल्कि लागत के एक अंश पर ऐसा किया - कुछ मिलियन डॉलर के रूप में कम होने के लिए। इस तरह का बजट मेटा अपने एआई टीम के नेताओं के कुछ जोड़े पर खर्च कर सकता है! इस खबर ने मेटा को एक उन्माद के एक बिट में भेजा, खासकर उनके नवीनतम लामा मॉडल, संस्करण 3.3 के बाद से, एक महीने पहले ही जारी किया गया था, पहले से ही थोड़ा दिनांकित लग रहा था।

आज के लिए तेजी से आगे, और मेटा के संस्थापक और सीईओ, मार्क जुकरबर्ग ने नई लामा 4 श्रृंखला के लॉन्च की घोषणा करने के लिए इंस्टाग्राम पर ले जाया है। इस श्रृंखला में 400 बिलियन पैरामीटर लामा 4 मावेरिक और 109 बिलियन पैरामीटर लामा 4 स्काउट शामिल हैं, दोनों डेवलपर्स के लिए उपलब्ध हैं, जो कि Llama.com पर तुरंत छेड़छाड़ करने और चेहरे को गले लगाने के लिए शुरू करते हैं। वहाँ एक कोलोसल 2-ट्रिलियन पैरामीटर मॉडल, Llama 4 Behemoth, अभी भी प्रशिक्षण में, दृष्टि में कोई रिलीज की तारीख के साथ एक चुपके झलक है।

बहुमूत्र और लंबे समय तक संदर्भ क्षमता

इन नए मॉडलों की एक स्टैंडआउट विशेषताओं में से एक उनकी मल्टीमॉडल प्रकृति है। वे सिर्फ पाठ के बारे में नहीं हैं; वे वीडियो और इमेजरी को भी संभाल सकते हैं। और वे अविश्वसनीय रूप से लंबे संदर्भ विंडोज़ के साथ आते हैं - मावरिक के लिए 1 मिलियन टोकन और स्काउट के लिए 10 मिलियन का हिस्सा। उस परिप्रेक्ष्य में रखने के लिए, यह एक बार में 1,500 और 15,000 पृष्ठों के पाठ को संभालने जैसा है! दवा, विज्ञान, या साहित्य जैसे क्षेत्रों के लिए संभावनाओं की कल्पना करें जहां आपको बड़ी मात्रा में जानकारी को संसाधित करने और उत्पन्न करने की आवश्यकता है।

मिश्रण-शरारत आर्किटेक्चर

सभी तीन लामा 4 मॉडल "मिक्सचर-ऑफ-एक्सपेर्ट्स (एमओई)" आर्किटेक्चर को नियुक्त करते हैं, एक तकनीक जो लहरें बना रही है, जो ओपनई और मिस्ट्रल जैसी कंपनियों द्वारा लोकप्रिय है। यह दृष्टिकोण कई छोटे, विशेष मॉडल को एक बड़े, अधिक कुशल मॉडल में जोड़ता है। प्रत्येक Llama 4 मॉडल 128 विभिन्न विशेषज्ञों का मिश्रण है, जिसका अर्थ है केवल आवश्यक विशेषज्ञ और एक साझा एक प्रत्येक टोकन को संभालना, जिससे मॉडल अधिक लागत प्रभावी और चलाने के लिए तेज हो जाते हैं। मेटा का दावा है कि लामा 4 मावेरिक को एक एकल NVIDIA H100 DGX होस्ट पर चलाया जा सकता है, जिससे तैनाती एक हवा बन जाती है।

लागत प्रभावी और सुलभ

मेटा इन मॉडलों को सुलभ बनाने के बारे में है। स्काउट और मावेरिक दोनों ही आत्म-होस्टिंग के लिए उपलब्ध हैं, और उन्होंने कुछ मोहक लागत अनुमान भी साझा किए हैं। उदाहरण के लिए, Llama 4 Maverick के लिए अनुमान लागत $ 0.19 और $ 0.49 प्रति मिलियन टोकन के बीच है, जो GPT-4O जैसे अन्य मालिकाना मॉडल की तुलना में एक चोरी है। और यदि आप क्लाउड प्रदाता के माध्यम से इन मॉडलों का उपयोग करने में रुचि रखते हैं, तो GROQ ने पहले ही प्रतिस्पर्धी मूल्य निर्धारण के साथ कदम रखा है।

बढ़ी हुई तर्क और मेटाप

इन मॉडलों को तर्क, कोडिंग और समस्या-समाधान को ध्यान में रखते हुए बनाया गया है। मेटा ने इन क्षमताओं को बढ़ावा देने के लिए प्रशिक्षण के दौरान कुछ चतुर तकनीकों का उपयोग किया, जैसे आसान संकेतों को हटाना और तेजी से कठिन संकेतों के साथ निरंतर सुदृढीकरण सीखने का उपयोग करना। उन्होंने METAP, एक नई तकनीक भी पेश की है जो एक मॉडल पर हाइपरपैमेटर्स सेट करने और उन्हें दूसरों पर लागू करने, समय और धन की बचत करने की अनुमति देती है। यह एक गेम-चेंजर है, विशेष रूप से बेमोथ जैसे राक्षसों को प्रशिक्षित करने के लिए, जो 32k GPU का उपयोग करता है और 30 ट्रिलियन टोकन से अधिक प्रक्रियाओं का उपयोग करता है।

प्रदर्शन और तुलना

तो, ये मॉडल कैसे ढेर करते हैं? जुकरबर्ग ने ओपन-सोर्स एआई के लिए अपनी दृष्टि के बारे में स्पष्ट किया है, और लामा 4 उस दिशा में एक बड़ा कदम है। हालांकि वे बोर्ड भर में नए प्रदर्शन रिकॉर्ड नहीं बना सकते हैं, वे निश्चित रूप से अपनी कक्षा के शीर्ष के पास हैं। उदाहरण के लिए, Llama 4 Behemoth कुछ बेंचमार्क पर कुछ भारी हिटरों को बेहतर बनाता है, हालांकि यह अभी भी दूसरों में DeepSeek R1 और Openai की O1 श्रृंखला के साथ कैच-अप खेल रहा है।

Llama 4 behemoth

  • Math-500 (95.0), GPQA डायमंड (73.7), और MMLU PRO (82.2) पर GPT-4.5, मिथुन 2.0 प्रो, और क्लाउड सॉनेट 3.7 को आउटपरफॉर्म्स

Llama 4 behemoth प्रदर्शन चार्ट

लामा 4 मावरिक

  • बीट्स GPT-4O और GEMINI 2.0 FLASH FLASH SULTIMODAL REAYING BENCMMARKS जैसे CHARTQA, DOCVQA, MATHVISTA और MMMU
  • आधे से कम सक्रिय मापदंडों का उपयोग करते हुए डीपसेक v3.1 के साथ प्रतिस्पर्धी
  • बेंचमार्क स्कोर: ChartQA (90.0), Docvqa (94.4), MMLU PRO (80.5)

Llama 4 maverick प्रदर्शन चार्ट

लामा 4 स्काउट

  • मैच या आउटपरफॉर्म मॉडल जैसे मिस्ट्रल 3.1, मिथुन 2.0 फ्लैश-लाइट, और जेम्मा 3 पर Docvqa (94.4), MMLU PRO (74.3), और Mathvista (70.7)
  • 10 मीटर टोकन संदर्भ लंबाई - लंबे दस्तावेज़ों और कोडबेस के लिए आदर्श

लामा 4 स्काउट प्रदर्शन चार्ट

डीपसेक आर 1 के साथ तुलना करना

जब बड़ी लीग की बात आती है, तो लामा 4 बीहमोथ अपने आप में हैं, लेकिन डीपसेक आर 1 या ओपनईआई की ओ 1 श्रृंखला को काफी हद तक नहीं छोड़ता है। यह मैथ -500 और MMLU पर थोड़ा पीछे है लेकिन GPQA हीरे पर आगे है। फिर भी, यह स्पष्ट है कि लामा 4 तर्क स्थान में एक मजबूत दावेदार है।

बेंचमार्क Llama 4 behemoth दीपसेक आर 1 Openai O1-1217
गणित -500 95.0 97.3 96.4
GPQA डायमंड 73.7 71.5 75.7
मिम्लू 82.2 90.8 91.8

सुरक्षा और राजनीतिक तटस्थता

मेटा सुरक्षा के बारे में या तो नहीं भूल गया है। उन्होंने लामा गार्ड, प्रॉम्प्ट गार्ड और साइबरसेवल जैसे उपकरण पेश किए हैं ताकि चीजों को ऊपर-ऊपर रखा जा सके। और वे राजनीतिक पूर्वाग्रह को कम करने के बारे में एक बिंदु बना रहे हैं, जो अधिक संतुलित दृष्टिकोण के लिए लक्ष्य कर रहे हैं, विशेष रूप से Zuckerberg के रिपब्लिकन राजनीति के बाद के चुनाव के बाद के समर्थन के बाद।

लामा 4 के साथ भविष्य

लामा 4 के साथ, मेटा एआई में दक्षता, खुलेपन और प्रदर्शन की सीमाओं को आगे बढ़ा रहा है। चाहे आप एंटरप्राइज़-लेवल एआई सहायकों का निर्माण करना चाह रहे हों या एआई रिसर्च में गहराई से गोता लगाएं, लामा 4 शक्तिशाली, लचीले विकल्प प्रदान करता है जो तर्क को प्राथमिकता देता है। यह स्पष्ट है कि मेटा एआई को सभी के लिए अधिक सुलभ और प्रभावशाली बनाने के लिए प्रतिबद्ध है।

संबंधित लेख
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI GAIA Introduces New Benchmark in Quest for True Intelligence Beyond ARC-AGI Intelligence is everywhere, yet gauging it accurately feels like trying to catch a cloud with your bare hands. We use tests and benchmarks, like college entrance exams, to get a rough idea. Each year, students cram for these tests, sometimes even scoring a perfect 100%. But does that perfect score m
How we’re using AI to help cities tackle extreme heat How we’re using AI to help cities tackle extreme heat It's looking like 2024 might just break the record for the hottest year yet, surpassing 2023. This trend is particularly tough on folks living in urban heat islands—those spots in cities where concrete and asphalt soak up the sun's rays and then radiate the heat right back out. These areas can warm
सूचना (20)
TimothyEvans
TimothyEvans 19 अप्रैल 2025 4:25:17 पूर्वाह्न GMT

Just heard about Meta's Llama 4 and it sounds insane! 2T parameters? That's a monster! Can't wait to see how it performs compared to DeepSeek R1. Hope it's not just hype, but if it lives up to the buzz, it's gonna be 🔥! Anyone tried it yet?

EricJohnson
EricJohnson 17 अप्रैल 2025 12:34:32 अपराह्न GMT

メタのラマ4、2Tパラメータって聞いてびっくり!ディープシークR1と比べてどんな感じなのか楽しみ。期待が大きいだけに、実際に使ってみないとわからないけど、期待してるよ!誰かもう試した?😊

JohnGarcia
JohnGarcia 22 अप्रैल 2025 3:11:00 पूर्वाह्न GMT

Acabo de enterarme de Llama 4 de Meta y ¡es una locura! ¡2T parámetros! Espero que no sea solo hype, pero si cumple con las expectativas, va a ser increíble. ¿Alguien ya lo ha probado? ¡Quiero saber más! 😎

NicholasLewis
NicholasLewis 21 अप्रैल 2025 1:31:17 अपराह्न GMT

Acabei de ouvir sobre o Llama 4 da Meta e parece insano! 2T parâmetros? Isso é um monstro! Mal posso esperar para ver como se compara ao DeepSeek R1. Espero que não seja só hype, mas se corresponder ao burburinho, vai ser 🔥! Alguém já testou?

PaulGonzalez
PaulGonzalez 21 अप्रैल 2025 10:16:18 पूर्वाह्न GMT

Gerade von Meta's Llama 4 gehört und es klingt verrückt! 2T Parameter? Das ist ein Riese! Kann es kaum erwarten zu sehen, wie es sich im Vergleich zu DeepSeek R1 schlägt. Hoffentlich ist es nicht nur Hype, aber wenn es dem Rummel gerecht wird, wird es 🔥! Jemand schon ausprobiert?

IsabellaDavis
IsabellaDavis 18 अप्रैल 2025 12:35:20 अपराह्न GMT

Meta's Llama 4 is a beast! The long context scout feature is a game-changer for my research. The Maverick models are cool too, but I'm really waiting for that 2T parameter model. Can't wait to see what it can do! 🤓🚀

शीर्ष समाचार
यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं वाइल्डफायर डिटेक्शन में एक सफलता: कैसे उपग्रहों का एक नया नक्षत्र पहले छोटे जंगल की आग का पता लगा सकता है नोटबुकल्म वेब स्रोत खोज सुविधा जोड़ता है कंबियम का एआई कचरे की लकड़ी को लकड़ी में बदल देता है एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया Openai की AI ने paywalled O'Reilly पुस्तकों पर प्रशिक्षित किया, शोधकर्ताओं का दावा है AI एक अधिक कुशल यूके सार्वजनिक क्षेत्र को अनलॉक करने की कुंजी हो सकती है Google.org ने सरकारी कर्मचारियों के लिए $ 15M AI प्रशिक्षण अनुदान का अनावरण किया डीप कॉगिटो के एलएलएम आईडीए का उपयोग करते हुए समान आकार के मॉडल को बेहतर बनाते हैं
अधिक
शीर्ष पर वापस
OR