Ai2 ने कॉम्पैक्ट AI मॉडल लॉन्च किया जो Google, Meta के प्रतिद्वंद्वियों से बेहतर प्रदर्शन करता है

इस सप्ताह छोटे AI मॉडल चर्चा में हैं।
गुरुवार को, Ai2, एक गैर-लाभकारी AI अनुसंधान समूह, ने Olmo 2 1B लॉन्च किया, जो 1 बिलियन पैरामीटर वाला मॉडल है और यह Google, Meta, और Alibaba के समान आकार के मॉडलों को कई बेंचमार्क में पीछे छोड़ देता है। पैरामीटर, जिन्हें अक्सर वेट्स कहा जाता है, मॉडल के प्रदर्शन को आकार देने वाले आंतरिक तत्व हैं।
Olmo 2 1B Apache 2.0 लाइसेंस के तहत Hugging Face पर मुफ्त में उपलब्ध है, जो AI डेवलपर्स के लिए एक प्लेटफॉर्म है। अधिकांश मॉडलों के विपरीत, इसे पूरी तरह से पुनर्जनन किया जा सकता है, जिसमें Ai2 ने इसके विकास में उपयोग किए गए कोड और डेटासेट (Olmo-mix-1124, Dolmino-mix-1124) साझा किए हैं।
हालांकि छोटे मॉडल बड़े मॉडलों की शक्ति की कमी हो सकती है, लेकिन उन्हें हाई-एंड हार्डवेयर की आवश्यकता नहीं होती, जिससे वे डेवलपर्स और शौकीनों के लिए मानक लैपटॉप या उपभोक्ता उपकरणों पर उपयोग के लिए आदर्श हैं।
हाल के दिनों में छोटे मॉडल रिलीज में वृद्धि देखी गई है, Microsoft के Phi 4 रीजनिंग परिवार से लेकर Qwen के 2.5 Omni 3B तक। अधिकांश, जिसमें Olmo 2 1B शामिल है, आधुनिक लैपटॉप या यहां तक कि मोबाइल उपकरणों पर भी आसानी से चल सकते हैं।
Ai2 ने नोट किया कि Olmo 2 1B को 4 ट्रिलियन टोकन पर प्रशिक्षित किया गया था, जो सार्वजनिक, AI-जनरेटेड, और क्यूरेटेड स्रोतों से प्राप्त किए गए थे। एक मिलियन टोकन लगभग 750,000 शब्दों के बराबर होते हैं।
GSM8K जैसे अंकगणितीय तर्क परीक्षणों में, Olmo 2 1B Google के Gemma 3 1B, Meta के Llama 3.2 1B, और Alibaba के Qwen 2.5 1.5B से बेहतर प्रदर्शन करता है। यह TruthfulQA में भी उत्कृष्ट है, जो तथ्यात्मक सटीकता के लिए एक बेंचमार्क है।
TechCrunch Sessions: AI में प्रदर्शन
TC Sessions: AI में अपनी जगह सुरक्षित करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपना काम प्रस्तुत करें बिना अधिक खर्च किए। 9 मई तक या जब तक स्थान उपलब्ध हैं।
TechCrunch Sessions: AI में प्रदर्शन
TC Sessions: AI में अपनी जगह सुरक्षित करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपना काम प्रस्तुत करें बिना अधिक खर्च किए। 9 मई तक या जब तक स्थान उपलब्ध हैं।
Berkeley, CA | 5 जून
अब बुक करें
इस मॉडल को 4T टोकन के उच्च-गुणवत्ता डेटा पर प्रीट्रेन किया गया था, जो हमारे 7, 13, और 32B मॉडलों के समान मानक प्रीट्रेनिंग और उच्च-गुणवत्ता एनीलिंग का पालन करता है। हम प्रशिक्षण में हर 1000 चरणों से मध्यवर्ती चेकपॉइंट अपलोड करते हैं।
बेस मॉडल तक पहुंच: https://t.co/xofyWJmo85 pic.twitter.com/7uSJ6sYMdL
— Ai2 (@allen_ai) 1 मई, 2025
Ai2 ने चेतावनी दी है कि Olmo 2 1B में जोखिम हैं। सभी AI मॉडलों की तरह, यह समस्याग्रस्त आउटपुट उत्पन्न कर सकता है, जिसमें हानिकारक या संवेदनशील सामग्री और गलत जानकारी शामिल है। Ai2 वाणिज्यिक अनुप्रयोगों में इसके उपयोग के खिलाफ सलाह देता है।
संबंधित लेख
एलएलएम के अंदर क्या है? AI2 ओलमोट्रेस स्रोत को 'ट्रेस' करेगा
एक बड़े भाषा मॉडल (एलएलएम) और इसके प्रशिक्षण डेटा के आउटपुट के बीच संबंध को समझना हमेशा एंटरप्राइज आईटी के लिए एक पहेली का एक सा रहा है। इस हफ्ते, एलन इंस्टीट्यूट फॉर एआई (एआई 2) ने ओलमोट्रेस नामक एक रोमांचक नई ओपन-सोर्स पहल शुरू की, जिसका उद्देश्य इस रिले को ध्वस्त करना है
AI 2026 में नई खोजों को अनलॉक करेगा, OpenAI CEO का कहना है
हाल ही में मंगलवार को प्रकाशित "द जेंटल सिंगुलैरिटी" नामक एक निबंध में, OpenAI के CEO सैम ऑल्टमैन ने अगले 15 वर्षों में मानवता पर AI के परिवर्तनकारी प्रभाव की अपनी दृष्टि रेखांकित की।ऑल्टमैन का निबंध
ट्रम्प का उदय: राजनीतिक विशेषज्ञों ने उनकी अध्यक्षता को कैसे गलत आंका
राजनीति में, पूर्वानुमान अक्सर चूक जाते हैं। विशेषज्ञ, विश्लेषक और पंडित नियमित रूप से चुनाव परिणामों और राजनीतिक रुझानों की भविष्यवाणी करते हैं, लेकिन इतिहास उनके त्रुटियों को दर्शाता है, खासकर डोनाल
सूचना (0)
0/200
इस सप्ताह छोटे AI मॉडल चर्चा में हैं।
गुरुवार को, Ai2, एक गैर-लाभकारी AI अनुसंधान समूह, ने Olmo 2 1B लॉन्च किया, जो 1 बिलियन पैरामीटर वाला मॉडल है और यह Google, Meta, और Alibaba के समान आकार के मॉडलों को कई बेंचमार्क में पीछे छोड़ देता है। पैरामीटर, जिन्हें अक्सर वेट्स कहा जाता है, मॉडल के प्रदर्शन को आकार देने वाले आंतरिक तत्व हैं।
Olmo 2 1B Apache 2.0 लाइसेंस के तहत Hugging Face पर मुफ्त में उपलब्ध है, जो AI डेवलपर्स के लिए एक प्लेटफॉर्म है। अधिकांश मॉडलों के विपरीत, इसे पूरी तरह से पुनर्जनन किया जा सकता है, जिसमें Ai2 ने इसके विकास में उपयोग किए गए कोड और डेटासेट (Olmo-mix-1124, Dolmino-mix-1124) साझा किए हैं।
हालांकि छोटे मॉडल बड़े मॉडलों की शक्ति की कमी हो सकती है, लेकिन उन्हें हाई-एंड हार्डवेयर की आवश्यकता नहीं होती, जिससे वे डेवलपर्स और शौकीनों के लिए मानक लैपटॉप या उपभोक्ता उपकरणों पर उपयोग के लिए आदर्श हैं।
हाल के दिनों में छोटे मॉडल रिलीज में वृद्धि देखी गई है, Microsoft के Phi 4 रीजनिंग परिवार से लेकर Qwen के 2.5 Omni 3B तक। अधिकांश, जिसमें Olmo 2 1B शामिल है, आधुनिक लैपटॉप या यहां तक कि मोबाइल उपकरणों पर भी आसानी से चल सकते हैं।
Ai2 ने नोट किया कि Olmo 2 1B को 4 ट्रिलियन टोकन पर प्रशिक्षित किया गया था, जो सार्वजनिक, AI-जनरेटेड, और क्यूरेटेड स्रोतों से प्राप्त किए गए थे। एक मिलियन टोकन लगभग 750,000 शब्दों के बराबर होते हैं।
GSM8K जैसे अंकगणितीय तर्क परीक्षणों में, Olmo 2 1B Google के Gemma 3 1B, Meta के Llama 3.2 1B, और Alibaba के Qwen 2.5 1.5B से बेहतर प्रदर्शन करता है। यह TruthfulQA में भी उत्कृष्ट है, जो तथ्यात्मक सटीकता के लिए एक बेंचमार्क है।
TechCrunch Sessions: AI में प्रदर्शन
TC Sessions: AI में अपनी जगह सुरक्षित करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपना काम प्रस्तुत करें बिना अधिक खर्च किए। 9 मई तक या जब तक स्थान उपलब्ध हैं।
TechCrunch Sessions: AI में प्रदर्शन
TC Sessions: AI में अपनी जगह सुरक्षित करें और 1,200 से अधिक निर्णय निर्माताओं के सामने अपना काम प्रस्तुत करें बिना अधिक खर्च किए। 9 मई तक या जब तक स्थान उपलब्ध हैं।
Berkeley, CA | 5 जून अब बुक करेंइस मॉडल को 4T टोकन के उच्च-गुणवत्ता डेटा पर प्रीट्रेन किया गया था, जो हमारे 7, 13, और 32B मॉडलों के समान मानक प्रीट्रेनिंग और उच्च-गुणवत्ता एनीलिंग का पालन करता है। हम प्रशिक्षण में हर 1000 चरणों से मध्यवर्ती चेकपॉइंट अपलोड करते हैं।
— Ai2 (@allen_ai) 1 मई, 2025
बेस मॉडल तक पहुंच: https://t.co/xofyWJmo85 pic.twitter.com/7uSJ6sYMdL
Ai2 ने चेतावनी दी है कि Olmo 2 1B में जोखिम हैं। सभी AI मॉडलों की तरह, यह समस्याग्रस्त आउटपुट उत्पन्न कर सकता है, जिसमें हानिकारक या संवेदनशील सामग्री और गलत जानकारी शामिल है। Ai2 वाणिज्यिक अनुप्रयोगों में इसके उपयोग के खिलाफ सलाह देता है।












