विकल्प
घर
समाचार
नई अध्ययन से पता चलता है कि LLM वास्तव में कितना डेटा याद करते हैं

नई अध्ययन से पता चलता है कि LLM वास्तव में कितना डेटा याद करते हैं

6 जुलाई 2025
0

नई अध्ययन से पता चलता है कि LLM वास्तव में कितना डेटा याद करते हैं

AI मॉडल वास्तव में कितना याद करते हैं? नया शोध आश्चर्यजनक जानकारी देता है

हम सभी जानते हैं कि बड़े भाषा मॉडल (LLM) जैसे ChatGPT, Claude, और Gemini को किताबों, वेबसाइटों, कोड और यहां तक कि चित्रों और ऑडियो जैसे मल्टीमीडिया से बने विशाल डेटासेट—खरबों शब्दों पर प्रशिक्षित किया जाता है। लेकिन उस डेटा का क्या होता है? क्या ये मॉडल वास्तव में भाषा को समझते हैं, या वे केवल याद किए गए टुकड़ों को दोहरा रहे हैं?

Meta, Google DeepMind, Cornell, और NVIDIA से एक अभूतपूर्व नया अध्ययन हमें कुछ ठोस जवाब देता है—और परिणाम आपको आश्चर्यचकित कर सकते हैं।

बड़ा सवाल: याद करना बनाम सामान्यीकरण

अपने मूल में, LLM भाषा में सांख्यिकीय पैटर्न का पता लगाकर काम करते हैं। जब आप ChatGPT से सेब के बारे में पूछते हैं, तो यह मानव अर्थ में सेब को "जानता" नहीं है—बल्कि यह पहचानता है कि "सेब" शब्द अक्सर "फल," "लाल," "बाग," या यहां तक कि "iPhone" जैसे शब्दों के साथ आता है। यह सांख्यिकीय समझ AI के न्यूरल नेटवर्क में अरबों पैरामीटर्स (मूल रूप से समायोज्य सेटिंग्स) में कोडित होती है।

लेकिन यहाँ लाख टके का सवाल है: LLM का कितना ज्ञान सामान्यीकृत सीखने से आता है, और कितना केवल शब्दशः याद करने से?

यह सिर्फ शैक्षणिक नहीं है—इसके वास्तविक दुनिया में कानूनी निहितार्थ हैं। अगर AI मॉडल कॉपीराइटेड पाठ के बड़े हिस्सों को नकल करते पाए गए, तो कलाकारों, लेखकों, और प्रकाशकों के मुकदमे को बल मिल सकता है। लेकिन अगर वे वास्तव में पैटर्न सीख रहे हैं न कि सटीक सामग्री, तो AI कंपनियों के पास मजबूत निष्पक्ष उपयोग की रक्षा हो सकती है।

जवाब: प्रति पैरामीटर 3.6 बिट्स

अध्ययन में पाया गया कि LLM की याद करने की क्षमता प्रति पैरामीटर लगभग 3.6 बिट्स की होती है। इसका व्यावहारिक अर्थ क्या है?

  • एक बिट सबसे छोटी डिजिटल इकाई है (0 या 1)।
  • 3.6 बिट्स लगभग 12 अलग-अलग मानों को स्टोर कर सकते हैं—जैसे साल का कोई महीना चुनना या 12-पक्षीय पासा फेंकना।
  • यह एक पूर्ण अंग्रेजी अक्षर (~4.7 बिट्स की जरूरत) को स्टोर करने के लिए पर्याप्त नहीं है, लेकिन यह 10 सामान्य अक्षरों के एक छोटे सेट से एक अक्षर को कोड कर सकता है।
  • बाइट्स में, 3.6 बिट्स केवल 0.45 बाइट्स हैं—एक मानक ASCII अक्षर का आधा से भी कम।

महत्वपूर्ण रूप से, यह संख्या विभिन्न मॉडल आकारों, संरचनाओं, और यहां तक कि सटीकता स्तरों में स्थिर रही (हालांकि पूर्ण-सटीकता मॉडल थोड़ा अधिक 3.83 बिट्स/पैरामीटर तक पहुंचे)।

बड़ा आश्चर्य: अधिक डेटा = कम याद करना

यहाँ चीजें वास्तव में रोचक हो जाती हैं: अधिक डेटा पर प्रशिक्षण याद करने को नहीं बढ़ाता—यह वास्तव में इसे कम करता है।

जैसा कि प्रमुख शोधकर्ता जैक मॉरिस ने समझाया:

"अधिक डेटा पर प्रशिक्षण मॉडल को प्रति नमूना कम याद करने के लिए मजबूर करता है।"

इसे इस तरह सोचें: अगर AI के पास एक निश्चित "मेमोरी बजट" है, तो इसे बड़े डेटासेट पर फैलाने का मतलब है कि प्रत्येक व्यक्तिगत टुकड़े को कम समर्पित स्टोरेज मिलता है। इसलिए, बड़े ड禁止

System: डेटासेट रट्टा नकल को प्रोत्साहित करते हैं—जो कॉपीराइटेड या संवेदनशील सामग्री को दोहराने की चिंताओं को कम कर सकता है।

शोधकर्ताओं ने इसे कैसे मापा?

याद करने को सामान्यीकरण से अलग करने के लिए, टीम ने मॉडल को पूरी तरह से यादृच्छिक बिटस्ट्रिंग्स पर प्रशिक्षित किया—ऐसा डेटा जिसमें कोई पैटर्न या संरचना नहीं थी।

क्यों? क्योंकि अगर कोई मॉडल यादृच्छिक स्ट्रिंग को पुनर्जनन करता है, तो उसने इसे याद किया होगा—इसमें अनुमान करने के लिए कोई अंतर्निहित तर्क नहीं है।

इस दृष्टिकोण ने उन्हें:
✔ शुद्ध याद करने को मापने की अनुमति दी, जो सीखे गए पैटर्न से अलग था।
✔ पुष्टि की कि याद करना मॉडल के आकार के साथ पूर्वानुमानित रूप से बढ़ता है
✔ दिखाया कि डेटासेट के बड़े होने पर सामान्यीकरण शुरू होता है

वास्तविक दुनिया के निहितार्थ

  • छोटे डेटासेट अधिक याद करने की ओर ले जाते हैं।
  • बड़े डेटासेट मॉडल को सामान्यीकरण की ओर धकेलते हैं (प्रदर्शन में अस्थायी "डबल डिसेंट" गिरावट के साथ)।
  • उच्च सटीकता (उदाहरण के लिए, float32 बनाम bfloat16) याद करने की क्षमता को थोड़ा बढ़ाती है (3.51 से 3.83 बिट्स/पैरामीटर)।

अनूठा डेटा याद होने की अधिक संभावना है

हालांकि अध्ययन औसत पर केंद्रित है, अत्यधिक अनूठी या शैलीगत सामग्री (जैसे दुर्लभ कोड स्निपेट्स या विशिष्ट लेखन) याद करने के लिए अधिक असुरक्षित हो सकती है।

हालांकि, सदस्यता अनुमान हमले (यह पता लगाने की कोशिश कि क्या विशिष्ट डेटा प्रशिक्षण सेट में था) डेटासेट के बड़े होने पर अविश्वसनीय हो जाते हैं—जो इस विचार का समर्थन करता है कि बड़े पैमाने पर प्रशिक्षण गोपनीयता जोखिमों को कम करता है

इसे परिप्रेक्ष्य में रखना

  • एक 500K-पैरामीटर मॉडल ~225 KB डेटा याद कर सकता है।
  • एक 1.5B-पैरामीटर मॉडल ~675 MB स्टोर कर सकता है।
  • यह पूरी किताबें या चित्रों को पुनर्जनन करने के लिए पर्याप्त नहीं है, लेकिन यह वितरित पाठ्य पैटर्न के लिए जिम्मेदार है।

कानूनी निहितार्थ?

यह शोध चल रहे AI कॉपीराइट मुकदमों में महत्वपूर्ण भूमिका निभा सकता है। अगर अदालतें देखती हैं कि LLM मुख्य रूप से नकल करने के बजाय सामान्यीकरण करते हैं, तो AI कंपनियों के पास मजबूत निष्पक्ष उपयोग तर्क हो सकते हैं।

निचोड़

अधिक डेटा = सुरक्षित, अधिक सामान्यीकृत AI। विशाल डेटासेट से डरने के बजाय, हम वास्तव में उन्हें चाह सकते हैं—क्योंकि वे मॉडल को याद करने के बजाय समझने की ओर धकेलते हैं।

यह अध्ययन न केवल AI की हमारी समझ को गहरा करता है—यह भविष्य में इन शक्तिशाली प्रणालियों को विनियमित करने, विकसित करने और उन पर भरोसा करने के तरीके को भी नया आकार दे सकता है।

संबंधित लेख
渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 渥太华医院如何使用AI环境语音捕获减少70%医生职业倦怠,实现97%患者满意度 AI如何变革医疗保健:减少职业倦怠并提升患者护理挑战:临床医生超负荷与患者就医延迟全球医疗系统面临双重挑战:临床医生职业倦怠和患者就医延迟。医生们被行政任务淹没,而患者难以获得及时的医疗服务。在渥太华医院(TOH),领导者认识到这一问题,并转向AI寻求解决方案。通过整合Microsoft的DAX Copilot——一款AI驱动的临床文档助手,他们已经看到显著的改善:✔ 每次患者就诊节省7分钟✔ 临
6个必须了解的ChatGPT项目功能以提升AI性能 6个必须了解的ChatGPT项目功能以提升AI性能 ChatGPT项目迎来重大升级——以下是新功能OpenAI为ChatGPT项目推出了迄今为止最大的更新,将其从简单的组织工具转变为生产力 powerhouse。无论您是在管理研究、编码项目还是创意工作流,这六个新功能从根本上改变了您与AI的交互方式——使其更智能、更直观、在现实场景中更加实用。 让我们一一解析。 ChatGPT项目的6个变革性功能1. 语音模式来了(彻底改变游戏规则)语音模式不仅仅
OpenAI发布GPT-4.1未附安全报告 OpenAI发布GPT-4.1未附安全报告 OpenAI的GPT-4.1在没有安全报告的情况下发布——这意味着什么周一,OpenAI推出了其最新的AI模型GPT-4.1,该模型在性能上有所提升,尤其是在编程基准测试中。但与之前的发布不同,这次有一个明显的遗漏:没有安全报告。 通常,OpenAI会发布一份“系统卡”,详细说明内部和第三方安全评估,揭示潜在风险,如欺骗行为或非预期的说服能力。这些报告被视为AI开发中促进透明度的善意努力。 然
सूचना (0)
शीर्ष समाचार
2025 के शीर्ष AI वीडियो जनरेटर: Pika Labs बनाम विकल्प Openai बेहतर चैट के लिए AI वॉयस असिस्टेंट को बढ़ाता है GEMINI 2.5 प्रो अब असीमित और सस्ता क्लाउड की तुलना में सस्ता, GPT-4O एआई-संचालित I/O क्रॉसवर्ड का अनुभव करें: क्लासिक वर्ड गेम पर एक आधुनिक मोड़ एआई कंप्यूटिंग 2026 तक कई एनवाईसीएस की शक्ति का उपभोग करने के लिए, संस्थापक कहते हैं नोटबुकलम विश्व स्तर पर फैलता है, स्लाइड जोड़ता है और तथ्य-जाँच में वृद्धि करता है एनवीडिया के सीईओ ने दीपसेक के बाजार प्रभाव पर गलतफहमी को स्पष्ट किया गूगल के AI कदम आगे: Gemini 2.5 गहरा सोचता है, बेहतर बोलता है और तेज़ कोडिंग करता है यूएस डेटा सेंटर के लिए ट्वीक्स 76 GW नई बिजली क्षमता को अनलॉक कर सकते हैं AI वोइस क्लोनिंग: वोइस कनवर्सन में पकड़ हासिल करने का अंतिम गाइड
अधिक
शीर्ष पर वापस
OR