"कम अधिक है: कम दस्तावेजों को कैसे पुनर्प्राप्त करना एआई प्रतिक्रियाओं को बढ़ाता है"
पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) AI सिस्टम के निर्माण के लिए एक अभिनव दृष्टिकोण है, जो सटीकता को बढ़ाने और तथ्यात्मक त्रुटियों को कम करने के लिए एक बाहरी ज्ञान स्रोत के साथ एक भाषा मॉडल का संयोजन करता है। संक्षेप में, AI उपयोगकर्ता की क्वेरी से संबंधित प्रासंगिक दस्तावेजों की खोज करता है और इस जानकारी का उपयोग अधिक सटीक प्रतिक्रिया उत्पन्न करने के लिए करता है। इस पद्धति ने वास्तविक डेटा में बड़े भाषा मॉडल (एलएलएम) को रखने की क्षमता के लिए मान्यता प्राप्त की है, जो मतिभ्रम के जोखिम को कम करती है।
आप मान सकते हैं कि अधिक दस्तावेजों के साथ एआई प्रदान करने से बेहतर-सूचित उत्तर मिलेंगे। हालांकि, यरूशलेम के हिब्रू विश्वविद्यालय के एक हालिया अध्ययन से अन्यथा सुझाव दिया गया है: जब यह एआई को जानकारी खिलाने की बात आती है, तो कम वास्तव में अधिक हो सकता है।
कम दस्तावेज, बेहतर उत्तर
एक राग प्रणाली को प्रदान किए गए दस्तावेजों की संख्या इस बात पर आधारित है कि इसके प्रदर्शन को कैसे प्रभावित किया जाता है। शोधकर्ताओं ने एक सुसंगत कुल पाठ लंबाई बनाए रखी, दस्तावेज़ की गिनती को 20 से 2-4 प्रासंगिक लोगों से समायोजित किया और मूल पाठ की मात्रा से मेल खाने के लिए इनका विस्तार किया। इसने उन्हें प्रदर्शन पर दस्तावेज़ मात्रा के प्रभाव को अलग करने की अनुमति दी।
मूसिक डेटासेट का उपयोग करते हुए, जिसमें विकिपीडिया पैराग्राफ के साथ जोड़े गए ट्रिविया प्रश्न शामिल हैं, उन्होंने पाया कि एआई मॉडल अक्सर कम दस्तावेजों के साथ बेहतर प्रदर्शन करते हैं। सटीकता में 10% तक (एफ 1 स्कोर द्वारा मापा गया) में सुधार हुआ जब सिस्टम एक व्यापक संग्रह के बजाय केवल कुछ प्रमुख दस्तावेजों पर केंद्रित था। यह प्रवृत्ति विभिन्न ओपन-सोर्स भाषा मॉडल, जैसे कि मेटा के लामा, के साथ आयोजित की गई है, जिसमें क्यूवेन -2 उल्लेखनीय अपवाद है, कई दस्तावेजों के साथ अपने प्रदर्शन को बनाए रखता है।
स्रोत: लेवी एट अल।
यह आश्चर्यजनक परिणाम आम धारणा को चुनौती देता है कि अधिक जानकारी हमेशा मदद करती है। यहां तक कि पाठ की समान मात्रा के साथ, कई दस्तावेजों की उपस्थिति एआई के कार्य को जटिल करने के लिए लग रही थी, सिग्नल की तुलना में अधिक शोर का परिचय।
क्यों कम चीर में अधिक हो सकता है
"कम अधिक है" सिद्धांत तब समझ में आता है जब हम विचार करते हैं कि एआई मॉडल कैसे जानकारी प्रक्रिया करता है। कम, अधिक प्रासंगिक दस्तावेजों के साथ, एआई विकर्षण के बिना आवश्यक संदर्भ पर ध्यान केंद्रित कर सकता है, बहुत कुछ एक छात्र की तरह सबसे प्रासंगिक सामग्री का अध्ययन करता है।
अध्ययन में, मॉडल ने बेहतर प्रदर्शन किया जब केवल उत्तर के लिए प्रासंगिक दस्तावेज दिए गए, क्योंकि इस क्लीनर, केंद्रित संदर्भ ने सही जानकारी को निकालना आसान बना दिया। इसके विपरीत, जब एआई को कई दस्तावेजों के माध्यम से झारना पड़ा, तो यह अक्सर प्रासंगिक और अप्रासंगिक सामग्री के मिश्रण से जूझता था। इसी तरह के लेकिन असंबंधित दस्तावेज मॉडल को गुमराह कर सकते हैं, जिससे मतिभ्रम का खतरा बढ़ सकता है।
दिलचस्प बात यह है कि अध्ययन में पाया गया कि एआई अधिक आसानी से उन लोगों की तुलना में स्पष्ट रूप से अप्रासंगिक दस्तावेजों को अनदेखा कर सकता है। इससे पता चलता है कि यथार्थवादी डिस्ट्रेक्टर्स यादृच्छिक लोगों की तुलना में अधिक भ्रामक हैं। केवल आवश्यक लोगों तक दस्तावेजों को सीमित करके, हम इस तरह के जाल स्थापित करने की संभावना को कम करते हैं।
इसके अतिरिक्त, कम दस्तावेजों का उपयोग करने से कम्प्यूटेशनल ओवरहेड कम हो जाता है, जिससे सिस्टम अधिक कुशल और लागत प्रभावी हो जाता है। यह दृष्टिकोण न केवल सटीकता में सुधार करता है, बल्कि आरएजी प्रणाली के समग्र प्रदर्शन को भी बढ़ाता है।
स्रोत: लेवी एट अल।
RETHINKING RAG: भविष्य के निर्देश
इन निष्कर्षों में भविष्य के एआई प्रणालियों के डिजाइन के लिए महत्वपूर्ण निहितार्थ हैं जो बाहरी ज्ञान पर भरोसा करते हैं। यह बताता है कि पुनर्प्राप्त दस्तावेजों की गुणवत्ता और प्रासंगिकता पर ध्यान केंद्रित करना, उनकी मात्रा के बजाय, प्रदर्शन को बढ़ा सकता है। अध्ययन के लेखक पुनर्प्राप्ति तरीकों की वकालत करते हैं जो प्रासंगिकता और विविधता को संतुलित करते हैं, जो बाहरी पाठ के साथ मॉडल को अभिभूत किए बिना व्यापक कवरेज सुनिश्चित करते हैं।
भविष्य के शोध में बेहतर रिट्रीवर सिस्टम या री-रैंकरों का पता लगाया जा सकता है ताकि वास्तव में मूल्यवान दस्तावेजों की पहचान की जा सके और यह सुधार हो सके कि भाषा मॉडल कई स्रोतों को कैसे संभालते हैं। मॉडल को स्वयं बढ़ाना, जैसा कि Qwen-2 के साथ देखा गया है, वे भी विविध इनपुट के लिए उन्हें अधिक मजबूत बनाने में अंतर्दृष्टि प्रदान कर सकते हैं।
जैसा कि एआई सिस्टम बड़े संदर्भ विंडो को विकसित करते हैं, एक बार में अधिक पाठ को संसाधित करने की क्षमता पाठ को सुनिश्चित करने की तुलना में कम महत्वपूर्ण हो जाती है। अध्ययन, "अधिक दस्तावेज, समान लंबाई" शीर्षक से, एआई सटीकता और दक्षता में सुधार करने के लिए सबसे प्रासंगिक जानकारी पर ध्यान केंद्रित करने के महत्व को रेखांकित करता है।
अंत में, यह शोध एआई सिस्टम में डेटा इनपुट के बारे में हमारी धारणाओं को चुनौती देता है। कम, बेहतर दस्तावेजों का सावधानीपूर्वक चयन करके, हम अधिक सटीक और भरोसेमंद उत्तर देने वाले होशियार, लीनर रैग सिस्टम बना सकते हैं।
संबंधित लेख
AI in Medical Advisories: Transforming Healthcare
कृत्रिम बुद्धिमत्ता तेजी से स्वास्थ्य सेवा परिदृश्य को बदल रही है, और इसका कारण समझना मुश्किल नहीं है। तकनीकी प्रगति की गति ने उन संभावनाओं के द्वार खोल दिए हैं जो पहले असंभव मानी जाती थीं। यह लेख चिक
Aulani, Disney's Resort & Spa: Your Family's Ultimate Hawaiian Getaway
Aulani की खोज: डिज़्नी के स्पर्श के साथ एक हवाईयन स्वर्गक्या आप एक ऐसी पारिवारिक छुट्टी का सपना देख रहे हैं जो डिज़्नी के जादू को हवाई की अद्भुत सुंदरता के साथ जोड़े? Aulani, एक Disney Resort & Spa, ज
Airbnb अमेरिका में चुपके से AI ग्राहक सेवा बॉट लॉन्च कर रहा है
Airbnb AI-संचालित ग्राहक सेवा को नई ऊंचाइयों पर ले जा रहा हैपिछले महीने, Airbnb की पहली तिमाही की आय कॉल के दौरान, CEO ब्रायन चेस्की ने घोषणा की कि कंपनी ने अमेरिका में एक AI-संचालित ग्राहक सेवा बॉट ल
सूचना (45)
0/200
JamesBaker
13 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
This RAG thing is pretty cool, it's like the AI does its homework before answering! Love how it makes responses more accurate, but sometimes it feels like it's overdoing it. Maybe less is really more, huh?
0
HenryJackson
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
RAGって面白いね、AIが答える前にちゃんと勉強してる感じ!回答が正確になるのが好きだけど、時々やり過ぎな気もする。やっぱり少ない方が良いのかもね?
0
AlbertThomas
12 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
RAG 정말 재미있네요, AI가 답변하기 전에 공부하는 것 같아요! 답변이 더 정확해지는 게 좋지만, 가끔은 너무 과하게 느껴지네요. 역시 적은 것이 더 나은 걸까요?
0
PaulRoberts
11 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Essa coisa de RAG é bem legal, parece que o AI faz a lição de casa antes de responder! Adoro como torna as respostas mais precisas, mas às vezes parece que está exagerando. Talvez menos realmente seja mais, né?
0
BrianMartinez
10 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
Esto de RAG es bastante genial, ¡es como si el AI hiciera la tarea antes de responder! Me encanta cómo hace las respuestas más precisas, pero a veces siento que se excede. Tal vez menos es más, ¿eh?
0
RogerLee
14 अप्रैल 2025 12:00:00 पूर्वाह्न GMT
The 'Less Is More' approach in AI is pretty smart! It's cool how retrieving fewer documents can actually improve the AI's responses. Sometimes, though, it feels like it misses out on some details. Still, it's a solid method for enhancing AI accuracy! 🤓
0
पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) AI सिस्टम के निर्माण के लिए एक अभिनव दृष्टिकोण है, जो सटीकता को बढ़ाने और तथ्यात्मक त्रुटियों को कम करने के लिए एक बाहरी ज्ञान स्रोत के साथ एक भाषा मॉडल का संयोजन करता है। संक्षेप में, AI उपयोगकर्ता की क्वेरी से संबंधित प्रासंगिक दस्तावेजों की खोज करता है और इस जानकारी का उपयोग अधिक सटीक प्रतिक्रिया उत्पन्न करने के लिए करता है। इस पद्धति ने वास्तविक डेटा में बड़े भाषा मॉडल (एलएलएम) को रखने की क्षमता के लिए मान्यता प्राप्त की है, जो मतिभ्रम के जोखिम को कम करती है।
आप मान सकते हैं कि अधिक दस्तावेजों के साथ एआई प्रदान करने से बेहतर-सूचित उत्तर मिलेंगे। हालांकि, यरूशलेम के हिब्रू विश्वविद्यालय के एक हालिया अध्ययन से अन्यथा सुझाव दिया गया है: जब यह एआई को जानकारी खिलाने की बात आती है, तो कम वास्तव में अधिक हो सकता है।
कम दस्तावेज, बेहतर उत्तर
एक राग प्रणाली को प्रदान किए गए दस्तावेजों की संख्या इस बात पर आधारित है कि इसके प्रदर्शन को कैसे प्रभावित किया जाता है। शोधकर्ताओं ने एक सुसंगत कुल पाठ लंबाई बनाए रखी, दस्तावेज़ की गिनती को 20 से 2-4 प्रासंगिक लोगों से समायोजित किया और मूल पाठ की मात्रा से मेल खाने के लिए इनका विस्तार किया। इसने उन्हें प्रदर्शन पर दस्तावेज़ मात्रा के प्रभाव को अलग करने की अनुमति दी।
मूसिक डेटासेट का उपयोग करते हुए, जिसमें विकिपीडिया पैराग्राफ के साथ जोड़े गए ट्रिविया प्रश्न शामिल हैं, उन्होंने पाया कि एआई मॉडल अक्सर कम दस्तावेजों के साथ बेहतर प्रदर्शन करते हैं। सटीकता में 10% तक (एफ 1 स्कोर द्वारा मापा गया) में सुधार हुआ जब सिस्टम एक व्यापक संग्रह के बजाय केवल कुछ प्रमुख दस्तावेजों पर केंद्रित था। यह प्रवृत्ति विभिन्न ओपन-सोर्स भाषा मॉडल, जैसे कि मेटा के लामा, के साथ आयोजित की गई है, जिसमें क्यूवेन -2 उल्लेखनीय अपवाद है, कई दस्तावेजों के साथ अपने प्रदर्शन को बनाए रखता है।
स्रोत: लेवी एट अल।
यह आश्चर्यजनक परिणाम आम धारणा को चुनौती देता है कि अधिक जानकारी हमेशा मदद करती है। यहां तक कि पाठ की समान मात्रा के साथ, कई दस्तावेजों की उपस्थिति एआई के कार्य को जटिल करने के लिए लग रही थी, सिग्नल की तुलना में अधिक शोर का परिचय।
क्यों कम चीर में अधिक हो सकता है
"कम अधिक है" सिद्धांत तब समझ में आता है जब हम विचार करते हैं कि एआई मॉडल कैसे जानकारी प्रक्रिया करता है। कम, अधिक प्रासंगिक दस्तावेजों के साथ, एआई विकर्षण के बिना आवश्यक संदर्भ पर ध्यान केंद्रित कर सकता है, बहुत कुछ एक छात्र की तरह सबसे प्रासंगिक सामग्री का अध्ययन करता है।
अध्ययन में, मॉडल ने बेहतर प्रदर्शन किया जब केवल उत्तर के लिए प्रासंगिक दस्तावेज दिए गए, क्योंकि इस क्लीनर, केंद्रित संदर्भ ने सही जानकारी को निकालना आसान बना दिया। इसके विपरीत, जब एआई को कई दस्तावेजों के माध्यम से झारना पड़ा, तो यह अक्सर प्रासंगिक और अप्रासंगिक सामग्री के मिश्रण से जूझता था। इसी तरह के लेकिन असंबंधित दस्तावेज मॉडल को गुमराह कर सकते हैं, जिससे मतिभ्रम का खतरा बढ़ सकता है।
दिलचस्प बात यह है कि अध्ययन में पाया गया कि एआई अधिक आसानी से उन लोगों की तुलना में स्पष्ट रूप से अप्रासंगिक दस्तावेजों को अनदेखा कर सकता है। इससे पता चलता है कि यथार्थवादी डिस्ट्रेक्टर्स यादृच्छिक लोगों की तुलना में अधिक भ्रामक हैं। केवल आवश्यक लोगों तक दस्तावेजों को सीमित करके, हम इस तरह के जाल स्थापित करने की संभावना को कम करते हैं।
इसके अतिरिक्त, कम दस्तावेजों का उपयोग करने से कम्प्यूटेशनल ओवरहेड कम हो जाता है, जिससे सिस्टम अधिक कुशल और लागत प्रभावी हो जाता है। यह दृष्टिकोण न केवल सटीकता में सुधार करता है, बल्कि आरएजी प्रणाली के समग्र प्रदर्शन को भी बढ़ाता है।
स्रोत: लेवी एट अल।
RETHINKING RAG: भविष्य के निर्देश
इन निष्कर्षों में भविष्य के एआई प्रणालियों के डिजाइन के लिए महत्वपूर्ण निहितार्थ हैं जो बाहरी ज्ञान पर भरोसा करते हैं। यह बताता है कि पुनर्प्राप्त दस्तावेजों की गुणवत्ता और प्रासंगिकता पर ध्यान केंद्रित करना, उनकी मात्रा के बजाय, प्रदर्शन को बढ़ा सकता है। अध्ययन के लेखक पुनर्प्राप्ति तरीकों की वकालत करते हैं जो प्रासंगिकता और विविधता को संतुलित करते हैं, जो बाहरी पाठ के साथ मॉडल को अभिभूत किए बिना व्यापक कवरेज सुनिश्चित करते हैं।
भविष्य के शोध में बेहतर रिट्रीवर सिस्टम या री-रैंकरों का पता लगाया जा सकता है ताकि वास्तव में मूल्यवान दस्तावेजों की पहचान की जा सके और यह सुधार हो सके कि भाषा मॉडल कई स्रोतों को कैसे संभालते हैं। मॉडल को स्वयं बढ़ाना, जैसा कि Qwen-2 के साथ देखा गया है, वे भी विविध इनपुट के लिए उन्हें अधिक मजबूत बनाने में अंतर्दृष्टि प्रदान कर सकते हैं।
जैसा कि एआई सिस्टम बड़े संदर्भ विंडो को विकसित करते हैं, एक बार में अधिक पाठ को संसाधित करने की क्षमता पाठ को सुनिश्चित करने की तुलना में कम महत्वपूर्ण हो जाती है। अध्ययन, "अधिक दस्तावेज, समान लंबाई" शीर्षक से, एआई सटीकता और दक्षता में सुधार करने के लिए सबसे प्रासंगिक जानकारी पर ध्यान केंद्रित करने के महत्व को रेखांकित करता है।
अंत में, यह शोध एआई सिस्टम में डेटा इनपुट के बारे में हमारी धारणाओं को चुनौती देता है। कम, बेहतर दस्तावेजों का सावधानीपूर्वक चयन करके, हम अधिक सटीक और भरोसेमंद उत्तर देने वाले होशियार, लीनर रैग सिस्टम बना सकते हैं।




This RAG thing is pretty cool, it's like the AI does its homework before answering! Love how it makes responses more accurate, but sometimes it feels like it's overdoing it. Maybe less is really more, huh?




RAGって面白いね、AIが答える前にちゃんと勉強してる感じ!回答が正確になるのが好きだけど、時々やり過ぎな気もする。やっぱり少ない方が良いのかもね?




RAG 정말 재미있네요, AI가 답변하기 전에 공부하는 것 같아요! 답변이 더 정확해지는 게 좋지만, 가끔은 너무 과하게 느껴지네요. 역시 적은 것이 더 나은 걸까요?




Essa coisa de RAG é bem legal, parece que o AI faz a lição de casa antes de responder! Adoro como torna as respostas mais precisas, mas às vezes parece que está exagerando. Talvez menos realmente seja mais, né?




Esto de RAG es bastante genial, ¡es como si el AI hiciera la tarea antes de responder! Me encanta cómo hace las respuestas más precisas, pero a veces siento que se excede. Tal vez menos es más, ¿eh?




The 'Less Is More' approach in AI is pretty smart! It's cool how retrieving fewer documents can actually improve the AI's responses. Sometimes, though, it feels like it misses out on some details. Still, it's a solid method for enhancing AI accuracy! 🤓












