सेल फोन डेटा और मशीन लर्निंग के साथ हमारी 'छिपी हुई यात्राओं' को उजागर करना
यदि आपने कभी सोचा है कि शोधकर्ता केवल फोन कॉल्स पर निर्भर किए बिना पूरे देश में हमारी गतिविधियों को कैसे ट्रैक करते हैं, तो चीन और संयुक्त राज्य अमेरिका के शोधकर्ताओं द्वारा किया गया एक आकर्षक अध्ययन कुछ जानकारी प्रदान करता है। उनका सहयोगी कार्य मशीन लर्निंग का उपयोग करके उन 'छिपी यात्राओं' को उजागर करने में गहराई से जाता है जो हम करते हैं—वे यात्राएँ जो मानक टेलीकॉम डेटा में दिखाई नहीं देतीं क्योंकि हम अपने फोन का पर्याप्त उपयोग नहीं कर रहे होते।
अध्ययन, जिसका शीर्षक है **Identifying Hidden Visits From Sparse Call Detail Record Data**, हॉन्ग कॉन्ग विश्वविद्यालय के झान झाओ, बोस्टन के नॉर्थईस्टर्न विश्वविद्यालय के हारिस एन. काउट्सोपोलोस, और MIT के जिन्हुआ झाओ द्वारा नेतृत्व किया गया है। उनका लक्ष्य? मोबाइल कनेक्टिविटी रिकॉर्ड्स—जैसे मोबाइल डेटा, SMS, और वॉयस कॉल्स—का उपयोग करके अत्यधिक सक्रिय उपयोगकर्ताओं से उन लोगों के गतिविधि पैटर्न को मॉडल करने और अनुमान लगाने के लिए जो अपने फोन का कम उपयोग करते हैं।
*कॉल डिटेल रिकॉर्ड (CD) डेटा से यात्रा जानकारी निकालने के लिए एक मोटा योजनाबद्ध चित्र।* स्रोत: https://arxiv.org/pdf/2106.12885.pdf
हालांकि टीम अपने काम से उत्पन्न होने वाली संभावित गोपनीयता चिंताओं को स्वीकार करती है, वे जोर देते हैं कि उनका उद्देश्य व्यक्तिगत यात्राओं पर ध्यान केंद्रित करने के बजाय गतिविधि पैटर्न की सामान्य समझ प्राप्त करना है। वे यह भी बताते हैं कि कॉल डिटेल रिकॉर्ड (CDR) डेटा, जो इस तरह के अध्ययनों की रीढ़ है, की अपनी सीमाएँ हैं। यह अक्सर स्थानिक रिज़ॉल्यूशन में कम होता है और उपयोगकर्ता की सेल फोन टावरों के सापेक्ष बदलती स्थिति के कारण 'पोजिशनिंग नॉइज़' के प्रति संवेदनशील होता है। हालांकि, वे तर्क देते हैं कि यह अशुद्धि वास्तव में गोपनीयता के लिए एक सुरक्षा कवच के रूप में कार्य करती है:
**‘हमारे अध्ययन का लक्ष्य अनुप्रयोग यात्रा पहचान और OD अनुमान$$ \* $$ है, जो समग्र स्तर पर किए जाते हैं, न कि व्यक्तिगत स्तर पर। विकसित मॉडल्स को टेलीकॉम कैरियर्स के डेटाबेस सर्वरों पर सीधे तैनात किया जा सकता है, बिना डेटा स्थानांतरण की आवश्यकता के। इसके अलावा, अन्य प्रकार के बड़े डेटा, जैसे सोशल मीडिया या क्रेडिट कार्ड लेनदेन डेटा की तुलना में, CDR डेटा व्यक्तिगत गोपनीयता के मामले में अपेक्षाकृत कम हस्तक्षेपकारी है। इसके अतिरिक्त, इसकी स्थानिक त्रुटि उपयोगकर्ता के सटीक स्थान को छिपाने में मदद करती है, जो गोपनीयता संरक्षण की एक और परत प्रदान करती है।'**
बीता हुआ समय अंतराल (ETIs)
जब हम अपने मोबाइल फोनों के साथ, जो जरूरी नहीं कि स्मार्टफोन हों, यात्रा पर होते हैं, तो CDR डेटा की हमारी स्थिति को ठीक करने के लिए एक उपकरण के रूप में सीमाएँ स्पष्ट हो जाती हैं। बीता हुआ समय अंतराल (ETIs), यात्रा के दौरान वे अवधियाँ जब हम कॉल नहीं करते या प्राप्त नहीं करते, हमारी गतिविधियों को ट्रैक करने के लिए महत्वपूर्ण संकेतक हैं। ये 'मौन' के अंतराल हमें अस्थायी रूप से ग्रिड से गायब कर सकते हैं।
शोधकर्ता इस बात पर प्रकाश डालते हैं कि ये अंतराल विश्लेषणात्मक प्रणालियों को A>B यात्राओं को समझने में बाधा डालते हैं। डेटा की कमी एक 'अनदेखी यात्रा' को छिपा सकती है। उनकी नई विधि ETIs के स्थान-काल संदर्भ का विश्लेषण करके और 'उपयोगकर्ता की व्यक्तिगत विशेषताओं' पर विचार करके इस समस्या से निपटती है।
डेटासेट
अपने मुख्य प्रशिक्षण सेट को बनाने के लिए, शोधकर्ताओं ने 60 लाख की आबादी वाले एक चीनी शहर में एक प्रमुख सेलुलर सेवा ऑपरेटर से डेटा का उपयोग किया। इस डेटासेट में नवंबर 2013 में 30 लाख उपयोगकर्ताओं से दो अरब से अधिक मोबाइल फोन लेनदेन शामिल थे, जो केवल वॉयस कॉल्स और डेटा एक्सेस रिकॉर्ड्स पर केंद्रित थे। विशेष रूप से, उन्होंने SMS डेटा को शामिल नहीं किया, जिसने डेटा की कमी से निपटने की चुनौती को बढ़ा दिया।
डेटा में एक एन्क्रिप्टेड अद्वितीय ID, एक स्थान क्षेत्र कोड (LAC), एक टाइमस्टैंप, LAC से जुड़ा एक सेल फोन ID जो लेनदेन में शामिल विशिष्ट सेल फोन टावर को पहचानता है, और एक इवेंट ID शामिल था जो यह दर्शाता था कि यह एक आउटगोइंग/इनकमिंग कॉल या डेटा उपयोग था।
*छिपी यात्राओं की पहचान के लिए प्रक्रिया वृक्ष।*
इस जानकारी को सेल टावर ऑपरेशन डेटाबेस के साथ क्रॉस-रेफरेंस किया गया, जिससे शोधकर्ताओं को प्रत्येक संचार घटना से जुड़े टावर के अक्षांश और देशांतर निर्देशांक को ठीक करने में सक्षम बनाया। उन्होंने डेटासेट के भीतर 9000 सेल टावरों की पहचान की।
शोधकर्ताओं ने नोट किया कि केवल कॉल रिकॉर्ड्स के आधार पर यात्रा गंतव्यों का सटीक अनुमान लगाना मुश्किल है, क्योंकि ये रिकॉर्ड्स सुबह और दोपहर में चरम पर होते हैं, जो सामान्य यात्रा पैटर्न के साथ मेल खाते हैं। चूंकि फोन कॉल्स यात्रा से पहले हो सकते हैं और यहां तक कि इसे शुरू कर सकते हैं, इससे गंतव्य अनुमान में त्रुटि हो सकती है।
*दिन के दौरान मोबाइल उपयोग पैटर्न।*
उपयोगकर्ता द्वारा शुरू किए गए डेटा उपयोग, जैसे मैसेजिंग ऐप्स, के साथ भी इसी तरह की चुनौतियाँ उत्पन्न होती हैं। हालांकि, यह 'स्वचालित' डेटा उपयोग—जैसे नए संदेशों या अन्य डेटा, जिसमें GPS और ऐप्स में टेलीमेट्री शामिल है, के लिए APIs का व्यवस्थित पूछताछ—इन छिपी गतिविधियों की पहचान में मदद करता है।
प्रसंस्करण
शोधकर्ताओं ने इस समस्या से निपटने के लिए विभिन्न मशीन लर्निंग क्लासिफायर्स का उपयोग किया, जिसमें लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीनें (SVM), रैंडम फॉरेस्ट्स, और एक ग्रेडिएंट बूस्टिंग एनसेंबल दृष्टिकोण शामिल थे। इन्हें पायथन में scikit-learn का उपयोग करके डिफ़ॉल्ट सेटिंग्स के साथ लागू किया गया।
इनमें से, लॉजिस्टिक रिग्रेशन ने सबसे अधिक व्याख्या योग्य मॉडल पैरामीटर्स प्रदान किए। टीम ने यह भी पाया कि लंबे ETIs ने छिपी यात्रा होने की संभावना को बढ़ा दिया, विशेष रूप से सुबह में। इसके विपरीत, जब उपयोगकर्ता का CDR डेटा स्पष्ट रूप से कई गंतव्यों या मार्ग बिंदुओं को दर्शाता था, तो छिपी यात्रा की संभावना कम थी। यह खोज उनके शोध के मूल सिद्धांत का समर्थन करती है—कि सबसे सक्रिय उपयोगकर्ता अपनी गतिविधियों का विस्तृत चित्र प्रदान करते हैं, जिससे कम सक्रिय उपयोगकर्ताओं के व्यवहार का अनुमान लगाया जा सकता है।
अपने निष्कर्ष में, शोधकर्ताओं ने सुझाव दिया कि उनकी दृष्टिकोण को अन्य प्रकार के पारगमन डेटा, जैसे स्मार्ट कार्ड डेटा और भौगोलिक रूप से स्थानबद्ध सोशल मीडिया जानकारी पर लागू किया जा सकता है।
शोध को एनर्जी फाउंडेशन चाइना और चाइना सस्टेनेबल ट्रांसपोर्टेशन सेंटर से वित्त पोषण द्वारा समर्थित किया गया था।
*\* उत्पत्ति-गंतव्य*
संबंधित लेख
Microsoft Study Reveals AI Models' Limitations in Software Debugging
OpenAI, Anthropic और अन्य प्रमुख AI लैब्स के AI मॉडल कोडिंग कार्यों के लिए तेजी से उपयोग किए जा रहे हैं। Google CEO Sundar Pichai ने अक्टूबर में नोट किया कि AI कंपनी में 25% नए कोड जनरेट करता है, जबकि
AI-चालित समाधान वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकते हैं
लंदन स्कूल ऑफ इकोनॉमिक्स और सिस्टमिक के एक हालिया अध्ययन से पता चलता है कि कृत्रिम बुद्धिमत्ता (AI) आधुनिक सुविधाओं को त्यागे बिना वैश्विक कार्बन उत्सर्जन को काफी हद तक कम कर सकती है, जिससे AI जलवायु
नई अध्ययन से पता चलता है कि LLM वास्तव में कितना डेटा याद करते हैं
AI मॉडल वास्तव में कितना याद करते हैं? नया शोध आश्चर्यजनक जानकारी देता हैहम सभी जानते हैं कि बड़े भाषा मॉडल (LLM) जैसे ChatGPT, Claude, और Gemini को किताबों, वेबसाइटों, कोड और यहां तक कि चित्रों और ऑड
सूचना (16)
0/200
JuanLewis
1 अगस्त 2025 7:17:34 अपराह्न IST
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.
0
RalphSanchez
24 अप्रैल 2025 10:06:16 पूर्वाह्न IST
이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓
0
MatthewScott
24 अप्रैल 2025 3:05:24 पूर्वाह्न IST
¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔
0
RalphHill
24 अप्रैल 2025 2:21:52 पूर्वाह्न IST
Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱
0
WilliamMiller
23 अप्रैल 2025 4:35:02 अपराह्न IST
Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔
0
RaymondRodriguez
23 अप्रैल 2025 4:07:03 अपराह्न IST
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
यदि आपने कभी सोचा है कि शोधकर्ता केवल फोन कॉल्स पर निर्भर किए बिना पूरे देश में हमारी गतिविधियों को कैसे ट्रैक करते हैं, तो चीन और संयुक्त राज्य अमेरिका के शोधकर्ताओं द्वारा किया गया एक आकर्षक अध्ययन कुछ जानकारी प्रदान करता है। उनका सहयोगी कार्य मशीन लर्निंग का उपयोग करके उन 'छिपी यात्राओं' को उजागर करने में गहराई से जाता है जो हम करते हैं—वे यात्राएँ जो मानक टेलीकॉम डेटा में दिखाई नहीं देतीं क्योंकि हम अपने फोन का पर्याप्त उपयोग नहीं कर रहे होते।
अध्ययन, जिसका शीर्षक है **Identifying Hidden Visits From Sparse Call Detail Record Data**, हॉन्ग कॉन्ग विश्वविद्यालय के झान झाओ, बोस्टन के नॉर्थईस्टर्न विश्वविद्यालय के हारिस एन. काउट्सोपोलोस, और MIT के जिन्हुआ झाओ द्वारा नेतृत्व किया गया है। उनका लक्ष्य? मोबाइल कनेक्टिविटी रिकॉर्ड्स—जैसे मोबाइल डेटा, SMS, और वॉयस कॉल्स—का उपयोग करके अत्यधिक सक्रिय उपयोगकर्ताओं से उन लोगों के गतिविधि पैटर्न को मॉडल करने और अनुमान लगाने के लिए जो अपने फोन का कम उपयोग करते हैं।
*कॉल डिटेल रिकॉर्ड (CD) डेटा से यात्रा जानकारी निकालने के लिए एक मोटा योजनाबद्ध चित्र।* स्रोत: https://arxiv.org/pdf/2106.12885.pdf
हालांकि टीम अपने काम से उत्पन्न होने वाली संभावित गोपनीयता चिंताओं को स्वीकार करती है, वे जोर देते हैं कि उनका उद्देश्य व्यक्तिगत यात्राओं पर ध्यान केंद्रित करने के बजाय गतिविधि पैटर्न की सामान्य समझ प्राप्त करना है। वे यह भी बताते हैं कि कॉल डिटेल रिकॉर्ड (CDR) डेटा, जो इस तरह के अध्ययनों की रीढ़ है, की अपनी सीमाएँ हैं। यह अक्सर स्थानिक रिज़ॉल्यूशन में कम होता है और उपयोगकर्ता की सेल फोन टावरों के सापेक्ष बदलती स्थिति के कारण 'पोजिशनिंग नॉइज़' के प्रति संवेदनशील होता है। हालांकि, वे तर्क देते हैं कि यह अशुद्धि वास्तव में गोपनीयता के लिए एक सुरक्षा कवच के रूप में कार्य करती है:
**‘हमारे अध्ययन का लक्ष्य अनुप्रयोग यात्रा पहचान और OD अनुमान$$ \* $$ है, जो समग्र स्तर पर किए जाते हैं, न कि व्यक्तिगत स्तर पर। विकसित मॉडल्स को टेलीकॉम कैरियर्स के डेटाबेस सर्वरों पर सीधे तैनात किया जा सकता है, बिना डेटा स्थानांतरण की आवश्यकता के। इसके अलावा, अन्य प्रकार के बड़े डेटा, जैसे सोशल मीडिया या क्रेडिट कार्ड लेनदेन डेटा की तुलना में, CDR डेटा व्यक्तिगत गोपनीयता के मामले में अपेक्षाकृत कम हस्तक्षेपकारी है। इसके अतिरिक्त, इसकी स्थानिक त्रुटि उपयोगकर्ता के सटीक स्थान को छिपाने में मदद करती है, जो गोपनीयता संरक्षण की एक और परत प्रदान करती है।'**
बीता हुआ समय अंतराल (ETIs)
जब हम अपने मोबाइल फोनों के साथ, जो जरूरी नहीं कि स्मार्टफोन हों, यात्रा पर होते हैं, तो CDR डेटा की हमारी स्थिति को ठीक करने के लिए एक उपकरण के रूप में सीमाएँ स्पष्ट हो जाती हैं। बीता हुआ समय अंतराल (ETIs), यात्रा के दौरान वे अवधियाँ जब हम कॉल नहीं करते या प्राप्त नहीं करते, हमारी गतिविधियों को ट्रैक करने के लिए महत्वपूर्ण संकेतक हैं। ये 'मौन' के अंतराल हमें अस्थायी रूप से ग्रिड से गायब कर सकते हैं।
शोधकर्ता इस बात पर प्रकाश डालते हैं कि ये अंतराल विश्लेषणात्मक प्रणालियों को A>B यात्राओं को समझने में बाधा डालते हैं। डेटा की कमी एक 'अनदेखी यात्रा' को छिपा सकती है। उनकी नई विधि ETIs के स्थान-काल संदर्भ का विश्लेषण करके और 'उपयोगकर्ता की व्यक्तिगत विशेषताओं' पर विचार करके इस समस्या से निपटती है।
डेटासेट
अपने मुख्य प्रशिक्षण सेट को बनाने के लिए, शोधकर्ताओं ने 60 लाख की आबादी वाले एक चीनी शहर में एक प्रमुख सेलुलर सेवा ऑपरेटर से डेटा का उपयोग किया। इस डेटासेट में नवंबर 2013 में 30 लाख उपयोगकर्ताओं से दो अरब से अधिक मोबाइल फोन लेनदेन शामिल थे, जो केवल वॉयस कॉल्स और डेटा एक्सेस रिकॉर्ड्स पर केंद्रित थे। विशेष रूप से, उन्होंने SMS डेटा को शामिल नहीं किया, जिसने डेटा की कमी से निपटने की चुनौती को बढ़ा दिया।
डेटा में एक एन्क्रिप्टेड अद्वितीय ID, एक स्थान क्षेत्र कोड (LAC), एक टाइमस्टैंप, LAC से जुड़ा एक सेल फोन ID जो लेनदेन में शामिल विशिष्ट सेल फोन टावर को पहचानता है, और एक इवेंट ID शामिल था जो यह दर्शाता था कि यह एक आउटगोइंग/इनकमिंग कॉल या डेटा उपयोग था।
*छिपी यात्राओं की पहचान के लिए प्रक्रिया वृक्ष।*
इस जानकारी को सेल टावर ऑपरेशन डेटाबेस के साथ क्रॉस-रेफरेंस किया गया, जिससे शोधकर्ताओं को प्रत्येक संचार घटना से जुड़े टावर के अक्षांश और देशांतर निर्देशांक को ठीक करने में सक्षम बनाया। उन्होंने डेटासेट के भीतर 9000 सेल टावरों की पहचान की।
शोधकर्ताओं ने नोट किया कि केवल कॉल रिकॉर्ड्स के आधार पर यात्रा गंतव्यों का सटीक अनुमान लगाना मुश्किल है, क्योंकि ये रिकॉर्ड्स सुबह और दोपहर में चरम पर होते हैं, जो सामान्य यात्रा पैटर्न के साथ मेल खाते हैं। चूंकि फोन कॉल्स यात्रा से पहले हो सकते हैं और यहां तक कि इसे शुरू कर सकते हैं, इससे गंतव्य अनुमान में त्रुटि हो सकती है।
*दिन के दौरान मोबाइल उपयोग पैटर्न।*
उपयोगकर्ता द्वारा शुरू किए गए डेटा उपयोग, जैसे मैसेजिंग ऐप्स, के साथ भी इसी तरह की चुनौतियाँ उत्पन्न होती हैं। हालांकि, यह 'स्वचालित' डेटा उपयोग—जैसे नए संदेशों या अन्य डेटा, जिसमें GPS और ऐप्स में टेलीमेट्री शामिल है, के लिए APIs का व्यवस्थित पूछताछ—इन छिपी गतिविधियों की पहचान में मदद करता है।
प्रसंस्करण
शोधकर्ताओं ने इस समस्या से निपटने के लिए विभिन्न मशीन लर्निंग क्लासिफायर्स का उपयोग किया, जिसमें लॉजिस्टिक रिग्रेशन, सपोर्ट वेक्टर मशीनें (SVM), रैंडम फॉरेस्ट्स, और एक ग्रेडिएंट बूस्टिंग एनसेंबल दृष्टिकोण शामिल थे। इन्हें पायथन में scikit-learn का उपयोग करके डिफ़ॉल्ट सेटिंग्स के साथ लागू किया गया।
इनमें से, लॉजिस्टिक रिग्रेशन ने सबसे अधिक व्याख्या योग्य मॉडल पैरामीटर्स प्रदान किए। टीम ने यह भी पाया कि लंबे ETIs ने छिपी यात्रा होने की संभावना को बढ़ा दिया, विशेष रूप से सुबह में। इसके विपरीत, जब उपयोगकर्ता का CDR डेटा स्पष्ट रूप से कई गंतव्यों या मार्ग बिंदुओं को दर्शाता था, तो छिपी यात्रा की संभावना कम थी। यह खोज उनके शोध के मूल सिद्धांत का समर्थन करती है—कि सबसे सक्रिय उपयोगकर्ता अपनी गतिविधियों का विस्तृत चित्र प्रदान करते हैं, जिससे कम सक्रिय उपयोगकर्ताओं के व्यवहार का अनुमान लगाया जा सकता है।
अपने निष्कर्ष में, शोधकर्ताओं ने सुझाव दिया कि उनकी दृष्टिकोण को अन्य प्रकार के पारगमन डेटा, जैसे स्मार्ट कार्ड डेटा और भौगोलिक रूप से स्थानबद्ध सोशल मीडिया जानकारी पर लागू किया जा सकता है।
शोध को एनर्जी फाउंडेशन चाइना और चाइना सस्टेनेबल ट्रांसपोर्टेशन सेंटर से वित्त पोषण द्वारा समर्थित किया गया था।
*\* उत्पत्ति-गंतव्य*



This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.




이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓




¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔




Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱




Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚












