

Découvrir nos «visites cachées» avec des données de téléphone portable et un apprentissage automatique
22 avril 2025
JustinScott
0
Si vous vous êtes déjà demandé comment les chercheurs suivent nos mouvements à travers un pays sans s'appuyer uniquement sur les appels téléphoniques, une étude fascinante des chercheurs de Chine et des États-Unis offre un aperçu. Leur travail collaboratif plonge dans l'utilisation de l'apprentissage automatique pour découvrir les «visites cachées» que nous faisons - ces voyages qui n'apparaissent pas dans les données de télécommunications standard parce que nous n'utilisons pas suffisamment nos téléphones.
L'étude, intitulée ** Identification des visites cachées des données de disques de détail de l'appel clairsemé **, est dirigé par Zhan Zhao de l'Université de Hong Kong, aux côtés de Haris N. Koutsopoulos de la Northeastern University à Boston, et Jinhua Zhao du MIT. Leur objectif? Pour tirer parti des enregistrements de connectivité mobile, tels que les données mobiles, les SMS et les appels vocaux - des utilisateurs très actifs pour modéliser et prédire les modèles de mouvement de ceux qui utilisent leurs téléphones moins fréquemment.
* Un schéma rugueux pour extraire les informations de voyage à partir des données de détail de l'appel (CD). * Source: https://arxiv.org/pdf/2106.12885.pdf
Alors que l'équipe reconnaît les problèmes de confidentialité potentiels que son travail augmente, il souligne que leur objectif est d'obtenir une compréhension plus généralisée des modèles de mouvement, plutôt que de zoomer sur les voyages individuels. Ils soulignent également que les données des enregistrements de détails d'appel (CDR), qui sont l'épine dorsale de ces études, a ses limites. Il est souvent faible en résolution spatiale et susceptible de «bruit de positionnement» en raison de la position changeante de l'utilisateur par rapport aux tours de téléphone portable. Cependant, ils soutiennent que cette inexactitude sert en fait de garantie de confidentialité:
** 'L'application cible de notre étude est la détection de voyage et l'estimation OD \ [\ * \], qui sont effectuées au niveau agrégé, pas au niveau individuel. Les modèles développés peuvent être directement déployés sur les serveurs de base de données des opérateurs de télécommunications, sans besoin de transfert de données. En outre, par rapport à d'autres formes de mégadonnées, telles que les données de transaction de médias sociaux ou de carte de crédit, les données CDR sont relativement moins intrusives en termes de confidentialité personnelle. De plus, son erreur de localisation aide à masquer les emplacements des utilisateurs exacts, fournissant une autre couche de préservation de la confidentialité. '**
Intervalles de temps écoulés (ETS)
Lorsque nous sommes en mouvement avec nos téléphones mobiles, pas nécessairement des smartphones, les limites des données CDR en tant qu'outil pour identifier notre emplacement deviennent claires. Les intervalles de temps écoulés (ETIS), ces périodes pendant un voyage où nous ne faisons pas ou ne recevons pas d'appels, sont des marqueurs cruciaux pour suivre nos mouvements. Ces intervalles de «silence» peuvent nous faire disparaître temporairement de la grille.
Les chercheurs mettent en évidence comment ces lacunes interfèrent avec les systèmes analytiques essayant de donner un sens aux voyages> B. La rareté des données pourrait cacher un «voyage non observé». Leur nouvelle méthode s'attaque à cela en analysant le contexte spatio-temporel des ETI et en considérant «les caractéristiques individuelles de l'utilisateur».
Ensemble de données
Pour construire leur ensemble de formation de base, les chercheurs ont utilisé des données d'un grand opérateur de services cellulaires dans une ville chinoise avec une population de 6 millions d'habitants. Cet ensemble de données comprenait plus de deux milliards de transactions de téléphonie mobile de trois millions d'utilisateurs en novembre 2013, se concentrant uniquement sur les appels vocaux et les enregistrements d'accès aux données. Notamment, ils n'ont pas inclus de données SMS, ce qui a ajouté au défi de traiter les données clairsemées.
Les données comprenaient un ID unique crypté, un code de zone de localisation (LAC), un horodatage, un identifiant de téléphone portable lié au LAC pour identifier la tour de téléphone portable spécifique impliquée dans la transaction, et un identifiant d'événement indiquant s'il s'agissait d'un appel ou d'une utilisation de données sortante / entrante.
* Arbre de processus pour l'identification des visites cachées. *
Ces informations ont été référencées avec une base de données de fonctionnement de la tour des cellules, permettant aux chercheurs de déterminer les coordonnées de longitude et de latitude de la tour associée à chaque événement de communication. Ils ont identifié 9000 tours cellulaires dans l'ensemble de données.
Les chercheurs ont noté la difficulté de deviner avec précision les destinations de voyage basées uniquement sur les enregistrements d'appels, car ces dossiers culminaient le matin et l'après-midi, ce qui s'aligne sur les modèles de voyage typiques. Étant donné que les appels téléphoniques peuvent précéder un voyage et peuvent même le déclencher, cela peut fausser l'estimation de la destination.
* Modèles d'utilisation mobile au cours d'une journée. *
Des défis similaires surviennent avec l'utilisation des données initiée par l'utilisateur, comme les applications de messagerie. Cependant, il s'agit de l'utilisation des données «automatisée» - comme le sondage systématique des API pour de nouveaux messages ou d'autres données, y compris le GPS et la télémétrie entre les applications - qui aide à identifier ces mouvements cachés.
Traitement
Les chercheurs ont utilisé une variété de classificateurs d'apprentissage automatique pour s'attaquer à ce problème, notamment la régression logistique, les machines à vecteurs de support (SVM), les forêts aléatoires et une approche d'ensemble augmentant le gradient. Ceux-ci ont été implémentés dans Python à l'aide de Scikit-Learn avec des paramètres par défaut.
Parmi ceux-ci, la régression logistique a fourni les paramètres du modèle les plus interprétables. L'équipe a également constaté que les ETI plus longues augmentaient la probabilité qu'une visite cachée se produise, avec une incidence plus élevée le matin. À l'inverse, lorsque les données CDR d'un utilisateur ont clairement montré un nombre élevé de destinations ou de points de chemin, la probabilité d'une visite cachée était plus faible. Cette découverte soutient le principe principal de leurs recherches - que les utilisateurs les plus actifs fournissent une image détaillée de leurs mouvements, à partir duquel le comportement des utilisateurs moins actifs peut être déduit.
Dans leur conclusion, les chercheurs suggèrent que leur approche pourrait être appliquée à d'autres types de données de transit, telles que les données de carte à puce et les informations sur les réseaux sociaux géosiqués.
La recherche a été soutenue par le financement de la Fondation de l'énergie Chine et du China Sustainable Transportation Center.
* \ * Origin-Destination *
Article connexe
DeepSeek的AIS发现了真正的人类欲望
DeepSeek在AI奖励模型中的突破性:加强AI推理和响应中国AI初创公司DeepSeek与Tsinghua University合作,在AI研究中取得了重要的里程碑。他们对AI奖励模型的创新方法有望彻底改变AI系统的学习方式
DeepCoder通过14B开放模型实现高编码效率
介绍DeepCoder-14b:开源编码模型的新领域,AI和Agentica的团队揭幕了DeepCoder-14b,这是一种开创性的编码模型,与Openai的O3-Mini(例如Openai的O3-Mini)肩并肩。这种令人兴奋的发展是基于FO的
Commentaires (10)
0/200
BrianWalker
23 avril 2025 10:37:03 UTC
This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚
0
BenHernández
23 avril 2025 10:37:03 UTC
携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚
0
HarryLewis
23 avril 2025 10:37:03 UTC
휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚
0
JasonMartin
23 avril 2025 10:37:03 UTC
Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚
0
RaymondRodriguez
23 avril 2025 10:37:03 UTC
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
SamuelClark
23 avril 2025 07:52:14 UTC
This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱
0






Si vous vous êtes déjà demandé comment les chercheurs suivent nos mouvements à travers un pays sans s'appuyer uniquement sur les appels téléphoniques, une étude fascinante des chercheurs de Chine et des États-Unis offre un aperçu. Leur travail collaboratif plonge dans l'utilisation de l'apprentissage automatique pour découvrir les «visites cachées» que nous faisons - ces voyages qui n'apparaissent pas dans les données de télécommunications standard parce que nous n'utilisons pas suffisamment nos téléphones.
L'étude, intitulée ** Identification des visites cachées des données de disques de détail de l'appel clairsemé **, est dirigé par Zhan Zhao de l'Université de Hong Kong, aux côtés de Haris N. Koutsopoulos de la Northeastern University à Boston, et Jinhua Zhao du MIT. Leur objectif? Pour tirer parti des enregistrements de connectivité mobile, tels que les données mobiles, les SMS et les appels vocaux - des utilisateurs très actifs pour modéliser et prédire les modèles de mouvement de ceux qui utilisent leurs téléphones moins fréquemment.
* Un schéma rugueux pour extraire les informations de voyage à partir des données de détail de l'appel (CD). * Source: https://arxiv.org/pdf/2106.12885.pdf
Alors que l'équipe reconnaît les problèmes de confidentialité potentiels que son travail augmente, il souligne que leur objectif est d'obtenir une compréhension plus généralisée des modèles de mouvement, plutôt que de zoomer sur les voyages individuels. Ils soulignent également que les données des enregistrements de détails d'appel (CDR), qui sont l'épine dorsale de ces études, a ses limites. Il est souvent faible en résolution spatiale et susceptible de «bruit de positionnement» en raison de la position changeante de l'utilisateur par rapport aux tours de téléphone portable. Cependant, ils soutiennent que cette inexactitude sert en fait de garantie de confidentialité:
** 'L'application cible de notre étude est la détection de voyage et l'estimation OD \ [\ * \], qui sont effectuées au niveau agrégé, pas au niveau individuel. Les modèles développés peuvent être directement déployés sur les serveurs de base de données des opérateurs de télécommunications, sans besoin de transfert de données. En outre, par rapport à d'autres formes de mégadonnées, telles que les données de transaction de médias sociaux ou de carte de crédit, les données CDR sont relativement moins intrusives en termes de confidentialité personnelle. De plus, son erreur de localisation aide à masquer les emplacements des utilisateurs exacts, fournissant une autre couche de préservation de la confidentialité. '**
Intervalles de temps écoulés (ETS)
Lorsque nous sommes en mouvement avec nos téléphones mobiles, pas nécessairement des smartphones, les limites des données CDR en tant qu'outil pour identifier notre emplacement deviennent claires. Les intervalles de temps écoulés (ETIS), ces périodes pendant un voyage où nous ne faisons pas ou ne recevons pas d'appels, sont des marqueurs cruciaux pour suivre nos mouvements. Ces intervalles de «silence» peuvent nous faire disparaître temporairement de la grille.
Les chercheurs mettent en évidence comment ces lacunes interfèrent avec les systèmes analytiques essayant de donner un sens aux voyages> B. La rareté des données pourrait cacher un «voyage non observé». Leur nouvelle méthode s'attaque à cela en analysant le contexte spatio-temporel des ETI et en considérant «les caractéristiques individuelles de l'utilisateur».
Ensemble de données
Pour construire leur ensemble de formation de base, les chercheurs ont utilisé des données d'un grand opérateur de services cellulaires dans une ville chinoise avec une population de 6 millions d'habitants. Cet ensemble de données comprenait plus de deux milliards de transactions de téléphonie mobile de trois millions d'utilisateurs en novembre 2013, se concentrant uniquement sur les appels vocaux et les enregistrements d'accès aux données. Notamment, ils n'ont pas inclus de données SMS, ce qui a ajouté au défi de traiter les données clairsemées.
Les données comprenaient un ID unique crypté, un code de zone de localisation (LAC), un horodatage, un identifiant de téléphone portable lié au LAC pour identifier la tour de téléphone portable spécifique impliquée dans la transaction, et un identifiant d'événement indiquant s'il s'agissait d'un appel ou d'une utilisation de données sortante / entrante.
* Arbre de processus pour l'identification des visites cachées. *
Ces informations ont été référencées avec une base de données de fonctionnement de la tour des cellules, permettant aux chercheurs de déterminer les coordonnées de longitude et de latitude de la tour associée à chaque événement de communication. Ils ont identifié 9000 tours cellulaires dans l'ensemble de données.
Les chercheurs ont noté la difficulté de deviner avec précision les destinations de voyage basées uniquement sur les enregistrements d'appels, car ces dossiers culminaient le matin et l'après-midi, ce qui s'aligne sur les modèles de voyage typiques. Étant donné que les appels téléphoniques peuvent précéder un voyage et peuvent même le déclencher, cela peut fausser l'estimation de la destination.
* Modèles d'utilisation mobile au cours d'une journée. *
Des défis similaires surviennent avec l'utilisation des données initiée par l'utilisateur, comme les applications de messagerie. Cependant, il s'agit de l'utilisation des données «automatisée» - comme le sondage systématique des API pour de nouveaux messages ou d'autres données, y compris le GPS et la télémétrie entre les applications - qui aide à identifier ces mouvements cachés.
Traitement
Les chercheurs ont utilisé une variété de classificateurs d'apprentissage automatique pour s'attaquer à ce problème, notamment la régression logistique, les machines à vecteurs de support (SVM), les forêts aléatoires et une approche d'ensemble augmentant le gradient. Ceux-ci ont été implémentés dans Python à l'aide de Scikit-Learn avec des paramètres par défaut.
Parmi ceux-ci, la régression logistique a fourni les paramètres du modèle les plus interprétables. L'équipe a également constaté que les ETI plus longues augmentaient la probabilité qu'une visite cachée se produise, avec une incidence plus élevée le matin. À l'inverse, lorsque les données CDR d'un utilisateur ont clairement montré un nombre élevé de destinations ou de points de chemin, la probabilité d'une visite cachée était plus faible. Cette découverte soutient le principe principal de leurs recherches - que les utilisateurs les plus actifs fournissent une image détaillée de leurs mouvements, à partir duquel le comportement des utilisateurs moins actifs peut être déduit.
Dans leur conclusion, les chercheurs suggèrent que leur approche pourrait être appliquée à d'autres types de données de transit, telles que les données de carte à puce et les informations sur les réseaux sociaux géosiqués.
La recherche a été soutenue par le financement de la Fondation de l'énergie Chine et du China Sustainable Transportation Center.
* \ * Origin-Destination *


This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚




携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚




휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚




Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚




This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱












