Découvrir nos «visites cachées» avec des données de téléphone portable et un apprentissage automatique
Si vous vous êtes déjà demandé comment les chercheurs suivent nos mouvements à travers un pays sans s'appuyer uniquement sur les appels téléphoniques, une étude fascinante des chercheurs de Chine et des États-Unis offre un aperçu. Leur travail collaboratif plonge dans l'utilisation de l'apprentissage automatique pour découvrir les «visites cachées» que nous faisons - ces voyages qui n'apparaissent pas dans les données de télécommunications standard parce que nous n'utilisons pas suffisamment nos téléphones.
L'étude, intitulée ** Identification des visites cachées des données de disques de détail de l'appel clairsemé **, est dirigé par Zhan Zhao de l'Université de Hong Kong, aux côtés de Haris N. Koutsopoulos de la Northeastern University à Boston, et Jinhua Zhao du MIT. Leur objectif? Pour tirer parti des enregistrements de connectivité mobile, tels que les données mobiles, les SMS et les appels vocaux - des utilisateurs très actifs pour modéliser et prédire les modèles de mouvement de ceux qui utilisent leurs téléphones moins fréquemment.
* Un schéma rugueux pour extraire les informations de voyage à partir des données de détail de l'appel (CD). * Source: https://arxiv.org/pdf/2106.12885.pdf
Alors que l'équipe reconnaît les problèmes de confidentialité potentiels que son travail augmente, il souligne que leur objectif est d'obtenir une compréhension plus généralisée des modèles de mouvement, plutôt que de zoomer sur les voyages individuels. Ils soulignent également que les données des enregistrements de détails d'appel (CDR), qui sont l'épine dorsale de ces études, a ses limites. Il est souvent faible en résolution spatiale et susceptible de «bruit de positionnement» en raison de la position changeante de l'utilisateur par rapport aux tours de téléphone portable. Cependant, ils soutiennent que cette inexactitude sert en fait de garantie de confidentialité:
** 'L'application cible de notre étude est la détection de voyage et l'estimation OD \ [\ * \], qui sont effectuées au niveau agrégé, pas au niveau individuel. Les modèles développés peuvent être directement déployés sur les serveurs de base de données des opérateurs de télécommunications, sans besoin de transfert de données. En outre, par rapport à d'autres formes de mégadonnées, telles que les données de transaction de médias sociaux ou de carte de crédit, les données CDR sont relativement moins intrusives en termes de confidentialité personnelle. De plus, son erreur de localisation aide à masquer les emplacements des utilisateurs exacts, fournissant une autre couche de préservation de la confidentialité. '**
Intervalles de temps écoulés (ETS)
Lorsque nous sommes en mouvement avec nos téléphones mobiles, pas nécessairement des smartphones, les limites des données CDR en tant qu'outil pour identifier notre emplacement deviennent claires. Les intervalles de temps écoulés (ETIS), ces périodes pendant un voyage où nous ne faisons pas ou ne recevons pas d'appels, sont des marqueurs cruciaux pour suivre nos mouvements. Ces intervalles de «silence» peuvent nous faire disparaître temporairement de la grille.
Les chercheurs mettent en évidence comment ces lacunes interfèrent avec les systèmes analytiques essayant de donner un sens aux voyages> B. La rareté des données pourrait cacher un «voyage non observé». Leur nouvelle méthode s'attaque à cela en analysant le contexte spatio-temporel des ETI et en considérant «les caractéristiques individuelles de l'utilisateur».
Ensemble de données
Pour construire leur ensemble de formation de base, les chercheurs ont utilisé des données d'un grand opérateur de services cellulaires dans une ville chinoise avec une population de 6 millions d'habitants. Cet ensemble de données comprenait plus de deux milliards de transactions de téléphonie mobile de trois millions d'utilisateurs en novembre 2013, se concentrant uniquement sur les appels vocaux et les enregistrements d'accès aux données. Notamment, ils n'ont pas inclus de données SMS, ce qui a ajouté au défi de traiter les données clairsemées.
Les données comprenaient un ID unique crypté, un code de zone de localisation (LAC), un horodatage, un identifiant de téléphone portable lié au LAC pour identifier la tour de téléphone portable spécifique impliquée dans la transaction, et un identifiant d'événement indiquant s'il s'agissait d'un appel ou d'une utilisation de données sortante / entrante.
* Arbre de processus pour l'identification des visites cachées. *
Ces informations ont été référencées avec une base de données de fonctionnement de la tour des cellules, permettant aux chercheurs de déterminer les coordonnées de longitude et de latitude de la tour associée à chaque événement de communication. Ils ont identifié 9000 tours cellulaires dans l'ensemble de données.
Les chercheurs ont noté la difficulté de deviner avec précision les destinations de voyage basées uniquement sur les enregistrements d'appels, car ces dossiers culminaient le matin et l'après-midi, ce qui s'aligne sur les modèles de voyage typiques. Étant donné que les appels téléphoniques peuvent précéder un voyage et peuvent même le déclencher, cela peut fausser l'estimation de la destination.
* Modèles d'utilisation mobile au cours d'une journée. *
Des défis similaires surviennent avec l'utilisation des données initiée par l'utilisateur, comme les applications de messagerie. Cependant, il s'agit de l'utilisation des données «automatisée» - comme le sondage systématique des API pour de nouveaux messages ou d'autres données, y compris le GPS et la télémétrie entre les applications - qui aide à identifier ces mouvements cachés.
Traitement
Les chercheurs ont utilisé une variété de classificateurs d'apprentissage automatique pour s'attaquer à ce problème, notamment la régression logistique, les machines à vecteurs de support (SVM), les forêts aléatoires et une approche d'ensemble augmentant le gradient. Ceux-ci ont été implémentés dans Python à l'aide de Scikit-Learn avec des paramètres par défaut.
Parmi ceux-ci, la régression logistique a fourni les paramètres du modèle les plus interprétables. L'équipe a également constaté que les ETI plus longues augmentaient la probabilité qu'une visite cachée se produise, avec une incidence plus élevée le matin. À l'inverse, lorsque les données CDR d'un utilisateur ont clairement montré un nombre élevé de destinations ou de points de chemin, la probabilité d'une visite cachée était plus faible. Cette découverte soutient le principe principal de leurs recherches - que les utilisateurs les plus actifs fournissent une image détaillée de leurs mouvements, à partir duquel le comportement des utilisateurs moins actifs peut être déduit.
Dans leur conclusion, les chercheurs suggèrent que leur approche pourrait être appliquée à d'autres types de données de transit, telles que les données de carte à puce et les informations sur les réseaux sociaux géosiqués.
La recherche a été soutenue par le financement de la Fondation de l'énergie Chine et du China Sustainable Transportation Center.
* \ * Origin-Destination *
Article connexe
低コストな拡張現実向けの本格的なフォーカシングシステム
投影型拡張現実の革命著名な電気電子学会(IEEE)の研究者たちは、投影型拡張現実の世界において画期的な進展を遂げました。彼らの解決策とは、視覚的に深さを感じさせるために人間の目と同じように動作する電気的にフォーカス調整可能なレンズ(ETL)を搭載した特殊な眼鏡です。この革新的なアプローチは、投影システムを制御された環境で本当に実用的なものにするための大きな障
AIを使用して都市が極端な暑さに取り組むのを支援する方法
2024年は、2023年を超えて、最も暑い年の記録を破るだけかもしれません。この傾向は、都市の熱島に住んでいる人々にとって特に難しいです。コンクリートとアスファルトが太陽の光を吸収し、その後熱を放射する都市の斑点です。これらの領域は暖めることができます
「分解された」合成面は、顔認識技術を強化する可能性があります
ミシガン州立大学の研究者は、画像認識システムの精度を強化するために、高貴な大義のために合成面を使用する革新的な方法を思いつきました。ディープフェイクの現象に貢献する代わりに、これらの合成面は、現実に見られる欠陥を模倣するように設計されています。
commentaires (15)
0/200
BrianWalker
23 avril 2025 00:00:00 UTC
This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚
0
BenHernández
23 avril 2025 00:00:00 UTC
携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚
0
HarryLewis
23 avril 2025 00:00:00 UTC
휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚
0
JasonMartin
23 avril 2025 00:00:00 UTC
Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚
0
RaymondRodriguez
23 avril 2025 00:00:00 UTC
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
SamuelClark
23 avril 2025 00:00:00 UTC
This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱
0
Si vous vous êtes déjà demandé comment les chercheurs suivent nos mouvements à travers un pays sans s'appuyer uniquement sur les appels téléphoniques, une étude fascinante des chercheurs de Chine et des États-Unis offre un aperçu. Leur travail collaboratif plonge dans l'utilisation de l'apprentissage automatique pour découvrir les «visites cachées» que nous faisons - ces voyages qui n'apparaissent pas dans les données de télécommunications standard parce que nous n'utilisons pas suffisamment nos téléphones.
L'étude, intitulée ** Identification des visites cachées des données de disques de détail de l'appel clairsemé **, est dirigé par Zhan Zhao de l'Université de Hong Kong, aux côtés de Haris N. Koutsopoulos de la Northeastern University à Boston, et Jinhua Zhao du MIT. Leur objectif? Pour tirer parti des enregistrements de connectivité mobile, tels que les données mobiles, les SMS et les appels vocaux - des utilisateurs très actifs pour modéliser et prédire les modèles de mouvement de ceux qui utilisent leurs téléphones moins fréquemment.
* Un schéma rugueux pour extraire les informations de voyage à partir des données de détail de l'appel (CD). * Source: https://arxiv.org/pdf/2106.12885.pdf
Alors que l'équipe reconnaît les problèmes de confidentialité potentiels que son travail augmente, il souligne que leur objectif est d'obtenir une compréhension plus généralisée des modèles de mouvement, plutôt que de zoomer sur les voyages individuels. Ils soulignent également que les données des enregistrements de détails d'appel (CDR), qui sont l'épine dorsale de ces études, a ses limites. Il est souvent faible en résolution spatiale et susceptible de «bruit de positionnement» en raison de la position changeante de l'utilisateur par rapport aux tours de téléphone portable. Cependant, ils soutiennent que cette inexactitude sert en fait de garantie de confidentialité:
** 'L'application cible de notre étude est la détection de voyage et l'estimation OD \ [\ * \], qui sont effectuées au niveau agrégé, pas au niveau individuel. Les modèles développés peuvent être directement déployés sur les serveurs de base de données des opérateurs de télécommunications, sans besoin de transfert de données. En outre, par rapport à d'autres formes de mégadonnées, telles que les données de transaction de médias sociaux ou de carte de crédit, les données CDR sont relativement moins intrusives en termes de confidentialité personnelle. De plus, son erreur de localisation aide à masquer les emplacements des utilisateurs exacts, fournissant une autre couche de préservation de la confidentialité. '**
Intervalles de temps écoulés (ETS)
Lorsque nous sommes en mouvement avec nos téléphones mobiles, pas nécessairement des smartphones, les limites des données CDR en tant qu'outil pour identifier notre emplacement deviennent claires. Les intervalles de temps écoulés (ETIS), ces périodes pendant un voyage où nous ne faisons pas ou ne recevons pas d'appels, sont des marqueurs cruciaux pour suivre nos mouvements. Ces intervalles de «silence» peuvent nous faire disparaître temporairement de la grille.
Les chercheurs mettent en évidence comment ces lacunes interfèrent avec les systèmes analytiques essayant de donner un sens aux voyages> B. La rareté des données pourrait cacher un «voyage non observé». Leur nouvelle méthode s'attaque à cela en analysant le contexte spatio-temporel des ETI et en considérant «les caractéristiques individuelles de l'utilisateur».
Ensemble de données
Pour construire leur ensemble de formation de base, les chercheurs ont utilisé des données d'un grand opérateur de services cellulaires dans une ville chinoise avec une population de 6 millions d'habitants. Cet ensemble de données comprenait plus de deux milliards de transactions de téléphonie mobile de trois millions d'utilisateurs en novembre 2013, se concentrant uniquement sur les appels vocaux et les enregistrements d'accès aux données. Notamment, ils n'ont pas inclus de données SMS, ce qui a ajouté au défi de traiter les données clairsemées.
Les données comprenaient un ID unique crypté, un code de zone de localisation (LAC), un horodatage, un identifiant de téléphone portable lié au LAC pour identifier la tour de téléphone portable spécifique impliquée dans la transaction, et un identifiant d'événement indiquant s'il s'agissait d'un appel ou d'une utilisation de données sortante / entrante.
* Arbre de processus pour l'identification des visites cachées. *
Ces informations ont été référencées avec une base de données de fonctionnement de la tour des cellules, permettant aux chercheurs de déterminer les coordonnées de longitude et de latitude de la tour associée à chaque événement de communication. Ils ont identifié 9000 tours cellulaires dans l'ensemble de données.
Les chercheurs ont noté la difficulté de deviner avec précision les destinations de voyage basées uniquement sur les enregistrements d'appels, car ces dossiers culminaient le matin et l'après-midi, ce qui s'aligne sur les modèles de voyage typiques. Étant donné que les appels téléphoniques peuvent précéder un voyage et peuvent même le déclencher, cela peut fausser l'estimation de la destination.
* Modèles d'utilisation mobile au cours d'une journée. *
Des défis similaires surviennent avec l'utilisation des données initiée par l'utilisateur, comme les applications de messagerie. Cependant, il s'agit de l'utilisation des données «automatisée» - comme le sondage systématique des API pour de nouveaux messages ou d'autres données, y compris le GPS et la télémétrie entre les applications - qui aide à identifier ces mouvements cachés.
Traitement
Les chercheurs ont utilisé une variété de classificateurs d'apprentissage automatique pour s'attaquer à ce problème, notamment la régression logistique, les machines à vecteurs de support (SVM), les forêts aléatoires et une approche d'ensemble augmentant le gradient. Ceux-ci ont été implémentés dans Python à l'aide de Scikit-Learn avec des paramètres par défaut.
Parmi ceux-ci, la régression logistique a fourni les paramètres du modèle les plus interprétables. L'équipe a également constaté que les ETI plus longues augmentaient la probabilité qu'une visite cachée se produise, avec une incidence plus élevée le matin. À l'inverse, lorsque les données CDR d'un utilisateur ont clairement montré un nombre élevé de destinations ou de points de chemin, la probabilité d'une visite cachée était plus faible. Cette découverte soutient le principe principal de leurs recherches - que les utilisateurs les plus actifs fournissent une image détaillée de leurs mouvements, à partir duquel le comportement des utilisateurs moins actifs peut être déduit.
Dans leur conclusion, les chercheurs suggèrent que leur approche pourrait être appliquée à d'autres types de données de transit, telles que les données de carte à puce et les informations sur les réseaux sociaux géosiqués.
La recherche a été soutenue par le financement de la Fondation de l'énergie Chine et du China Sustainable Transportation Center.
* \ * Origin-Destination *




This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚




携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚




휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚




Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚




This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱












