Раскрытие наших «скрытых посещений» с помощью данных и машинного обучения мобильного телефона и машинного обучения
Если вы когда -либо задумывались о том, как исследователи отслеживают наши движения по всей стране, не полагаясь исключительно на телефонные звонки, увлекательное исследование исследователей из Китая и Соединенных Штатов дает некоторое представление. Их совместная работа углубляется в использование машинного обучения, чтобы раскрыть «скрытые посещения», которые мы совершаем - эти поездки, которые не отображаются в стандартных данных телекоммуникационных данных, потому что мы недостаточно используем наши телефоны.
Исследование под названием ** Определение скрытых визитов из данных о подробном вызове **, возглавляется Чжаном Чжао из Университета Гонконга, вместе с Харис Н. Куутсопулос из Северо -Восточного университета в Бостоне и Джинхуа Чжао из MIT. Их цель? Использовать записи об подключении мобильных устройств, такие как мобильные данные, SMS и голосовые вызовы, от очень активных пользователей для моделирования и прогнозирования шаблонов движения тех, кто использует свои телефоны реже.
* Грубая схема для извлечения информации о поездке из Data Record (CD).* Источник: https://arxiv.org/pdf/2106.12885.pdf
В то время как команда признает, что потенциальная конфиденциальность касается их работы, они подчеркивают, что их цель - получить более обобщенное понимание моделей движения, а не увеличивать индивидуальные поездки. Они также указывают на то, что данные записи о деталях вызовов (CDR), которые являются основой таких исследований, имеют свои ограничения. Он часто низкий в пространственном разрешении и подвержен «шуму позиционирования» из -за меняющегося положения пользователя по сравнению с башнями сотового телефона. Тем не менее, они утверждают, что эта неточность на самом деле служит защитой конфиденциальности:
** «Целевое применение нашего исследования - обнаружение отключения и оценка OD \ [\*\], которые выполняются на совокупном уровне, а не на индивидуальном уровне. Разработанные модели могут быть непосредственно развернуты на серверах базы данных телекоммуникационных носителей без необходимости передачи данных. Кроме того, по сравнению с другими формами больших данных, такими как данные о транзакциях социальных сетей или кредитных карт, данные CDR являются относительно менее навязчивыми с точки зрения личной конфиденциальности. Кроме того, его ошибка локализации помогает замаскировать точные местоположения пользователей, обеспечивая еще один уровень конфиденциальности. '**
Промежуточные интервалы времени (ETIS)
Когда мы в движении с нашими мобильными телефонами, не обязательно смартфонами, ограничения данных CDR как инструмента для определения нашего местоположения становятся ясными. Промежуточные интервалы времени (ETIS), эти периоды во время путешествия, где мы не делаем звонки и не получаем критические маркеры для отслеживания наших движений. Эти интервалы «молчания» могут заставить нас временно исчезнуть из сети.
Исследователи подчеркивают, как эти пробелы мешают аналитическим системам, пытающимся разобраться в путешествиях. Недостатка данных может скрывать «ненаблюдаемое путешествие». Их новый метод справляется с этим, анализируя пространственно -временный контекст ETIS и рассматривая «индивидуальные характеристики пользователя».
Набор данных
Чтобы построить свой основной учебный набор, исследователи использовали данные крупного оператора сотовой связи в китайском городе с населением 6 миллионов. Этот набор данных включал в себя более двух миллиардов транзакций мобильных телефонов от трех миллионов пользователей в ноябре 2013 года, сосредоточившись исключительно на голосовых вызовах и записях доступа к данным. Примечательно, что они не включали SMS -данные, которые добавили к проблеме борьбы с редкими данными.
Данные включали зашифрованный уникальный идентификатор, код зоны местоположения (LAC), временную метку, идентификатор сотового телефона, связанный с LAC для определения конкретной башни сотового телефона, участвующего в транзакции, и идентификатор события, указывающий, был ли это исходящий/входящий вызов или использование данных.
*Дерево процесса для идентификации скрытых посещений.*
Эта информация была перекрестно связана с базой данных операции по сотовой башне, что позволило исследователям точно определить координаты долготы и широты башни, связанной с каждым событием связи. Они идентифицировали 9000 башен сотовой связи в рамках набора данных.
Исследователи отметили сложность точной угадывания направлений поездки, основанных исключительно на записях вызовов, так как эти записи достигли пика утром и днем, что соответствует типичным моделям путешествий. Поскольку телефонные звонки могут предшествовать путешествию и могут даже вызвать его, это может исказить оценку назначения.
*Мобильные шаблоны использования в течение дня.*
Подобные проблемы возникают при использовании данных, инициированных пользователем, например, приложения для обмена сообщениями. Тем не менее, это «автоматизированное» использование данных - например, систематический опрос API для новых сообщений или других данных, включая GPS и телеметрию по приложениям, - это помогает в определении этих скрытых движений.
Обработка
Исследователи использовали множество классификаторов машинного обучения для решения этой проблемы, включая логистическую регрессию, поддержку векторных машин (SVM), случайные леса и подход к усилению градиента. Они были реализованы в Python с использованием Scikit-Learn с настройками по умолчанию.
Среди них логистическая регрессия обеспечила наиболее интерпретируемые параметры модели. Команда также обнаружила, что более длинный ETIS увеличил вероятность скрытого визита, с более высокой заболеваемостью по утрам. И наоборот, когда данные CDR пользователя ясно показали большое количество пунктов назначения или путевых точек, вероятность скрытого визита была ниже. Этот вывод поддерживает основной принцип их исследований - что наиболее активные пользователи дают подробную картину своих движений, из которой можно сделать вывод о поведении менее активных пользователей.
В своем выводе исследователи предполагают, что их подход может быть применен к другим типам транзитных данных, таких как данные смарт-карт и информация о гео, расположенной в социальных сетях.
Исследование было поддержано финансированием от энергетического фонда Китая и Китайского центра по устойчивому транспорту.
* \* Origin-Destination*
Связанная статья
低コストな拡張現実向けの本格的なフォーカシングシステム
投影型拡張現実の革命著名な電気電子学会(IEEE)の研究者たちは、投影型拡張現実の世界において画期的な進展を遂げました。彼らの解決策とは、視覚的に深さを感じさせるために人間の目と同じように動作する電気的にフォーカス調整可能なレンズ(ETL)を搭載した特殊な眼鏡です。この革新的なアプローチは、投影システムを制御された環境で本当に実用的なものにするための大きな障
AIを使用して都市が極端な暑さに取り組むのを支援する方法
2024年は、2023年を超えて、最も暑い年の記録を破るだけかもしれません。この傾向は、都市の熱島に住んでいる人々にとって特に難しいです。コンクリートとアスファルトが太陽の光を吸収し、その後熱を放射する都市の斑点です。これらの領域は暖めることができます
「分解された」合成面は、顔認識技術を強化する可能性があります
ミシガン州立大学の研究者は、画像認識システムの精度を強化するために、高貴な大義のために合成面を使用する革新的な方法を思いつきました。ディープフェイクの現象に貢献する代わりに、これらの合成面は、現実に見られる欠陥を模倣するように設計されています。
Комментарии (15)
BrianWalker
23 апреля 2025 г., 0:00:00 GMT
This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚
0
BenHernández
23 апреля 2025 г., 0:00:00 GMT
携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚
0
HarryLewis
23 апреля 2025 г., 0:00:00 GMT
휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚
0
JasonMartin
23 апреля 2025 г., 0:00:00 GMT
Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚
0
RaymondRodriguez
23 апреля 2025 г., 0:00:00 GMT
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
SamuelClark
23 апреля 2025 г., 0:00:00 GMT
This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱
0
Если вы когда -либо задумывались о том, как исследователи отслеживают наши движения по всей стране, не полагаясь исключительно на телефонные звонки, увлекательное исследование исследователей из Китая и Соединенных Штатов дает некоторое представление. Их совместная работа углубляется в использование машинного обучения, чтобы раскрыть «скрытые посещения», которые мы совершаем - эти поездки, которые не отображаются в стандартных данных телекоммуникационных данных, потому что мы недостаточно используем наши телефоны.
Исследование под названием ** Определение скрытых визитов из данных о подробном вызове **, возглавляется Чжаном Чжао из Университета Гонконга, вместе с Харис Н. Куутсопулос из Северо -Восточного университета в Бостоне и Джинхуа Чжао из MIT. Их цель? Использовать записи об подключении мобильных устройств, такие как мобильные данные, SMS и голосовые вызовы, от очень активных пользователей для моделирования и прогнозирования шаблонов движения тех, кто использует свои телефоны реже.
* Грубая схема для извлечения информации о поездке из Data Record (CD).* Источник: https://arxiv.org/pdf/2106.12885.pdf
В то время как команда признает, что потенциальная конфиденциальность касается их работы, они подчеркивают, что их цель - получить более обобщенное понимание моделей движения, а не увеличивать индивидуальные поездки. Они также указывают на то, что данные записи о деталях вызовов (CDR), которые являются основой таких исследований, имеют свои ограничения. Он часто низкий в пространственном разрешении и подвержен «шуму позиционирования» из -за меняющегося положения пользователя по сравнению с башнями сотового телефона. Тем не менее, они утверждают, что эта неточность на самом деле служит защитой конфиденциальности:
** «Целевое применение нашего исследования - обнаружение отключения и оценка OD \ [\*\], которые выполняются на совокупном уровне, а не на индивидуальном уровне. Разработанные модели могут быть непосредственно развернуты на серверах базы данных телекоммуникационных носителей без необходимости передачи данных. Кроме того, по сравнению с другими формами больших данных, такими как данные о транзакциях социальных сетей или кредитных карт, данные CDR являются относительно менее навязчивыми с точки зрения личной конфиденциальности. Кроме того, его ошибка локализации помогает замаскировать точные местоположения пользователей, обеспечивая еще один уровень конфиденциальности. '**
Промежуточные интервалы времени (ETIS)
Когда мы в движении с нашими мобильными телефонами, не обязательно смартфонами, ограничения данных CDR как инструмента для определения нашего местоположения становятся ясными. Промежуточные интервалы времени (ETIS), эти периоды во время путешествия, где мы не делаем звонки и не получаем критические маркеры для отслеживания наших движений. Эти интервалы «молчания» могут заставить нас временно исчезнуть из сети.
Исследователи подчеркивают, как эти пробелы мешают аналитическим системам, пытающимся разобраться в путешествиях. Недостатка данных может скрывать «ненаблюдаемое путешествие». Их новый метод справляется с этим, анализируя пространственно -временный контекст ETIS и рассматривая «индивидуальные характеристики пользователя».
Набор данных
Чтобы построить свой основной учебный набор, исследователи использовали данные крупного оператора сотовой связи в китайском городе с населением 6 миллионов. Этот набор данных включал в себя более двух миллиардов транзакций мобильных телефонов от трех миллионов пользователей в ноябре 2013 года, сосредоточившись исключительно на голосовых вызовах и записях доступа к данным. Примечательно, что они не включали SMS -данные, которые добавили к проблеме борьбы с редкими данными.
Данные включали зашифрованный уникальный идентификатор, код зоны местоположения (LAC), временную метку, идентификатор сотового телефона, связанный с LAC для определения конкретной башни сотового телефона, участвующего в транзакции, и идентификатор события, указывающий, был ли это исходящий/входящий вызов или использование данных.
*Дерево процесса для идентификации скрытых посещений.*
Эта информация была перекрестно связана с базой данных операции по сотовой башне, что позволило исследователям точно определить координаты долготы и широты башни, связанной с каждым событием связи. Они идентифицировали 9000 башен сотовой связи в рамках набора данных.
Исследователи отметили сложность точной угадывания направлений поездки, основанных исключительно на записях вызовов, так как эти записи достигли пика утром и днем, что соответствует типичным моделям путешествий. Поскольку телефонные звонки могут предшествовать путешествию и могут даже вызвать его, это может исказить оценку назначения.
*Мобильные шаблоны использования в течение дня.*
Подобные проблемы возникают при использовании данных, инициированных пользователем, например, приложения для обмена сообщениями. Тем не менее, это «автоматизированное» использование данных - например, систематический опрос API для новых сообщений или других данных, включая GPS и телеметрию по приложениям, - это помогает в определении этих скрытых движений.
Обработка
Исследователи использовали множество классификаторов машинного обучения для решения этой проблемы, включая логистическую регрессию, поддержку векторных машин (SVM), случайные леса и подход к усилению градиента. Они были реализованы в Python с использованием Scikit-Learn с настройками по умолчанию.
Среди них логистическая регрессия обеспечила наиболее интерпретируемые параметры модели. Команда также обнаружила, что более длинный ETIS увеличил вероятность скрытого визита, с более высокой заболеваемостью по утрам. И наоборот, когда данные CDR пользователя ясно показали большое количество пунктов назначения или путевых точек, вероятность скрытого визита была ниже. Этот вывод поддерживает основной принцип их исследований - что наиболее активные пользователи дают подробную картину своих движений, из которой можно сделать вывод о поведении менее активных пользователей.
В своем выводе исследователи предполагают, что их подход может быть применен к другим типам транзитных данных, таких как данные смарт-карт и информация о гео, расположенной в социальных сетях.
Исследование было поддержано финансированием от энергетического фонда Китая и Китайского центра по устойчивому транспорту.
* \* Origin-Destination*




This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚




携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚




휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚




Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚




This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱












