Дом Новости Раскрытие наших «скрытых посещений» с помощью данных и машинного обучения мобильного телефона и машинного обучения

Раскрытие наших «скрытых посещений» с помощью данных и машинного обучения мобильного телефона и машинного обучения

22 апреля 2025 г.
JustinScott
0

Если вы когда -либо задумывались о том, как исследователи отслеживают наши движения по всей стране, не полагаясь исключительно на телефонные звонки, увлекательное исследование исследователей из Китая и Соединенных Штатов дает некоторое представление. Их совместная работа углубляется в использование машинного обучения, чтобы раскрыть «скрытые посещения», которые мы совершаем - эти поездки, которые не отображаются в стандартных данных телекоммуникационных данных, потому что мы недостаточно используем наши телефоны.

Исследование под названием ** Определение скрытых визитов из данных о подробном вызове **, возглавляется Чжаном Чжао из Университета Гонконга, вместе с Харис Н. Куутсопулос из Северо -Восточного университета в Бостоне и Джинхуа Чжао из MIT. Их цель? Использовать записи об подключении мобильных устройств, такие как мобильные данные, SMS и голосовые вызовы, от очень активных пользователей для моделирования и прогнозирования шаблонов движения тех, кто использует свои телефоны реже.

Грубая схема для извлечения информации о поездке из данных записи о вызове (CD). Источник: https://arxiv.org/pdf/2106.12885.pdf * Грубая схема для извлечения информации о поездке из Data Record (CD).* Источник: https://arxiv.org/pdf/2106.12885.pdf

В то время как команда признает, что потенциальная конфиденциальность касается их работы, они подчеркивают, что их цель - получить более обобщенное понимание моделей движения, а не увеличивать индивидуальные поездки. Они также указывают на то, что данные записи о деталях вызовов (CDR), которые являются основой таких исследований, имеют свои ограничения. Он часто низкий в пространственном разрешении и подвержен «шуму позиционирования» из -за меняющегося положения пользователя по сравнению с башнями сотового телефона. Тем не менее, они утверждают, что эта неточность на самом деле служит защитой конфиденциальности:

** «Целевое применение нашего исследования - обнаружение отключения и оценка OD \ [\*\], которые выполняются на совокупном уровне, а не на индивидуальном уровне. Разработанные модели могут быть непосредственно развернуты на серверах базы данных телекоммуникационных носителей без необходимости передачи данных. Кроме того, по сравнению с другими формами больших данных, такими как данные о транзакциях социальных сетей или кредитных карт, данные CDR являются относительно менее навязчивыми с точки зрения личной конфиденциальности. Кроме того, его ошибка локализации помогает замаскировать точные местоположения пользователей, обеспечивая еще один уровень конфиденциальности. '**

Промежуточные интервалы времени (ETIS)

Когда мы в движении с нашими мобильными телефонами, не обязательно смартфонами, ограничения данных CDR как инструмента для определения нашего местоположения становятся ясными. Промежуточные интервалы времени (ETIS), эти периоды во время путешествия, где мы не делаем звонки и не получаем критические маркеры для отслеживания наших движений. Эти интервалы «молчания» могут заставить нас временно исчезнуть из сети.

Исследователи подчеркивают, как эти пробелы мешают аналитическим системам, пытающимся разобраться в путешествиях. Недостатка данных может скрывать «ненаблюдаемое путешествие». Их новый метод справляется с этим, анализируя пространственно -временный контекст ETIS и рассматривая «индивидуальные характеристики пользователя».

Набор данных

Чтобы построить свой основной учебный набор, исследователи использовали данные крупного оператора сотовой связи в китайском городе с населением 6 миллионов. Этот набор данных включал в себя более двух миллиардов транзакций мобильных телефонов от трех миллионов пользователей в ноябре 2013 года, сосредоточившись исключительно на голосовых вызовах и записях доступа к данным. Примечательно, что они не включали SMS -данные, которые добавили к проблеме борьбы с редкими данными.

Данные включали зашифрованный уникальный идентификатор, код зоны местоположения (LAC), временную метку, идентификатор сотового телефона, связанный с LAC для определения конкретной башни сотового телефона, участвующего в транзакции, и идентификатор события, указывающий, был ли это исходящий/входящий вызов или использование данных.

Дерево процесса для идентификации скрытых посещений. *Дерево процесса для идентификации скрытых посещений.*

Эта информация была перекрестно связана с базой данных операции по сотовой башне, что позволило исследователям точно определить координаты долготы и широты башни, связанной с каждым событием связи. Они идентифицировали 9000 башен сотовой связи в рамках набора данных.

Исследователи отметили сложность точной угадывания направлений поездки, основанных исключительно на записях вызовов, так как эти записи достигли пика утром и днем, что соответствует типичным моделям путешествий. Поскольку телефонные звонки могут предшествовать путешествию и могут даже вызвать его, это может исказить оценку назначения.

Мобильные шаблоны использования в течение дня. *Мобильные шаблоны использования в течение дня.*

Подобные проблемы возникают при использовании данных, инициированных пользователем, например, приложения для обмена сообщениями. Тем не менее, это «автоматизированное» использование данных - например, систематический опрос API для новых сообщений или других данных, включая GPS и телеметрию по приложениям, - это помогает в определении этих скрытых движений.

Обработка

Исследователи использовали множество классификаторов машинного обучения для решения этой проблемы, включая логистическую регрессию, поддержку векторных машин (SVM), случайные леса и подход к усилению градиента. Они были реализованы в Python с использованием Scikit-Learn с настройками по умолчанию.

Среди них логистическая регрессия обеспечила наиболее интерпретируемые параметры модели. Команда также обнаружила, что более длинный ETIS увеличил вероятность скрытого визита, с более высокой заболеваемостью по утрам. И наоборот, когда данные CDR пользователя ясно показали большое количество пунктов назначения или путевых точек, вероятность скрытого визита была ниже. Этот вывод поддерживает основной принцип их исследований - что наиболее активные пользователи дают подробную картину своих движений, из которой можно сделать вывод о поведении менее активных пользователей.

В своем выводе исследователи предполагают, что их подход может быть применен к другим типам транзитных данных, таких как данные смарт-карт и информация о гео, расположенной в социальных сетях.

Исследование было поддержано финансированием от энергетического фонда Китая и Китайского центра по устойчивому транспорту.

* \* Origin-Destination*

Связанная статья
“退化”合成面可能会增强面部识别技术 “退化”合成面可能会增强面部识别技术 密歇根州立大学的研究人员提出了一种创新的方式,将合成面孔用于崇高的原因 - 增强图像识别系统的准确性。这些合成面无代替导致深层现象的贡献
DeepSeek的AIS发现了真正的人类欲望 DeepSeek的AIS发现了真正的人类欲望 DeepSeek在AI奖励模型中的突破性:加强AI推理和响应中国AI初创公司DeepSeek与Tsinghua University合作,在AI研究中取得了重要的里程碑。他们对AI奖励模型的创新方法有望彻底改变AI系统的学习方式
DeepCoder通过14B开放模型实现高编码效率 DeepCoder通过14B开放模型实现高编码效率 介绍DeepCoder-14b:开源编码模型的新领域,AI和Agentica的团队揭幕了DeepCoder-14b,这是一种开创性的编码模型,与Openai的O3-Mini(例如Openai的O3-Mini)肩并肩。这种令人兴奋的发展是基于FO的
Комментарии (10)
BrianWalker 23 апреля 2025 г., 10:37:03 GMT

This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚

BenHernández 23 апреля 2025 г., 10:37:03 GMT

携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚

HarryLewis 23 апреля 2025 г., 10:37:03 GMT

휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚

JasonMartin 23 апреля 2025 г., 10:37:03 GMT

Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚

RaymondRodriguez 23 апреля 2025 г., 10:37:03 GMT

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

SamuelClark 23 апреля 2025 г., 7:52:14 GMT

This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱

OR