вариант
Дом
Новости
Раскрытие наших «скрытых посещений» с помощью данных и машинного обучения мобильного телефона и машинного обучения

Раскрытие наших «скрытых посещений» с помощью данных и машинного обучения мобильного телефона и машинного обучения

23 апреля 2025 г.
59

Если вы когда-либо задумывались, как исследователи отслеживают наши перемещения по стране, не полагаясь исключительно на телефонные звонки, увлекательное исследование ученых из Китая и США дает некоторые ответы. Их совместная работа посвящена использованию машинного обучения для выявления «скрытых визитов» — тех поездок, которые не отображаются в стандартных телекоммуникационных данных, потому что мы недостаточно активно используем свои телефоны.

Исследование, озаглавленное **Выявление скрытых визитов из разреженных данных записей вызовов**, возглавляет Чжан Чжао из Университета Гонконга совместно с Харисом Н. Кутсопулосом из Северо-Восточного университета в Бостоне и Джинхуа Чжао из MIT. Их цель? Использовать записи мобильной активности — такие как мобильные данные, SMS и голосовые звонки — от высокоактивных пользователей для моделирования и прогнозирования моделей перемещений тех, кто использует свои телефоны реже.

Примерная схема извлечения информации о поездках из данных записей вызовов (CD). Источник: https://arxiv.org/pdf/2106.12885.pdf*Примерная схема извлечения информации о поездках из данных записей вызовов (CD).* Источник: https://arxiv.org/pdf/2106.12885.pdf

Хотя команда признает потенциальные проблемы с конфиденциальностью, которые вызывает их работа, они подчеркивают, что их цель — получить более обобщенное понимание моделей перемещений, а не сосредотачиваться на индивидуальных маршрутах. Они также отмечают, что данные записей вызовов (CDR), которые являются основой таких исследований, имеют свои ограничения. Они часто имеют низкое пространственное разрешение и подвержены «шумам позиционирования» из-за изменения положения пользователя относительно вышек сотовой связи. Однако они утверждают, что эта неточность фактически служит защитой конфиденциальности:

**«Целевое применение нашего исследования — это обнаружение поездок и оценка OD$$ \* $$, которые проводятся на агрегированном уровне, а не на индивидуальном. Разработанные модели могут быть напрямую внедрены на серверы баз данных телекоммуникационных операторов без необходимости передачи данных. Кроме того, по сравнению с другими формами больших данных, такими как данные социальных сетей или транзакций по кредитным картам, данные CDR относительно менее навязчивы с точки зрения личной конфиденциальности. Кроме того, ошибка локализации помогает маскировать точное местоположение пользователя, обеспечивая дополнительный уровень защиты конфиденциальности.»**

Интервалы прошедшего времени (ETI)

Когда мы перемещаемся с мобильными телефонами, не обязательно смартфонами, ограничения данных CDR как инструмента для точного определения местоположения становятся очевидными. Интервалы прошедшего времени (ETI), те периоды во время поездки, когда мы не совершаем и не принимаем звонки, являются ключевыми маркерами для отслеживания наших перемещений. Эти интервалы «тишины» могут временно заставить нас исчезнуть из сети.

Исследователи подчеркивают, как эти пробелы мешают аналитическим системам, пытающимся осмыслить маршруты A>B. Разреженность данных может скрывать «незамеченную поездку». Их новый метод решает эту проблему, анализируя пространственно-временной контекст ETI и учитывая «индивидуальные характеристики пользователя».

Набор данных

Для создания основного тренировочного набора исследователи использовали данные от крупного оператора сотовой связи в китайском городе с населением 6 миллионов. Этот набор данных включал более двух миллиардов транзакций мобильных телефонов от трех миллионов пользователей в ноябре 2013 года, сосредоточившись исключительно на записях голосовых звонков и доступа к данным. Примечательно, что они не включали данные SMS, что усложнило задачу работы с разреженными данными.

Данные включали зашифрованный уникальный идентификатор, код зоны местоположения (LAC), временную метку, идентификатор сотового телефона, связанный с LAC, для определения конкретной вышки сотовой связи, участвующей в транзакции, и идентификатор события, указывающий, был ли это исходящий/входящий звонок или использование данных.

Дерево процессов для выявления скрытых визитов.*Дерево процессов для выявления скрытых визитов.*

Эта информация была сопоставлена с базой данных операций вышек сотовой связи, что позволило исследователям определить координаты долготы и широты вышки, связанной с каждым событием связи. Они выявили 9000 вышек сотовой связи в наборе данных.

Исследователи отметили сложность точного определения пунктов назначения поездок, основываясь только на записях вызовов, поскольку эти записи достигают пика утром и днем, что соответствует типичным моделям поездок. Поскольку телефонные звонки могут предшествовать поездке и даже инициировать ее, это может искажать оценку пункта назначения.

Модели использования мобильных устройств в течение дня.*Модели использования мобильных устройств в течение дня.*

Аналогичные проблемы возникают с инициированным пользователем использованием данных, например, приложениями для обмена сообщениями. Однако именно «автоматизированное» использование данных — например, систематический опрос API для получения новых сообщений или других данных, включая GPS и телеметрию в приложениях, — помогает выявить эти скрытые перемещения.

Обработка

Исследователи применили различные классификаторы машинного обучения для решения этой проблемы, включая логистическую регрессию, машины опорных векторов (SVM), случайные леса и подход ансамбля градиентного бустинга. Они были реализованы на Python с использованием scikit-learn с настройками по умолчанию.

Среди них логистическая регрессия обеспечила наиболее интерпретируемые параметры модели. Команда также обнаружила, что более длинные ETI увеличивали вероятность скрытого визита, с более высокой частотой утром. Напротив, когда данные CDR пользователя четко показывали большое количество пунктов назначения или промежуточных точек, вероятность скрытого визита была ниже. Это открытие поддерживает основной принцип их исследования — что наиболее активные пользователи предоставляют детализированную картину своих перемещений, из которой можно вывести поведение менее активных пользователей.

В своем заключении исследователи предполагают, что их подход может быть применен к другим типам транспортных данных, таким как данные смарт-карт и геолокированная информация из социальных сетей.

Исследование было поддержано финансированием от Energy Foundation China и China Sustainable Transportation Center.

*\* Происхождение-Пункт назначения*

Связанная статья
Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения Исследование Microsoft выявляет ограничения моделей ИИ в отладке программного обеспечения Модели ИИ от OpenAI, Anthropic и других ведущих лабораторий ИИ всё чаще используются для задач программирования. Генеральный директор Google Сундар Пичаи отметил в октябре, что ИИ генерирует 25% новог
AI-мощные решения могут значительно сократить глобальные выбросы углерода AI-мощные решения могут значительно сократить глобальные выбросы углерода Недавнее исследование Лондонской школы экономики и Systemiq показывает, что искусственный интеллект может существенно снизить глобальные выбросы углерода без ущерба для современных удобств, позиционир
Новая статья раскрывает, сколько данных на самом деле запоминают LLM Новая статья раскрывает, сколько данных на самом деле запоминают LLM Сколько на самом деле запоминают модели ИИ? Новое исследование раскрывает удивительные выводыВсе мы знаем, что большие языковые модели (LLM), такие как ChatGPT, Claude и Gemini, обучаются на огромных
Комментарии (16)
JuanLewis
JuanLewis 1 августа 2025 г., 16:47:34 GMT+03:00

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 24 апреля 2025 г., 7:36:16 GMT+03:00

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 24 апреля 2025 г., 0:35:24 GMT+03:00

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 23 апреля 2025 г., 23:51:52 GMT+03:00

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 23 апреля 2025 г., 14:05:02 GMT+03:00

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

RaymondRodriguez
RaymondRodriguez 23 апреля 2025 г., 13:37:03 GMT+03:00

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

Вернуться к вершине
OR