选项
首页
新闻
使用手机数据和机器学习探索我们的“隐藏访问”

使用手机数据和机器学习探索我们的“隐藏访问”

2025-04-23
59

如果你曾好奇研究人员如何在不完全依赖电话的情况下追踪我们全国的移动,一项由中国和美国研究人员合作开展的引人入胜的研究提供了一些见解。他们的合作研究深入探讨了使用机器学习揭示我们所做的“隐藏访问”——那些因我们使用手机不够频繁而在标准电信数据中未显示的行程。

这项研究题为**从稀疏通话详单数据中识别隐藏访问**,由香港大学的赵展领导,联合波士顿东北大学的Haris N. Koutsopoulos和麻省理工学院的赵锦华共同完成。他们的目标?利用高活跃用户的移动连接记录——如移动数据、短信和语音通话——来建模和预测那些较少使用手机的用户的移动模式。

从通话详单(CD)数据中提取行程信息的粗略示意图。来源:https://arxiv.org/pdf/2106.12885.pdf*从通话详单(CD)数据中提取行程信息的粗略示意图。* 来源:https://arxiv.org/pdf/2106.12885.pdf

虽然研究团队承认他们的工作可能引发隐私担忧,但他们强调目标是获得对移动模式的总体理解,而非聚焦于个体行程。他们还指出,通话详单(CDR)数据作为此类研究的基础,存在局限性。其空间分辨率通常较低,且因用户相对于手机信号塔位置的变化而易受“定位噪声”影响。然而,他们认为这种不准确性实际上有助于保护隐私:

**“我们研究的目标应用是行程检测和OD估计$$ \* $$,这些是在总体层面而非个体层面进行。开发的模型可直接部署在电信运营商的数据库服务器上,无需数据传输。此外,与其他大数据形式(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面的侵入性较低。此外,其定位误差有助于掩盖用户的精确位置,提供额外的隐私保护层。”**

经过时间间隔(ETIs)

当我们携带手机(不一定是智能手机)移动时,CDR数据作为定位工具的局限性变得明显。经过时间间隔(ETIs),即行程中我们未拨打或接听电话的时段,是追踪我们移动的关键标志。这些“沉默”间隔可能使我们暂时从数据网格中消失。

研究人员强调,这些间隙如何干扰试图理解A>B行程的分析系统。数据的稀疏性可能隐藏了“未观察到的行程”。他们的新方法通过分析ETIs的时空背景并考虑“用户的个体特征”来解决这一问题。

数据集

为构建核心训练集,研究人员使用了一家中国城市(人口600万)主要移动运营商的数据。该数据集包括2013年11月300万用户的超过20亿条手机交易记录,仅聚焦于语音通话和数据访问记录。值得注意的是,他们未包含短信数据,这增加了处理稀疏数据的挑战。

数据包括加密的唯一ID、位置区域代码(LAC)、时间戳、与LAC关联的手机信号塔ID(用于识别涉及交易的具体信号塔)以及表示是拨出/接入通话还是数据使用的Event ID。

识别隐藏访问的流程树。*识别隐藏访问的流程树。*

这些信息与信号塔操作数据库交叉参照,使研究人员能够确定与每次通信事件相关的信号塔的经度和纬度坐标。他们在数据集中识别了9000个信号塔。

研究人员指出,仅基于通话记录准确猜测行程目的地具有难度,因为这些记录在早晨和下午达到高峰,与典型出行模式一致。由于电话通话可能先于行程甚至触发行程,这可能导致目的地估计出现偏差。

一天中移动使用模式。*一天中移动使用模式。*

用户发起的数据使用(如消息应用程序)也面临类似挑战。然而,“自动化”数据使用——如系统性地轮询API以获取新消息或其他数据,包括跨应用程序的GPS和遥测数据——有助于识别这些隐藏移动。

处理

研究人员采用了多种机器学习分类器来解决这一问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。这些分类器使用Python的scikit-learn库以默认设置实现。

其中,逻辑回归提供了最具可解释性的模型参数。团队还发现,更长的ETIs增加了发生隐藏访问的可能性,尤其在早晨更高。相反,当用户的CDR数据清楚显示出大量目的地或途经点时,隐藏访问的可能性较低。这一发现支持了他们研究的核心原则——最活跃的用户提供了详细的移动图景,可据此推断较不活跃用户的行为。

在结论中,研究人员建议他们的方法可应用于其他类型的交通数据,如智能卡数据和地理定位的社交媒体信息。

该研究得到了中国能源基金会和中国可持续交通中心的资助。

*\* 起点-终点*

相关文章
微软研究揭示AI模型在软件调试中的局限性 微软研究揭示AI模型在软件调试中的局限性 来自OpenAI、Anthropic和其他领先AI实验室的AI模型越来越多地用于编码任务。谷歌首席执行官桑达尔·皮查伊在十月指出,AI在公司中生成25%的新代码,而Meta首席执行官马克·扎克伯格计划在社交媒体巨头内部广泛实施AI编码工具。然而,即使是表现最好的模型也难以修复经验丰富的开发者轻松处理的软件错误。微软研发部门近期开展的一项微软研究显示,像Anthropic的Claude 3.7 So
AI驱动的解决方案可显著减少全球碳排放 AI驱动的解决方案可显著减少全球碳排放 伦敦经济学院与Systemiq的最新研究显示,人工智能可在不牺牲现代便利的情况下大幅降低全球碳排放,使AI成为应对气候变化的重要盟友。研究指出,仅在三个领域应用智能AI,到2035年每年可减少32亿至54亿吨温室气体排放。与普遍担忧相反,这些减排量将远超AI运行产生的碳足迹。题为《绿色与智能:AI在气候转型中的作用》的报告将AI视为构建可持续且包容性经济的变革力量,而非仅是渐进式改进的工具。净零排
新研究揭示大语言模型实际记忆的数据量 新研究揭示大语言模型实际记忆的数据量 AI模型实际记忆了多少?新研究揭示惊人见解我们都知道,像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)是在海量数据集上训练的——包括来自书籍、网站、代码,甚至图像和音频等多媒体的数万亿字词。但这些数据到底发生了什么?这些模型是真正理解语言,还是仅仅在复述记忆的片段?来自Meta、Google DeepMind、Cornell和NVIDIA的一项突破性新研究终于给出了具体答
评论 (16)
0/200
JuanLewis
JuanLewis 2025-08-01 21:47:34

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 2025-04-24 12:36:16

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 2025-04-24 05:35:24

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 2025-04-24 04:51:52

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 2025-04-23 19:05:02

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

RaymondRodriguez
RaymondRodriguez 2025-04-23 18:37:03

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

返回顶部
OR