使用手机数据和机器学习探索我们的“隐藏访问”
如果你曾好奇研究人员如何在不完全依赖电话的情况下追踪我们全国的移动,一项由中国和美国研究人员合作开展的引人入胜的研究提供了一些见解。他们的合作研究深入探讨了使用机器学习揭示我们所做的“隐藏访问”——那些因我们使用手机不够频繁而在标准电信数据中未显示的行程。
这项研究题为**从稀疏通话详单数据中识别隐藏访问**,由香港大学的赵展领导,联合波士顿东北大学的Haris N. Koutsopoulos和麻省理工学院的赵锦华共同完成。他们的目标?利用高活跃用户的移动连接记录——如移动数据、短信和语音通话——来建模和预测那些较少使用手机的用户的移动模式。
*从通话详单(CD)数据中提取行程信息的粗略示意图。* 来源:https://arxiv.org/pdf/2106.12885.pdf
虽然研究团队承认他们的工作可能引发隐私担忧,但他们强调目标是获得对移动模式的总体理解,而非聚焦于个体行程。他们还指出,通话详单(CDR)数据作为此类研究的基础,存在局限性。其空间分辨率通常较低,且因用户相对于手机信号塔位置的变化而易受“定位噪声”影响。然而,他们认为这种不准确性实际上有助于保护隐私:
**“我们研究的目标应用是行程检测和OD估计$$ \* $$,这些是在总体层面而非个体层面进行。开发的模型可直接部署在电信运营商的数据库服务器上,无需数据传输。此外,与其他大数据形式(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面的侵入性较低。此外,其定位误差有助于掩盖用户的精确位置,提供额外的隐私保护层。”**
经过时间间隔(ETIs)
当我们携带手机(不一定是智能手机)移动时,CDR数据作为定位工具的局限性变得明显。经过时间间隔(ETIs),即行程中我们未拨打或接听电话的时段,是追踪我们移动的关键标志。这些“沉默”间隔可能使我们暂时从数据网格中消失。
研究人员强调,这些间隙如何干扰试图理解A>B行程的分析系统。数据的稀疏性可能隐藏了“未观察到的行程”。他们的新方法通过分析ETIs的时空背景并考虑“用户的个体特征”来解决这一问题。
数据集
为构建核心训练集,研究人员使用了一家中国城市(人口600万)主要移动运营商的数据。该数据集包括2013年11月300万用户的超过20亿条手机交易记录,仅聚焦于语音通话和数据访问记录。值得注意的是,他们未包含短信数据,这增加了处理稀疏数据的挑战。
数据包括加密的唯一ID、位置区域代码(LAC)、时间戳、与LAC关联的手机信号塔ID(用于识别涉及交易的具体信号塔)以及表示是拨出/接入通话还是数据使用的Event ID。
*识别隐藏访问的流程树。*
这些信息与信号塔操作数据库交叉参照,使研究人员能够确定与每次通信事件相关的信号塔的经度和纬度坐标。他们在数据集中识别了9000个信号塔。
研究人员指出,仅基于通话记录准确猜测行程目的地具有难度,因为这些记录在早晨和下午达到高峰,与典型出行模式一致。由于电话通话可能先于行程甚至触发行程,这可能导致目的地估计出现偏差。
*一天中移动使用模式。*
用户发起的数据使用(如消息应用程序)也面临类似挑战。然而,“自动化”数据使用——如系统性地轮询API以获取新消息或其他数据,包括跨应用程序的GPS和遥测数据——有助于识别这些隐藏移动。
处理
研究人员采用了多种机器学习分类器来解决这一问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。这些分类器使用Python的scikit-learn库以默认设置实现。
其中,逻辑回归提供了最具可解释性的模型参数。团队还发现,更长的ETIs增加了发生隐藏访问的可能性,尤其在早晨更高。相反,当用户的CDR数据清楚显示出大量目的地或途经点时,隐藏访问的可能性较低。这一发现支持了他们研究的核心原则——最活跃的用户提供了详细的移动图景,可据此推断较不活跃用户的行为。
在结论中,研究人员建议他们的方法可应用于其他类型的交通数据,如智能卡数据和地理定位的社交媒体信息。
该研究得到了中国能源基金会和中国可持续交通中心的资助。
*\* 起点-终点*
相关文章
谷歌云为科学研究和发现的突破提供动力
数字革命正在通过前所未有的计算能力改变科学方法。现在,尖端技术增强了理论框架和实验室实验,通过复杂的模拟和大数据分析推动了各学科的突破。通过对基础研究、可扩展云架构和人工智能开发的战略性投资,我们建立了一个加速科学进步的生态系统。我们在制药研究、气候建模和纳米技术等领域做出了突破性创新,并辅之以世界一流的计算基础设施、云原生软件解决方案和新一代生成式人工智能平台。谷歌 DeepMind 的研究实力
人工智能加速科学研究,产生更大的现实影响
谷歌一直将人工智能作为科学进步的催化剂,如今的发现速度已经达到了非凡的新水平。这种加速改变了研究周期,以前所未有的速度将基础性突破转化为实际应用。人工智能不仅不会取代人类的创造力,反而会成为人类潜能的强大放大器。我们的研究人员利用人工智能解决基础科学问题,拓展我们的集体知识,同时为全球挑战开发创新解决方案。通过与学术机构和行业合作伙伴的密切合作,我们致力于通过与更广泛的研究社区共享工具和资源,使这
人工智能中的伦理:应对自动化中的偏见和合规挑战
随着自动化深入各行各业,伦理方面的考虑正成为至关重要的优先事项。决策算法现在影响着社会的重要方面,包括就业机会、金融服务、医疗保健和法律程序,这就需要严格的伦理框架。如果没有适当的管理,这些强大的系统就有可能扩大现有的不平等并造成广泛的伤害。了解人工智能系统中的偏见算法偏见的根源往往在于有缺陷的训练数据。历史上的歧视模式可能会在机器学习模型中永久化--例如,招聘工具会根据过去决定中反映出的受保护特
评论 (17)
0/200
KennethWalker
2025-08-10 19:01:00
This study on tracking movements with phone data is wild! 😲 It’s like our phones are secretly spilling where we’ve been. Kinda creepy, but super cool how machine learning digs into those 'hidden visits.' Makes me wonder what else they can find out!
0
JuanLewis
2025-08-01 21:47:34
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.
0
RalphSanchez
2025-04-24 12:36:16
이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓
0
MatthewScott
2025-04-24 05:35:24
¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔
0
RalphHill
2025-04-24 04:51:52
Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱
0
WilliamMiller
2025-04-23 19:05:02
Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔
0
如果你曾好奇研究人员如何在不完全依赖电话的情况下追踪我们全国的移动,一项由中国和美国研究人员合作开展的引人入胜的研究提供了一些见解。他们的合作研究深入探讨了使用机器学习揭示我们所做的“隐藏访问”——那些因我们使用手机不够频繁而在标准电信数据中未显示的行程。
这项研究题为**从稀疏通话详单数据中识别隐藏访问**,由香港大学的赵展领导,联合波士顿东北大学的Haris N. Koutsopoulos和麻省理工学院的赵锦华共同完成。他们的目标?利用高活跃用户的移动连接记录——如移动数据、短信和语音通话——来建模和预测那些较少使用手机的用户的移动模式。
*从通话详单(CD)数据中提取行程信息的粗略示意图。* 来源:https://arxiv.org/pdf/2106.12885.pdf
虽然研究团队承认他们的工作可能引发隐私担忧,但他们强调目标是获得对移动模式的总体理解,而非聚焦于个体行程。他们还指出,通话详单(CDR)数据作为此类研究的基础,存在局限性。其空间分辨率通常较低,且因用户相对于手机信号塔位置的变化而易受“定位噪声”影响。然而,他们认为这种不准确性实际上有助于保护隐私:
**“我们研究的目标应用是行程检测和OD估计$$ \* $$,这些是在总体层面而非个体层面进行。开发的模型可直接部署在电信运营商的数据库服务器上,无需数据传输。此外,与其他大数据形式(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面的侵入性较低。此外,其定位误差有助于掩盖用户的精确位置,提供额外的隐私保护层。”**
经过时间间隔(ETIs)
当我们携带手机(不一定是智能手机)移动时,CDR数据作为定位工具的局限性变得明显。经过时间间隔(ETIs),即行程中我们未拨打或接听电话的时段,是追踪我们移动的关键标志。这些“沉默”间隔可能使我们暂时从数据网格中消失。
研究人员强调,这些间隙如何干扰试图理解A>B行程的分析系统。数据的稀疏性可能隐藏了“未观察到的行程”。他们的新方法通过分析ETIs的时空背景并考虑“用户的个体特征”来解决这一问题。
数据集
为构建核心训练集,研究人员使用了一家中国城市(人口600万)主要移动运营商的数据。该数据集包括2013年11月300万用户的超过20亿条手机交易记录,仅聚焦于语音通话和数据访问记录。值得注意的是,他们未包含短信数据,这增加了处理稀疏数据的挑战。
数据包括加密的唯一ID、位置区域代码(LAC)、时间戳、与LAC关联的手机信号塔ID(用于识别涉及交易的具体信号塔)以及表示是拨出/接入通话还是数据使用的Event ID。
*识别隐藏访问的流程树。*
这些信息与信号塔操作数据库交叉参照,使研究人员能够确定与每次通信事件相关的信号塔的经度和纬度坐标。他们在数据集中识别了9000个信号塔。
研究人员指出,仅基于通话记录准确猜测行程目的地具有难度,因为这些记录在早晨和下午达到高峰,与典型出行模式一致。由于电话通话可能先于行程甚至触发行程,这可能导致目的地估计出现偏差。
*一天中移动使用模式。*
用户发起的数据使用(如消息应用程序)也面临类似挑战。然而,“自动化”数据使用——如系统性地轮询API以获取新消息或其他数据,包括跨应用程序的GPS和遥测数据——有助于识别这些隐藏移动。
处理
研究人员采用了多种机器学习分类器来解决这一问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。这些分类器使用Python的scikit-learn库以默认设置实现。
其中,逻辑回归提供了最具可解释性的模型参数。团队还发现,更长的ETIs增加了发生隐藏访问的可能性,尤其在早晨更高。相反,当用户的CDR数据清楚显示出大量目的地或途经点时,隐藏访问的可能性较低。这一发现支持了他们研究的核心原则——最活跃的用户提供了详细的移动图景,可据此推断较不活跃用户的行为。
在结论中,研究人员建议他们的方法可应用于其他类型的交通数据,如智能卡数据和地理定位的社交媒体信息。
该研究得到了中国能源基金会和中国可持续交通中心的资助。
*\* 起点-终点*



This study on tracking movements with phone data is wild! 😲 It’s like our phones are secretly spilling where we’ve been. Kinda creepy, but super cool how machine learning digs into those 'hidden visits.' Makes me wonder what else they can find out!




This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.




이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓




¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔




Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱




Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔












