使用手机数据和机器学习探索我们的“隐藏访问”
如果你曾好奇研究人员如何在不完全依赖电话的情况下追踪我们全国的移动,一项由中国和美国研究人员合作开展的引人入胜的研究提供了一些见解。他们的合作研究深入探讨了使用机器学习揭示我们所做的“隐藏访问”——那些因我们使用手机不够频繁而在标准电信数据中未显示的行程。
这项研究题为**从稀疏通话详单数据中识别隐藏访问**,由香港大学的赵展领导,联合波士顿东北大学的Haris N. Koutsopoulos和麻省理工学院的赵锦华共同完成。他们的目标?利用高活跃用户的移动连接记录——如移动数据、短信和语音通话——来建模和预测那些较少使用手机的用户的移动模式。
*从通话详单(CD)数据中提取行程信息的粗略示意图。* 来源:https://arxiv.org/pdf/2106.12885.pdf
虽然研究团队承认他们的工作可能引发隐私担忧,但他们强调目标是获得对移动模式的总体理解,而非聚焦于个体行程。他们还指出,通话详单(CDR)数据作为此类研究的基础,存在局限性。其空间分辨率通常较低,且因用户相对于手机信号塔位置的变化而易受“定位噪声”影响。然而,他们认为这种不准确性实际上有助于保护隐私:
**“我们研究的目标应用是行程检测和OD估计$$ \* $$,这些是在总体层面而非个体层面进行。开发的模型可直接部署在电信运营商的数据库服务器上,无需数据传输。此外,与其他大数据形式(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面的侵入性较低。此外,其定位误差有助于掩盖用户的精确位置,提供额外的隐私保护层。”**
经过时间间隔(ETIs)
当我们携带手机(不一定是智能手机)移动时,CDR数据作为定位工具的局限性变得明显。经过时间间隔(ETIs),即行程中我们未拨打或接听电话的时段,是追踪我们移动的关键标志。这些“沉默”间隔可能使我们暂时从数据网格中消失。
研究人员强调,这些间隙如何干扰试图理解A>B行程的分析系统。数据的稀疏性可能隐藏了“未观察到的行程”。他们的新方法通过分析ETIs的时空背景并考虑“用户的个体特征”来解决这一问题。
数据集
为构建核心训练集,研究人员使用了一家中国城市(人口600万)主要移动运营商的数据。该数据集包括2013年11月300万用户的超过20亿条手机交易记录,仅聚焦于语音通话和数据访问记录。值得注意的是,他们未包含短信数据,这增加了处理稀疏数据的挑战。
数据包括加密的唯一ID、位置区域代码(LAC)、时间戳、与LAC关联的手机信号塔ID(用于识别涉及交易的具体信号塔)以及表示是拨出/接入通话还是数据使用的Event ID。
*识别隐藏访问的流程树。*
这些信息与信号塔操作数据库交叉参照,使研究人员能够确定与每次通信事件相关的信号塔的经度和纬度坐标。他们在数据集中识别了9000个信号塔。
研究人员指出,仅基于通话记录准确猜测行程目的地具有难度,因为这些记录在早晨和下午达到高峰,与典型出行模式一致。由于电话通话可能先于行程甚至触发行程,这可能导致目的地估计出现偏差。
*一天中移动使用模式。*
用户发起的数据使用(如消息应用程序)也面临类似挑战。然而,“自动化”数据使用——如系统性地轮询API以获取新消息或其他数据,包括跨应用程序的GPS和遥测数据——有助于识别这些隐藏移动。
处理
研究人员采用了多种机器学习分类器来解决这一问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。这些分类器使用Python的scikit-learn库以默认设置实现。
其中,逻辑回归提供了最具可解释性的模型参数。团队还发现,更长的ETIs增加了发生隐藏访问的可能性,尤其在早晨更高。相反,当用户的CDR数据清楚显示出大量目的地或途经点时,隐藏访问的可能性较低。这一发现支持了他们研究的核心原则——最活跃的用户提供了详细的移动图景,可据此推断较不活跃用户的行为。
在结论中,研究人员建议他们的方法可应用于其他类型的交通数据,如智能卡数据和地理定位的社交媒体信息。
该研究得到了中国能源基金会和中国可持续交通中心的资助。
*\* 起点-终点*
相关文章
据报道员工浏览了露骨内容,Meta因AI眼镜隐私问题面临诉讼
Meta正面临一起涉及其AI智能眼镜隐私问题的新诉讼。据瑞典媒体调查,一家位于肯尼亚的分包商员工一直在审查客户的视频 footage。据报道,这些视频包含裸露、性行为以及人们如厕等敏感内容。Meta表示会在图像中对人脸进行模糊处理,但新闻报道援引消息人士称,这一措施并非总是有效。这一调查结果促使英国信息专员办公室展开调查。这家科技巨头目前在美国也面临法律诉讼。在最新提交的诉状中,由公益律所克拉克森
以优化为驱动的人工智能成为通用模型的新路径
伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(
人工智能热潮引发对互联网泡沫时代的担忧
人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
相关专题推荐
评论 (20)
0/500
Die Studie zeigt echt spannend, wie sich Bewegungsmuster aus Mobilfunkdaten extrahieren lassen. Gleichzeitig wirft das aber auch Datenschutzfragen auf – wer kontrolliert eigentlich, wie diese Infos genutzt werden? 🧐
Wait, so they're using ML to track our 'hidden visits' now? 😅 Always feels a bit creepy when tech peeks into those unregistered trips... but the data insights could be huge for urban planning or disease tracking, right? Still, makes me side-eye my phone a little more today 🧐
This study on tracking movements with phone data is wild! 😲 It’s like our phones are secretly spilling where we’ve been. Kinda creepy, but super cool how machine learning digs into those 'hidden visits.' Makes me wonder what else they can find out!
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.
如果你曾好奇研究人员如何在不完全依赖电话的情况下追踪我们全国的移动,一项由中国和美国研究人员合作开展的引人入胜的研究提供了一些见解。他们的合作研究深入探讨了使用机器学习揭示我们所做的“隐藏访问”——那些因我们使用手机不够频繁而在标准电信数据中未显示的行程。
这项研究题为**从稀疏通话详单数据中识别隐藏访问**,由香港大学的赵展领导,联合波士顿东北大学的Haris N. Koutsopoulos和麻省理工学院的赵锦华共同完成。他们的目标?利用高活跃用户的移动连接记录——如移动数据、短信和语音通话——来建模和预测那些较少使用手机的用户的移动模式。
*从通话详单(CD)数据中提取行程信息的粗略示意图。* 来源:https://arxiv.org/pdf/2106.12885.pdf
虽然研究团队承认他们的工作可能引发隐私担忧,但他们强调目标是获得对移动模式的总体理解,而非聚焦于个体行程。他们还指出,通话详单(CDR)数据作为此类研究的基础,存在局限性。其空间分辨率通常较低,且因用户相对于手机信号塔位置的变化而易受“定位噪声”影响。然而,他们认为这种不准确性实际上有助于保护隐私:
**“我们研究的目标应用是行程检测和OD估计$$ \* $$,这些是在总体层面而非个体层面进行。开发的模型可直接部署在电信运营商的数据库服务器上,无需数据传输。此外,与其他大数据形式(如社交媒体或信用卡交易数据)相比,CDR数据在个人隐私方面的侵入性较低。此外,其定位误差有助于掩盖用户的精确位置,提供额外的隐私保护层。”**
经过时间间隔(ETIs)
当我们携带手机(不一定是智能手机)移动时,CDR数据作为定位工具的局限性变得明显。经过时间间隔(ETIs),即行程中我们未拨打或接听电话的时段,是追踪我们移动的关键标志。这些“沉默”间隔可能使我们暂时从数据网格中消失。
研究人员强调,这些间隙如何干扰试图理解A>B行程的分析系统。数据的稀疏性可能隐藏了“未观察到的行程”。他们的新方法通过分析ETIs的时空背景并考虑“用户的个体特征”来解决这一问题。
数据集
为构建核心训练集,研究人员使用了一家中国城市(人口600万)主要移动运营商的数据。该数据集包括2013年11月300万用户的超过20亿条手机交易记录,仅聚焦于语音通话和数据访问记录。值得注意的是,他们未包含短信数据,这增加了处理稀疏数据的挑战。
数据包括加密的唯一ID、位置区域代码(LAC)、时间戳、与LAC关联的手机信号塔ID(用于识别涉及交易的具体信号塔)以及表示是拨出/接入通话还是数据使用的Event ID。
*识别隐藏访问的流程树。*
这些信息与信号塔操作数据库交叉参照,使研究人员能够确定与每次通信事件相关的信号塔的经度和纬度坐标。他们在数据集中识别了9000个信号塔。
研究人员指出,仅基于通话记录准确猜测行程目的地具有难度,因为这些记录在早晨和下午达到高峰,与典型出行模式一致。由于电话通话可能先于行程甚至触发行程,这可能导致目的地估计出现偏差。
*一天中移动使用模式。*
用户发起的数据使用(如消息应用程序)也面临类似挑战。然而,“自动化”数据使用——如系统性地轮询API以获取新消息或其他数据,包括跨应用程序的GPS和遥测数据——有助于识别这些隐藏移动。
处理
研究人员采用了多种机器学习分类器来解决这一问题,包括逻辑回归、支持向量机(SVM)、随机森林和梯度提升集成方法。这些分类器使用Python的scikit-learn库以默认设置实现。
其中,逻辑回归提供了最具可解释性的模型参数。团队还发现,更长的ETIs增加了发生隐藏访问的可能性,尤其在早晨更高。相反,当用户的CDR数据清楚显示出大量目的地或途经点时,隐藏访问的可能性较低。这一发现支持了他们研究的核心原则——最活跃的用户提供了详细的移动图景,可据此推断较不活跃用户的行为。
在结论中,研究人员建议他们的方法可应用于其他类型的交通数据,如智能卡数据和地理定位的社交媒体信息。
该研究得到了中国能源基金会和中国可持续交通中心的资助。
*\* 起点-终点*
据报道员工浏览了露骨内容,Meta因AI眼镜隐私问题面临诉讼
Meta正面临一起涉及其AI智能眼镜隐私问题的新诉讼。据瑞典媒体调查,一家位于肯尼亚的分包商员工一直在审查客户的视频 footage。据报道,这些视频包含裸露、性行为以及人们如厕等敏感内容。Meta表示会在图像中对人脸进行模糊处理,但新闻报道援引消息人士称,这一措施并非总是有效。这一调查结果促使英国信息专员办公室展开调查。这家科技巨头目前在美国也面临法律诉讼。在最新提交的诉状中,由公益律所克拉克森
以优化为驱动的人工智能成为通用模型的新路径
伊利诺伊大学厄巴纳-香槟分校与弗吉尼亚大学的研究人员创建了一种新型模型架构,有望为构建更具弹性且推理能力更强的AI系统铺平道路。该架构被命名为基于能量的变压器(EBT),能够自然地利用推理时期的可扩展性来应对复杂挑战。对企业而言,这意味着能够适应新场景且无需专用微调模型的成本高效人工智能应用。系统2思维的挑战心理学将人类认知划分为两种模式:快速直觉的系统1,以及缓慢审慎的系统2。当前大型语言模型(
人工智能热潮引发对互联网泡沫时代的担忧
人工智能领域数十亿美元的投资涌入,引发了一场激烈争论:该行业是否正走向互联网泡沫式的泡沫?投资者正警惕着热情降温的迹象,或芯片与基础设施巨额投入未能带来预期回报的征兆。美银全球研究近期调查凸显了这种谨慎态度:54%的基金经理认为人工智能股票已处于泡沫状态,38%持反对意见。与互联网泡沫的相似之处尽管普遍乐观,质疑者仍质疑人工智能的实质影响,部分人将其斥为虚张声势或即将破灭的泡沫。思科亚太、日本及中
Die Studie zeigt echt spannend, wie sich Bewegungsmuster aus Mobilfunkdaten extrahieren lassen. Gleichzeitig wirft das aber auch Datenschutzfragen auf – wer kontrolliert eigentlich, wie diese Infos genutzt werden? 🧐
Wait, so they're using ML to track our 'hidden visits' now? 😅 Always feels a bit creepy when tech peeks into those unregistered trips... but the data insights could be huge for urban planning or disease tracking, right? Still, makes me side-eye my phone a little more today 🧐
This study on tracking movements with phone data is wild! 😲 It’s like our phones are secretly spilling where we’ve been. Kinda creepy, but super cool how machine learning digs into those 'hidden visits.' Makes me wonder what else they can find out!
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.





首页






