使用手機數據和機器學習探索我們的“隱藏訪問”
如果您曾經好奇研究人員如何在不完全依賴電話通話的情況下追蹤我們在全國的移動,一項由來自中國和美國的研究人員進行的引人入勝研究提供了一些見解。他們的合作研究深入探討了使用機器學習來揭示我們所進行的「隱藏訪問」——那些由於我們使用電話不夠頻繁而未出現在標準電信數據中的行程。
這項研究題為**從稀疏通話詳情記錄數據中識別隱藏訪問**,由香港大學的趙展帶領,聯合波士頓東北大學的Haris N. Koutsopoulos和麻省理工學院的趙金華進行。他們的目標是利用高活躍用戶的移動連接記錄——如移動數據、短信和語音通話——來建模並預測那些較少使用電話的用戶的移動模式。
*從通話詳情記錄(CD)數據中提取行程資訊的粗略示意圖。* 來源:https://arxiv.org/pdf/2106.12885.pdf
雖然研究團隊承認他們的工作可能引發隱私問題,但他們強調其目標是獲得對移動模式的更廣泛理解,而不是聚焦於個人行程。他們還指出,通話詳情記錄(CDR)數據作為此類研究的基礎有其局限性。其空間分辨率通常較低,且因用戶相對於手機信號塔位置的變化而容易受到「定位噪音」的影響。然而,他們認為這種不準確性實際上是一種隱私保護措施:
**「我們研究的目標應用是行程檢測和OD估計$$ \* $$,這些是在總體層面進行,而不是個體層面。開發的模型可以直接部署在電信運營商的數據庫伺服器上,無需數據傳輸。此外,與其他形式的大數據(如社交媒體或信用卡交易數據)相比,CDR數據在個人隱私方面的侵入性相對較低。此外,其定位誤差有助於掩蓋用戶的確切位置,提供了另一層隱私保護。」**
經過時間間隔(ETIs)
當我們攜帶手機(不一定是智能手機)移動時,CDR數據作為精確定位工具的局限性顯而易見。經過時間間隔(ETIs),即旅途中我們未撥打或接收電話的時間段,是追蹤我們移動的關鍵標記。這些「沉默」間隔可能使我們暫時從數據網格中消失。
研究人員強調這些間隔如何干擾試圖理解A>B行程的分析系統。數據的稀疏性可能隱藏了「未觀察到的行程」。他們的新方法通過分析ETIs的時空背景並考慮「用戶的個人特徵」來解決這個問題。
數據集
為了構建核心訓練集,研究人員使用了來自中國一個600萬人口城市的主要移動服務運營商的數據。該數據集包括2013年11月300萬用戶的超過20億手機交易,僅聚焦於語音通話和數據訪問記錄。值得注意的是,他們未包含短信數據,這增加了處理稀疏數據的挑戰。
數據包括加密的唯一ID、位置區域碼(LAC)、時間戳、與LAC相關的手機信號塔ID(用於識別涉及交易的具體信號塔),以及表示是撥出/接收通話還是數據使用的活動ID。
*識別隱藏訪問的流程樹。*
這些資訊與信號塔運營數據庫交叉參考,使研究人員能夠確定與每個通信事件相關的信號塔的經度和緯度座標。他們在數據集中識別了9000個信號塔。
研究人員指出,僅基於通話記錄準確猜測行程目的地的難度,因為這些記錄在早晨和下午達到高峰,這與典型的旅行模式一致。由於電話通話可能在行程之前發生,甚至可能觸發行程,這可能會影響目的地估計的準確性。
*一天中手機使用模式的變化。*
用戶主動的數據使用(如消息應用程序)也面臨類似挑戰。然而,像是API系統性輪詢新消息或其他數據(包括應用程序中的GPS和遙測數據)的「自動化」數據使用,有助於識別這些隱藏移動。
處理
研究人員使用了多種機器學習分類器來解決這個問題,包括邏輯回歸、支持向量機(SVM)、隨機森林和梯度提升集成方法。這些分類器使用Python的scikit-learn以默認設置實現。
在這些方法中,邏輯回歸提供了最具可解釋性的模型參數。團隊還發現,較長的ETIs增加了發生隱藏訪問的可能性,尤其在早晨更為顯著。相反,當用戶的CDR數據清楚顯示出大量目的地或中途點時,隱藏訪問的可能性較低。這一發現支持了他們研究的核心原則——最活躍的用戶提供了詳細的移動圖景,從中可以推斷出較不活躍用戶的行為。
在結論中,研究人員建議他們的方法可以應用於其他類型的交通數據,如智能卡數據和地理定位的社交媒體資訊。
這項研究得到了中國能源基金會和中國可持續交通中心的資助。
*\* 起點-目的地*
相關文章
微軟研究揭示AI模型在軟體除錯中的局限性
來自OpenAI、Anthropic及其他領先AI實驗室的AI模型越來越常用於編碼任務。Google執行長Sundar Pichai於10月表示,AI在公司內生成25%的新程式碼,而Meta執行長Mark Zuckerberg則計劃在這家社群媒體巨頭中廣泛應用AI編碼工具。然而,即使是表現最佳的模型,在修復軟體錯誤時仍難以達到經驗豐富的開發者輕鬆處理的水平。微軟研發部門近期進行的微軟研究顯示,像A
AI驅動的解決方案可顯著降低全球碳排放
倫敦經濟學院與Systemiq的最新研究顯示,人工智慧可在不犧牲現代便利性的前提下大幅降低全球碳排放,使AI成為對抗氣候變遷的關鍵盟友。研究指出,僅在三個領域應用智慧AI技術,到2035年每年可減少32億至54億噸的溫室氣體排放。與普遍擔憂相反,這些減排量將遠超AI運營所產生的碳足跡。題為《綠色與智慧:AI在氣候轉型中的角色》的報告,將AI視為打造可持續且包容經濟的轉型力量,而非僅僅是漸進式進展的
新研究揭示大規模語言模型實際記憶的數據量
AI模型實際記憶多少?新研究揭示驚人見解我們都知道,像ChatGPT、Claude和Gemini這樣的大規模語言模型(LLMs)是在龐大數據集上訓練的——來自書籍、網站、程式碼,甚至圖像和音頻等多媒體的數兆字詞。但這些數據到底發生了什麼?這些模型真的理解語言,還是僅僅在重複記憶的片段?來自Meta、Google DeepMind、Cornell和NVIDIA的一項突破性新研究終於給出了具體答案——
評論 (16)
0/200
JuanLewis
2025-08-01 21:47:34
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.
0
RalphSanchez
2025-04-24 12:36:16
이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓
0
MatthewScott
2025-04-24 05:35:24
¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔
0
RalphHill
2025-04-24 04:51:52
Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱
0
WilliamMiller
2025-04-23 19:05:02
Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔
0
RaymondRodriguez
2025-04-23 18:37:03
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
如果您曾經好奇研究人員如何在不完全依賴電話通話的情況下追蹤我們在全國的移動,一項由來自中國和美國的研究人員進行的引人入勝研究提供了一些見解。他們的合作研究深入探討了使用機器學習來揭示我們所進行的「隱藏訪問」——那些由於我們使用電話不夠頻繁而未出現在標準電信數據中的行程。
這項研究題為**從稀疏通話詳情記錄數據中識別隱藏訪問**,由香港大學的趙展帶領,聯合波士頓東北大學的Haris N. Koutsopoulos和麻省理工學院的趙金華進行。他們的目標是利用高活躍用戶的移動連接記錄——如移動數據、短信和語音通話——來建模並預測那些較少使用電話的用戶的移動模式。
*從通話詳情記錄(CD)數據中提取行程資訊的粗略示意圖。* 來源:https://arxiv.org/pdf/2106.12885.pdf
雖然研究團隊承認他們的工作可能引發隱私問題,但他們強調其目標是獲得對移動模式的更廣泛理解,而不是聚焦於個人行程。他們還指出,通話詳情記錄(CDR)數據作為此類研究的基礎有其局限性。其空間分辨率通常較低,且因用戶相對於手機信號塔位置的變化而容易受到「定位噪音」的影響。然而,他們認為這種不準確性實際上是一種隱私保護措施:
**「我們研究的目標應用是行程檢測和OD估計$$ \* $$,這些是在總體層面進行,而不是個體層面。開發的模型可以直接部署在電信運營商的數據庫伺服器上,無需數據傳輸。此外,與其他形式的大數據(如社交媒體或信用卡交易數據)相比,CDR數據在個人隱私方面的侵入性相對較低。此外,其定位誤差有助於掩蓋用戶的確切位置,提供了另一層隱私保護。」**
經過時間間隔(ETIs)
當我們攜帶手機(不一定是智能手機)移動時,CDR數據作為精確定位工具的局限性顯而易見。經過時間間隔(ETIs),即旅途中我們未撥打或接收電話的時間段,是追蹤我們移動的關鍵標記。這些「沉默」間隔可能使我們暫時從數據網格中消失。
研究人員強調這些間隔如何干擾試圖理解A>B行程的分析系統。數據的稀疏性可能隱藏了「未觀察到的行程」。他們的新方法通過分析ETIs的時空背景並考慮「用戶的個人特徵」來解決這個問題。
數據集
為了構建核心訓練集,研究人員使用了來自中國一個600萬人口城市的主要移動服務運營商的數據。該數據集包括2013年11月300萬用戶的超過20億手機交易,僅聚焦於語音通話和數據訪問記錄。值得注意的是,他們未包含短信數據,這增加了處理稀疏數據的挑戰。
數據包括加密的唯一ID、位置區域碼(LAC)、時間戳、與LAC相關的手機信號塔ID(用於識別涉及交易的具體信號塔),以及表示是撥出/接收通話還是數據使用的活動ID。
*識別隱藏訪問的流程樹。*
這些資訊與信號塔運營數據庫交叉參考,使研究人員能夠確定與每個通信事件相關的信號塔的經度和緯度座標。他們在數據集中識別了9000個信號塔。
研究人員指出,僅基於通話記錄準確猜測行程目的地的難度,因為這些記錄在早晨和下午達到高峰,這與典型的旅行模式一致。由於電話通話可能在行程之前發生,甚至可能觸發行程,這可能會影響目的地估計的準確性。
*一天中手機使用模式的變化。*
用戶主動的數據使用(如消息應用程序)也面臨類似挑戰。然而,像是API系統性輪詢新消息或其他數據(包括應用程序中的GPS和遙測數據)的「自動化」數據使用,有助於識別這些隱藏移動。
處理
研究人員使用了多種機器學習分類器來解決這個問題,包括邏輯回歸、支持向量機(SVM)、隨機森林和梯度提升集成方法。這些分類器使用Python的scikit-learn以默認設置實現。
在這些方法中,邏輯回歸提供了最具可解釋性的模型參數。團隊還發現,較長的ETIs增加了發生隱藏訪問的可能性,尤其在早晨更為顯著。相反,當用戶的CDR數據清楚顯示出大量目的地或中途點時,隱藏訪問的可能性較低。這一發現支持了他們研究的核心原則——最活躍的用戶提供了詳細的移動圖景,從中可以推斷出較不活躍用戶的行為。
在結論中,研究人員建議他們的方法可以應用於其他類型的交通數據,如智能卡數據和地理定位的社交媒體資訊。
這項研究得到了中國能源基金會和中國可持續交通中心的資助。
*\* 起點-目的地*



This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.




이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓




¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔




Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱




Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚












