使用手機數據和機器學習探索我們的“隱藏訪問”
2025年04月22日
JustinScott
0
如果您曾經想知道研究人員如何在不依靠電話的情況下跟踪我們整個國家的運動,那麼中國和美國的研究人員的一項令人著迷的研究提供了一些見識。他們的協作工作深入研究了使用機器學習來揭示我們進行的“隱藏訪問” - 這些旅行不會出現在標準電信數據中,因為我們使用的電話不夠。
這項名為**識別稀疏呼叫詳細記錄數據的隱藏訪問**的研究由香港大學的Zhan Zhao和波士頓東北大學的Haris N. Koutsopoulos以及MIT的Jinhua Zhao和Jinhua Zhao率領。他們的目標?為了利用移動連接記錄(例如移動數據,SMS和語音呼叫),從高度活躍的用戶來建模和預測那些使用手機頻率較低的人的運動模式。
*一種用於從呼叫詳細記錄(CD)數據提取旅行信息的粗略示意圖。 *來源:https://arxiv.org/pdf/2106.12885.pdf
儘管團隊承認潛在的隱私涉及他們的工作提高,但他們強調,他們的目的是獲得對運動模式的更普遍的理解,而不是放大個人旅程。他們還指出,這是此類研究的骨幹的呼叫詳細記錄(CDR)數據具有其局限性。由於用戶相對於手機塔的位置的變化,因此通常較低的空間分辨率,並且容易受到“定位噪聲”的影響。但是,他們認為這種不准確實際上是一種隱私保護:
**'我們研究的目標應用是行程檢測和OD估計\ [\*\],它是在總級別而不是個人級別進行的。開發的模型可以直接部署在電信運營商的數據庫服務器上,而無需數據傳輸。此外,與其他形式的大數據(例如社交媒體或信用卡交易數據)相比,CDR數據在個人隱私方面相對較小。此外,其本地化錯誤有助於掩蓋確切的用戶位置,提供另一層隱私保護。 '**
經過的時間間隔(ETIS)
當我們使用手機(不一定是智能手機)移動時,CDR數據作為確定位置的工具的局限性變得清晰。經過的時間間隔(ETI)是在我們不打電話或接聽電話的旅程中的那些時期,是跟踪我們運動的關鍵標記。這些“沉默”間隔可以使我們暫時從網格中消失。
研究人員強調了這些差距如何干擾試圖理解A> B旅程的分析系統。數據的稀疏性可能隱藏了“未觀察到的旅行”。他們的新方法通過分析ETIS的時空環境並考慮“用戶的個人特徵”來解決此問題。
數據集
為了建立他們的核心訓練集,研究人員使用了來自中國城市中主要人口的主要蜂窩服務運營商的數據,人口為600萬。該數據集在2013年11月包括來自300萬用戶的20億手機交易,僅關注語音通話和數據訪問記錄。值得注意的是,它們不包括SMS數據,這增加了處理稀疏數據的挑戰。
數據包括一個加密的唯一ID,位置區域代碼(LAC),時間戳,鏈接到LAC的手機ID,以識別交易中涉及的特定手機塔,以及事件ID,指示它是傳出/傳入的呼叫還是數據使用情況。
*處理樹以識別隱藏的訪問。 *
該信息與單元塔操作數據庫交叉引用,使研究人員能夠指出與每個通信事件相關的塔的經度和緯度坐標。他們確定了數據集中的9000個手機塔。
研究人員指出,僅根據呼叫記錄來準確猜測旅行目的地的難度,因為這些記錄在早晨和下午達到頂峰,這與典型的旅行模式保持一致。由於電話可以在旅程之前,甚至可能觸發它,因此這可能會偏向目標估計。
*一天中的移動使用模式。 **
用戶啟動的數據使用情況(例如消息傳遞應用程序)也會出現類似的挑戰。但是,這是“自動化”的數據使用情況,例如新消息或其他數據的API的系統輪詢,包括跨應用程序的GPS和遙測,這有助於識別這些隱藏的運動。
加工
研究人員使用各種機器學習分類器來解決此問題,包括邏輯回歸,支持向量機(SVM),隨機森林和梯度增強合奏方法。這些是在Python中使用帶有默認設置的Scikit-Learn實現的。
其中,邏輯回歸提供了最可解釋的模型參數。該團隊還發現,更長的ETIS增加了進行隱藏訪問的可能性,早晨發病率更高。相反,當用戶的CDR數據清楚地顯示出大量目的地或航路點時,隱藏訪問的可能性較低。這一發現支持了他們研究的核心原則 - 最活躍的用戶提供了他們的動作的詳細圖片,從中可以推斷出較少活躍的用戶的行為。
在他們的結論中,研究人員認為他們的方法可以應用於其他類型的過境數據,例如智能卡數據和地理社交媒體信息。
這項研究得到了中國能源基金會和中國可持續運輸中心的資助。
* \*原始用途*
相關文章
Os rostos sintéticos 'degradados' podem melhorar a tecnologia de reconhecimento facial
Pesquisadores da Universidade Estadual de Michigan criaram uma maneira inovadora de usar rostos sintéticos por uma causa nobre - aprimorando a precisão dos sistemas de reconhecimento de imagens. Em vez de contribuir para o fenômeno de DeepFakes, esses rostos sintéticos são projetados para imitar as imperfeições encontradas na verdade
O AIS de Deepseek descobre desejos humanos verdadeiros
O avanço de Deepseek nos modelos de recompensa da IA: melhorar o raciocínio e a resposta da IA Startup Chinês Deepseek, em colaboração com a Universidade de Tsinghua, alcançou um marco significativo na pesquisa de IA. Sua abordagem inovadora para os modelos de recompensa da IA promete revolucionar como os sistemas de IA aprendem
Deepcoder alcança a alta eficiência de codificação com o modelo aberto 14B
Apresentando o DeepCoder-14b: Uma nova fronteira em modelos de codificação de código aberto. Este desenvolvimento emocionante é construído no FO
評論 (10)
0/200
BrianWalker
2025年04月23日 10:37:03
This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚
0
BenHernández
2025年04月23日 10:37:03
携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚
0
HarryLewis
2025年04月23日 10:37:03
휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚
0
JasonMartin
2025年04月23日 10:37:03
Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚
0
RaymondRodriguez
2025年04月23日 10:37:03
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
SamuelClark
2025年04月23日 07:52:14
This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱
0






如果您曾經想知道研究人員如何在不依靠電話的情況下跟踪我們整個國家的運動,那麼中國和美國的研究人員的一項令人著迷的研究提供了一些見識。他們的協作工作深入研究了使用機器學習來揭示我們進行的“隱藏訪問” - 這些旅行不會出現在標準電信數據中,因為我們使用的電話不夠。
這項名為**識別稀疏呼叫詳細記錄數據的隱藏訪問**的研究由香港大學的Zhan Zhao和波士頓東北大學的Haris N. Koutsopoulos以及MIT的Jinhua Zhao和Jinhua Zhao率領。他們的目標?為了利用移動連接記錄(例如移動數據,SMS和語音呼叫),從高度活躍的用戶來建模和預測那些使用手機頻率較低的人的運動模式。
*一種用於從呼叫詳細記錄(CD)數據提取旅行信息的粗略示意圖。 *來源:https://arxiv.org/pdf/2106.12885.pdf
儘管團隊承認潛在的隱私涉及他們的工作提高,但他們強調,他們的目的是獲得對運動模式的更普遍的理解,而不是放大個人旅程。他們還指出,這是此類研究的骨幹的呼叫詳細記錄(CDR)數據具有其局限性。由於用戶相對於手機塔的位置的變化,因此通常較低的空間分辨率,並且容易受到“定位噪聲”的影響。但是,他們認為這種不准確實際上是一種隱私保護:
**'我們研究的目標應用是行程檢測和OD估計\ [\*\],它是在總級別而不是個人級別進行的。開發的模型可以直接部署在電信運營商的數據庫服務器上,而無需數據傳輸。此外,與其他形式的大數據(例如社交媒體或信用卡交易數據)相比,CDR數據在個人隱私方面相對較小。此外,其本地化錯誤有助於掩蓋確切的用戶位置,提供另一層隱私保護。 '**
經過的時間間隔(ETIS)
當我們使用手機(不一定是智能手機)移動時,CDR數據作為確定位置的工具的局限性變得清晰。經過的時間間隔(ETI)是在我們不打電話或接聽電話的旅程中的那些時期,是跟踪我們運動的關鍵標記。這些“沉默”間隔可以使我們暫時從網格中消失。
研究人員強調了這些差距如何干擾試圖理解A> B旅程的分析系統。數據的稀疏性可能隱藏了“未觀察到的旅行”。他們的新方法通過分析ETIS的時空環境並考慮“用戶的個人特徵”來解決此問題。
數據集
為了建立他們的核心訓練集,研究人員使用了來自中國城市中主要人口的主要蜂窩服務運營商的數據,人口為600萬。該數據集在2013年11月包括來自300萬用戶的20億手機交易,僅關注語音通話和數據訪問記錄。值得注意的是,它們不包括SMS數據,這增加了處理稀疏數據的挑戰。
數據包括一個加密的唯一ID,位置區域代碼(LAC),時間戳,鏈接到LAC的手機ID,以識別交易中涉及的特定手機塔,以及事件ID,指示它是傳出/傳入的呼叫還是數據使用情況。
*處理樹以識別隱藏的訪問。 *
該信息與單元塔操作數據庫交叉引用,使研究人員能夠指出與每個通信事件相關的塔的經度和緯度坐標。他們確定了數據集中的9000個手機塔。
研究人員指出,僅根據呼叫記錄來準確猜測旅行目的地的難度,因為這些記錄在早晨和下午達到頂峰,這與典型的旅行模式保持一致。由於電話可以在旅程之前,甚至可能觸發它,因此這可能會偏向目標估計。
*一天中的移動使用模式。 **
用戶啟動的數據使用情況(例如消息傳遞應用程序)也會出現類似的挑戰。但是,這是“自動化”的數據使用情況,例如新消息或其他數據的API的系統輪詢,包括跨應用程序的GPS和遙測,這有助於識別這些隱藏的運動。
加工
研究人員使用各種機器學習分類器來解決此問題,包括邏輯回歸,支持向量機(SVM),隨機森林和梯度增強合奏方法。這些是在Python中使用帶有默認設置的Scikit-Learn實現的。
其中,邏輯回歸提供了最可解釋的模型參數。該團隊還發現,更長的ETIS增加了進行隱藏訪問的可能性,早晨發病率更高。相反,當用戶的CDR數據清楚地顯示出大量目的地或航路點時,隱藏訪問的可能性較低。這一發現支持了他們研究的核心原則 - 最活躍的用戶提供了他們的動作的詳細圖片,從中可以推斷出較少活躍的用戶的行為。
在他們的結論中,研究人員認為他們的方法可以應用於其他類型的過境數據,例如智能卡數據和地理社交媒體信息。
這項研究得到了中國能源基金會和中國可持續運輸中心的資助。
* \*原始用途*



This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚




携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚




휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚




Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚




This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱



恢復在線數據隱私的5個簡單步驟 - 從今天開始









