옵션
뉴스
휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견

휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견

2025년 4월 23일
59

만약 당신이 연구자들이 전화 통화에만 의존하지 않고 어떻게 한 나라 안에서의 우리의 이동을 추적하는지 궁금해했다면, 중국과 미국의 연구자들이 수행한 매력적인 연구가 몇 가지 통찰을 제공합니다. 그들의 협력 연구는 우리가 충분히 전화를 사용하지 않아 표준 통신 데이터에 나타나지 않는 '숨겨진 방문'을 밝혀내기 위해 기계 학습을 사용하는 방법에 대해 탐구합니다.

이 연구는 **희소 통화 세부 기록 데이터에서 숨겨진 방문 식별**이라는 제목으로, 홍콩 대학교의 Zhan Zhao가 주도했으며, 보스턴 노스이스턴 대학교의 Haris N. Koutsopoulos와 MIT의 Jinhua Zhao가 함께했습니다. 그들의 목표는 무엇이었을까요? 매우 활동적인 사용자의 모바일 데이터, SMS, 음성 통화와 같은 모바일 연결 기록을 활용하여 전화를 덜 자주 사용하는 사람들의 이동 패턴을 모델링하고 예측하는 것이었습니다.

통화 세부 기록(CD) 데이터에서 여행 정보를 추출하기 위한 대략적인 개요도. 출처: https://arxiv.org/pdf/2106.12885.pdf*통화 세부 기록(CD) 데이터에서 여행 정보를 추출하기 위한 대략적인 개요도.* 출처: https://arxiv.org/pdf/2106.12885.pdf

팀은 그들의 연구가 제기하는 잠재적인 개인정보 보호 문제에 대해 인정하면서, 그들의 목표는 개별 여정을 확대하기보다는 이동 패턴에 대한 보다 일반화된 이해를 얻는 것이라고 강조합니다. 또한, 이러한 연구의 기반이 되는 통화 세부 기록(CDR) 데이터는 공간 해상도가 낮고 사용자의 위치가 셀 타워에 비해 변동함에 따라 '위치 잡음'에 취약하다는 한계가 있다고 지적합니다. 그러나 그들은 이러한 부정확성이 실제로 개인정보 보호를 위한 안전장치로 작용한다고 주장합니다:

**‘우리 연구의 목표 응용은 여행 탐지와 OD 추정$$ \* $$이며, 이는 개별 수준이 아닌 집계 수준에서 수행됩니다. 개발된 모델은 데이터 전송 없이 통신 사업자의 데이터베이스 서버에 직접 배포될 수 있습니다. 또한, 소셜 미디어 데이터나 신용카드 거래 데이터와 같은 다른 빅데이터 형태에 비해 CDR 데이터는 개인정보 침해가 상대적으로 적습니다. 게다가, 위치 오류는 사용자의 정확한 위치를 가리는 데 도움을 주어 또 다른 개인정보 보호 층을 제공합니다.’**

경과 시간 간격(ETIs)

우리가 스마트폰이 아닌 일반 휴대전화를 가지고 이동할 때, CDR 데이터가 우리의 위치를 정확히 파악하는 도구로서의 한계가 분명해집니다. 경과 시간 간격(ETIs), 즉 여행 중 우리가 전화를 걸거나 받지 않는 기간은 우리의 이동을 추적하는 데 중요한 지표입니다. 이러한 '침묵'의 간격은 우리를 일시적으로 그리드에서 사라지게 할 수 있습니다.

연구자들은 이러한 간격이 A>B 여정을 이해하려는 분석 시스템에 어떻게 방해가 되는지 강조합니다. 데이터의 희소성은 '관찰되지 않은 여행'을 숨길 수 있습니다. 그들의 새로운 방법은 ETI의 시공간적 맥락을 분석하고 '사용자의 개별 특성'을 고려함으로써 이를 해결합니다.

데이터셋

핵심 훈련 세트를 구축하기 위해 연구자들은 600만 인구의 중국 도시에서 주요 이동통신 사업자의 데이터를 사용했습니다. 이 데이터셋은 2013년 11월에 300만 사용자로부터 20억 건 이상의 휴대전화 거래를 포함했으며, 음성 통화와 데이터 액세스 기록에만 초점을 맞췄습니다. 특히, SMS 데이터는 포함되지 않아 희소 데이터 처리의 도전 과제를 추가했습니다.

데이터에는 암호화된 고유 ID, 위치 영역 코드(LAC), 타임스탬프, LAC와 연결된 셀 타워를 식별하기 위한 셀 전화 ID, 그리고 발신/수신 통화 또는 데이터 사용 여부를 나타내는 이벤트 ID가 포함되었습니다.

숨겨진 방문 식별을 위한 프로세스 트리.*숨겨진 방문 식별을 위한 프로세스 트리.*

이 정보는 셀 타워 운영 데이터베이스와 교차 참조되어 연구자들이 각 통신 이벤트와 관련된 타워의 경도 및 위도 좌표를 정확히 파악할 수 있게 했습니다. 데이터셋 내에서 9000개의 셀 타워가 식별되었습니다.

연구자들은 통화 기록만으로 여행 목적지를 정확히 추측하는 것이 어렵다고 언급했는데, 이는 통화 기록이 아침과 오후에 최고조에 달하며, 이는 일반적인 여행 패턴과 일치하기 때문입니다. 전화 통화는 여행을 앞두거나 심지어 여행을 유발할 수 있으므로 목적지 추정이 왜곡될 수 있습니다.

하루 동안의 모바일 사용 패턴.*하루 동안의 모바일 사용 패턴.*

사용자가 시작한 데이터 사용, 예를 들어 메시징 앱과 같은 경우에도 비슷한 도전 과제가 발생합니다. 그러나 메시지나 기타 데이터를 위한 API의 체계적인 폴링, GPS 및 앱 간의 원격 측정 데이터를 포함한 '자동화된' 데이터 사용은 이러한 숨겨진 이동을 식별하는 데 도움이 됩니다.

처리

연구자들은 이 문제를 해결하기 위해 로지스틱 회귀, 지원 벡터 머신(SVM), 랜덤 포레스트, 그리고 그라디언트 부스팅 앙상블 접근법을 포함한 다양한 기계 학습 분류기를 사용했습니다. 이들은 기본 설정으로 scikit-learn을 사용하여 Python에서 구현되었습니다.

이 중 로지스틱 회귀는 가장 해석 가능한 모델 파라미터를 제공했습니다. 팀은 또한 더 긴 ETI가 숨겨진 방문 가능성을 높이며, 아침에 더 높은 발생률을 보인다는 것을 발견했습니다. 반대로, 사용자의 CDR 데이터가 많은 목적지나 경유지를 명확히 보여줄 때 숨겨진 방문 가능성은 낮아졌습니다. 이 발견은 연구의 핵심 원칙을 뒷받침합니다—가장 활동적인 사용자가 그들의 이동에 대한 상세한 그림을 제공하며, 이를 통해 덜 활동적인 사용자의 행동을 추론할 수 있다는 것입니다.

결론에서 연구자들은 그들의 접근법이 스마트카드 데이터나 지리적으로 위치한 소셜 미디어 정보와 같은 다른 유형의 교통 데이터에도 적용될 수 있다고 제안했습니다.

이 연구는 Energy Foundation China와 China Sustainable Transportation Center의 자금 지원을 받았습니다.

*\* 기점-종점*

관련 기사
Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다 Microsoft 연구, AI 모델의 소프트웨어 디버깅 한계 드러내다 OpenAI, Anthropic 및 기타 주요 AI 연구소의 AI 모델은 코딩 작업에 점점 더 많이 활용되고 있다. Google CEO Sundar Pichai는 10월에 AI가 회사 내 새로운 코드의 25%를 생성한다고 언급했으며, Meta CEO Mark Zuckerberg는 소셜 미디어 대기업 내에서 AI 코딩 도구를 광범위하게 구현하려고 한다.그러나
AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 AI 기반 솔루션이 글로벌 탄소 배출을 크게 줄일 수 있음 런던 경제 학교와 Systemiq의 최근 연구에 따르면, 인공지능은 현대적 편의를 희생하지 않으면서 글로벌 탄소 배출을 상당히 줄일 수 있으며, 기후 변화 대응에서 AI를 중요한 동맹으로 자리매김하고 있습니다.이 연구는 단 세 개의 산업에서 지능형 AI 응용 프로그램을 통해 2035년까지 매년 32억에서 54억 톤의 온실가스 배출을 줄일 수 있다고 강조합니
새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘 새로운 연구가 LLM이 실제로 얼마나 많은 데이터를 기억하는지 밝힘 AI 모델은 실제로 얼마나 많이 기억할까? 새로운 연구가 놀라운 통찰을 제공우리 모두는 ChatGPT, Claude, Gemini와 같은 대형 언어 모델(LLM)이 책, 웹사이트, 코드, 심지어 이미지와 오디오 같은 멀티미디어에서 나온 수조 개의 단어로 훈련된다는 것을 알고 있습니다. 하지만 이 모든 데이터는 어떻게 되는 걸까요? 이 모델들은 언어를 정말로
의견 (16)
0/200
JuanLewis
JuanLewis 2025년 8월 1일 오후 10시 47분 34초 GMT+09:00

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 2025년 4월 24일 오후 1시 36분 16초 GMT+09:00

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 2025년 4월 24일 오전 6시 35분 24초 GMT+09:00

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 2025년 4월 24일 오전 5시 51분 52초 GMT+09:00

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 2025년 4월 23일 오후 8시 5분 2초 GMT+09:00

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

RaymondRodriguez
RaymondRodriguez 2025년 4월 23일 오후 7시 37분 3초 GMT+09:00

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

위로 돌아갑니다
OR