옵션
뉴스
휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견

휴대 전화 데이터 및 기계 학습으로 '숨겨진 방문'을 발견

2025년 4월 23일
69

만약 당신이 연구자들이 전화 통화에만 의존하지 않고 어떻게 한 나라 안에서의 우리의 이동을 추적하는지 궁금해했다면, 중국과 미국의 연구자들이 수행한 매력적인 연구가 몇 가지 통찰을 제공합니다. 그들의 협력 연구는 우리가 충분히 전화를 사용하지 않아 표준 통신 데이터에 나타나지 않는 '숨겨진 방문'을 밝혀내기 위해 기계 학습을 사용하는 방법에 대해 탐구합니다.

이 연구는 **희소 통화 세부 기록 데이터에서 숨겨진 방문 식별**이라는 제목으로, 홍콩 대학교의 Zhan Zhao가 주도했으며, 보스턴 노스이스턴 대학교의 Haris N. Koutsopoulos와 MIT의 Jinhua Zhao가 함께했습니다. 그들의 목표는 무엇이었을까요? 매우 활동적인 사용자의 모바일 데이터, SMS, 음성 통화와 같은 모바일 연결 기록을 활용하여 전화를 덜 자주 사용하는 사람들의 이동 패턴을 모델링하고 예측하는 것이었습니다.

통화 세부 기록(CD) 데이터에서 여행 정보를 추출하기 위한 대략적인 개요도. 출처: https://arxiv.org/pdf/2106.12885.pdf*통화 세부 기록(CD) 데이터에서 여행 정보를 추출하기 위한 대략적인 개요도.* 출처: https://arxiv.org/pdf/2106.12885.pdf

팀은 그들의 연구가 제기하는 잠재적인 개인정보 보호 문제에 대해 인정하면서, 그들의 목표는 개별 여정을 확대하기보다는 이동 패턴에 대한 보다 일반화된 이해를 얻는 것이라고 강조합니다. 또한, 이러한 연구의 기반이 되는 통화 세부 기록(CDR) 데이터는 공간 해상도가 낮고 사용자의 위치가 셀 타워에 비해 변동함에 따라 '위치 잡음'에 취약하다는 한계가 있다고 지적합니다. 그러나 그들은 이러한 부정확성이 실제로 개인정보 보호를 위한 안전장치로 작용한다고 주장합니다:

**‘우리 연구의 목표 응용은 여행 탐지와 OD 추정$$ \* $$이며, 이는 개별 수준이 아닌 집계 수준에서 수행됩니다. 개발된 모델은 데이터 전송 없이 통신 사업자의 데이터베이스 서버에 직접 배포될 수 있습니다. 또한, 소셜 미디어 데이터나 신용카드 거래 데이터와 같은 다른 빅데이터 형태에 비해 CDR 데이터는 개인정보 침해가 상대적으로 적습니다. 게다가, 위치 오류는 사용자의 정확한 위치를 가리는 데 도움을 주어 또 다른 개인정보 보호 층을 제공합니다.’**

경과 시간 간격(ETIs)

우리가 스마트폰이 아닌 일반 휴대전화를 가지고 이동할 때, CDR 데이터가 우리의 위치를 정확히 파악하는 도구로서의 한계가 분명해집니다. 경과 시간 간격(ETIs), 즉 여행 중 우리가 전화를 걸거나 받지 않는 기간은 우리의 이동을 추적하는 데 중요한 지표입니다. 이러한 '침묵'의 간격은 우리를 일시적으로 그리드에서 사라지게 할 수 있습니다.

연구자들은 이러한 간격이 A>B 여정을 이해하려는 분석 시스템에 어떻게 방해가 되는지 강조합니다. 데이터의 희소성은 '관찰되지 않은 여행'을 숨길 수 있습니다. 그들의 새로운 방법은 ETI의 시공간적 맥락을 분석하고 '사용자의 개별 특성'을 고려함으로써 이를 해결합니다.

데이터셋

핵심 훈련 세트를 구축하기 위해 연구자들은 600만 인구의 중국 도시에서 주요 이동통신 사업자의 데이터를 사용했습니다. 이 데이터셋은 2013년 11월에 300만 사용자로부터 20억 건 이상의 휴대전화 거래를 포함했으며, 음성 통화와 데이터 액세스 기록에만 초점을 맞췄습니다. 특히, SMS 데이터는 포함되지 않아 희소 데이터 처리의 도전 과제를 추가했습니다.

데이터에는 암호화된 고유 ID, 위치 영역 코드(LAC), 타임스탬프, LAC와 연결된 셀 타워를 식별하기 위한 셀 전화 ID, 그리고 발신/수신 통화 또는 데이터 사용 여부를 나타내는 이벤트 ID가 포함되었습니다.

숨겨진 방문 식별을 위한 프로세스 트리.*숨겨진 방문 식별을 위한 프로세스 트리.*

이 정보는 셀 타워 운영 데이터베이스와 교차 참조되어 연구자들이 각 통신 이벤트와 관련된 타워의 경도 및 위도 좌표를 정확히 파악할 수 있게 했습니다. 데이터셋 내에서 9000개의 셀 타워가 식별되었습니다.

연구자들은 통화 기록만으로 여행 목적지를 정확히 추측하는 것이 어렵다고 언급했는데, 이는 통화 기록이 아침과 오후에 최고조에 달하며, 이는 일반적인 여행 패턴과 일치하기 때문입니다. 전화 통화는 여행을 앞두거나 심지어 여행을 유발할 수 있으므로 목적지 추정이 왜곡될 수 있습니다.

하루 동안의 모바일 사용 패턴.*하루 동안의 모바일 사용 패턴.*

사용자가 시작한 데이터 사용, 예를 들어 메시징 앱과 같은 경우에도 비슷한 도전 과제가 발생합니다. 그러나 메시지나 기타 데이터를 위한 API의 체계적인 폴링, GPS 및 앱 간의 원격 측정 데이터를 포함한 '자동화된' 데이터 사용은 이러한 숨겨진 이동을 식별하는 데 도움이 됩니다.

처리

연구자들은 이 문제를 해결하기 위해 로지스틱 회귀, 지원 벡터 머신(SVM), 랜덤 포레스트, 그리고 그라디언트 부스팅 앙상블 접근법을 포함한 다양한 기계 학습 분류기를 사용했습니다. 이들은 기본 설정으로 scikit-learn을 사용하여 Python에서 구현되었습니다.

이 중 로지스틱 회귀는 가장 해석 가능한 모델 파라미터를 제공했습니다. 팀은 또한 더 긴 ETI가 숨겨진 방문 가능성을 높이며, 아침에 더 높은 발생률을 보인다는 것을 발견했습니다. 반대로, 사용자의 CDR 데이터가 많은 목적지나 경유지를 명확히 보여줄 때 숨겨진 방문 가능성은 낮아졌습니다. 이 발견은 연구의 핵심 원칙을 뒷받침합니다—가장 활동적인 사용자가 그들의 이동에 대한 상세한 그림을 제공하며, 이를 통해 덜 활동적인 사용자의 행동을 추론할 수 있다는 것입니다.

결론에서 연구자들은 그들의 접근법이 스마트카드 데이터나 지리적으로 위치한 소셜 미디어 정보와 같은 다른 유형의 교통 데이터에도 적용될 수 있다고 제안했습니다.

이 연구는 Energy Foundation China와 China Sustainable Transportation Center의 자금 지원을 받았습니다.

*\* 기점-종점*

관련 기사
더 많은 AI 토큰이 추론 오류를 증가시킨다는 Microsoft의 연구 결과 더 많은 AI 토큰이 추론 오류를 증가시킨다는 Microsoft의 연구 결과 LLM 추론 효율성에 대한 새로운 인사이트Microsoft의 새로운 연구에 따르면 대규모 언어 모델의 고급 추론 기술이 여러 AI 시스템에서 균일하게 개선되지 않는다는 사실이 밝혀졌습니다. 이 획기적인 연구에서는 9개의 주요 기초 모델이 추론 중에 다양한 확장 접근 방식에 어떻게 반응하는지 분석했습니다.추론 시간 확장 방법 평가하기연구팀은 세 가지 확장 기
과학 연구 및 발견의 혁신을 지원하는 Google 클라우드 과학 연구 및 발견의 혁신을 지원하는 Google 클라우드 디지털 혁명은 전례 없는 연산 능력을 통해 과학적 방법론을 변화시키고 있습니다. 최첨단 기술은 이제 이론적 프레임워크와 실험실 실험을 모두 보강하여 정교한 시뮬레이션과 빅데이터 분석을 통해 여러 분야에 걸쳐 획기적인 발전을 촉진하고 있습니다.기초 연구, 확장 가능한 클라우드 아키텍처, 인공 지능 개발에 전략적으로 투자함으로써 과학 발전을 가속화하는 생태계를
실생활에 더 큰 영향을 미치는 과학적 연구를 가속화하는 AI 실생활에 더 큰 영향을 미치는 과학적 연구를 가속화하는 AI Google은 지속적으로 AI를 과학 발전의 촉매제로 활용해 왔으며, 오늘날의 발견 속도는 놀랍도록 새로운 수준에 도달했습니다. 이러한 가속화는 연구 주기를 변화시켜 그 어느 때보다 빠르게 근본적인 돌파구를 실용적인 응용 분야로 전환하고 있습니다.AI는 인간의 창의성을 대체하는 것이 아니라 인간의 잠재력을 강력하게 증폭시키는 역할을 합니다. Facebook
의견 (17)
0/200
KennethWalker
KennethWalker 2025년 8월 10일 오후 8시 1분 0초 GMT+09:00

This study on tracking movements with phone data is wild! 😲 It’s like our phones are secretly spilling where we’ve been. Kinda creepy, but super cool how machine learning digs into those 'hidden visits.' Makes me wonder what else they can find out!

JuanLewis
JuanLewis 2025년 8월 1일 오후 10시 47분 34초 GMT+09:00

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 2025년 4월 24일 오후 1시 36분 16초 GMT+09:00

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 2025년 4월 24일 오전 6시 35분 24초 GMT+09:00

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 2025년 4월 24일 오전 5시 51분 52초 GMT+09:00

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 2025년 4월 23일 오후 8시 5분 2초 GMT+09:00

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

위로 돌아갑니다
OR