Descubrir nuestras 'visitas ocultas' con datos de teléfonos celulares y aprendizaje automático
Si alguna vez te has preguntado cómo los investigadores rastrean nuestros movimientos a través de un país sin depender únicamente de las llamadas telefónicas, un fascinante estudio realizado por investigadores de China y Estados Unidos ofrece algunas respuestas. Su trabajo colaborativo explora el uso del aprendizaje automático para descubrir las "visitas ocultas" que realizamos, esos viajes que no aparecen en los datos de telecomunicaciones estándar porque no usamos nuestros teléfonos lo suficiente.
El estudio, titulado **Identificación de Visitas Ocultas a Partir de Datos Escasos de Registros de Detalles de Llamadas**, está liderado por Zhan Zhao de la Universidad de Hong Kong, junto con Haris N. Koutsopoulos de la Universidad Northeastern en Boston, y Jinhua Zhao de MIT. ¿Su objetivo? Aprovechar los registros de conectividad móvil —como datos móviles, SMS y llamadas de voz— de usuarios altamente activos para modelar y predecir los patrones de movimiento de aquellos que usan sus teléfonos con menos frecuencia.
*Un esquema aproximado para extraer información de viajes a partir de datos de Registros de Detalles de Llamadas (CDR).* Fuente: https://arxiv.org/pdf/2106.12885.pdf
Aunque el equipo reconoce las posibles preocupaciones sobre privacidad que su trabajo plantea, enfatizan que su objetivo es obtener una comprensión más generalizada de los patrones de movimiento, en lugar de centrarse en trayectorias individuales. También señalan que los datos de Registros de Detalles de Llamadas (CDR), que son la base de estos estudios, tienen sus limitaciones. A menudo tienen una baja resolución espacial y son susceptibles al "ruido de posicionamiento" debido a la posición cambiante del usuario con respecto a las torres de telefonía móvil. Sin embargo, argumentan que esta imprecisión actúa como una salvaguarda de privacidad:
**‘La aplicación objetivo de nuestro estudio es la detección de viajes y la estimación de OD$$ \* $$, que se realiza a nivel agregado, no individual. Los modelos desarrollados pueden implementarse directamente en los servidores de bases de datos de los operadores de telecomunicaciones, sin necesidad de transferencia de datos. Además, en comparación con otras formas de big data, como datos de redes sociales o transacciones con tarjetas de crédito, los datos CDR son relativamente menos intrusivos en términos de privacidad personal. Además, su error de localización ayuda a ocultar las ubicaciones exactas de los usuarios, proporcionando otra capa de protección de privacidad.’**
Intervalos de Tiempo Transcurrido (ETIs)
Cuando estamos en movimiento con nuestros teléfonos móviles, no necesariamente smartphones, las limitaciones de los datos CDR como herramienta para determinar nuestra ubicación se hacen evidentes. Los Intervalos de Tiempo Transcurrido (ETIs), esos períodos durante un viaje en los que no realizamos ni recibimos llamadas, son marcadores cruciales para rastrear nuestros movimientos. Estos intervalos de "silencio" pueden hacernos desaparecer temporalmente de la red.
Los investigadores destacan cómo estas brechas interfieren con los sistemas analíticos que intentan dar sentido a los viajes de A a B. La escasez de datos podría estar ocultando un "viaje no observado". Su nuevo método aborda esto analizando el contexto espaciotemporal de los ETIs y considerando "las características individuales del usuario".
Conjunto de Datos
Para construir su conjunto de entrenamiento principal, los investigadores utilizaron datos de un importante operador de servicios celulares en una ciudad china con una población de 6 millones. Este conjunto de datos incluyó más de dos mil millones de transacciones de teléfonos móviles de tres millones de usuarios en noviembre de 2013, enfocándose únicamente en registros de llamadas de voz y acceso a datos. Notablemente, no incluyeron datos de SMS, lo que aumentó el desafío de lidiar con datos escasos.
Los datos incluyeron un ID único cifrado, un Código de Área de Ubicación (LAC), una marca de tiempo, un ID de teléfono móvil vinculado al LAC para identificar la torre de telefonía móvil específica involucrada en la transacción, y un ID de Evento que indicaba si se trataba de una llamada saliente/entrante o uso de datos.
*Árbol de procesos para la identificación de visitas ocultas.*
Esta información se cruzó con una base de datos de operaciones de torres celulares, lo que permitió a los investigadores determinar las coordenadas de longitud y latitud de la torre asociada con cada evento de comunicación. Identificaron 9000 torres celulares dentro del conjunto de datos.
Los investigadores señalaron la dificultad de adivinar con precisión los destinos de los viajes basándose únicamente en registros de llamadas, ya que estos registros alcanzan su punto máximo por la mañana y por la tarde, lo que coincide con los patrones de viaje típicos. Dado que las llamadas telefónicas pueden preceder a un viaje y hasta pueden desencadenarlo, esto puede sesgar la estimación del destino.
*Patrones de uso de móviles a lo largo del día.*
Surgen desafíos similares con el uso de datos iniciado por el usuario, como aplicaciones de mensajería. Sin embargo, es el uso de datos "automatizado" —como la consulta sistemática de APIs para nuevos mensajes u otros datos, incluidos GPS y telemetría en aplicaciones— lo que ayuda a identificar estos movimientos ocultos.
Procesamiento
Los investigadores emplearon una variedad de clasificadores de aprendizaje automático para abordar este problema, incluyendo regresión logística, máquinas de soporte vectorial (SVM), bosques aleatorios y un enfoque de ensemble de aumento de gradiente. Estos fueron implementados en Python usando scikit-learn con configuraciones predeterminadas.
Entre estos, la regresión logística proporcionó los parámetros del modelo más interpretables. El equipo también encontró que los ETIs más largos aumentaban la probabilidad de que ocurriera una visita oculta, con una mayor incidencia por la mañana. Por el contrario, cuando los datos CDR de un usuario mostraban claramente un alto número de destinos o puntos de paso, la probabilidad de una visita oculta era menor. Este hallazgo respalda el principio central de su investigación: que los usuarios más activos proporcionan una imagen detallada de sus movimientos, a partir de la cual se puede inferir el comportamiento de los usuarios menos activos.
En su conclusión, los investigadores sugieren que su enfoque podría aplicarse a otros tipos de datos de tránsito, como datos de tarjetas inteligentes e información de redes sociales geolocalizada.
La investigación fue apoyada por financiamiento de Energy Foundation China y el China Sustainable Transportation Center.
*\* Origen-Destino*
Artículo relacionado
Estudio de Microsoft Revela Limitaciones de Modelos de IA en Depuración de Software
Modelos de IA de OpenAI, Anthropic y otros laboratorios líderes de IA se utilizan cada vez más para tareas de codificación. El CEO de Google, Sundar Pichai, señaló en octubre que la IA genera el 25% d
Soluciones impulsadas por IA podrían reducir significativamente las emisiones globales de carbono
Un estudio reciente de la London School of Economics y Systemiq revela que la inteligencia artificial podría reducir sustancialmente las emisiones globales de carbono sin sacrificar las comodidades mo
Nuevo Estudio Revela Cuántos Datos Memorizan Realmente los LLMs
¿Cuánto Memorizan Realmente los Modelos de IA? Nueva Investigación Revela Ideas SorprendentesTodos sabemos que los modelos de lenguaje grandes (LLMs) como ChatGPT, Claude y Gemini se entrenan con enor
comentario (16)
0/200
JuanLewis
1 de agosto de 2025 15:47:34 GMT+02:00
This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.
0
RalphSanchez
24 de abril de 2025 06:36:16 GMT+02:00
이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓
0
MatthewScott
23 de abril de 2025 23:35:24 GMT+02:00
¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔
0
RalphHill
23 de abril de 2025 22:51:52 GMT+02:00
Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱
0
WilliamMiller
23 de abril de 2025 13:05:02 GMT+02:00
Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔
0
RaymondRodriguez
23 de abril de 2025 12:37:03 GMT+02:00
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
Si alguna vez te has preguntado cómo los investigadores rastrean nuestros movimientos a través de un país sin depender únicamente de las llamadas telefónicas, un fascinante estudio realizado por investigadores de China y Estados Unidos ofrece algunas respuestas. Su trabajo colaborativo explora el uso del aprendizaje automático para descubrir las "visitas ocultas" que realizamos, esos viajes que no aparecen en los datos de telecomunicaciones estándar porque no usamos nuestros teléfonos lo suficiente.
El estudio, titulado **Identificación de Visitas Ocultas a Partir de Datos Escasos de Registros de Detalles de Llamadas**, está liderado por Zhan Zhao de la Universidad de Hong Kong, junto con Haris N. Koutsopoulos de la Universidad Northeastern en Boston, y Jinhua Zhao de MIT. ¿Su objetivo? Aprovechar los registros de conectividad móvil —como datos móviles, SMS y llamadas de voz— de usuarios altamente activos para modelar y predecir los patrones de movimiento de aquellos que usan sus teléfonos con menos frecuencia.
*Un esquema aproximado para extraer información de viajes a partir de datos de Registros de Detalles de Llamadas (CDR).* Fuente: https://arxiv.org/pdf/2106.12885.pdf
Aunque el equipo reconoce las posibles preocupaciones sobre privacidad que su trabajo plantea, enfatizan que su objetivo es obtener una comprensión más generalizada de los patrones de movimiento, en lugar de centrarse en trayectorias individuales. También señalan que los datos de Registros de Detalles de Llamadas (CDR), que son la base de estos estudios, tienen sus limitaciones. A menudo tienen una baja resolución espacial y son susceptibles al "ruido de posicionamiento" debido a la posición cambiante del usuario con respecto a las torres de telefonía móvil. Sin embargo, argumentan que esta imprecisión actúa como una salvaguarda de privacidad:
**‘La aplicación objetivo de nuestro estudio es la detección de viajes y la estimación de OD$$ \* $$, que se realiza a nivel agregado, no individual. Los modelos desarrollados pueden implementarse directamente en los servidores de bases de datos de los operadores de telecomunicaciones, sin necesidad de transferencia de datos. Además, en comparación con otras formas de big data, como datos de redes sociales o transacciones con tarjetas de crédito, los datos CDR son relativamente menos intrusivos en términos de privacidad personal. Además, su error de localización ayuda a ocultar las ubicaciones exactas de los usuarios, proporcionando otra capa de protección de privacidad.’**
Intervalos de Tiempo Transcurrido (ETIs)
Cuando estamos en movimiento con nuestros teléfonos móviles, no necesariamente smartphones, las limitaciones de los datos CDR como herramienta para determinar nuestra ubicación se hacen evidentes. Los Intervalos de Tiempo Transcurrido (ETIs), esos períodos durante un viaje en los que no realizamos ni recibimos llamadas, son marcadores cruciales para rastrear nuestros movimientos. Estos intervalos de "silencio" pueden hacernos desaparecer temporalmente de la red.
Los investigadores destacan cómo estas brechas interfieren con los sistemas analíticos que intentan dar sentido a los viajes de A a B. La escasez de datos podría estar ocultando un "viaje no observado". Su nuevo método aborda esto analizando el contexto espaciotemporal de los ETIs y considerando "las características individuales del usuario".
Conjunto de Datos
Para construir su conjunto de entrenamiento principal, los investigadores utilizaron datos de un importante operador de servicios celulares en una ciudad china con una población de 6 millones. Este conjunto de datos incluyó más de dos mil millones de transacciones de teléfonos móviles de tres millones de usuarios en noviembre de 2013, enfocándose únicamente en registros de llamadas de voz y acceso a datos. Notablemente, no incluyeron datos de SMS, lo que aumentó el desafío de lidiar con datos escasos.
Los datos incluyeron un ID único cifrado, un Código de Área de Ubicación (LAC), una marca de tiempo, un ID de teléfono móvil vinculado al LAC para identificar la torre de telefonía móvil específica involucrada en la transacción, y un ID de Evento que indicaba si se trataba de una llamada saliente/entrante o uso de datos.
*Árbol de procesos para la identificación de visitas ocultas.*
Esta información se cruzó con una base de datos de operaciones de torres celulares, lo que permitió a los investigadores determinar las coordenadas de longitud y latitud de la torre asociada con cada evento de comunicación. Identificaron 9000 torres celulares dentro del conjunto de datos.
Los investigadores señalaron la dificultad de adivinar con precisión los destinos de los viajes basándose únicamente en registros de llamadas, ya que estos registros alcanzan su punto máximo por la mañana y por la tarde, lo que coincide con los patrones de viaje típicos. Dado que las llamadas telefónicas pueden preceder a un viaje y hasta pueden desencadenarlo, esto puede sesgar la estimación del destino.
*Patrones de uso de móviles a lo largo del día.*
Surgen desafíos similares con el uso de datos iniciado por el usuario, como aplicaciones de mensajería. Sin embargo, es el uso de datos "automatizado" —como la consulta sistemática de APIs para nuevos mensajes u otros datos, incluidos GPS y telemetría en aplicaciones— lo que ayuda a identificar estos movimientos ocultos.
Procesamiento
Los investigadores emplearon una variedad de clasificadores de aprendizaje automático para abordar este problema, incluyendo regresión logística, máquinas de soporte vectorial (SVM), bosques aleatorios y un enfoque de ensemble de aumento de gradiente. Estos fueron implementados en Python usando scikit-learn con configuraciones predeterminadas.
Entre estos, la regresión logística proporcionó los parámetros del modelo más interpretables. El equipo también encontró que los ETIs más largos aumentaban la probabilidad de que ocurriera una visita oculta, con una mayor incidencia por la mañana. Por el contrario, cuando los datos CDR de un usuario mostraban claramente un alto número de destinos o puntos de paso, la probabilidad de una visita oculta era menor. Este hallazgo respalda el principio central de su investigación: que los usuarios más activos proporcionan una imagen detallada de sus movimientos, a partir de la cual se puede inferir el comportamiento de los usuarios menos activos.
En su conclusión, los investigadores sugieren que su enfoque podría aplicarse a otros tipos de datos de tránsito, como datos de tarjetas inteligentes e información de redes sociales geolocalizada.
La investigación fue apoyada por financiamiento de Energy Foundation China y el China Sustainable Transportation Center.
*\* Origen-Destino*



This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.




이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓




¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔




Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱




Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚












