opção
Lar
Notícias
Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina

Descobrindo nossas 'visitas ocultas' com dados de telefone celular e aprendizado de máquina

23 de Abril de 2025
59

Se você já se perguntou como os pesquisadores rastreiam nossos movimentos por um país sem depender apenas de chamadas telefônicas, um estudo fascinante realizado por pesquisadores da China e dos Estados Unidos oferece algumas respostas. O trabalho colaborativo deles explora o uso de aprendizado de máquina para descobrir as "visitas ocultas" que fazemos — aquelas viagens que não aparecem nos dados de telecomunicações padrão porque não estamos usando nossos telefones o suficiente.

O estudo, intitulado **Identificando Visitas Ocultas a Partir de Dados Esparsos de Registro de Detalhes de Chamadas**, é liderado por Zhan Zhao, da Universidade de Hong Kong, ao lado de Haris N. Koutsopoulos, da Northeastern University em Boston, e Jinhua Zhao, do MIT. O objetivo deles? Aproveitar os registros de conectividade móvel — como dados móveis, SMS e chamadas de voz — de usuários altamente ativos para modelar e prever os padrões de movimento daqueles que usam seus telefones com menos frequência.

Um esquema aproximado para extrair informações de viagem a partir de dados de Registro de Detalhes de Chamadas (CDR). Fonte: https://arxiv.org/pdf/2106.12885.pdf*Um esquema aproximado para extrair informações de viagem a partir de dados de Registro de Detalhes de Chamadas (CDR).* Fonte: https://arxiv.org/pdf/2106.12885.pdf

Embora a equipe reconheça as possíveis preocupações com privacidade que seu trabalho levanta, eles enfatizam que o objetivo é obter uma compreensão mais generalizada dos padrões de movimento, em vez de focar em trajetórias individuais. Eles também apontam que os dados de Registro de Detalhes de Chamadas (CDR), que são a base de tais estudos, têm suas limitações. Geralmente, possuem baixa resolução espacial e são suscetíveis a "ruídos de posicionamento" devido à mudança de posição do usuário em relação às torres de celular. No entanto, eles argumentam que essa imprecisão serve como uma salvaguarda de privacidade:

**‘A aplicação-alvo do nosso estudo é a detecção de viagens e a estimativa de OD$$ \* $$, que são feitas em nível agregado, não individual. Os modelos desenvolvidos podem ser implementados diretamente nos servidores de bancos de dados das operadoras de telecomunicações, sem a necessidade de transferência de dados. Além disso, em comparação com outras formas de big data, como mídias sociais ou dados de transações de cartão de crédito, os dados de CDR são relativamente menos intrusivos em termos de privacidade pessoal. Além disso, seu erro de localização ajuda a mascarar as localizações exatas do usuário, fornecendo outra camada de preservação de privacidade.’**

Intervalos de Tempo Decorrido (ETIs)

Quando estamos em movimento com nossos celulares, não necessariamente smartphones, as limitações dos dados de CDR como ferramenta para localizar nossa posição tornam-se claras. Os Intervalos de Tempo Decorrido (ETIs), aqueles períodos durante uma viagem em que não fazemos ou recebemos chamadas, são marcadores cruciais para rastrear nossos movimentos. Esses intervalos de "silêncio" podem nos fazer desaparecer temporariamente do radar.

Os pesquisadores destacam como essas lacunas interferem nos sistemas analíticos que tentam entender viagens de A>B. A escassez de dados pode estar escondendo uma "viagem não observada". O novo método deles aborda isso analisando o contexto espaço-temporal dos ETIs e considerando "as características individuais do usuário".

Conjunto de Dados

Para construir seu conjunto de treinamento principal, os pesquisadores usaram dados de uma grande operadora de serviços celulares em uma cidade chinesa com uma população de 6 milhões. Esse conjunto de dados incluiu mais de dois bilhões de transações de celulares de três milhões de usuários em novembro de 2013, focando exclusivamente em chamadas de voz e registros de acesso a dados. Notavelmente, eles não incluíram dados de SMS, o que aumentou o desafio de lidar com dados esparsos.

Os dados incluíam um ID único criptografado, um Código de Área de Localização (LAC), um carimbo de data/hora, um ID de celular vinculado ao LAC para identificar a torre de celular específica envolvida na transação e um ID de Evento indicando se era uma chamada de entrada/saída ou uso de dados.

Árvore de processo para a identificação de visitas ocultas.*Árvore de processo para a identificação de visitas ocultas.*

Essas informações foram cruzadas com um banco de dados de operações de torres de celular, permitindo que os pesquisadores identificassem as coordenadas de longitude e latitude da torre associada a cada evento de comunicação. Eles identificaram 9.000 torres de celular dentro do conjunto de dados.

Os pesquisadores notaram a dificuldade em adivinhar com precisão os destinos das viagens com base apenas em registros de chamadas, já que esses registros atingem picos pela manhã e à tarde, o que se alinha com padrões de viagem típicos. Como as chamadas telefônicas podem preceder uma viagem e até mesmo desencadeá-la, isso pode distorcer a estimativa de destino.

Padrões de uso de celular ao longo de um dia.*Padrões de uso de celular ao longo de um dia.*

Desafios semelhantes surgem com o uso de dados iniciado pelo usuário, como aplicativos de mensagens. No entanto, é o uso de dados "automatizado" — como a consulta sistemática de APIs para novas mensagens ou outros dados, incluindo GPS e telemetria em aplicativos — que ajuda a identificar esses movimentos ocultos.

Processamento

Os pesquisadores empregaram uma variedade de classificadores de aprendizado de máquina para abordar esse problema, incluindo regressão logística, máquinas de vetor de suporte (SVM), florestas aleatórias e uma abordagem de conjunto de aumento de gradiente. Esses foram implementados em Python usando scikit-learn com configurações padrão.

Entre esses, a regressão logística forneceu os parâmetros de modelo mais interpretáveis. A equipe também descobriu que ETIs mais longos aumentavam a probabilidade de uma visita oculta ocorrer, com maior incidência pela manhã. Por outro lado, quando os dados de CDR de um usuário mostravam claramente um alto número de destinos ou pontos de passagem, a probabilidade de uma visita oculta era menor. Essa descoberta suporta o princípio central de sua pesquisa — que os usuários mais ativos fornecem um quadro detalhado de seus movimentos, a partir do qual o comportamento de usuários menos ativos pode ser inferido.

Em sua conclusão, os pesquisadores sugerem que sua abordagem poderia ser aplicada a outros tipos de dados de trânsito, como dados de cartões inteligentes e informações de mídias sociais geolocalizadas.

A pesquisa foi apoiada por financiamento da Energy Foundation China e do China Sustainable Transportation Center.

*\* Origem-Destino*

Artigo relacionado
Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software Estudo da Microsoft Revela Limitações de Modelos de IA na Depuração de Software Modelos de IA da OpenAI, Anthropic e outros laboratórios de IA líderes estão sendo cada vez mais utilizados para tarefas de codificação. O CEO da Google, Sundar Pichai, observou em outubro que a IA ge
Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Soluções Impulsionadas por IA Podem Reduzir Significativamente as Emissões Globais de Carbono Um estudo recente da London School of Economics e Systemiq revela que a inteligência artificial pode reduzir substancialmente as emissões globais de carbono sem sacrificar conveniências modernas, posi
Novo Estudo Revela Quanto Dados os LLMs Realmente Memorizam Novo Estudo Revela Quanto Dados os LLMs Realmente Memorizam Quanto os Modelos de IA Realmente Memorizam? Nova Pesquisa Revela Insights SurpreendentesTodos sabemos que grandes modelos de linguagem (LLMs) como ChatGPT, Claude e Gemini são treinados em conjuntos
Comentários (16)
0/200
JuanLewis
JuanLewis 1 de Agosto de 2025 à34 14:47:34 WEST

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 24 de Abril de 2025 à16 05:36:16 WEST

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 23 de Abril de 2025 à24 22:35:24 WEST

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 23 de Abril de 2025 à52 21:51:52 WEST

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 23 de Abril de 2025 à2 12:05:02 WEST

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

RaymondRodriguez
RaymondRodriguez 23 de Abril de 2025 à3 11:37:03 WEST

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

De volta ao topo
OR