

Khám phá 'các chuyến thăm ẩn' của chúng tôi với dữ liệu điện thoại di động và học máy
Ngày 22 tháng 4 năm 2025
JustinScott
0
Nếu bạn đã từng tự hỏi làm thế nào các nhà nghiên cứu theo dõi các phong trào của chúng tôi trên một quốc gia mà không chỉ dựa vào các cuộc gọi điện thoại, một nghiên cứu hấp dẫn của các nhà nghiên cứu từ Trung Quốc và Hoa Kỳ cung cấp một số hiểu biết. Công việc hợp tác của họ đi sâu vào việc sử dụng máy học để khám phá 'các chuyến thăm ẩn', chúng tôi thực hiện những chuyến đi mà không hiển thị trong dữ liệu viễn thông tiêu chuẩn vì chúng tôi không sử dụng điện thoại của mình đủ.
Nghiên cứu, có tiêu đề ** Xác định các chuyến thăm ẩn từ dữ liệu hồ sơ chi tiết cuộc gọi thưa thớt **, được Zhan Zhao dẫn đầu từ Đại học Hồng Kông, cùng với Haris N. Koutsopoulos từ Đại học Đông Bắc ở Boston và Jinhua Zhao từ MIT. Mục tiêu của họ? Để tận dụng các bản ghi kết nối di động, ví dụ như dữ liệu di động, SMS và các cuộc gọi thoại từ người dùng hoạt động cao để mô hình hóa và dự đoán các mẫu chuyển động của những người sử dụng điện thoại của họ ít thường xuyên hơn.
* Sơ đồ sơ đồ để trích xuất thông tin chuyến đi từ dữ liệu Call Chi tiết (CD).* Nguồn: https://arxiv.org/pdf/2106.12885.pdf
Mặc dù nhóm thừa nhận quyền riêng tư tiềm năng liên quan đến công việc của họ, họ nhấn mạnh rằng mục đích của họ là có được sự hiểu biết tổng quát hơn về các mô hình chuyển động, thay vì phóng to các hành trình riêng lẻ. Họ cũng chỉ ra rằng dữ liệu Gọi chi tiết (CDR), là xương sống của các nghiên cứu như vậy, có những hạn chế của nó. Nó thường có độ phân giải không gian thấp và dễ bị 'định vị nhiễu' do vị trí thay đổi của người dùng so với các tháp điện thoại di động. Tuy nhiên, họ lập luận rằng sự không chính xác này thực sự đóng vai trò là một biện pháp bảo vệ quyền riêng tư:
** 'Ứng dụng mục tiêu của nghiên cứu của chúng tôi là phát hiện chuyến đi và ước tính OD \ [\*\], được thực hiện ở cấp độ tổng hợp, không phải cấp độ cá nhân. Các mô hình được phát triển có thể được triển khai trực tiếp trên các máy chủ cơ sở dữ liệu của các nhà mạng viễn thông, mà không cần truyền dữ liệu. Hơn nữa, so với các hình thức dữ liệu lớn khác, chẳng hạn như phương tiện truyền thông xã hội hoặc dữ liệu giao dịch thẻ tín dụng, dữ liệu CDR tương đối ít xâm phạm về quyền riêng tư cá nhân. Ngoài ra, lỗi nội địa hóa của nó giúp che giấu các vị trí người dùng chính xác, cung cấp một lớp bảo tồn quyền riêng tư khác. '**
Khoảng thời gian trôi qua (ETI)
Khi chúng tôi đang di chuyển với điện thoại di động, không nhất thiết là điện thoại thông minh, những hạn chế của dữ liệu CDR như một công cụ để xác định chính xác vị trí của chúng tôi trở nên rõ ràng. Khoảng thời gian đã trôi qua (ETI), những khoảng thời gian đó trong một hành trình mà chúng tôi không thực hiện hoặc nhận cuộc gọi, là những dấu hiệu quan trọng để theo dõi các chuyển động của chúng tôi. Những khoảng thời gian 'im lặng' này có thể khiến chúng ta tạm thời biến mất khỏi lưới điện.
Các nhà nghiên cứu nhấn mạnh cách những khoảng trống này can thiệp vào các hệ thống phân tích cố gắng hiểu ý nghĩa của một hành trình> b. Sự thưa thớt của dữ liệu có thể đang che giấu một 'chuyến đi không quan sát được'. Phương pháp mới của họ đã giải quyết điều này bằng cách phân tích bối cảnh không gian của ETI và xem xét 'các đặc điểm cá nhân của người dùng'.
Bộ dữ liệu
Để xây dựng bộ đào tạo cốt lõi của họ, các nhà nghiên cứu đã sử dụng dữ liệu từ một nhà điều hành dịch vụ di động lớn tại một thành phố Trung Quốc với dân số 6 triệu người. Bộ dữ liệu này bao gồm hơn hai tỷ giao dịch điện thoại di động từ ba triệu người dùng vào tháng 11 năm 2013, chỉ tập trung vào các cuộc gọi thoại và hồ sơ truy cập dữ liệu. Đáng chú ý, họ không bao gồm dữ liệu SMS, thêm vào thách thức đối phó với dữ liệu thưa thớt.
Dữ liệu bao gồm ID duy nhất được mã hóa, mã vùng vị trí (LAC), dấu thời gian, ID điện thoại di động được liên kết với LAC để xác định tháp điện thoại di động cụ thể liên quan đến giao dịch và ID sự kiện cho biết đó có phải là một cuộc gọi hoặc sử dụng dữ liệu đi hoặc sử dụng dữ liệu hay không.
*Cây xử lý để xác định các chuyến thăm ẩn.*
Thông tin này được tham chiếu chéo với cơ sở dữ liệu hoạt động của tháp di động, cho phép các nhà nghiên cứu xác định chính xác tọa độ kinh độ và vĩ độ của tòa tháp liên quan đến từng sự kiện giao tiếp. Họ đã xác định 9000 tháp di động trong bộ dữ liệu.
Các nhà nghiên cứu lưu ý những khó khăn trong việc đoán chính xác các điểm đến chuyến đi chỉ dựa trên các hồ sơ cuộc gọi, vì những hồ sơ này đạt đỉnh vào buổi sáng và buổi chiều, phù hợp với các mô hình du lịch điển hình. Vì các cuộc gọi điện thoại có thể đi trước một hành trình và thậm chí có thể kích hoạt nó, điều này có thể ước tính điểm đến.
*Các mẫu sử dụng di động trong suốt một ngày.*
Những thách thức tương tự phát sinh với việc sử dụng dữ liệu do người dùng khởi xướng, như các ứng dụng nhắn tin. Tuy nhiên, đó là việc sử dụng dữ liệu 'tự động', giống như việc bỏ phiếu API có hệ thống cho các tin nhắn mới hoặc dữ liệu khác, bao gồm GPS và từ xa trên các ứng dụng mà giúp xác định các chuyển động ẩn này.
Xử lý
Các nhà nghiên cứu đã sử dụng một loạt các phân loại học máy để giải quyết vấn đề này, bao gồm hồi quy logistic, máy vector hỗ trợ (SVM), rừng ngẫu nhiên và cách tiếp cận tăng cường độ dốc. Chúng được triển khai trong Python bằng cách sử dụng Scikit-LEARN với các cài đặt mặc định.
Trong số này, hồi quy logistic đã cung cấp các tham số mô hình dễ hiểu nhất. Nhóm nghiên cứu cũng phát hiện ra rằng ETI dài hơn đã tăng khả năng một chuyến thăm ẩn xảy ra, với tỷ lệ mắc bệnh cao hơn vào buổi sáng. Ngược lại, khi dữ liệu CDR của người dùng cho thấy rõ số lượng điểm đến hoặc điểm tham chiếu cao, khả năng truy cập ẩn thấp hơn. Phát hiện này hỗ trợ nguyên tắc cốt lõi của nghiên cứu của họ, những người dùng tích cực nhất cung cấp một bức tranh chi tiết về các chuyển động của họ, từ đó hành vi của người dùng ít hoạt động hơn có thể được suy ra.
Trong kết luận của họ, các nhà nghiên cứu cho rằng cách tiếp cận của họ có thể được áp dụng cho các loại dữ liệu quá cảnh khác, chẳng hạn như dữ liệu thẻ thông minh và thông tin truyền thông xã hội định vị địa lý.
Nghiên cứu được hỗ trợ bởi tài trợ từ Quỹ năng lượng Trung Quốc và Trung tâm Giao thông bền vững Trung Quốc.
* \*-Destination*
Bài viết liên quan
DeepSeek的AIS发现了真正的人类欲望
DeepSeek在AI奖励模型中的突破性:加强AI推理和响应中国AI初创公司DeepSeek与Tsinghua University合作,在AI研究中取得了重要的里程碑。他们对AI奖励模型的创新方法有望彻底改变AI系统的学习方式
DeepCoder通过14B开放模型实现高编码效率
介绍DeepCoder-14b:开源编码模型的新领域,AI和Agentica的团队揭幕了DeepCoder-14b,这是一种开创性的编码模型,与Openai的O3-Mini(例如Openai的O3-Mini)肩并肩。这种令人兴奋的发展是基于FO的
Nhận xét (10)
0/200
BrianWalker
10:37:03 GMT Ngày 23 tháng 4 năm 2025
This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚
0
BenHernández
10:37:03 GMT Ngày 23 tháng 4 năm 2025
携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚
0
HarryLewis
10:37:03 GMT Ngày 23 tháng 4 năm 2025
휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚
0
JasonMartin
10:37:03 GMT Ngày 23 tháng 4 năm 2025
Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚
0
RaymondRodriguez
10:37:03 GMT Ngày 23 tháng 4 năm 2025
Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚
0
SamuelClark
07:52:14 GMT Ngày 23 tháng 4 năm 2025
This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱
0






Nếu bạn đã từng tự hỏi làm thế nào các nhà nghiên cứu theo dõi các phong trào của chúng tôi trên một quốc gia mà không chỉ dựa vào các cuộc gọi điện thoại, một nghiên cứu hấp dẫn của các nhà nghiên cứu từ Trung Quốc và Hoa Kỳ cung cấp một số hiểu biết. Công việc hợp tác của họ đi sâu vào việc sử dụng máy học để khám phá 'các chuyến thăm ẩn', chúng tôi thực hiện những chuyến đi mà không hiển thị trong dữ liệu viễn thông tiêu chuẩn vì chúng tôi không sử dụng điện thoại của mình đủ.
Nghiên cứu, có tiêu đề ** Xác định các chuyến thăm ẩn từ dữ liệu hồ sơ chi tiết cuộc gọi thưa thớt **, được Zhan Zhao dẫn đầu từ Đại học Hồng Kông, cùng với Haris N. Koutsopoulos từ Đại học Đông Bắc ở Boston và Jinhua Zhao từ MIT. Mục tiêu của họ? Để tận dụng các bản ghi kết nối di động, ví dụ như dữ liệu di động, SMS và các cuộc gọi thoại từ người dùng hoạt động cao để mô hình hóa và dự đoán các mẫu chuyển động của những người sử dụng điện thoại của họ ít thường xuyên hơn.
* Sơ đồ sơ đồ để trích xuất thông tin chuyến đi từ dữ liệu Call Chi tiết (CD).* Nguồn: https://arxiv.org/pdf/2106.12885.pdf
Mặc dù nhóm thừa nhận quyền riêng tư tiềm năng liên quan đến công việc của họ, họ nhấn mạnh rằng mục đích của họ là có được sự hiểu biết tổng quát hơn về các mô hình chuyển động, thay vì phóng to các hành trình riêng lẻ. Họ cũng chỉ ra rằng dữ liệu Gọi chi tiết (CDR), là xương sống của các nghiên cứu như vậy, có những hạn chế của nó. Nó thường có độ phân giải không gian thấp và dễ bị 'định vị nhiễu' do vị trí thay đổi của người dùng so với các tháp điện thoại di động. Tuy nhiên, họ lập luận rằng sự không chính xác này thực sự đóng vai trò là một biện pháp bảo vệ quyền riêng tư:
** 'Ứng dụng mục tiêu của nghiên cứu của chúng tôi là phát hiện chuyến đi và ước tính OD \ [\*\], được thực hiện ở cấp độ tổng hợp, không phải cấp độ cá nhân. Các mô hình được phát triển có thể được triển khai trực tiếp trên các máy chủ cơ sở dữ liệu của các nhà mạng viễn thông, mà không cần truyền dữ liệu. Hơn nữa, so với các hình thức dữ liệu lớn khác, chẳng hạn như phương tiện truyền thông xã hội hoặc dữ liệu giao dịch thẻ tín dụng, dữ liệu CDR tương đối ít xâm phạm về quyền riêng tư cá nhân. Ngoài ra, lỗi nội địa hóa của nó giúp che giấu các vị trí người dùng chính xác, cung cấp một lớp bảo tồn quyền riêng tư khác. '**
Khoảng thời gian trôi qua (ETI)
Khi chúng tôi đang di chuyển với điện thoại di động, không nhất thiết là điện thoại thông minh, những hạn chế của dữ liệu CDR như một công cụ để xác định chính xác vị trí của chúng tôi trở nên rõ ràng. Khoảng thời gian đã trôi qua (ETI), những khoảng thời gian đó trong một hành trình mà chúng tôi không thực hiện hoặc nhận cuộc gọi, là những dấu hiệu quan trọng để theo dõi các chuyển động của chúng tôi. Những khoảng thời gian 'im lặng' này có thể khiến chúng ta tạm thời biến mất khỏi lưới điện.
Các nhà nghiên cứu nhấn mạnh cách những khoảng trống này can thiệp vào các hệ thống phân tích cố gắng hiểu ý nghĩa của một hành trình> b. Sự thưa thớt của dữ liệu có thể đang che giấu một 'chuyến đi không quan sát được'. Phương pháp mới của họ đã giải quyết điều này bằng cách phân tích bối cảnh không gian của ETI và xem xét 'các đặc điểm cá nhân của người dùng'.
Bộ dữ liệu
Để xây dựng bộ đào tạo cốt lõi của họ, các nhà nghiên cứu đã sử dụng dữ liệu từ một nhà điều hành dịch vụ di động lớn tại một thành phố Trung Quốc với dân số 6 triệu người. Bộ dữ liệu này bao gồm hơn hai tỷ giao dịch điện thoại di động từ ba triệu người dùng vào tháng 11 năm 2013, chỉ tập trung vào các cuộc gọi thoại và hồ sơ truy cập dữ liệu. Đáng chú ý, họ không bao gồm dữ liệu SMS, thêm vào thách thức đối phó với dữ liệu thưa thớt.
Dữ liệu bao gồm ID duy nhất được mã hóa, mã vùng vị trí (LAC), dấu thời gian, ID điện thoại di động được liên kết với LAC để xác định tháp điện thoại di động cụ thể liên quan đến giao dịch và ID sự kiện cho biết đó có phải là một cuộc gọi hoặc sử dụng dữ liệu đi hoặc sử dụng dữ liệu hay không.
*Cây xử lý để xác định các chuyến thăm ẩn.*
Thông tin này được tham chiếu chéo với cơ sở dữ liệu hoạt động của tháp di động, cho phép các nhà nghiên cứu xác định chính xác tọa độ kinh độ và vĩ độ của tòa tháp liên quan đến từng sự kiện giao tiếp. Họ đã xác định 9000 tháp di động trong bộ dữ liệu.
Các nhà nghiên cứu lưu ý những khó khăn trong việc đoán chính xác các điểm đến chuyến đi chỉ dựa trên các hồ sơ cuộc gọi, vì những hồ sơ này đạt đỉnh vào buổi sáng và buổi chiều, phù hợp với các mô hình du lịch điển hình. Vì các cuộc gọi điện thoại có thể đi trước một hành trình và thậm chí có thể kích hoạt nó, điều này có thể ước tính điểm đến.
*Các mẫu sử dụng di động trong suốt một ngày.*
Những thách thức tương tự phát sinh với việc sử dụng dữ liệu do người dùng khởi xướng, như các ứng dụng nhắn tin. Tuy nhiên, đó là việc sử dụng dữ liệu 'tự động', giống như việc bỏ phiếu API có hệ thống cho các tin nhắn mới hoặc dữ liệu khác, bao gồm GPS và từ xa trên các ứng dụng mà giúp xác định các chuyển động ẩn này.
Xử lý
Các nhà nghiên cứu đã sử dụng một loạt các phân loại học máy để giải quyết vấn đề này, bao gồm hồi quy logistic, máy vector hỗ trợ (SVM), rừng ngẫu nhiên và cách tiếp cận tăng cường độ dốc. Chúng được triển khai trong Python bằng cách sử dụng Scikit-LEARN với các cài đặt mặc định.
Trong số này, hồi quy logistic đã cung cấp các tham số mô hình dễ hiểu nhất. Nhóm nghiên cứu cũng phát hiện ra rằng ETI dài hơn đã tăng khả năng một chuyến thăm ẩn xảy ra, với tỷ lệ mắc bệnh cao hơn vào buổi sáng. Ngược lại, khi dữ liệu CDR của người dùng cho thấy rõ số lượng điểm đến hoặc điểm tham chiếu cao, khả năng truy cập ẩn thấp hơn. Phát hiện này hỗ trợ nguyên tắc cốt lõi của nghiên cứu của họ, những người dùng tích cực nhất cung cấp một bức tranh chi tiết về các chuyển động của họ, từ đó hành vi của người dùng ít hoạt động hơn có thể được suy ra.
Trong kết luận của họ, các nhà nghiên cứu cho rằng cách tiếp cận của họ có thể được áp dụng cho các loại dữ liệu quá cảnh khác, chẳng hạn như dữ liệu thẻ thông minh và thông tin truyền thông xã hội định vị địa lý.
Nghiên cứu được hỗ trợ bởi tài trợ từ Quỹ năng lượng Trung Quốc và Trung tâm Giao thông bền vững Trung Quốc.
* \*-Destination*


This study on tracking hidden visits with cell phone data and ML is mind-blowing 🤯 It's cool to see how researchers from different countries are teaming up to uncover these patterns. But it's also a bit creepy knowing our movements can be tracked so easily. Still, super interesting and definitely worth a read! 📚




携帯電話データと機械学習を使って隠れた訪問を追跡するこの研究は驚きです🤯 異なる国の研究者が協力してこれらのパターンを明らかにしているのはクールです。でも、私たちの移動がこんなに簡単に追跡されるのはちょっと気味悪いです。でも、とても興味深くて読む価値があります!📚




휴대전화 데이터와 머신러닝으로 숨겨진 방문을 추적하는 이 연구는 정말 놀랍네요 🤯 다른 나라의 연구자들이 협력해서 이런 패턴을 밝히는 건 멋지죠. 하지만 우리의 이동이 이렇게 쉽게 추적된다는 게 조금 섬뜩하기도 해요. 그래도 정말 흥미롭고 읽을 가치가 있어요! 📚




Este estudo sobre o rastreamento de visitas ocultas com dados de celular e ML é impressionante 🤯 É legal ver como pesquisadores de diferentes países estão colaborando para descobrir esses padrões. Mas também é um pouco assustador saber que nossos movimentos podem ser rastreados tão facilmente. Ainda assim, muito interessante e vale a pena ler! 📚




Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚




This study on 'hidden visits' using cell phone data and machine learning is mind-blowing! It's fascinating how they can track movements so accurately. But it's also a bit creepy, isn't it? 🤔📱












