lựa chọn
Trang chủ
Tin tức
Khám phá 'các chuyến thăm ẩn' của chúng tôi với dữ liệu điện thoại di động và học máy

Khám phá 'các chuyến thăm ẩn' của chúng tôi với dữ liệu điện thoại di động và học máy

Ngày 23 tháng 4 năm 2025
59

Nếu bạn từng tự hỏi làm thế nào các nhà nghiên cứu theo dõi di chuyển của chúng ta trên khắp một quốc gia mà không chỉ dựa vào các cuộc gọi điện thoại, một nghiên cứu hấp dẫn từ các nhà nghiên cứu ở Trung Quốc và Hoa Kỳ sẽ cung cấp một số thông tin. Công trình hợp tác của họ đi sâu vào việc sử dụng máy học để khám phá những 'chuyến đi ẩn' mà chúng ta thực hiện—những chuyến đi không xuất hiện trong dữ liệu viễn thông tiêu chuẩn vì chúng ta không sử dụng điện thoại đủ nhiều.

Nghiên cứu, có tiêu đề **Xác định các chuyến đi ẩn từ dữ liệu bản ghi chi tiết cuộc gọi thưa thớt**, được dẫn dắt bởi Zhan Zhao từ Đại học Hồng Kông, cùng với Haris N. Koutsopoulos từ Đại học Northeastern ở Boston, và Jinhua Zhao từ MIT. Mục tiêu của họ? Tận dụng các bản ghi kết nối di động—như dữ liệu di động, SMS, và cuộc gọi thoại—từ những người dùng hoạt động cao để mô hình hóa và dự đoán mô hình di chuyển của những người sử dụng điện thoại ít thường xuyên hơn.

Sơ đồ sơ bộ để trích xuất thông tin chuyến đi từ dữ liệu Bản ghi Chi tiết Cuộc gọi (CDR). Nguồn: https://arxiv.org/pdf/2106.12885.pdf*Sơ đồ sơ bộ để trích xuất thông tin chuyến đi từ dữ liệu Bản ghi Chi tiết Cuộc gọi (CDR).* Nguồn: https://arxiv.org/pdf/2106.12885.pdf

Mặc dù nhóm nghiên cứu thừa nhận những lo ngại tiềm tàng về quyền riêng tư mà công trình của họ đặt ra, họ nhấn mạnh rằng mục tiêu của họ là đạt được sự hiểu biết tổng quát hơn về mô hình di chuyển, thay vì tập trung vào các hành trình cá nhân. Họ cũng chỉ ra rằng dữ liệu Bản ghi Chi tiết Cuộc gọi (CDR), nền tảng của các nghiên cứu như vậy, có những hạn chế. Nó thường có độ phân giải không gian thấp và dễ bị 'nhiễu định vị' do vị trí thay đổi của người dùng so với các trạm điện thoại di động. Tuy nhiên, họ lập luận rằng sự không chính xác này thực sự đóng vai trò như một biện pháp bảo vệ quyền riêng tư:

**‘Ứng dụng mục tiêu của nghiên cứu của chúng tôi là phát hiện chuyến đi và ước tính OD$$ \* $$, được thực hiện ở cấp độ tổng hợp, không phải cấp độ cá nhân. Các mô hình được phát triển có thể được triển khai trực tiếp trên các máy chủ cơ sở dữ liệu của các nhà mạng viễn thông, mà không cần chuyển giao dữ liệu. Hơn nữa, so với các dạng dữ liệu lớn khác, như dữ liệu mạng xã hội hoặc giao dịch thẻ tín dụng, dữ liệu CDR tương đối ít xâm phạm đến quyền riêng tư cá nhân. Ngoài ra, lỗi định vị của nó giúp che giấu vị trí chính xác của người dùng, cung cấp thêm một lớp bảo vệ quyền riêng tư.'**

Khoảng thời gian trôi qua (ETIs)

Khi chúng ta di chuyển với điện thoại di động, không nhất thiết là điện thoại thông minh, những hạn chế của dữ liệu CDR như một công cụ để xác định chính xác vị trí của chúng ta trở nên rõ ràng. Các Khoảng thời gian trôi qua (ETIs), những khoảng thời gian trong một hành trình mà chúng ta không thực hiện hoặc nhận cuộc gọi, là các dấu hiệu quan trọng để theo dõi di chuyển của chúng ta. Những khoảng thời gian 'im lặng' này có thể khiến chúng ta tạm thời biến mất khỏi lưới.

Các nhà nghiên cứu nhấn mạnh cách những khoảng trống này cản trở các hệ thống phân tích cố gắng hiểu rõ các hành trình A>B. Sự thưa thớt của dữ liệu có thể che giấu một 'chuyến đi không được quan sát'. Phương pháp mới của họ giải quyết vấn đề này bằng cách phân tích bối cảnh không gian-thời gian của ETIs và xem xét 'các đặc điểm cá nhân của người dùng'.

Bộ dữ liệu

Để xây dựng bộ dữ liệu huấn luyện cốt lõi, các nhà nghiên cứu đã sử dụng dữ liệu từ một nhà mạng dịch vụ di động lớn ở một thành phố Trung Quốc với dân số 6 triệu người. Bộ dữ liệu này bao gồm hơn hai tỷ giao dịch điện thoại di động từ ba triệu người dùng trong tháng 11 năm 2013, chỉ tập trung vào các cuộc gọi thoại và bản ghi truy cập dữ liệu. Đáng chú ý, họ không bao gồm dữ liệu SMS, điều này làm tăng thêm thách thức khi xử lý dữ liệu thưa thớt.

Dữ liệu bao gồm một ID duy nhất được mã hóa, Mã Khu vực Vị trí (LAC), dấu thời gian, ID điện thoại di động liên kết với LAC để xác định trạm điện thoại di động cụ thể liên quan đến giao dịch, và một ID Sự kiện cho biết đó là cuộc gọi đi/đến hoặc sử dụng dữ liệu.

Cây quy trình để xác định các chuyến đi ẩn.*Cây quy trình để xác định các chuyến đi ẩn.*

Thông tin này được đối chiếu với cơ sở dữ liệu vận hành trạm điện thoại, cho phép các nhà nghiên cứu xác định tọa độ kinh độ và vĩ độ của trạm liên quan đến mỗi sự kiện giao tiếp. Họ đã xác định 9000 trạm điện thoại trong bộ dữ liệu.

Các nhà nghiên cứu lưu ý khó khăn trong việc đoán chính xác điểm đến của chuyến đi chỉ dựa trên bản ghi cuộc gọi, vì các bản ghi này đạt đỉnh vào buổi sáng và buổi chiều, phù hợp với mô hình di chuyển điển hình. Vì các cuộc gọi điện thoại có thể diễn ra trước một hành trình và thậm chí có thể kích hoạt nó, điều này có thể làm lệch ước tính điểm đến.

Mô hình sử dụng di động trong suốt một ngày.*Mô hình sử dụng di động trong suốt một ngày.*

Những thách thức tương tự cũng xuất hiện với việc sử dụng dữ liệu do người dùng khởi tạo, như các ứng dụng nhắn tin. Tuy nhiên, chính việc sử dụng dữ liệu 'tự động'—như việc thăm dò API có hệ thống để tìm tin nhắn mới hoặc dữ liệu khác, bao gồm GPS và dữ liệu từ xa trên các ứng dụng—giúp xác định những di chuyển ẩn này.

Xử lý

Các nhà nghiên cứu đã sử dụng nhiều bộ phân loại máy học để giải quyết vấn đề này, bao gồm hồi quy logistic, máy vector hỗ trợ (SVM), rừng ngẫu nhiên, và phương pháp tập hợp tăng cường độ dốc. Những thứ này được triển khai bằng Python sử dụng scikit-learn với cài đặt mặc định.

Trong số này, hồi quy logistic cung cấp các tham số mô hình dễ diễn giải nhất. Nhóm nghiên cứu cũng phát hiện ra rằng các ETIs dài hơn làm tăng khả năng xảy ra một chuyến đi ẩn, với tỷ lệ cao hơn vào buổi sáng. Ngược lại, khi dữ liệu CDR của một người dùng cho thấy rõ ràng số lượng điểm đến hoặc điểm dừng cao, khả năng xảy ra một chuyến đi ẩn thấp hơn. Phát hiện này hỗ trợ nguyên tắc cốt lõi của nghiên cứu của họ—rằng những người dùng hoạt động nhất cung cấp một bức tranh chi tiết về di chuyển của họ, từ đó có thể suy ra hành vi của những người dùng ít hoạt động hơn.

Trong kết luận của mình, các nhà nghiên cứu đề xuất rằng phương pháp của họ có thể được áp dụng cho các loại dữ liệu giao thông khác, như dữ liệu thẻ thông minh và thông tin mạng xã hội định vị địa lý.

Nghiên cứu được hỗ trợ bởi tài trợ từ Energy Foundation China và Trung tâm Giao thông Bền vững Trung Quốc.

*\* Nguồn-Gốc-Điểm đến*

Bài viết liên quan
Nghiên cứu của Microsoft tiết lộ giới hạn của các mô hình AI trong việc gỡ lỗi phần mềm Nghiên cứu của Microsoft tiết lộ giới hạn của các mô hình AI trong việc gỡ lỗi phần mềm Các mô hình AI từ OpenAI, Anthropic và các phòng thí nghiệm AI hàng đầu khác ngày càng được sử dụng cho các nhiệm vụ lập trình. Giám đốc điều hành Google Sundar Pichai đã lưu ý vào tháng 10 rằng AI tạ
Giải pháp được hỗ trợ bởi AI có thể giảm đáng kể lượng phát thải carbon toàn cầu Giải pháp được hỗ trợ bởi AI có thể giảm đáng kể lượng phát thải carbon toàn cầu Một nghiên cứu gần đây của Trường Kinh tế London và Systemiq cho thấy trí tuệ nhân tạo có thể giảm đáng kể lượng phát thải carbon toàn cầu mà không làm mất đi các tiện nghi hiện đại, định vị AI như mộ
Nghiên Cứu Mới Tiết Lộ Lượng Dữ Liệu LLMs Thực Sự Ghi Nhớ Nghiên Cứu Mới Tiết Lộ Lượng Dữ Liệu LLMs Thực Sự Ghi Nhớ AI Ghi Nhớ Bao Nhiêu? Nghiên Cứu Mới Tiết Lộ Những Hiểu Biết Bất NgờChúng ta đều biết rằng các mô hình ngôn ngữ lớn (LLMs) như ChatGPT, Claude, và Gemini được huấn luyện trên các tập dữ liệu khổng lồ—
Nhận xét (16)
0/200
JuanLewis
JuanLewis 20:47:34 GMT+07:00 Ngày 01 tháng 8 năm 2025

This article blew my mind! Using phone data and ML to track hidden visits is so cool, but kinda creepy too. 🤯 Wonder how they balance privacy with all this tech wizardry.

RalphSanchez
RalphSanchez 11:36:16 GMT+07:00 Ngày 24 tháng 4 năm 2025

이 도구는 정말 놀랍습니다! 내 이동을 추적하는 데 유용하지만 조금 무섭기도 해요. 데이터를 삭제할 수 있는 옵션이 있으면 좋겠어요. 😓

MatthewScott
MatthewScott 04:35:24 GMT+07:00 Ngày 24 tháng 4 năm 2025

¡Esta herramienta es alucinante! Es como tener un detective en mi bolsillo, descubriendo todos esos viajes secretos que nunca supe. Muy útil para rastrear mis propios movimientos, pero un poco espeluznante también. ¿Quizás deberían añadir una opción para eliminar datos? 🤔

RalphHill
RalphHill 03:51:52 GMT+07:00 Ngày 24 tháng 4 năm 2025

Este estudo sobre 'visitas ocultas' usando dados de celular e aprendizado de máquina é impressionante! É fascinante como eles podem rastrear movimentos com tanta precisão. Mas também é um pouco assustador, não é? 🤔📱

WilliamMiller
WilliamMiller 18:05:02 GMT+07:00 Ngày 23 tháng 4 năm 2025

Essa ferramenta é incrível! Parece que tenho um detetive no meu bolso, descobrindo todas aquelas viagens secretas que eu nunca soube. Muito útil para rastrear meus próprios movimentos, mas um pouco assustador também. Talvez eles devam adicionar uma opção para excluir dados? 🤔

RaymondRodriguez
RaymondRodriguez 17:37:03 GMT+07:00 Ngày 23 tháng 4 năm 2025

Este estudio sobre el seguimiento de visitas ocultas con datos de celulares y ML es alucinante 🤯 Es genial ver cómo investigadores de diferentes países están colaborando para descubrir estos patrones. Pero también es un poco escalofriante saber que nuestros movimientos pueden ser rastreados tan fácilmente. Aún así, muy interesante y definitivamente vale la pena leerlo! 📚

Quay lại đầu
OR