当前位置：首页 > article >正文

用Python和Folium玩转上海电信数据集：手把手教你绘制用户移动轨迹地图

article 2026/5/24 6:25:05

用Python和Folium玩转上海电信数据集手把手教你绘制用户移动轨迹地图当你面对一个包含数百万条电信记录的数据集时如何从中提取有价值的用户移动轨迹信息本文将带你从零开始使用Python和Folium库将原始的电信基站数据转化为直观的地理可视化图表。无论你是数据分析新手还是希望扩展技能的数据爱好者这篇实战教程都将为你提供清晰的步骤和实用的技巧。1. 数据准备与环境搭建在开始之前我们需要确保拥有合适的工作环境和必要的数据集。首先从Kaggle下载Telecom Shanghai Dataset这个数据集包含了上海地区超过720万条手机基站访问记录记录了9481部手机通过3233个基站访问互联网的情况时间跨度为六个月。安装必要的Python库pip install pandas folium numpy matplotlib数据集包含以下关键字段月份数据量开始时间结束时间基站经度基站纬度用户ID提示建议使用Jupyter Notebook进行本教程的实践这样可以实时查看每一步的数据处理结果和可视化效果。2. 数据清洗与预处理原始数据往往包含噪声和不完整记录我们需要先进行数据清洗。以下是关键步骤读取数据并检查基本信息import pandas as pd data pd.read_excel(Telecom_Shanghai_Dataset.xlsx, names[Data, start_time, end_time, cell_lon, cell_lat, user_id]) print(data.head()) print(data.info())处理缺失值# 删除经纬度为空的记录 clean_data data.dropna(subset[cell_lon, cell_lat]) print(f原始记录数: {len(data)}, 清洗后记录数: {len(clean_data)})筛选特定日期范围import datetime # 选择2014年10月15日的数据 target_date datetime.datetime(2014, 10, 15) filtered_data clean_data[ (clean_data[start_time] target_date) (clean_data[start_time] target_date datetime.timedelta(days1)) ]3. 轨迹重构与停留点识别要从连续的基站记录中提取有意义的移动轨迹我们需要识别用户的停留点和移动路径。3.1 数据排序与位置标记# 按用户ID和时间排序 sorted_data filtered_data.sort_values(by[user_id, start_time]) # 创建位置标识列 sorted_data[location] sorted_data[cell_lon].astype(str) _ sorted_data[cell_lat].astype(str) # 标记位置变化 sorted_data[prev_location] sorted_data[location].shift(1) sorted_data[location_changed] (sorted_data[location] ! sorted_data[prev_location])3.2 提取移动记录# 只保留位置发生变化的记录 movement_data sorted_data[sorted_data[location_changed] True] movement_data movement_data[[start_time, end_time, cell_lon, cell_lat, user_id]]3.3 筛选有效轨迹# 统计每个用户的移动次数 user_movement_counts movement_data.groupby(user_id).size().reset_index(namecount) # 只保留移动次数大于10次的用户 active_users user_movement_counts[user_movement_counts[count] 10] final_data movement_data[movement_data[user_id].isin(active_users[user_id])]4. 使用Folium进行轨迹可视化现在我们已经准备好了干净的数据可以开始创建地图可视化了。4.1 基础地图设置import folium import numpy as np # 选择一个用户作为示例 sample_user final_data[final_data[user_id] 00a05a4f2b937fd38888c03213c4deb2] # 准备轨迹点列表 trajectory [] for _, row in sample_user.iterrows(): trajectory.append([row[cell_lon], row[cell_lat]]) trajectory np.array(trajectory) # 创建地图中心点为轨迹点的平均值 m folium.Map(locationtrajectory.mean(axis0), zoom_start13)4.2 添加轨迹线和标记点# 添加标记点 for point in trajectory: folium.Marker(locationpoint).add_to(m) # 添加轨迹线 folium.PolyLine(locationstrajectory, colorblue, weight2.5, opacity1).add_to(m) # 显示地图 m4.3 高级可视化技巧为了使地图更加专业和美观我们可以添加一些增强功能自定义标记图标from folium import plugins # 使用不同的图标表示起点和终点 folium.Marker( locationtrajectory[0], iconfolium.Icon(colorgreen, iconplay, prefixfa) ).add_to(m) folium.Marker( locationtrajectory[-1], iconfolium.Icon(colorred, iconstop, prefixfa) ).add_to(m)添加热力图显示热点区域from folium.plugins import HeatMap heat_data [[row[cell_lat], row[cell_lon]] for _, row in final_data.iterrows()] HeatMap(heat_data, radius15).add_to(m)时间轴动画展示# 为每个点添加时间戳 features [ { type: Feature, geometry: { type: Point, coordinates: [row[cell_lon], row[cell_lat]], }, properties: { time: row[start_time].strftime(%Y-%m-%d %H:%M:%S), popup: f时间: {row[start_time]}br基站: {row[cell_lon]}, {row[cell_lat]} } } for _, row in sample_user.iterrows() ] # 创建时间轴 plugins.TimestampedGeoJson( {type: FeatureCollection, features: features}, periodPT1H, add_last_pointTrue, auto_playFalse, loopFalse, max_speed1, loop_buttonTrue, date_optionsYYYY/MM/DD HH:mm:ss, time_slider_drag_updateTrue ).add_to(m)5. 分析与洞察提取有了可视化结果后我们可以从中提取有价值的洞察移动模式识别观察用户的日常活动范围、常去地点和移动路径热点区域分析通过热力图识别用户聚集的区域异常检测发现不寻常的移动模式或位置跳跃# 计算移动距离简化版使用欧氏距离 def calculate_distance(lon1, lat1, lon2, lat2): return np.sqrt((lon2 - lon1)**2 (lat2 - lat1)**2) distances [] for i in range(1, len(trajectory)): dist calculate_distance(trajectory[i-1][0], trajectory[i-1][1], trajectory[i][0], trajectory[i][1]) distances.append(dist) print(f平均移动距离: {np.mean(distances):.6f} 度) print(f最大单次移动距离: {np.max(distances):.6f} 度)注意这里的距离计算是简化的欧氏距离实际应用中应考虑使用更精确的地理距离计算方法。6. 项目扩展与优化建议完成基础可视化后你可以考虑以下扩展方向多用户对比同时可视化多个用户的轨迹比较他们的移动模式时间维度分析按小时、工作日/周末等时间维度分析移动规律交互式仪表盘使用Dash或Panel创建交互式分析工具机器学习应用使用聚类算法识别常见的移动模式# 示例多用户轨迹可视化 unique_users final_data[user_id].unique()[:5] # 取前5个用户 multi_map folium.Map(location[31.2304, 121.4737], zoom_start12) # 上海中心坐标 colors [red, blue, green, purple, orange] for user, color in zip(unique_users, colors): user_data final_data[final_data[user_id] user] trajectory [[row[cell_lon], row[cell_lat]] for _, row in user_data.iterrows()] folium.PolyLine(trajectory, colorcolor, weight2, opacity0.7, popupf用户ID: {user}).add_to(multi_map) multi_map在实际项目中我现使用Folium的MarkerCluster插件可以有效解决当标记点过多时的性能问题。另外对于大规模数据集考虑使用GeoPandas进行空间索引可以显著提高查询效率。

用Python和Folium玩转上海电信数据集：手把手教你绘制用户移动轨迹地图

相关文章：

用Python和Folium玩转上海电信数据集：手把手教你绘制用户移动轨迹地图

融合FIWARE与TinyML：构建工业级边缘智能的MLOps系统工程实践

从GEDI L4A数据到论文图表：如何用Python和geemap进行AGBD时空分析与可视化

混沌系统预测极限：稀疏观测、数据同化与混沌同步的信息门槛

从文本到流程：NLP与LLM驱动的业务流程模型自动提取技术

Z变换与数字滤波器设计：从零极点分析到Python实战

MySQL报错注入实战：从错误信息读取到文件写入

Cisco UC系统安全加固与漏洞响应实战指南

企业级MCP Server OAuth授权接入的七层防御实践

企业级AI写作Agent部署全链路（从POC到规模化上线）：金融、电商、教育三大垂直领域实测数据首度公开

虚拟化与加密环境下勒索软件检测的IO模式识别与模型泛化实践

服务器被入侵后如何应急响应：安全运维实战指南

机器学习辅助砌体结构均质化：从虚拟实验室到高效损伤本构模型

物理信息机器学习在声场估计中的应用：原理、实践与前沿

相对噪声模型下梯度下降的收敛性分析与实践指南

Kerr相干态：从非线性量子光学到光子晶格模拟的实现路径

超新星遗迹光学辐射特征的主控因素：环境密度与磁场影响的统计诊断

量子机器学习安全威胁：NISQ时代的数据投毒攻击与防御挑战

3D层析SAR与AutoML融合：实现高精度森林树种自动识别

ML/MM混合方法在药物结合自由能计算中的基准评估与实战指南

战略分类：当机器学习遭遇策略性操纵与未知图结构

机器学习求解流体PDE：警惕弱基准与报告偏误导致的效率高估

机器学习赋能非结构网格CFD：GNN、PINN与降阶建模实战

结构可辨识性映射：提升小样本时间序列分类性能的机理驱动方法

小样本下机器学习模型性能稳定性评估：分位数与置信区间实战

基于神经进化势函数与差分进化算法解析γ-Al2O3缺陷结构

非结构化网格数据处理：从传统插值到GNN与PINNs的AI求解器演进

行列式点过程：从统计独立到负依赖的机器学习范式跃迁

Android HTTPS抓包失败根源：系统证书信任链详解

个性化机器学习评估：预测精度与解释质量为何会背离？