当前位置: 首页 > article >正文

用Python+Pandas搞定校园单车数据清洗:从‘200+’到精准分布表的保姆级教程

用PythonPandas搞定校园单车数据清洗从‘200’到精准分布表的保姆级教程校园单车数据清洗是数据分析实战中的经典场景。想象一下这样的情境你拿到一份包含15个停车点、7个时间段的校园单车统计表却发现数据里混杂着200这样的模糊记录、多处缺失值甚至还有不一致的时间格式。这正是我去年帮学弟处理课程设计时遇到的实际案例——当时我们用了3天手动整理而现在用PythonPandas只需30分钟就能搞定。本文将带你用代码解决以下典型问题处理200这类特殊字符串智能填充缺失值不是简单用0填充时间标准化与时段映射多维度数据透视分析生成专业级分布报表1. 环境准备与数据加载工欲善其事必先利其器。我们先配置好分析环境# 基础工具库 import pandas as pd import numpy as np from datetime import datetime # 可视化扩展非必需但推荐 import matplotlib.pyplot as plt plt.style.use(seaborn)假设原始数据存储在bike_data.csv中格式如下时间东门南门北门...备注7:304532200...早高峰时段8:5078-31...缺失值记为-12:008652102...午餐时间加载数据时需要注意几个关键参数raw_df pd.read_csv( bike_data.csv, na_values[-, NA], # 自定义缺失值标记 thousands,, # 处理千分位分隔符 parse_dates[时间], # 自动解析时间列 encodinggbk # 处理中文编码 )提示遇到编码问题时可先用chardet检测文件编码import chardetwith open(bike_data.csv, rb) as f:print(chardet.detect(f.read()))2. 特殊值处理实战技巧面对200这类数据常规的astype(float)会直接报错。我们需要更智能的处理方式2.1 正则表达式提取数值def clean_number(x): import re if isinstance(x, str): # 匹配数字部分含小数 num re.search(r(\d\.?\d*), x.replace(,, )) return float(num.group(1)) if num else np.nan return float(x) for col in raw_df.columns[1:-1]: # 排除时间和备注列 raw_df[col] raw_df[col].apply(clean_number)2.2 缺失值高级填充策略直接填充0会扭曲统计结果我们采用时空双重维度的智能填充# 按时间趋势填充 raw_df raw_df.interpolate(methodtime, limit_directionboth) # 按地点均值二次填充 location_means raw_df.iloc[:, 1:-1].mean() raw_df raw_df.fillna(location_means)处理前后对比示例处理阶段东门(7:30)北门(7:30)南门(8:50)原始数据45200-处理后45.0200.062.43. 时间维度深度处理原始时间数据往往存在格式不统一问题我们需要标准化为Pandas可识别的时间对象3.1 时间解析与标准化# 统一时间格式 def standardize_time(t): if isinstance(t, str): # 处理带中文的时间如上午7:30 t t.replace(上午, ).replace(下午, ) # 补全缺少分钟的情况如8 - 8:00 if : not in t: t :00 return pd.to_datetime(t, format%H:%M).time() raw_df[时间] raw_df[时间].apply(standardize_time)3.2 时段映射与分组将连续时间离散化为标准时段# 定义时段映射规则 time_bins [ (早高峰, 07:00, 09:00), (上午, 09:00, 12:00), (午间, 12:00, 14:00), (下午, 14:00, 18:00), (晚高峰, 18:00, 21:00), (夜间, 21:00, 23:00) ] # 创建时段标签列 def get_time_period(t): t_str t.strftime(%H:%M) for period, start, end in time_bins: if start t_str end: return period return 其他 raw_df[时段] pd.to_datetime(raw_df[时间].astype(str)).apply(get_time_period)4. 数据透视与可视化分析清洗后的数据可以生成多维度的分析视图4.1 创建时空分布表pivot_table pd.pivot_table( raw_df, index时段, columnsraw_df.columns[1:-2], # 所有地点列 aggfuncmean, fill_value0 ).round(1)4.2 热力图可视化plt.figure(figsize(12, 8)) sns.heatmap( pivot_table.T, # 转置矩阵 annotTrue, fmt.1f, cmapYlGnBu, linewidths.5 ) plt.title(校园单车时空分布热力图) plt.xticks(rotation45) plt.tight_layout()典型输出结果示例时段东门南门北门一食堂...校医院早高峰45.062.4200.012.3...8.1上午78.072.031.054.0...6.0午间86.052.0102.057.0...0.05. 高级技巧与异常处理在实际项目中你可能会遇到这些特殊情况5.1 处理极端值# 定义合理范围根据业务知识 valid_range {min: 0, max: 150} # 标记并修正异常值 for col in pivot_table.columns: pivot_table[col] pivot_table[col].clip( valid_range[min], valid_range[max] )5.2 数据一致性检查# 检查各时段总量是否合理 total_bikes pivot_table.sum(axis1) plt.plot(total_bikes.index, total_bikes.values, markero) plt.axhline(ytotal_bikes.mean(), colorr, linestyle--) plt.title(各时段单车总量波动检查)5.3 输出最终报表# 保存为Excel多页签文档 with pd.ExcelWriter(单车分布分析报告.xlsx) as writer: pivot_table.to_excel(writer, sheet_name时空分布) raw_df.describe().to_excel(writer, sheet_name数据统计) # 添加可视化图表 plt.savefig(writer, sheet_name热力图)记得在实际应用中根据具体数据特点调整参数。比如某高校的校医院点位夜间需求量突然增大就需要结合校园地图分析是否因急诊室值班制度导致。

相关文章:

用Python+Pandas搞定校园单车数据清洗:从‘200+’到精准分布表的保姆级教程

用PythonPandas搞定校园单车数据清洗:从‘200’到精准分布表的保姆级教程 校园单车数据清洗是数据分析实战中的经典场景。想象一下这样的情境:你拿到一份包含15个停车点、7个时间段的校园单车统计表,却发现数据里混杂着"200"这样的…...

Phi-4-mini-reasoning科研协作:Jupyter Notebook嵌入式推理插件

Phi-4-mini-reasoning科研协作:Jupyter Notebook嵌入式推理插件 1. 模型简介 Phi-4-mini-reasoning是一个基于合成数据构建的轻量级开源模型,专注于高质量、密集推理的数据处理能力。作为Phi-4模型家族的一员,它经过专门微调以提升数学推理…...

MySQL--Day02

约束 约束是作用于表中字段上的规则,用于限制存储在表中的数据 为了保证数据库中数据的正确性、有效性、完整性非空约束 NOT NULL唯一约束 UNIQUE主键约束 PRIMARY KEY默认约束 DEFAULT检查约束 CHECK CREATE TABLE user(id int primary key auto_increm…...

LoRA训练助手GPU显存优化:Qwen3-32B INT4量化后仅需9.2GB显存稳定运行

LoRA训练助手GPU显存优化:Qwen3-32B INT4量化后仅需9.2GB显存稳定运行 1. 引言:当大模型遇见显存焦虑 如果你尝试过在个人电脑上运行大语言模型,大概率会遇到一个令人头疼的问题:显存不足。特别是像Qwen3-32B这样拥有320亿参数的…...

Netty ChannelPipeline 线程安全机制的深度解析

Netty ChannelPipeline 线程安全机制的深度解析 摘要 ChannelPipeline 作为 Netty 事件处理管道的核心抽象,其线程安全性的实现是 Netty 高性能、高并发架构的关键基础。Netty 通过精心设计的机制确保了 ChannelPipeline 所有公共方法的线程安全,主要包括…...

VLM | 从视觉语言模型到自动驾驶决策的“慢思考”系统

1. 视觉语言模型(VLM)的本质与突破 当我们谈论自动驾驶时,大多数人首先想到的是激光雷达、摄像头和复杂的算法。但真正让机器"理解"复杂交通场景的,其实是背后那个能看懂图像、读懂文字、还能进行逻辑推理的"大脑&…...

YimMenu:GTA5游戏体验增强工具全攻略

YimMenu:GTA5游戏体验增强工具全攻略 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenu 核心痛点…...

韩国AI芯片企4亿融资,挑战英伟达?

3月31日消息,韩国AI芯片初创企业Rebellions完成4亿美元融资,总融资达8.5亿美元,估值约23.4亿美元,正筹备上市。还发布两款产品,欲挑战英伟达。巨额融资与上市筹备近日,Rebellions宣布完成4亿美元融资&#…...

TPCH dbgen数据生成工具在Linux环境下的配置与实战

1. 环境准备:从零搭建TPCH测试环境 第一次接触TPCH dbgen工具时,我花了整整两天时间才搞明白所有依赖关系。这个工具虽然功能强大,但官方文档确实不够友好。下面把我踩过的坑都总结出来,让你能快速上手。 系统要求方面&#xff0c…...

AirPods Pro 3 与 Bose QC Ultra Earbuds 2:无线耳机市场的激烈较量

AirPods Pro 3 与 Bose QC Ultra Earbuds 2:新功能大比拼最新款的 AirPods Pro 3 引入了一系列新功能,提升了音频效果,增强了降噪能力,还具备助听模式、实时翻译、自动切换、空间音频、心率监测等附加功能。而 Bose QuietComfort …...

农业遥感避坑指南:用大疆P4M多光谱数据生成NDVI,选智图还是Metashape?

农业遥感实战:大疆P4M多光谱数据NDVI生成工具选型指南 站在农田边缘,手持大疆精灵4多光谱版(P4M)遥控器的你,刚刚完成了一次作物长势监测飞行。无人机带回的宝贵数据,正等待转化为直观的NDVI图——这张&quo…...

17种智能体(Agent)架构全景解析:演进逻辑、工程价值与落地实践

17种智能体(Agent)架构按“单体→增强→工具→多智能体→操作系统级”的演进路径,分为5大类,核心逻辑是从简单到复杂、从基础到前沿,兼顾工程落地性和理论完整性。以下将对每一种架构模式进行详细拆解,结合…...

在ALV当中上传的excel形式的layout,没法删除怎么办?

明明点了上边的删除键(-)也保存了,下次进入还是存在。OAOR,上传的模板都在里面,点击删除即可...

星露谷物语SMAPI模组加载器:终极安装与使用完全指南

星露谷物语SMAPI模组加载器:终极安装与使用完全指南 【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 想要为《星露谷物语》安装模组来扩展游戏体验吗?SMAPI模组加载器是官方推…...

电商客服外包怎么选|避坑指南[特殊字符]2026 商家必看

做电商绕不开客服外包,但低价陷阱、转包兼职、大促掉链、响应超时、售后甩锅真的太坑了!今天整理一套不踩雷选型攻略,全是行业干货,新手也能直接抄作业👇 🚫先避坑:这些雷区千万别碰 超低价诱惑…...

零基础入门AI集成:在快马平台编写你的第一个豆包AI对话程序

零基础入门AI集成:在快马平台编写你的第一个豆包AI对话程序 作为一个刚接触AI开发的新手,第一次看到豆包开放平台的API文档时,我完全被各种参数和术语搞晕了。好在发现了InsCode(快马)平台,它让我不用从零开始写代码就能理解整个…...

利用快马平台AI快速构建游戏cc switch功能原型,十分钟实现创意验证

利用快马平台AI快速构建游戏cc switch功能原型 最近在开发一个小型游戏项目时,遇到了一个常见需求:需要快速测试和切换各种游戏功能。比如在调试阶段,可能需要临时开启无敌模式、无限弹药等功能。传统做法是为每个功能单独写调试代码&#x…...

健康管理APP的“专业度悖论“:当8亿用户遇上AI幻觉

——2026年数字医疗市场的信任构建与分化艾瑞咨询2026年数据显示,中国移动医疗用户规模突破8亿,市场规模达1.5万亿元。但另一组数据更值得玩味:用户人均单日使用时长8.1分钟,深夜10点至凌晨2点的咨询量占比23%,而整体付…...

S32K3项目中途想换调试器?手把手教你为已有工程添加Lauterbach调试接口

S32K3项目中途切换调试器:无缝迁移Lauterbach接口的工程实践 在嵌入式开发领域,调试工具的灵活切换往往意味着效率的飞跃。想象这样一个场景:你正在使用NXP S32K3系列MCU开发汽车电子控制单元,项目已进行到中期测试阶段&#xff0…...

从‘翻车’到稳定:手把手教你用Matlab极点配置驯服小车倒立摆(附Simulink模型)

用Matlab极点配置实现小车倒立摆的精准控制:从理论到Simulink实战 倒立摆系统作为控制理论中的经典案例,完美展现了动态系统稳定控制的挑战与魅力。想象一下,一根垂直向上的杆子放在移动小车上,任何微小的扰动都会导致杆子倾倒——…...

用Arduino Uno和纸板DIY一个超静音扫地机器人(附完整代码和接线图)

用Arduino Uno和纸板DIY一个超静音扫地机器人(附完整代码和接线图) 在宿舍或小公寓里,市售扫地机器人的马达噪音常常让人头疼。特别是对于学生和创客群体来说,既需要保持环境整洁,又不希望打扰到室友或邻居的休息。今天…...

Pixel Language Portal保姆级教程:Hunyuan-MT-7B模型蒸馏轻量化(TinyMT)与移动端适配路径

Pixel Language Portal保姆级教程:Hunyuan-MT-7B模型蒸馏轻量化(TinyMT)与移动端适配路径 1. 项目背景与核心价值 Pixel Language Portal(像素语言跨维传送门)是一款基于腾讯Hunyuan-MT-7B大模型构建的创新翻译工具。…...

煤矿智能化验收必备:针对睡岗、离岗识别的AI视觉解决方案

在煤矿智能化建设中,确保井下作业人员的安全与规范操作是重中之重。睡岗、离岗等违规行为不仅影响生产效率,更可能引发严重的安全事故。因此,在煤矿智能化验收环节,一套高效精准的针对睡岗、离岗识别的AI视觉解决方案不可或缺。一…...

LongCat-Video:136亿参数开源AI视频生成模型的技术突破与实践指南

LongCat-Video:136亿参数开源AI视频生成模型的技术突破与实践指南 【免费下载链接】LongCat-Video 项目地址: https://ai.gitcode.com/hf_mirrors/meituan-longcat/LongCat-Video 在人工智能视频生成领域,长视频生成一直是技术挑战的制高点。传统…...

零克云联合创始人占冰强:如何借助OpenClaw为企业AI变革提速!

3月28日,由MoltBank&聚鲸科技、AIGCLink联合主办的“赢在OpenClaw北京站”闭门分享会,在北京成功举行。本次活动聚焦AI Agent落地、AI商业场景落地、AI法律合规边界等关键议题。在演讲环节,零克云联合创始人兼COO占冰强分享了&#xff1a…...

告别玄学调参:手把手教你用STM32F103和MPU9250实现稳定的EKF姿态解算(附源码)

从理论到实战:STM32F103与MPU9250的EKF姿态解算调参全指南 在嵌入式姿态解算领域,扩展卡尔曼滤波(EKF)算法因其优异的噪声抑制能力而广受青睐。然而,许多开发者在STM32F103等资源受限平台上实现MPU9250的EKF姿态解算时…...

2025小红书跳转卡片技术揭秘:从逆向分析到服务器端自动化部署

1. 小红书跳转卡片技术现状解析 小红书跳转卡片功能原本是平台提供给商家的官方营销工具,但近期所有公开接口都已关闭。现在市面上能正常使用的方案,基本都是通过逆向工程实现的Hook技术方案。我花了两个月时间逆向分析了小红书安卓端7.8版本到8.5版本的…...

新手入门指南:在快马平台用万文通思路打造你的第一个文本转换网页

今天想和大家分享一个特别适合编程新手的实践项目——用万文通思路在InsCode(快马)平台快速搭建文本转换网页。这个项目完全不需要复杂的环境配置,打开浏览器就能完成,特别适合想体验完整开发流程的初学者。 项目核心功能设计 这个网页的核心功能非常简单…...

MaxKB:企业级AI知识库部署实战指南

MaxKB:企业级AI知识库部署实战指南 【免费下载链接】MaxKB 🔥 MaxKB is an open-source platform for building enterprise-grade agents. 强大易用的开源企业级智能体平台。 项目地址: https://gitcode.com/GitHub_Trending/ma/MaxKB 面对企业AI…...

AI 模型推理 GPU 调度性能分析

AI模型推理GPU调度性能分析:解锁算力潜能的关键 随着AI技术的快速发展,深度学习模型的推理任务对计算资源的需求急剧增加。GPU因其并行计算能力成为模型推理的核心硬件,但如何高效调度GPU资源以提升性能,成为企业和研究机构关注的…...