数据处理与可视化:pandas 和 matplotlib 初体验(9/10)
数据处理与可视化:pandas 和 matplotlib 初体验(9/10)
介绍
在如今的数据驱动时代,掌握数据处理与可视化是每个开发者和数据科学家不可或缺的技能。Python 拥有强大的数据处理库 pandas
和数据可视化库 matplotlib
,它们可以帮助我们轻松地处理复杂的数据,并以直观的方式展示结果。在本篇文章中,我们将深入学习如何使用 pandas
和 matplotlib
进行数据处理和可视化,从而更好地理解和分析数据。
pandas 库简介
pandas
是一个用于数据处理和分析的强大库,提供了数据结构 Series
和 DataFrame
,它们可以用来处理各种表格数据和时间序列数据。
创建 Series 和 DataFrame
-
Series 是一维的、带有索引的数组。
-
DataFrame 是二维的、类似于电子表格的结构,包含行和列。
import pandas as pd# 创建一个 Series
data = [10, 20, 30, 40, 50]
series = pd.Series(data, index=["a", "b", "c", "d", "e"])
print("Series:\n", series)# 创建一个 DataFrame
data = {"姓名": ["Alice", "Bob", "Charlie"],"年龄": [25, 30, 35],"成绩": [88, 92, 79]
}
df = pd.DataFrame(data)
print("DataFrame:\n", df)
输出:
Series:
a 10
b 20
c 30
d 40
e 50
dtype: int64DataFrame:姓名 年龄 成绩
0 Alice 25 88
1 Bob 30 92
2 Charlie 35 79
读取和写入数据
pandas
可以读取和写入多种文件格式,例如 CSV、Excel、SQL 数据库等。
读取 CSV 文件
df = pd.read_csv("data.csv")
print("CSV 文件内容:\n", df)
写入 CSV 文件
df.to_csv("output.csv", index=False)
方法 | 描述 | 示例 |
---|---|---|
pd.read_csv() | 读取 CSV 文件 | df = pd.read_csv("data.csv") |
df.to_csv() | 将 DataFrame 写入 CSV 文件 | df.to_csv("output.csv") |
pd.read_excel() | 读取 Excel 文件 | df = pd.read_excel("data.xlsx") |
df.to_excel() | 将 DataFrame 写入 Excel 文件 | df.to_excel("output.xlsx") |
数据处理与分析
数据处理是数据分析的关键步骤,pandas
提供了丰富的操作来处理数据,例如筛选、排序、分组等。
数据筛选与过滤
我们可以根据特定的条件筛选 DataFrame 中的行。
# 创建一个 DataFrame
data = {"姓名": ["Alice", "Bob", "Charlie", "David", "Eva"],"年龄": [25, 22, 23, 24, 21],"成绩": [85, 78, 92, 88, 76]
}
df = pd.DataFrame(data)# 筛选成绩大于 80 的行
filtered_df = df[df["成绩"] > 80]
print("成绩大于 80 的学生:\n", filtered_df)
输出:
成绩大于 80 的学生:姓名 年龄 成绩
0 Alice 25 85
2 Charlie 23 92
3 David 24 88
数据分组与聚合
通过 groupby()
方法,我们可以对数据进行分组并进行聚合操作,例如计算平均值、最大值等。
# 按年龄进行分组,计算每个年龄的平均成绩
grouped = df.groupby("年龄")["成绩"].mean()
print("按年龄分组后的平均成绩:\n", grouped)
数据清洗
数据清洗是确保数据质量的关键步骤,例如处理缺失值、去除重复行等。
# 处理缺失值
# 创建带有缺失值的 DataFrame
data = {"姓名": ["Alice", "Bob", "Charlie", None],"年龄": [25, None, 35, 28],"成绩": [88, 92, None, 85]
}
df = pd.DataFrame(data)# 填充缺失值
filled_df = df.fillna({"姓名": "未知", "年龄": df["年龄"].mean(), "成绩": 0})
print("填充缺失值后的 DataFrame:\n", filled_df)
输出:
填充缺失值后的 DataFrame:姓名 年龄 成绩
0 Alice 25.000000 88.0
1 Bob 29.333333 92.0
2 Charlie 35.000000 0.0
3 未知 28.000000 85.0
数据操作 | 描述 | 示例 |
数据筛选 | 根据条件筛选行 | df[df["成绩"] > 80] |
数据分组与聚合 | 按某列分组并计算统计量 | df.groupby("年龄")["成绩"].mean() |
缺失值处理 | 填充或去除缺失值 | df.fillna(value) |
数据可视化入门:matplotlib
matplotlib
是 Python 最流行的数据可视化库之一,它允许我们绘制折线图、柱状图、散点图等,以直观地展示数据分析的结果。
绘制折线图
折线图通常用于展示数据的变化趋势。
import matplotlib.pyplot as plt# 数据
months = ["一月", "二月", "三月", "四月", "五月"]
sales = [3000, 3200, 3500, 4000, 4200]# 绘制折线图
plt.plot(months, sales, marker="o")
plt.xlabel("月份")
plt.ylabel("销售额 (元)")
plt.title("月销售额趋势")
plt.grid()
plt.show()
绘制柱状图
柱状图用于比较不同类别的数据。
# 数据
names = ["Alice", "Bob", "Charlie", "David", "Eva"]
scores = [85, 78, 92, 88, 76]# 绘制柱状图
plt.bar(names, scores, color="skyblue")
plt.xlabel("姓名")
plt.ylabel("成绩")
plt.title("学生成绩对比图")
plt.show()
绘制散点图
散点图用于展示两组数据之间的关系。
# 数据
age = [22, 25, 30, 35, 40, 45, 50]
salary = [2500, 2700, 3000, 3400, 3700, 4000, 4300]# 绘制散点图
plt.scatter(age, salary, color="green")
plt.xlabel("年龄")
plt.ylabel("工资 (元)")
plt.title("年龄与工资的关系")
plt.show()
图表类型 | 描述 | 示例 |
折线图 | 展示数据的变化趋势 | plt.plot() |
柱状图 | 比较不同类别的数据 | plt.bar() |
散点图 | 展示两组数据之间的关系 | plt.scatter() |
综合示例:学生成绩分析与可视化
在这个综合示例中,我们将结合 pandas
和 matplotlib
,对学生成绩进行分析并将结果进行可视化展示。
示例:分析并可视化学生成绩
-
创建一个包含学生姓名、年龄和成绩的数据表。
-
计算平均成绩并筛选成绩高于平均值的学生。
-
使用柱状图可视化每位学生的成绩。
import pandas as pd
import matplotlib.pyplot as plt# 创建 DataFrame
data = {"姓名": ["Alice", "Bob", "Charlie", "David", "Eva"],"年龄": [25, 22, 23, 24, 21],"成绩": [85, 78, 92, 88, 76]
}
df = pd.DataFrame(data)# 计算平均成绩
average_score = df["成绩"].mean()
print(f"平均成绩: {average_score:.2f}")# 筛选成绩高于平均值的学生
above_average_df = df[df["成绩"] > average_score]
print("成绩高于平均值的学生:\n", above_average_df)# 可视化学生成绩
plt.bar(df["姓名"], df["成绩"], color="orange")
plt.xlabel("姓名")
plt.ylabel("成绩")
plt.title("学生成绩柱状图")
plt.axhline(y=average_score, color='r', linestyle='--', label=f"平均成绩: {average_score:.2f}")
plt.legend()
plt.show()
输出:
平均成绩: 83.80
成绩高于平均值的学生:姓名 年龄 成绩
0 Alice 25 85
2 Charlie 23 92
3 David 24 88
此图展示了每位学生的成绩,红色虚线表示平均成绩,可以直观地看到哪些学生的成绩高于平均值。
总结
在本篇文章中,我们学习了如何使用 pandas
进行数据处理和分析,包括数据的读取、清洗、筛选和分组等操作。随后,我们学习了如何使用 matplotlib
进行数据可视化,绘制了折线图、柱状图和散点图。最后,通过一个综合示例,我们结合 pandas
和 matplotlib
对学生成绩进行了分析与可视化展示。通过掌握这些工具和技巧,你将能够更好地处理数据并从中提取有用的信息。
在下一篇文章中,我们将完成一个综合的小项目,把之前学习的所有知识整合在一起,进一步加深对 Python 编程的理解。敬请期待!
相关文章:

数据处理与可视化:pandas 和 matplotlib 初体验(9/10)
数据处理与可视化:pandas 和 matplotlib 初体验(9/10) 介绍 在如今的数据驱动时代,掌握数据处理与可视化是每个开发者和数据科学家不可或缺的技能。Python 拥有强大的数据处理库 pandas 和数据可视化库 matplotlib,它…...

鸿蒙学习总结
鸿蒙(HarmonyOS),做为国产自主研发设计的第一个操作系统,从开放测试以来一直备受关注。其纯血鸿蒙版(HarmonyOS NEXT)也于进日发布。过去的一段时间里,我站在一个移动开发者的角度对HarmonyOS进…...

如何修改文件创建时间?六个超简单修改方法介绍
怎么修改文件创建时间?在信息安全与隐私保护的领域里,每一个细节都可能成为泄露敏感信息的突破口。文件的创建时间,这个看似微不足道的数据点,实则可能蕴含着重要的时间线索,对于不希望被外界窥探其内容或来源的个人及…...

【MySQL 保姆级教学】内置函数(9)
内置函数 1. 日期函数1.1 日期函数的种类1.2 示例1.3 日期的转换 2. 字符串函数2.1 种类2.2 示例 3. 数学函数3.1 种类3.2 向上取整和向下取整3.3 示例 4. 其他函数4.1 查询当前用户/数据库4.2 ifnull(val1,val2)4.3 md5()函数4.4 password()函数 1. 日期函数 1.1 日期函数的种…...

华为大咖说丨如何通过反馈机制来不断优化大模型应用?
本文分享自时习知 作者:袁泉(华为AI数据工程专家)全文约3015字,阅读约需8分钟 大模型应用正式投入使用后,存在一个较为普遍的情况:在利用“大模型提升业务运营效率”的过程中,业务部门和IT团队…...

上海亚商投顾:沪指缩量震荡 风电、传媒股集体走强
上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 一.市场情绪 市场全天缩量震荡,三大指数集体收涨,北证50则跌超7%,超80只北交所个股跌逾…...

三磺酸-Cy3.5-羧酸在水相环境中表现良好,能够提高成像的清晰度和准确性
一、基本信息 中文名称:三磺酸-Cy3.5-羧酸,水溶性Cy3.5 羧基 英文名称:trisulfo-Cy3.5-carboxylic acid,trisulfo-Cy3.5-COOH,trisulfo-Cyanine3.5-COOH 分子式:C41H44N2NaO11S3- 分子量:85…...

国标GB28181视频平台EasyGBS国标GB28181软件实现无需插件的视频监控对讲和网页直播
在当今社会,视频监控已经成为公共安全、企业管理、智能城市建设等领域不可或缺的一部分。然而,由于不同厂家和平台之间的兼容性问题,视频监控系统的联网和整合面临巨大挑战。为了解决这个问题,国家制定了《公共安全视频监控联网系…...

mac nwjs程序签名公证(其他mac程序也一样适用)
为什么需要公证 mac os14.5之后的系统,如果不对应用进行公证,安装,打开,权限使用上都会存在问题,而且有些问题你强制开启(sudo spctl --master-disable)使用后可能会有另外的问题, …...

网络应用技术 实验一:路由器实现不同网络间通信(华为ensp)
目录 一、实验简介 二、实验目的 三、实验需求 四、实验拓扑 五、实验任务及要求 1、任务 1:完成网络部署 2、任务 2:设计全网IP 地址 3、任务 3:实现全网主机互通 六、实验步骤 1、在ensp中部署网络 2、配置各主机 IP地址、子网掩…...

使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南
使用 Qt GRPC 构建高效的 Trojan-Go 客户端:详细指南 初识 Qt 和 gRPC 什么是 Qt?什么是 gRPC? 项目结构概述创建 proto 文件定义 API 下载 api.proto 文件解析 proto 文件 1. package 与 option 语句2. 消息类型定义 TrafficSpeedUserUserSt…...

【mysql进阶】5-事务和锁
mysql 事务基础 1 什么是事务 事务是把⼀组SQL语句打包成为⼀个整体,在这组SQL的执⾏过程中,要么全部成功,要么全部失败,这组SQL语句可以是⼀条也可以是多条。再来看⼀下转账的例⼦,如图: 在这个例⼦中&a…...

指增和中性产品的申赎加减仓及资金调拨自动化伪代码思路
定义一些关键字代表的意义 STRUCT: 代表需要输入的格式化的信息IMPORT: 代表需要输入的外部信息, 这些信息通常是客观的SEARCH: 需要从某地比如数据库检索搜集信息SUM: 一种宏观的加和操作, 比如两个股票户ABAB,微观上实际还是有差异GROUP: …...

【论文分享】居住开放空间如何影响老年人的情感:使用可穿戴传感器的现场实验
本研究首次通过跟踪实时、高分辨率的环境暴露和情绪反应来研究和比较不同质量住宅社区中的居住开放空间(ROS)与老年人情绪之间关联;并采用混合方法,包括可穿戴传感器和问卷调查,收集了中国广州老年居民的客观和主观住宅…...

入门 | Prometheus+Grafana 普罗米修斯
#1024程序员节|征文# 一、prometheus介绍 1、监控系统组成 一个完整的监控系统需要包括如下功能:数据产生、数据采集、数据存储、数据处理、数据展示、分析、告警等。 (1)、数据来源 数据来源,也就是需要监控的数据…...
制作Ubuntu根文件系统
制作Ubuntu根文件系统: gunzip ubuntu-base-22.04.5-base-arm64.tar.gz mkdir ubuntu tar xvpf ubuntu-base-22.04.5-base-arm64.tar -C ubuntu 挂载目录、复制dns、执行chroot cd /userdisk/ubuntu cp /etc/resolv.conf ./etc/resolv.conf mount --bind /dev ./d…...

16个最佳测试管理工具(2024)
1、前言 测试管理解决方案能够帮助你捕捉测试需求、设计测试用例、生成测试执行报告、管理资源等。软件质量的疏忽可能导致公司遭受巨大的经济损失、声誉损害或面临诉讼风险。一个优秀的测试管理工具是防止缺陷和故障进入生产环节的关键。 2、PractiTest 功能特点&#x…...

基于知识图谱的猕猴桃种植技术问答系统
猕猴桃怎么种植更高效、病虫害怎么防治、最适宜的气候条件有哪些?作为一名科技研发迷,这些问题是不是听起来很有挑战性?咱们今天就来聊聊一个特别的研发项目——基于知识图谱的猕猴桃种植技术问答系统。这不仅仅是一个农业项目,它…...

Swift雨燕蜂窝无线通信系统介绍
本文博客链接:jdh99-CSDN博客,作者:jdh,转载请注明. 1. 概述 物联网小无线通信技术众多,其中大多是小范围小规模的无线通信技术,而行业难点是如何做到广覆盖、大容量、低功耗。 针对以上难点,宏讯物联研发了Swift雨燕蜂窝无线通信技术&…...

【ZZULI】数据库第二次实验
【ZZULI】数据库第二次实验 创建学生信息管理系统的数据库通过T-SQL语句创建学生表、课程表、选课表创建学生表创建课程表创建选课表 修改表结构。为SC表添加写的列,列名为备注修改备注列的数据长度。删除SC表的备注列。 通过T-SQL语句对表的列添加约束,…...
OpenLayers 可视化之热力图
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 热力图(Heatmap)又叫热点图,是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...
FFmpeg 低延迟同屏方案
引言 在实时互动需求激增的当下,无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作,还是游戏直播的画面实时传输,低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架,凭借其灵活的编解码、数据…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信
文章目录 Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket(服务端和客户端都要)2. 绑定本地地址和端口&#x…...

springboot整合VUE之在线教育管理系统简介
可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生,小白用户,想学习知识的 有点基础,想要通过项…...

使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
Java求职者面试指南:计算机基础与源码原理深度解析
Java求职者面试指南:计算机基础与源码原理深度解析 第一轮提问:基础概念问题 1. 请解释什么是进程和线程的区别? 面试官:进程是程序的一次执行过程,是系统进行资源分配和调度的基本单位;而线程是进程中的…...

STM32HAL库USART源代码解析及应用
STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

Unity中的transform.up
2025年6月8日,周日下午 在Unity中,transform.up是Transform组件的一个属性,表示游戏对象在世界空间中的“上”方向(Y轴正方向),且会随对象旋转动态变化。以下是关键点解析: 基本定义 transfor…...