数据处理专题(四)
目标
使用 Matplotlib 进行基本的数据可视化。
学习内容
绘制折线图
绘制散点图
绘制柱状图
代码示例
1. 导入必要的库
import matplotlib.pyplot as pltimport numpy as npimport pandas as pd
2. 创建示例数据集
# 创建示例数据集data = {'月份': ['1月', '2月', '3月', '4月', '5月', '6月'],'销售额': [120, 150, 130, 160, 140, 170],'成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")
3. 绘制折线图
绘制单条折线图
# 绘制单条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额折线图')plt.legend()plt.grid(True)plt.show()

绘制多条折线图
# 绘制多条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

4. 绘制散点图
绘制单个散点图
# 绘制单个散点图plt.scatter(df['销售额'], df['成本'], color='g', label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

绘制带颜色和大小变化的散点图
# 绘制带颜色和大小变化的散点图sizes = df['销售额'] / 10 # 散点大小colors = np.random.rand(len(df)) # 随机颜色plt.scatter(df['销售额'], df['成本'], s=sizes, c=colors, alpha=0.5, label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

5. 绘制柱状图
绘制单个柱状图
# 绘制单个柱状图plt.bar(df['月份'], df['销售额'], color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额柱状图')plt.legend()plt.grid(True)plt.show()

绘制堆叠柱状图
# 绘制堆叠柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本堆叠柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

绘制并排柱状图
# 绘制并排柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

实践

绘制一个数据集的折线图和柱状图。
# 导入必要的库import matplotlib.pyplot as pltimport pandas as pd# 创建示例数据集data = {'月份': ['1月', '2月', '3月', '4月', '5月', '6月'],'销售额': [120, 150, 130, 160, 140, 170],'成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 绘制折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

# 绘制柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

通过以上,你应该已经掌握了如何使用 Matplotlib 进行基本的数据可视化,包括绘制折线图、散点图和柱状图
数据聚合和分组
目标
学会使用 Pandas 进行数据聚合和分组。
学习内容
groupby 方法
聚合函数(sum, mean, max, min)
代码示例
1. 导入 Pandas 库
import pandas as pd
2. 创建示例数据集
# 创建示例数据集data = {'姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],'部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],'销售额': [120, 150, 130, 160, 140, 170],'成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")
3. 使用 groupby 方法
按单一列分组
# 按 '部门' 列分组grouped_by_department = df.groupby('部门')print(f"按 '部门' 列分组的结果: \n{grouped_by_department}")
获取分组后的对象
# 获取分组后的对象for department, group in grouped_by_department:print(f"部门: {department}")print(f"数据: \n{group}\n")
4. 聚合函数
计算每组的均值
# 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后,每组的销售额均值: \n{mean_sales_by_department}")
计算每组的总和
# 计算每组的总和sum_sales_by_department = grouped_by_department['销售额'].sum()print(f"按 '部门' 列分组后,每组的销售额总和: \n{sum_sales_by_department}")
计算每组的最大值
# 计算每组的最大值max_sales_by_department = grouped_by_department['销售额'].max()print(f"按 '部门' 列分组后,每组的销售额最大值: \n{max_sales_by_department}")
计算每组的最小值
# 计算每组的最小值min_sales_by_department = grouped_by_department['销售额'].min()print(f"按 '部门' 列分组后,每组的销售额最小值: \n{min_sales_by_department}")
5. 多列聚合
计算多列的均值
# 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后,每组的销售额和成本均值: \n{mean_by_department}")
计算多列的总和
# 计算多列的总和sum_by_department = grouped_by_department[['销售额', '成本']].sum()print(f"按 '部门' 列分组后,每组的销售额和成本总和: \n{sum_by_department}")
6. 多级分组
按多列分组
# 按 '部门' 和 '姓名' 列分组grouped_by_department_name = df.groupby(['部门', '姓名'])mean_sales_by_department_name = grouped_by_department_name['销售额'].mean()print(f"按 '部门' 和 '姓名' 列分组后,每组的销售额均值: \n{mean_sales_by_department_name}")
实践
对一个数据集按某一列进行分组,并计算每组的均值。
# 导入 Pandas 库import pandas as pd# 创建示例数据集data = {'姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],'部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],'销售额': [120, 150, 130, 160, 140, 170],'成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 按 '部门' 列分组grouped_by_department = df.groupby('部门')# 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后,每组的销售额均值: \n{mean_sales_by_department}")# 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后,每组的销售额和成本均值: \n{mean_by_department}")
相关文章:
数据处理专题(四)
目标 使用 Matplotlib 进行基本的数据可视化。 学习内容 绘制折线图 绘制散点图 绘制柱状图 代码示例 1. 导入必要的库 import matplotlib.pyplot as pltimport numpy as npimport pandas as pd 2. 创建示例数据集 # 创建示例数据集data { 月份: [1月, 2月, 3…...
【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解
【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解 文章目录 【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解前言YOLOV1的模型结构YOLOV1模型的基本执行流程YOLOV1模型的网络参数YOLOV1模型的训练方式 YOLOV1的核心思想前向传播阶段网格单元(grid cell)…...
云钥科技多通道工业相机解决方案设计
项目应用场景分析与需求挑战 1. 应用场景 目标领域:工业自动化检测(如精密零件尺寸测量、表面缺陷检测)、3D立体视觉(如物体建模、位姿识别)、动态运动追踪(如高速生产线监控)等。 核心…...
从零到一:ESP32与豆包大模型的RTC连续对话实现指南
一、对话效果演示 ESP32与豆包大模型的RTC连续对话 二、ESP-ADF 介绍 乐鑫 ESP-ADF(Espressif Audio Development Framework)是乐鑫科技(Espressif Systems)专为 ESP32 系列芯片开发的一款音频开发框架。它旨在简化基于 ESP32 芯…...
【深度学习与实战】2.3、线性回归模型与梯度下降法先导案例--最小二乘法(向量形式求解)
为了求解损失函数 对 的导数,并利用最小二乘法向量形式求解 的值 这是线性回归的平方误差损失函数,目标是最小化预测值 与真实值 之间的差距。 损失函数: 考虑多个样本的情况,损失函数为所有样本的平方误差之和&a…...
【Django】教程-2-前端-目录结构介绍
【Django】教程-1-安装创建项目目录结构介绍 3. 前端文件配置 3.1 目录介绍 在app下创建static文件夹, 是根据setting中的配置来的 STATIC_URL ‘static/’ templates目录,编写HTML模板(含有模板语法,继承,{% static ‘xx’ …...
JS判断对象是否为空的方法
在 JavaScript 中,判断一个对象是否为空对象(即没有自身可枚举属性),可以通过以下方法实现: 方法 1:使用 Object.keys() javascript function isEmptyObject(obj) {// 确保是普通对象(排除 n…...
详解list容器
1.list的介绍 list的底层结构是双向带头循环链表,允许随机的插入和删除,但其内存空间不是连续的。随机访问空间能力差,需要从头到尾遍历节点,不像vector一样高效支持 2.list的使用 构造函数 1.默认构造函数:创建一个…...
leetcode_977. 有序数组的平方_java
977. 有序数组的平方https://leetcode.cn/problems/squares-of-a-sorted-array/ 1.题目 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 示例 1: 输入:nums [-4,-1…...
Spring Boot 3.4.3 基于 SpringDoc 2 和 Swagger 3 实现项目接口文档管理
在现代企业级应用开发中,前后端分离已成为主流模式,前端负责界面呈现,后端专注提供 RESTful API 接口。然而,接口文档的编写和维护往往是开发过程中的痛点。Spring Boot 3.4.3 结合 SpringDoc 2 和 Swagger 3,为开发者…...
前端面经分享(25/03/26)
北京一家做AI解决方案的公司,技术一面,15k-20k,要求3-5年 你们React项目里路由模式用的什么React里class组件和function组件都用过吗常用Hook,解释一下他们的作用useEffect第二个参数填空数组和不填有什么区别React组件通信的常用…...
Matlab基础知识与常见操作【无痛入门】
【1】Matlab基本概念 【2】Matlab程序设计 【3】Matlab图形绘制 以上三篇文章为Matlab主要的应用场景,我在学习的过程中做一下记录,方便以后回顾。 接下来介绍下Matlab的工作界面,以及如何高效率的应用Matlab的帮助手册。在我看来&#x…...
HTTP协议手写服务器
目录 一、请求的是Web根目录 二、GET方法通过URL传参 三、根据资源类型对应出Content-Type值 四、Http代码 项目完整源代码:Http 周不才/cpp_linux study - 码云 - 开源中国 一、请求的是Web根目录 如果URL中请求的资源是Web根目录,则自动跳转到主…...
网络探索之旅:网络原理(第二弹)
上篇文章,小编分享了应用层和传输层深入的一点的知识,那么接下来,这篇文章,继续分享网络层和数据链路层。 网络层 了解这个网络层,那么其实就是重点来了解下IP这个协议 对于这个协议呢,其实也是和前面的…...
深入剖析 JVM:从组成原理到调优实践
深入剖析 JVM:从组成原理到调优实践 深入剖析 JVM:从组成原理到调优实践一、JVM 组成架构:运行 Java 程序的 “幕后引擎”1.1 内存结构:数据存储的 “分区管理”1.2 执行引擎:字节码的 “翻译官”1.3 本地方法接口&…...
阿里云下一代可观测时序引擎-MetricStore 2.0
作者:徐昊(博澍) 背景 作为可观测场景使用频度最高的数据类型,Metrics 时序数据在可观测领域一直占有着重要地位,无论是从全局视角来观测系统整体状态,还是从大范围数据中定位某一个异常的位置࿰…...
从入门到精通【 MySQL】 数据库约束与设计
文章目录 📕1. 数据库约束✏️1.1 NOT NULL 非空约束✏️1.2 DEFAULT 默认值约束✏️1.3 UNIQUE 唯一约束✏️1.4 PRIMARY KEY 主键约束✏️1.5 FOREIGN KEY 外键约束✏️1.6 CHECK 约束 📕2. 数据库设计✏️2.1 第一范式✏️2.2 第二范式✏️2.3 第三范…...
使用LLaMAFactory微调Qwen大模型
一、环境配置与工具安装 1. 硬件要求 GPU:至少1块NVIDIA GPU(推荐RTX 4090/A100/H100,显存≥16GB)。内存:≥64GB系统内存。存储:≥100GB硬盘空间用于模型与数据集存储。2. 软件依赖 Python 3.8+:需安装CUDA支持的PyTorch版本(如torch==2.0.1+cu117)。 依赖库:通过以…...
Dubbo 通信流程 - 服务的调用
Dubbo 客户端的使用 在 Dubbo 应用中,往类成员注解 DubboReference,服务启动后便可以调用到远端: Component public class InvokeDemoFacade {AutowiredDubboReferenceprivate DemoFacade demoFacade;public String hello(String name){// …...
【数据结构】哈夫曼树
哈夫曼树 在学习哈夫曼树之前,先了解以下几个概念: 一:**路径长度:**在一棵树中,从一个节点到另一个节点所经过的“边”的数量,被我们称为两个节点之间的路径长度。 二:**树的路径长度…...
HCIP(TCP)(2)
1. TCP三次握手 SYN (同步序列编号) 报文: 客户端发送 SYN 报文,开始建立连接,并初始化序列号。 SYN-ACK (同步序列编号-确认) 报文: 服务器收到 SYN 报文后,回复 SYN-ACK 报文,确认连接请求,并初始化自己的序列号和确…...
VMware Ubuntu 网络配置全攻略:从断网到畅通无阻
一、网络连接模式选择(先搞懂原理) VMware提供三种网络模式,就像手机的不同网络套餐: 模式适用场景特点类比NAT个人上网/新手首选虚拟机共享主机IP,能上网但隐身家用WiFi桥接服务器/需要被局域网访问虚拟机会获得独立…...
基于Web的交互式智能成绩管理系统设计
目录 摘要 绪论 一、应用背景 二、行业发展现状 三、程序开发的重要意义 四、结语 1 代码 2 数据初始化模块 3 界面布局模块 4 核心功能模块 5 可视化子系统 6 扩展功能模块 7 架构设计亮点 功能总结 一、核心数据管理 二、智能分析体系 三、可视化系统 四、扩…...
第 12 章(番外)| Solidity 安全前沿趋势 × 审计生态 × 职业路径规划
🌐 第 12 章(番外)| Solidity 安全前沿趋势 审计生态 职业路径规划 ——做得了审计,也接得了项目,走进 Web3 安全工程师的职业实战地图 ✅ 本章导读 Solidity 安全,不只是代码安全、业务安全、审计安全…...
输出3行3列矩阵的鞍点
【问题描述】在矩阵中,一个数在所在行中是最大值,在所在列中是最小值,则被称为鞍点。任意输入一个3行3列矩阵,请设计程序输出其鞍点。 【输入形式】每行3个数,输入3列 【输出形式】输出所有鞍点;如果没有…...
k8s日志管理
k8s日志管理 k8s查看日志查看集群中不是完全运行状态的pod查看deployment日志查看service日志进入pod的容器内查看日志 管理k8s组件日志kubectl logs查看日志原理 管理k8s应用日志收集k8s日志思路收集标准输出收集容器中日志文件 k8s查看节点状态失败k8s部署prometheus监控 k8s…...
【数据结构】顺序表-元素去重
数据元素 结点定义,复杂数据类型,可用作整体性的管理系统。如果单独研究某些数据,比如只看学号或成绩,那么直接使用int之类的简单数据类型亦可。对应修改:typedef int Elemtype; typedef struct student{ //定义学生…...
物理安全——问答
目录 1、计算机的物理安全包含哪些内容 1. 设备保护 2. 访问控制 3. 电力与环境安全 4. 数据存储保护 5. 硬件防护 6. 监控与审计 7. 灾难恢复与应急响应 8. 拆卸与维修安全 2、物理安全有哪些需要关注的问题 1、计算机的物理安全包含哪些内容 1. 设备保护 防止盗窃&…...
element-plus中,Loading 加载组件的使用
一.基本使用 给一个组件,如:table表格,加上v-loading"true"即可。 举例:复制如下代码。 <template><el-table v-loading"loading" :data"tableData" style"width: 100%"><…...
Mybatis_Plus中的常用注解
目录 1、TableName TableId TableId的type属性 TableField 1、TableName 经过以上的测试,在使用MyBatis-Plus实现基本的CRUD时,我们并没有指定要操作的表,只是在 Mapper接口继承BaseMapper时,设置了泛型User,而操…...
