当前位置：首页 > article >正文

数据处理专题（四）

article 2026/2/16 9:46:42

目标

使用 Matplotlib 进行基本的数据可视化。‍

学习内容

绘制折线图

绘制散点图

绘制柱状图‍

代码示例

1. 导入必要的库

import matplotlib.pyplot as pltimport numpy as npimport pandas as pd

2. 创建示例数据集

# 创建示例数据集data = {    '月份': ['1月', '2月', '3月', '4月', '5月', '6月'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")

3. 绘制折线图

绘制单条折线图

# 绘制单条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额折线图')plt.legend()plt.grid(True)plt.show()

绘制多条折线图

# 绘制多条折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

4. 绘制散点图

绘制单个散点图

# 绘制单个散点图plt.scatter(df['销售额'], df['成本'], color='g', label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

绘制带颜色和大小变化的散点图

# 绘制带颜色和大小变化的散点图sizes = df['销售额'] / 10  # 散点大小colors = np.random.rand(len(df))  # 随机颜色plt.scatter(df['销售额'], df['成本'], s=sizes, c=colors, alpha=0.5, label='销售额 vs 成本')plt.xlabel('销售额 (万元)')plt.ylabel('成本 (万元)')plt.title('销售额与成本散点图')plt.legend()plt.grid(True)plt.show()

5. 绘制柱状图

绘制单个柱状图

# 绘制单个柱状图plt.bar(df['月份'], df['销售额'], color='b', label='销售额')plt.xlabel('月份')plt.ylabel('销售额 (万元)')plt.title('每月销售额柱状图')plt.legend()plt.grid(True)plt.show()

绘制堆叠柱状图

# 绘制堆叠柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本堆叠柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

绘制并排柱状图

# 绘制并排柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

实践

绘制一个数据集的折线图和柱状图。

# 导入必要的库import matplotlib.pyplot as pltimport pandas as pd# 创建示例数据集data = {    '月份': ['1月', '2月', '3月', '4月', '5月', '6月'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 绘制折线图plt.plot(df['月份'], df['销售额'], marker='o', linestyle='-', color='b', label='销售额')plt.plot(df['月份'], df['成本'], marker='s', linestyle='--', color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本折线图')plt.legend()plt.grid(True)plt.show()

# 绘制柱状图bar_width = 0.35index = np.arange(len(df['月份']))plt.bar(index, df['销售额'], bar_width, color='b', label='销售额')plt.bar(index + bar_width, df['成本'], bar_width, color='r', label='成本')plt.xlabel('月份')plt.ylabel('金额 (万元)')plt.title('每月销售额与成本并排柱状图')plt.xticks(index + bar_width / 2, df['月份'])plt.legend()plt.grid(True)plt.show()

通过以上，你应该已经掌握了如何使用 Matplotlib 进行基本的数据可视化，包括绘制折线图、散点图和柱状图

数据聚合和分组

目标

学会使用 Pandas 进行数据聚合和分组。‍

学习内容

groupby 方法

聚合函数（sum, mean, max, min）‍

代码示例

1. 导入 Pandas 库

import pandas as pd

2. 创建示例数据集

# 创建示例数据集data = {    '姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],    '部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")

3. 使用 groupby 方法

按单一列分组

# 按 '部门' 列分组grouped_by_department = df.groupby('部门')print(f"按 '部门' 列分组的结果: \n{grouped_by_department}")

获取分组后的对象

# 获取分组后的对象for department, group in grouped_by_department:    print(f"部门: {department}")    print(f"数据: \n{group}\n")

4. 聚合函数

计算每组的均值

# 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后，每组的销售额均值: \n{mean_sales_by_department}")

计算每组的总和

# 计算每组的总和sum_sales_by_department = grouped_by_department['销售额'].sum()print(f"按 '部门' 列分组后，每组的销售额总和: \n{sum_sales_by_department}")

计算每组的最大值

# 计算每组的最大值max_sales_by_department = grouped_by_department['销售额'].max()print(f"按 '部门' 列分组后，每组的销售额最大值: \n{max_sales_by_department}")

计算每组的最小值

# 计算每组的最小值min_sales_by_department = grouped_by_department['销售额'].min()print(f"按 '部门' 列分组后，每组的销售额最小值: \n{min_sales_by_department}")

5. 多列聚合

计算多列的均值

# 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后，每组的销售额和成本均值: \n{mean_by_department}")

计算多列的总和

# 计算多列的总和sum_by_department = grouped_by_department[['销售额', '成本']].sum()print(f"按 '部门' 列分组后，每组的销售额和成本总和: \n{sum_by_department}")

6. 多级分组

按多列分组

# 按 '部门' 和 '姓名' 列分组grouped_by_department_name = df.groupby(['部门', '姓名'])mean_sales_by_department_name = grouped_by_department_name['销售额'].mean()print(f"按 '部门' 和 '姓名' 列分组后，每组的销售额均值: \n{mean_sales_by_department_name}")

实践

对一个数据集按某一列进行分组，并计算每组的均值。

# 导入 Pandas 库import pandas as pd# 创建示例数据集data = {    '姓名': ['张三', '李四', '王五', '张三', '赵六', '李四'],    '部门': ['销售部', '市场部', '技术部', '销售部', '财务部', '市场部'],    '销售额': [120, 150, 130, 160, 140, 170],    '成本': [80, 90, 100, 110, 120, 130]}df = pd.DataFrame(data)print(f"示例数据集: \n{df}")# 按 '部门' 列分组grouped_by_department = df.groupby('部门')# 计算每组的均值mean_sales_by_department = grouped_by_department['销售额'].mean()print(f"按 '部门' 列分组后，每组的销售额均值: \n{mean_sales_by_department}")# 计算多列的均值mean_by_department = grouped_by_department[['销售额', '成本']].mean()print(f"按 '部门' 列分组后，每组的销售额和成本均值: \n{mean_by_department}")

数据处理专题（四）

目标使用 Matplotlib 进行基本的数据可视化。‍ 学习内容绘制折线图绘制散点图绘制柱状图‍ 代码示例 1. 导入必要的库 import matplotlib.pyplot as pltimport numpy as npimport pandas as pd 2. 创建示例数据集 # 创建示例数据集data { 月份: [1月, 2月, 3…...

编程日记 2026/2/15 1:54:33

【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解

【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解文章目录【目标检测】【深度学习】【Pytorch版本】YOLOV1模型算法详解前言YOLOV1的模型结构YOLOV1模型的基本执行流程YOLOV1模型的网络参数YOLOV1模型的训练方式 YOLOV1的核心思想前向传播阶段网格单元(grid cell)…...

编程日记 2026/2/13 22:56:18

云钥科技多通道工业相机解决方案设计

项目应用场景分析与需求挑战 1. 应用场景 ‌目标领域‌：工业自动化检测（如精密零件尺寸测量、表面缺陷检测）、3D立体视觉（如物体建模、位姿识别）、动态运动追踪（如高速生产线监控）等。 ‌核心…...

编程日记 2026/2/16 1:51:34

从零到一：ESP32与豆包大模型的RTC连续对话实现指南

一、对话效果演示 ESP32与豆包大模型的RTC连续对话二、ESP-ADF 介绍乐鑫 ESP-ADF（Espressif Audio Development Framework）是乐鑫科技（Espressif Systems）专为 ESP32 系列芯片开发的一款音频开发框架。它旨在简化基于 ESP32 芯…...

编程日记 2026/2/15 22:06:05

【深度学习与实战】2.3、线性回归模型与梯度下降法先导案例--最小二乘法(向量形式求解)

为了求解损失函数对的导数，并利用最小二乘法向量形式求解的值‌ 这是‌线性回归‌的平方误差损失函数，目标是最小化预测值与真实值之间的差距。 ‌损失函数‌： 考虑多个样本的情况，损失函数为所有样本的平方误差之和&a…...

编程日记 2026/2/15 11:26:37

【Django】教程-2-前端-目录结构介绍

【Django】教程-1-安装创建项目目录结构介绍 3. 前端文件配置 3.1 目录介绍在app下创建static文件夹, 是根据setting中的配置来的 STATIC_URL ‘static/’ templates目录，编写HTML模板（含有模板语法，继承，{% static ‘xx’ …...

编程日记 2026/2/15 3:36:02

JS判断对象是否为空的方法

在 JavaScript 中，判断一个对象是否为空对象（即没有自身可枚举属性），可以通过以下方法实现： 方法 1：使用 Object.keys() javascript function isEmptyObject(obj) {// 确保是普通对象（排除 n…...

编程日记 2026/2/13 19:52:59

详解list容器

1.list的介绍 list的底层结构是双向带头循环链表，允许随机的插入和删除，但其内存空间不是连续的。随机访问空间能力差，需要从头到尾遍历节点，不像vector一样高效支持 2.list的使用构造函数 1.默认构造函数：创建一个…...

编程日记 2026/2/15 9:21:04

leetcode_977. 有序数组的平方_java

977. 有序数组的平方https://leetcode.cn/problems/squares-of-a-sorted-array/ 1.题目给你一个按非递减顺序排序的整数数组 nums，返回每个数字的平方组成的新数组，要求也按非递减顺序排序。示例 1： 输入：nums [-4,-1…...

编程日记 2026/2/12 9:28:51

Spring Boot 3.4.3 基于 SpringDoc 2 和 Swagger 3 实现项目接口文档管理

在现代企业级应用开发中，前后端分离已成为主流模式，前端负责界面呈现，后端专注提供 RESTful API 接口。然而，接口文档的编写和维护往往是开发过程中的痛点。Spring Boot 3.4.3 结合 SpringDoc 2 和 Swagger 3，为开发者…...

编程日记 2026/2/12 7:47:03

前端面经分享（25/03/26）

北京一家做AI解决方案的公司，技术一面，15k-20k，要求3-5年你们React项目里路由模式用的什么React里class组件和function组件都用过吗常用Hook，解释一下他们的作用useEffect第二个参数填空数组和不填有什么区别React组件通信的常用…...

编程日记 2026/2/14 20:58:54

Matlab基础知识与常见操作【无痛入门】

【1】Matlab基本概念【2】Matlab程序设计【3】Matlab图形绘制以上三篇文章为Matlab主要的应用场景，我在学习的过程中做一下记录，方便以后回顾。接下来介绍下Matlab的工作界面，以及如何高效率的应用Matlab的帮助手册。在我看来&#x…...

编程日记 2026/2/15 8:42:34

HTTP协议手写服务器

目录一、请求的是Web根目录二、GET方法通过URL传参三、根据资源类型对应出Content-Type值四、Http代码项目完整源代码：Http 周不才/cpp_linux study - 码云 - 开源中国一、请求的是Web根目录如果URL中请求的资源是Web根目录，则自动跳转到主…...

编程日记 2026/2/15 1:55:19

网络探索之旅：网络原理（第二弹）

上篇文章，小编分享了应用层和传输层深入的一点的知识，那么接下来，这篇文章，继续分享网络层和数据链路层。网络层了解这个网络层，那么其实就是重点来了解下IP这个协议对于这个协议呢，其实也是和前面的…...

编程日记 2026/2/15 12:00:47

深入剖析 JVM：从组成原理到调优实践

深入剖析 JVM：从组成原理到调优实践深入剖析 JVM：从组成原理到调优实践一、JVM 组成架构：运行 Java 程序的 “幕后引擎”1.1 内存结构：数据存储的 “分区管理”1.2 执行引擎：字节码的 “翻译官”1.3 本地方法接口&…...

编程日记 2026/2/14 16:37:48

阿里云下一代可观测时序引擎-MetricStore 2.0

作者：徐昊（博澍） 背景作为可观测场景使用频度最高的数据类型，Metrics 时序数据在可观测领域一直占有着重要地位，无论是从全局视角来观测系统整体状态，还是从大范围数据中定位某一个异常的位置&#xff0…...

编程日记 2026/2/15 13:30:35

从入门到精通【 MySQL】数据库约束与设计

文章目录 📕1. 数据库约束✏️1.1 NOT NULL 非空约束✏️1.2 DEFAULT 默认值约束✏️1.3 UNIQUE 唯一约束✏️1.4 PRIMARY KEY 主键约束✏️1.5 FOREIGN KEY 外键约束✏️1.6 CHECK 约束 📕2. 数据库设计✏️2.1 第一范式✏️2.2 第二范式✏️2.3 第三范…...

编程日记 2026/2/14 12:35:48

使用LLaMAFactory微调Qwen大模型

一、环境配置与工具安装 1. 硬件要求 GPU：至少1块NVIDIA GPU（推荐RTX 4090/A100/H100，显存≥16GB）。内存：≥64GB系统内存。存储：≥100GB硬盘空间用于模型与数据集存储。2. 软件依赖 Python 3.8+：需安装CUDA支持的PyTorch版本（如torch==2.0.1+cu117）。依赖库：通过以…...

编程日记 2026/2/2 19:39:04

Dubbo 通信流程 - 服务的调用

Dubbo 客户端的使用在 Dubbo 应用中，往类成员注解 DubboReference，服务启动后便可以调用到远端： Component public class InvokeDemoFacade {AutowiredDubboReferenceprivate DemoFacade demoFacade;public String hello(String name){// …...

编程日记 2026/2/13 19:20:57

【数据结构】哈夫曼树

哈夫曼树在学习哈夫曼树之前，先了解以下几个概念： 一：**路径长度：**在一棵树中，从一个节点到另一个节点所经过的“边”的数量，被我们称为两个节点之间的路径长度。二：**树的路径长度&#xf…...

编程日记 2026/2/15 22:08:21

HCIP(TCP)（2）

1. TCP三次握手 SYN (同步序列编号) 报文: 客户端发送 SYN 报文，开始建立连接，并初始化序列号。 SYN-ACK (同步序列编号-确认) 报文: 服务器收到 SYN 报文后，回复 SYN-ACK 报文，确认连接请求，并初始化自己的序列号和确…...

编程日记 2026/2/15 11:28:45

VMware Ubuntu 网络配置全攻略：从断网到畅通无阻

一、网络连接模式选择（先搞懂原理） VMware提供三种网络模式，就像手机的不同网络套餐： 模式适用场景特点类比NAT个人上网/新手首选虚拟机共享主机IP，能上网但隐身家用WiFi桥接服务器/需要被局域网访问虚拟机会获得独立…...

编程日记 2026/2/15 0:28:59

基于Web的交互式智能成绩管理系统设计

目录摘要绪论一、应用背景二、行业发展现状三、程序开发的重要意义四、结语 1 代码 2 数据初始化模块 3 界面布局模块 4 核心功能模块 5 可视化子系统 6 扩展功能模块 7 架构设计亮点功能总结一、核心数据管理二、智能分析体系三、可视化系统四、扩…...

编程日记 2026/2/15 19:01:05

第 12 章（番外）| Solidity 安全前沿趋势 × 审计生态 × 职业路径规划

🌐 第 12 章（番外）| Solidity 安全前沿趋势审计生态职业路径规划 ——做得了审计，也接得了项目，走进 Web3 安全工程师的职业实战地图 ✅ 本章导读 Solidity 安全，不只是代码安全、业务安全、审计安全…...

编程日记 2026/2/15 4:08:57

输出3行3列矩阵的鞍点

【问题描述】在矩阵中，一个数在所在行中是最大值，在所在列中是最小值，则被称为鞍点。任意输入一个3行3列矩阵，请设计程序输出其鞍点。【输入形式】每行3个数，输入3列【输出形式】输出所有鞍点；如果没有…...

编程日记 2026/2/15 14:37:57

k8s日志管理

k8s日志管理 k8s查看日志查看集群中不是完全运行状态的pod查看deployment日志查看service日志进入pod的容器内查看日志管理k8s组件日志kubectl logs查看日志原理管理k8s应用日志收集k8s日志思路收集标准输出收集容器中日志文件 k8s查看节点状态失败k8s部署prometheus监控 k8s…...

编程日记 2026/2/15 16:14:30

【数据结构】顺序表-元素去重

数据元素结点定义，复杂数据类型，可用作整体性的管理系统。如果单独研究某些数据，比如只看学号或成绩，那么直接使用int之类的简单数据类型亦可。对应修改：typedef int Elemtype; typedef struct student{ //定义学生…...

编程日记 2026/2/16 9:03:22

物理安全——问答

目录 1、计算机的物理安全包含哪些内容 1. 设备保护 2. 访问控制 3. 电力与环境安全 4. 数据存储保护 5. 硬件防护 6. 监控与审计 7. 灾难恢复与应急响应 8. 拆卸与维修安全 2、物理安全有哪些需要关注的问题 1、计算机的物理安全包含哪些内容 1. 设备保护防止盗窃&…...

编程日记 2026/1/27 4:32:18

element-plus中，Loading 加载组件的使用

一.基本使用给一个组件，如：table表格，加上v-loading"true"即可。举例：复制如下代码。 <template><el-table v-loading"loading" :data"tableData" style"width: 100%"><…...

编程日记 2026/2/15 18:08:01

Mybatis_Plus中的常用注解

目录 1、TableName TableId TableId的type属性 TableField 1、TableName 经过以上的测试，在使用MyBatis-Plus实现基本的CRUD时，我们并没有指定要操作的表，只是在 Mapper接口继承BaseMapper时，设置了泛型User，而操…...

编程日记 2026/2/15 22:36:13

数据聚合和分组

​​​​​​​

相关文章：