当前位置：首页 > news >正文

【数据挖掘】Pandas

news 2026/5/24 1:00:29

Pandas 是 Python 进行 数据挖掘 和 数据分析 的核心库之一，提供了强大的 数据清洗、预处理、转换、分析 和 可视化 功能。它通常与 NumPy、Matplotlib、Seaborn、Scikit-Learn 等库结合使用，帮助构建高效的数据挖掘流程。

📌 1. 读取数据

Pandas 支持多种数据格式，如 CSV、Excel、JSON、SQL、Parquet 等。

import pandas as pd# 读取 CSV 文件
df = pd.read_csv("data.csv")# 读取 Excel 文件
df = pd.read_excel("data.xlsx")# 读取 JSON 文件
df = pd.read_json("data.json")# 读取 SQL 数据库
import sqlite3
conn = sqlite3.connect("database.db")
df = pd.read_sql("SELECT * FROM table_name", conn)

📌 2. 数据探索（EDA）

2.1 查看数据基本信息

print(df.head())    # 查看前5行
print(df.tail())    # 查看后5行
print(df.info())    # 数据类型、缺失值情况
print(df.describe()) # 统计摘要（仅适用于数值列）
print(df.shape)     # 行列数
print(df.columns)   # 列名
print(df.dtypes)    # 每列的数据类型

2.2 缺失值检测

print(df.isnull().sum())   # 统计每列的缺失值数量
print(df.dropna().shape)   # 删除含有缺失值的行
df.fillna(df.mean(), inplace=True)  # 用均值填充缺失值

📌 3. 数据清洗

3.1 处理缺失值

df.fillna(df.median(), inplace=True)  # 用中位数填充
df.dropna(inplace=True)  # 删除缺失值

3.2 处理重复值

df.drop_duplicates(inplace=True)

3.3 处理异常值

# 以标准差为例，删除 3 倍标准差外的异常值
import numpy as np
df = df[(np.abs(df["column"] - df["column"].mean()) <= (3 * df["column"].std()))]

📌 4. 数据转换

4.1 数据类型转换

df["date_column"] = pd.to_datetime(df["date_column"])  # 转换为日期格式
df["int_column"] = df["int_column"].astype(float)      # int 转 float

4.2 处理分类数据

df["category"] = df["category"].astype("category")  # 转换为类别数据
df = pd.get_dummies(df, columns=["category"])  # 独热编码（One-Hot Encoding）

4.3 归一化 & 标准化

from sklearn.preprocessing import MinMaxScaler, StandardScalerscaler = MinMaxScaler()  # 归一化到 [0,1]
df["normalized"] = scaler.fit_transform(df[["column"]])scaler = StandardScaler()  # 标准化为均值 0，标准差 1
df["standardized"] = scaler.fit_transform(df[["column"]])

📌 5. 数据分组 & 统计分析

5.1 分组计算

df.groupby("category")["value"].mean()   # 按类别分组求均值
df.groupby("category")["value"].sum()    # 按类别求和
df.groupby(["category", "sub_category"])["value"].agg(["mean", "sum", "count"])  # 多指标统计

5.2 透视表

df.pivot_table(values="value", index="category", columns="year", aggfunc="sum")

5.3 计算相关性

df.corr()  # 计算数值型变量之间的相关性

📌 6. 数据可视化

import matplotlib.pyplot as plt
import seaborn as sns# 柱状图
df["category"].value_counts().plot(kind="bar")# 直方图
df["value"].hist(bins=30)# 相关性热图
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")# 散点图
sns.scatterplot(x=df["feature1"], y=df["feature2"])# 盒须图（查看异常值）
sns.boxplot(x=df["category"], y=df["value"])

📌 7. 数据分割

7.1 训练集 & 测试集划分

from sklearn.model_selection import train_test_splitX = df.drop("target", axis=1)  # 特征
y = df["target"]  # 目标变量X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

📌 8. 数据导出

df.to_csv("cleaned_data.csv", index=False)  # 导出为 CSV
df.to_excel("cleaned_data.xlsx", index=False)  # 导出为 Excel
df.to_json("cleaned_data.json")  # 导出为 JSON

📌 9. Pandas + Scikit-Learn 数据挖掘

Pandas 可用于构建 机器学习模型，以下是一个简单的 回归分析示例：

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 选择特征和目标变量
X = df[["feature1", "feature2"]]
y = df["target"]# 训练模型
model = LinearRegression()
model.fit(X, y)# 预测
y_pred = model.predict(X)# 计算误差
mse = mean_squared_error(y, y_pred)
print("均方误差:", mse)

📌 总结

Pandas 任务	函数/方法
读取数据	`read_csv()`、`read_excel()`、`read_json()`
数据探索	`head()`、`info()`、`describe()`、`isnull()`
数据清洗	`dropna()`、`fillna()`、`drop_duplicates()`
数据转换	`astype()`、`get_dummies()`、`MinMaxScaler()`
分组统计	`groupby()`、`pivot_table()`、`corr()`
可视化	`hist()`、`plot()`、`heatmap()`
机器学习	`train_test_split()`、`LinearRegression()`

Pandas 是数据挖掘的 核心工具，熟练掌握它能大幅提高数据分析和建模的效率！ 🚀 🚀 🚀

【数据挖掘】Pandas

Pandas 是 Python 进行数据挖掘和数据分析的核心库之一，提供了强大的数据清洗、预处理、转换、分析和可视化功能。它通常与 NumPy、Matplotlib、Seaborn、Scikit-Learn 等库结合使用，帮助构建高效的数据挖掘流程。 📌 1. 读取数据 P…...

编程日记 2025/3/2 14:59:20

explore与explode词源故事

英语单词explore来自古法语，源自拉丁语，由前缀ex-（出来）加词根plor-（叫喊）以及末尾的小尾巴-e组成，字面意思就是“喊出来，通过叫喊声赶出来”。它为什么能表示“探索”呢&#xff1f…...

编程日记 2025/3/2 14:57:17

CAM350_安装

版本：V14.5 一、安装打开.exe文件选择不重启，然后再打开这个.exe 再来一次类似的操作二、配置复制patch文件夹中的这三个 ，粘贴到掉安装目录中设置ACT_INC_LICENSE_FILE用户环境变量来设置license管理打开电脑的环境变量破解完毕&am…...

编程日记 2025/3/2 14:56:16

51c自动驾驶~合集22

我自己的原文哦~ https://blog.51cto.com/whaosoft/11870502 #自动驾驶数据闭环最前沿论文近几年，自动驾驶技术的发展日新月异。从ECCV 2020的NeRF问世再到SIGGRAPH 2023的3DGS，三维重建走上了快速发展的道路！再到自动驾驶端到端技术的…...

编程日记 2025/3/2 14:48:06

games101 作业5

题目光线追踪的核心算法: 1.光线的生成 2.光线与三角的相交题解 1.光线的生成如课件中的图所示： image plane 就是代码中的scene的FrameBuffer。但是，FrameBuffer 是窗口坐标系中，而光线是世界坐标系中的。所以我们需要将scene中的屏…...

编程日记 2025/3/2 14:44:00

【高并发秒杀系统设计：从Guava到Redis的6级缓存架构演进】

一、瞬时十万QPS场景分析 1.1 典型秒杀场景特征 public class SpikeScenario {// 特征1：瞬时流量突增private static final int QPS 100000; // 正常流量100倍// 特征2：资源竞争激烈private int stock 1000; // 100万人抢1000件商品// 特征3&#…...

编程日记 2025/3/2 14:42:59

2-程序语言基础知识

本节内容不是很多，在考试中一般是2-3分，多看教材，考试中大概都是原话本节主要考点 1、编译程序和解释程序 2、程序语言的数据成分和控制成分（多看教材） 3、编译程序的过程（多看教材） 4、中缀、前缀与后缀表达式（增加）教材P42-52，54-58多看一下 1、程序语言概述机器…...

编程日记 2025/3/2 14:41:58

【AIGC系列】4：Stable Diffusion应用实践和代码分析

AIGC系列博文： 【AIGC系列】1：自编码器（AutoEncoder, AE） 【AIGC系列】2：DALLE 2模型介绍（内含扩散模型介绍） 【AIGC系列】3：Stable Diffusion模型原理介绍【AIGC系列】4&#xff1…...

编程日记 2025/3/2 14:38:53

小米火龙CPU和其他几代温度太高的CPU是由谁代工的

小米火龙CPU”并非小米自研芯片，而是指搭载在小米手机上的部分高通骁龙处理器因发热问题被调侃为“火龙”。以下是几款被称为“火龙”的高通CPU及其代工情况： 骁龙810 骁龙810是高通历史上最著名的“火龙”之一，采用台积电20nm工艺代工。由于…...

编程日记 2025/3/2 14:36:49

在 ASP.NET Core 中压缩并减少图像的文件大小

示例代码：https://download.csdn.net/download/hefeng_aspnet/90294127 在当今的数字时代，图像是 Web 应用程序和用户体验不可或缺的一部分。但是，处理大型图像文件可能会导致网页加载缓慢和更高的存储费用。为了解决这个问题，在…...

编程日记 2025/3/2 14:34:46

网络流算法: Dinic算法

图论相关帖子基本概念图的表示: 邻接矩阵和邻接表图的遍历: 深度优先与广度优先拓扑排序图的最短路径:Dijkstra算法和Bellman-Ford算法最小生成树二分图多源最短路径强连通分量欧拉回路和汉密尔顿回路网络流算法: Edmonds-Karp算法网络流算法: Dinic算法环境要求本文所用…...

编程日记 2025/3/2 14:31:42

【Godot4.3】自定义简易菜单栏节点ETDMenuBar

概述 Godot中的菜单创建是一个复杂的灾难性工作，往往无从下手，我也是不止一次尝试简化菜单的创建。从自己去年的发明“简易树形数据”用于简化Tree控件获得灵感，于是尝试编写了用于表示菜单数据的EasyMenuData类，以及对应的纯文…...

编程日记 2025/3/2 14:29:40

如何杀死僵尸进程？没有那个进程？

在题主跑代码的时候遇到了这样一种很奇怪的问题： 可以看到显卡0没有跑任何程序但是还是被占据着大量显存，这种进程称为“僵尸进程”，并且当我想kill它的时候，出现下面这种情况： 查过各种资料，最后我的解决…...

编程日记 2025/3/2 14:24:35

Solana 核心概念全解析：账户、交易、合约与租约，高流量区块链技术揭秘！

目录 1.Solana 核心概念简述 1.1. 账户（Account） 1.2. 交易（Transaction） 1.3. 交易指令（Instruction） 1.4. SPL 代币 1.5. 合约（Program） 1.6. 租约（Rent&#x…...

编程日记 2025/3/2 14:22:32

Leetcode-853. Car Fleet [C++][Java]

目录一、题目描述二、解题思路 Leetcode-853. Car Fleethttps://leetcode.com/problems/car-fleet/description/ 一、题目描述 There are n cars at given miles away from the starting mile 0, traveling to reach the mile target. You are given two integer array …...

编程日记 2025/3/2 14:20:30

012 rocketmq事务消息

文章目录事务消息概念介绍交互流程事务消息原理TransactionListener接⼝TransactionProducer.javaTransactionConsumer.java 事务消息内置topic中的消息对消费者不可见本地事务mq消息事务消息消息队列 RocketMQ 版提供的分布式事务消息适⽤于所有对数据最终⼀致性有强需求…...

编程日记 2025/3/2 14:13:22

ChatGPT与DeepSeek：开源与闭源的AI模型之争

目录一、模型架构与技术原理二、性能能力与应用场景三、用户体验与部署灵活性四、成本与商业模式五、未来展望与市场影响六、总结随着人工智能技术的飞速发展，ChatGPT和DeepSeek作为两大领先的AI语言模型，成为了行业内外关注的焦点。它们在…...

编程日记 2025/3/2 14:12:21

Ollama的底层实现原理分析

一、背景 Ollama我们可以很方便的对DeepSeek等开源大模型进行部署，几条命令便能部署一个本地大模型服务，降低了非专业大模型开发者的门槛。我们从中可以看到类似Docker的影子，ollama run 、ollama list等等，拉取对应大模型镜像&a…...

编程日记 2025/3/2 14:06:13

nginx 动态计算拦截非法访问ip

需求：在Nginx上实现一个动态拦截IP的方法，具体是当某个IP在1分钟内访问超过60次时，将其加入Redis并拦截，拦截时间默认1天。技术选型：使用NginxLuaRedis的方法。这种方案通过Lua脚本在Nginx处理请求时检查Redis中的黑…...

编程日记 2025/3/2 14:02:06

商业秘密维权有哪些成本开支？

企业商业秘密百问百答之六十三：商业秘密维权费用项目有哪些？ 在商业秘密维权过程中，原告可能需要支付多种费用，一般费用项目包括： 1、诉讼费。诉讼费是向法院支付的费用，包括起诉费、案件受理费等。这些费…...

编程日记 2025/3/2 14:01:05

AI系列【仅供参考】：TRAE 支持自定义模型了，配置个 DeepSeek V4 试试

TRAE 支持自定义模型了，配置个 DeepSeek V4 试试TRAE 支持自定义模型了，配置个 DeepSeek V4 试试原因解决方案底下评论问题一：回答一：回答二：回答三：问题二：回答一：问题三&#xff1…...

编程新知 2026/5/24 0:50:29

211本科985硕拿下淘天AI二面！全程无代码，这面试题火了！

本文分享了作者在淘天AI应用开发二面中的面试经历，全程不到60分钟，没有手撕代码，也没有问常规Java八股。面试主要围绕自我介绍、AI相关问题、工程与安全问题、项目提问以及反问环节展开。AI相关问题涉及对AI的看法、常用AI工具等；…...

编程新知 2026/5/24 0:07:56

2026出纳岗位新人如何快速提升能力：从基础上手到能力跃升的最快路径

2026年，出纳岗位已经不再只是“收付款、跑银行、登记现金日记账”这么简单。随着企业财务数字化、业财一体化和AI工具普及，新人想快速成长，必须同时具备规范意识、系统操作能力、数据思维和风险意识。这也是为什么越来越多财务新人会关注像CD…...

编程新知 2026/5/23 23:20:57

OpenClaw底层揭秘：打造私有化AI Agent团队的核心原理与实战解析！

本文深入剖析了OpenClaw作为自托管多通道AI Agent网关的底层架构与核心原理。从简洁的Gateway进程设计、JSON over WebSocket的统一通信协议，到Agent循环处理消息的完整流程、多Agent路由的绑定机制，以及精细化的会话管理与独特的Markdown记忆系统&#…...

编程新知 2026/5/23 22:16:32

Taotoken 的 API Key 分级管理与审计日志功能在安全合规中的应用

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken 的 API Key 分级管理与审计日志功能在安全合规中的应用当企业将大模型能力集成到业务流程中时，除了关注模型…...

编程新知 2026/5/23 21:53:02

5分钟永久激活Windows和Office的终极解决方案：KMS智能激活工具完整指南

5分钟永久激活Windows和Office的终极解决方案：KMS智能激活工具完整指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统频繁弹出激活提示而烦恼吗？Offi…...

编程新知 2026/5/23 21:44:41

GD32F103RCT6串口调试避坑指南：从寄存器配置到DMA收发实战（附代码）

GD32F103RCT6串口调试避坑指南：从寄存器配置到DMA收发实战第一次接触GD32的串口开发时，我对着电脑屏幕上乱码的数据抓耳挠腮——明明按照手册配置了115200波特率，为什么收到的全是"天书"？后来才发现是时钟树配置的问题…...

编程新知 2026/5/23 17:53:52

3分钟实现网页图片格式自由转换：Chrome扩展终极指南

3分钟实现网页图片格式自由转换：Chrome扩展终极指南【免费下载链接】Save-Image-as-Type Save Image as Type is an chrome extension which add Save as PNG / JPG / WebP to the context menu of image. 项目地址: https://gitcode.com/gh_mirrors/sa/Save-Ima…...

编程新知 2026/5/23 17:14:42

解锁KDE桌面美学：Lightly主题隐藏配置选项完全指南 [特殊字符]

解锁KDE桌面美学：Lightly主题隐藏配置选项完全指南 🎨 【免费下载链接】Lightly A modern style for qt applications. 项目地址: https://gitcode.com/gh_mirrors/lig/Lightly Lightly是一个基于Breeze主题的现代化、简约风格KDE主题&#xff0c…...

编程新知 2026/5/23 17:04:00

三星固件下载神器Bifrost：跨平台一站式解决方案深度解析

三星固件下载神器Bifrost：跨平台一站式解决方案深度解析【免费下载链接】Bifrost Cross-platform tool for downloading Samsung mobile device firmware. 项目地址: https://gitcode.com/gh_mirrors/sa/Bifrost Bifrost是一款基于Kotlin Multiplatform构建…...

编程新知 2026/5/23 16:30:15