【数据挖掘】Pandas
Pandas 是 Python 进行 数据挖掘 和 数据分析 的核心库之一,提供了强大的 数据清洗、预处理、转换、分析 和 可视化 功能。它通常与 NumPy、Matplotlib、Seaborn、Scikit-Learn 等库结合使用,帮助构建高效的数据挖掘流程。
📌 1. 读取数据
Pandas 支持多种数据格式,如 CSV、Excel、JSON、SQL、Parquet 等。
import pandas as pd# 读取 CSV 文件
df = pd.read_csv("data.csv")# 读取 Excel 文件
df = pd.read_excel("data.xlsx")# 读取 JSON 文件
df = pd.read_json("data.json")# 读取 SQL 数据库
import sqlite3
conn = sqlite3.connect("database.db")
df = pd.read_sql("SELECT * FROM table_name", conn)
📌 2. 数据探索(EDA)
2.1 查看数据基本信息
print(df.head()) # 查看前5行
print(df.tail()) # 查看后5行
print(df.info()) # 数据类型、缺失值情况
print(df.describe()) # 统计摘要(仅适用于数值列)
print(df.shape) # 行列数
print(df.columns) # 列名
print(df.dtypes) # 每列的数据类型
2.2 缺失值检测
print(df.isnull().sum()) # 统计每列的缺失值数量
print(df.dropna().shape) # 删除含有缺失值的行
df.fillna(df.mean(), inplace=True) # 用均值填充缺失值
📌 3. 数据清洗
3.1 处理缺失值
df.fillna(df.median(), inplace=True) # 用中位数填充
df.dropna(inplace=True) # 删除缺失值
3.2 处理重复值
df.drop_duplicates(inplace=True)
3.3 处理异常值
# 以标准差为例,删除 3 倍标准差外的异常值
import numpy as np
df = df[(np.abs(df["column"] - df["column"].mean()) <= (3 * df["column"].std()))]
📌 4. 数据转换
4.1 数据类型转换
df["date_column"] = pd.to_datetime(df["date_column"]) # 转换为日期格式
df["int_column"] = df["int_column"].astype(float) # int 转 float
4.2 处理分类数据
df["category"] = df["category"].astype("category") # 转换为类别数据
df = pd.get_dummies(df, columns=["category"]) # 独热编码(One-Hot Encoding)
4.3 归一化 & 标准化
from sklearn.preprocessing import MinMaxScaler, StandardScalerscaler = MinMaxScaler() # 归一化到 [0,1]
df["normalized"] = scaler.fit_transform(df[["column"]])scaler = StandardScaler() # 标准化为均值 0,标准差 1
df["standardized"] = scaler.fit_transform(df[["column"]])
📌 5. 数据分组 & 统计分析
5.1 分组计算
df.groupby("category")["value"].mean() # 按类别分组求均值
df.groupby("category")["value"].sum() # 按类别求和
df.groupby(["category", "sub_category"])["value"].agg(["mean", "sum", "count"]) # 多指标统计
5.2 透视表
df.pivot_table(values="value", index="category", columns="year", aggfunc="sum")
5.3 计算相关性
df.corr() # 计算数值型变量之间的相关性
📌 6. 数据可视化
import matplotlib.pyplot as plt
import seaborn as sns# 柱状图
df["category"].value_counts().plot(kind="bar")# 直方图
df["value"].hist(bins=30)# 相关性热图
sns.heatmap(df.corr(), annot=True, cmap="coolwarm")# 散点图
sns.scatterplot(x=df["feature1"], y=df["feature2"])# 盒须图(查看异常值)
sns.boxplot(x=df["category"], y=df["value"])
📌 7. 数据分割
7.1 训练集 & 测试集划分
from sklearn.model_selection import train_test_splitX = df.drop("target", axis=1) # 特征
y = df["target"] # 目标变量X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
📌 8. 数据导出
df.to_csv("cleaned_data.csv", index=False) # 导出为 CSV
df.to_excel("cleaned_data.xlsx", index=False) # 导出为 Excel
df.to_json("cleaned_data.json") # 导出为 JSON
📌 9. Pandas + Scikit-Learn 数据挖掘
Pandas 可用于构建 机器学习模型,以下是一个简单的 回归分析示例:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error# 选择特征和目标变量
X = df[["feature1", "feature2"]]
y = df["target"]# 训练模型
model = LinearRegression()
model.fit(X, y)# 预测
y_pred = model.predict(X)# 计算误差
mse = mean_squared_error(y, y_pred)
print("均方误差:", mse)
📌 总结
| Pandas 任务 | 函数/方法 |
|---|---|
| 读取数据 | read_csv()、read_excel()、read_json() |
| 数据探索 | head()、info()、describe()、isnull() |
| 数据清洗 | dropna()、fillna()、drop_duplicates() |
| 数据转换 | astype()、get_dummies()、MinMaxScaler() |
| 分组统计 | groupby()、pivot_table()、corr() |
| 可视化 | hist()、plot()、heatmap() |
| 机器学习 | train_test_split()、LinearRegression() |
Pandas 是数据挖掘的 核心工具,熟练掌握它能大幅提高数据分析和建模的效率! 🚀 🚀 🚀
相关文章:
【数据挖掘】Pandas
Pandas 是 Python 进行 数据挖掘 和 数据分析 的核心库之一,提供了强大的 数据清洗、预处理、转换、分析 和 可视化 功能。它通常与 NumPy、Matplotlib、Seaborn、Scikit-Learn 等库结合使用,帮助构建高效的数据挖掘流程。 📌 1. 读取数据 P…...
explore与explode词源故事
英语单词explore来自古法语,源自拉丁语,由前缀ex-(出来)加词根plor-(叫喊)以及末尾的小尾巴-e组成,字面意思就是“喊出来,通过叫喊声赶出来”。它为什么能表示“探索”呢?…...
CAM350_安装
版本:V14.5 一、安装 打开.exe文件 选择不重启,然后再打开这个.exe 再来一次类似的操作 二、配置 复制patch文件夹中的这三个 ,粘贴到掉安装目录中 设置ACT_INC_LICENSE_FILE用户环境变量来设置license管理 打开电脑的环境变量 破解完毕&am…...
51c自动驾驶~合集22
我自己的原文哦~ https://blog.51cto.com/whaosoft/11870502 #自动驾驶数据闭环最前沿论文 近几年,自动驾驶技术的发展日新月异。从ECCV 2020的NeRF问世再到SIGGRAPH 2023的3DGS,三维重建走上了快速发展的道路!再到自动驾驶端到端技术的…...
games101 作业5
题目 光线追踪的核心算法: 1.光线的生成 2.光线与三角的相交 题解 1.光线的生成 如课件中的图所示: image plane 就是 代码中的scene的FrameBuffer。 但是,FrameBuffer 是窗口坐标系中,而光线是世界坐标系中的。所以我们需要将scene中的屏…...
【高并发秒杀系统设计:从Guava到Redis的6级缓存架构演进】
一、瞬时十万QPS场景分析 1.1 典型秒杀场景特征 public class SpikeScenario {// 特征1:瞬时流量突增private static final int QPS 100000; // 正常流量100倍// 特征2:资源竞争激烈private int stock 1000; // 100万人抢1000件商品// 特征3&#…...
2-程序语言基础知识
本节内容不是很多,在考试中一般是2-3分,多看教材,考试中大概都是原话 本节主要考点 1、编译程序和解释程序 2、程序语言的数据成分和控制成分(多看教材) 3、编译程序的过程(多看教材) 4、中缀、前缀与后缀表达式(增加) 教材P42-52,54-58多看一下 1、程序语言概述 机器…...
【AIGC系列】4:Stable Diffusion应用实践和代码分析
AIGC系列博文: 【AIGC系列】1:自编码器(AutoEncoder, AE) 【AIGC系列】2:DALLE 2模型介绍(内含扩散模型介绍) 【AIGC系列】3:Stable Diffusion模型原理介绍 【AIGC系列】4࿱…...
小米火龙CPU和其他几代温度太高的CPU是由谁代工的
小米火龙CPU”并非小米自研芯片,而是指搭载在小米手机上的部分高通骁龙处理器因发热问题被调侃为“火龙”。以下是几款被称为“火龙”的高通CPU及其代工情况: 骁龙810 骁龙810是高通历史上最著名的“火龙”之一,采用台积电20nm工艺代工。由于…...
在 ASP.NET Core 中压缩并减少图像的文件大小
示例代码:https://download.csdn.net/download/hefeng_aspnet/90294127 在当今的数字时代,图像是 Web 应用程序和用户体验不可或缺的一部分。但是,处理大型图像文件可能会导致网页加载缓慢和更高的存储费用。为了解决这个问题,在…...
网络流算法: Dinic算法
图论相关帖子 基本概念图的表示: 邻接矩阵和邻接表图的遍历: 深度优先与广度优先拓扑排序图的最短路径:Dijkstra算法和Bellman-Ford算法最小生成树二分图多源最短路径强连通分量欧拉回路和汉密尔顿回路网络流算法: Edmonds-Karp算法网络流算法: Dinic算法 环境要求 本文所用…...
【Godot4.3】自定义简易菜单栏节点ETDMenuBar
概述 Godot中的菜单创建是一个复杂的灾难性工作,往往无从下手,我也是不止一次尝试简化菜单的创建。 从自己去年的发明“简易树形数据”用于简化Tree控件获得灵感,于是尝试编写了用于表示菜单数据的EasyMenuData类,以及对应的纯文…...
如何杀死僵尸进程?没有那个进程?
在题主跑代码的时候遇到了这样一种很奇怪的问题: 可以看到显卡0没有跑任何程序但是还是被占据着大量显存,这种进程称为“僵尸进程”,并且当我想kill它的时候,出现下面这种情况: 查过各种资料,最后我的解决…...
Solana 核心概念全解析:账户、交易、合约与租约,高流量区块链技术揭秘!
目录 1.Solana 核心概念简述 1.1. 账户(Account) 1.2. 交易(Transaction) 1.3. 交易指令(Instruction) 1.4. SPL 代币 1.5. 合约(Program) 1.6. 租约(Rent&#x…...
Leetcode-853. Car Fleet [C++][Java]
目录 一、题目描述 二、解题思路 Leetcode-853. Car Fleethttps://leetcode.com/problems/car-fleet/description/ 一、题目描述 There are n cars at given miles away from the starting mile 0, traveling to reach the mile target. You are given two integer array …...
012 rocketmq事务消息
文章目录 事务消息概念介绍交互流程事务消息原理TransactionListener接⼝TransactionProducer.javaTransactionConsumer.java 事务消息 内置topic中的消息对消费者不可见 本地事务mq消息事务消息 消息队列 RocketMQ 版提供的分布式事务消息适⽤于所有对数据最终⼀致性有强需求…...
ChatGPT与DeepSeek:开源与闭源的AI模型之争
目录 一、模型架构与技术原理 二、性能能力与应用场景 三、用户体验与部署灵活性 四、成本与商业模式 五、未来展望与市场影响 六、总结 随着人工智能技术的飞速发展,ChatGPT和DeepSeek作为两大领先的AI语言模型,成为了行业内外关注的焦点。它们在…...
Ollama的底层实现原理分析
一、背景 Ollama我们可以很方便的对DeepSeek等开源大模型进行部署,几条命令便能部署一个本地大模型服务,降低了非专业大模型开发者的门槛。 我们从中可以看到类似Docker的影子,ollama run 、ollama list等等,拉取对应大模型镜像&a…...
nginx 动态计算拦截非法访问ip
需求:在Nginx上实现一个动态拦截IP的方法,具体是当某个IP在1分钟内访问超过60次时,将其加入Redis并拦截,拦截时间默认1天。 技术选型:使用NginxLuaRedis的方法。这种方案通过Lua脚本在Nginx处理请求时检查Redis中的黑…...
商业秘密维权有哪些成本开支?
企业商业秘密百问百答之六十三:商业秘密维权费用项目有哪些? 在商业秘密维权过程中,原告可能需要支付多种费用,一般费用项目包括: 1、诉讼费。诉讼费是向法院支付的费用,包括起诉费、案件受理费等。这些费…...
DAMO-YOLO模型多平台支持:TinyNAS WebUI跨平台部署方案
DAMO-YOLO模型多平台支持:TinyNAS WebUI跨平台部署方案 还在为不同操作系统下的模型部署而头疼吗?试试这个一次部署、多平台通用的解决方案 1. 跨平台部署的现实需求 在实际工作中,我们经常遇到这样的困境:开发团队用macOS&#…...
Qwen3.5-9B在目标检测领域的应用:YOLOv5模型原理与调参详解
Qwen3.5-9B在目标检测领域的应用:YOLOv5模型原理与调参详解 1. 引言:当大模型遇见目标检测 在智能安防、自动驾驶和工业质检等领域,目标检测技术正发挥着越来越重要的作用。YOLOv5作为当前最流行的实时目标检测算法之一,以其出色…...
OpenClaw技能市场盘点:Qwen3-4B模型支持的十大实用自动化模块
OpenClaw技能市场盘点:Qwen3-4B模型支持的十大实用自动化模块 1. 为什么需要关注OpenClaw技能市场? 去年冬天,当我第一次在个人笔记本上部署OpenClaw时,最让我惊喜的不是框架本身的基础能力,而是它背后那个充满可能性…...
如何用AI4Animation快速制作吸睛的角色动画社交媒体内容
如何用AI4Animation快速制作吸睛的角色动画社交媒体内容 【免费下载链接】AI4Animation Bringing Characters to Life with Computer Brains in Unity 项目地址: https://gitcode.com/GitHub_Trending/ai/AI4Animation AI4Animation是一款基于Unity引擎的角色动画工具&a…...
ADS7830 8位I²C模数转换器原理与Arduino/STM32跨平台驱动
1. 项目概述ADS7830 是德州仪器(Texas Instruments)推出的一款低功耗、8位精度、8通道逐次逼近型(SAR)模数转换器,专为嵌入式系统中对成本敏感、空间受限且需多路模拟信号采集的场景而设计。7Semi 公司基于该芯片开发的…...
新手福音:在快马平台用AI生成openclaw命令实操案例,轻松入门运维自动化
作为一个刚接触运维的新手,第一次看到openclaw这个命令时确实有点懵。不过最近在InsCode(快马)平台上发现了一个超实用的功能,可以通过AI直接生成可运行的openclaw示例代码,还能实时测试效果,简直是新手福利!下面我就用…...
-python-langchain框架(3-6-pdf文件分页加载 )
一、PDF分页加载的核心应用场景在实际开发中,分页加载并非多余操作,而是针对特定场景的最优解,尤其适合以下几种情况:大型PDF文件处理:单文件几十页、上百页,甚至更大,一次性加载全部内容会占用…...
模电实战-比较器正反馈接法的窗口电压设计
1. 比较器正反馈接法的核心价值 我第一次接触比较器正反馈接法是在设计工业传感器信号调理电路时。当时遇到一个头疼的问题:环境噪声导致比较器在临界电压附近频繁误触发,整个系统像得了"癫痫"一样不停抖动。直到尝试了正反馈接法,…...
树莓派Ubuntu系统无显示器配置全攻略:VNC远程桌面与虚拟显示器实战
1. 树莓派Ubuntu系统初始化配置 第一次接触树莓派的朋友可能会觉得这个小玩意儿很神奇,巴掌大的板子居然能跑完整的桌面系统。我当初拿到树莓派4B时也兴奋了好一阵子,但很快发现一个现实问题:不是每个人都有多余的显示器可以长期接在树莓派上…...
从B站收藏夹到本地硬盘:3步掌握BiliTools高效下载管理
从B站收藏夹到本地硬盘:3步掌握BiliTools高效下载管理 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools 还…...
