当前位置：首页 > news >正文

深度学习：pandas篇

news 2026/3/30 3:45:12

1. Pandas 基础

Pandas 是一个帮助你处理和分析数据的工具

安装 Pandas

pip install pandas

导入 Pandas，我们用 `pd` 来代替 Pandas 的全称，这样以后写代码的时候更简洁

import pandas as pd

建 Series 和 DataFrame

Pandas 最基本的两个数据结构是 Series 和 DataFrame。Series 是一维的，类似于列表或数组；而 DataFrame 是二维的，类似于电子表格

# 创建一个 Series（就像 Excel 中的一列数据）
data = pd.Series([10, 20, 30, 40])# 创建一个 DataFrame（像 Excel 表格，有行有列）
data_dict = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data_dict)

基本的数据操作

如何查看、操作 DataFrame 的数据

# 查看前几行数据
print(df.head())  # 默认查看前5行# 查看数据信息，了解数据的详细信息，比如有多少列，每一列的类型
print(df.info())# 统计摘要，了解数值列的统计信息（比如平均值、最大值等）
print(df.describe())

2. 数据索引与选取

我们可以通过标签、位置索引以及布尔条件来选取数据

# 设你有一个带名字和年龄的表格，如何只看年龄列
# 通过标签选取列
age_column = df['Age'] # 这样就得到了年龄这列# 如果你想看某一行，比如第一个人是谁
# 通过行列位置选取
first_row = df.iloc[0] # iloc 用来按位置选取，0 表示第一行# 条件筛选
adults = df[df['Age'] > 30]

布尔索引与条件筛选

可以根据条件快速提取特定的数据

# 查找年龄大于30的人
adults = df[df['Age'] > 30]

3. 数据清洗与处理

缺失值处理

在实际数据集中，经常会遇到缺失值

# 统计每一列有多少缺失值
print(df.isnull().sum())# 填充缺失值 用 0 填充这些空的地方
df.fillna(value=0, inplace=True)# 删除缺失值
df.dropna(inplace=True)

数据类型转换

有时我们需要将数据类型进行转换

# 将列转换为日期格式
df['Date'] = pd.to_datetime(df['Date'])

重命名与重复值处理

可以对 DataFrame 中的列进行重命名，或去除重复的行

# 重命名列
df.rename(columns={'Age': 'Years'}, inplace=True)# 删除重复值
df.drop_duplicates(inplace=True)

4. 数据聚合与分组操作

Pandas 的 groupby 和聚合函数可以帮助我们对数据进行分组和汇总，简化数据分析的工作

# 比如你需要根据某个条件对数据进行分组，比如想知道每个年龄段的平均工资是多少
# 按年龄分组，并计算平均数
grouped = df.groupby('Age').mean()# 聚合操作
aggregated = df.groupby('Age').agg({'Salary': ['mean', 'max']})

数据透视表

类似 Excel 的数据透视表功能，可以用于复杂的多维数据分析

# 创建透视表
pivot_table = df.pivot_table(values='Salary', index='Department', columns='Age', aggfunc='mean')

5. 数据可视化

可以与 Matplotlib 和 Seaborn 集成（后出文讲解，这个知道他是可视化工具就可以啦），实现数据的可视化

import matplotlib.pyplot as plt# 简单的折线图
df['Age'].plot(kind='line')
plt.show()# 使用 Seaborn 进行高级可视化
import seaborn as sns
sns.boxplot(x=df['Age'])
plt.show()

6. 数据处理技巧

数据归一化与标准化

有时为了让不同的数据更好地比较，我们就会对数据进行归一化或标准化。举例，如果年龄的范围是 20 到 60 岁，就可以把它“压缩”到 0 和 1 之间

数据归一化和标准化是常见的预处理步骤，以保证模型收敛速度更快，效果更好

# 数据归一化
df['Normalized_Age'] = (df['Age'] - df['Age'].min()) / (df['Age'].max() - df['Age'].min())# 数据标准化
df['Standardized_Age'] = (df['Age'] - df['Age'].mean()) / df['Age'].std()

特征工程中的 Pandas 操作

特征工程非常重要（以后写），Pandas 可以快速进行数据转换和特征创建

# 创建新的特征列
df['Age_Squared'] = df['Age'] ** 2# 处理分类变量
df = pd.get_dummies(df, columns=['Category'])

7. 实战里的操作

假设你有一个大规模的数据集，需要对其进行处理并应用到深度学习模型中
这里是一些常见的操作

# 从大文件中逐块读取数据
chunk_size = 10000
for chunk in pd.read_csv('large_dataset.csv', chunksize=chunk_size):# 对每个数据块进行处理processed_chunk = process_data(chunk)

因为当你处理非常大的数据集时，你可能没办法一次性加载所有数据。所以你需要把数据按块加载，并分批处理

数据清洗与特征工程

在预处理深度学习数据集时清洗数据和生成有效特征

# 清洗数据
df_cleaned = df.dropna()# 生成新特征
df_cleaned['interaction_feature'] = df_cleaned['Feature1'] * df_cleaned['Feature2']

深度学习：pandas篇

1. Pandas 基础 Pandas 是一个帮助你处理和分析数据的工具安装 Pandas pip install pandas 导入 Pandas，我们用 pd 来代替 Pandas 的全称，这样以后写代码的时候更简洁 import pandas as pd 建 Series 和 DataFrame Pandas 最基本的两个数据结构是…...

编程日记 2024/10/24 11:07:05

Redis学习文档（Redis基本数据类型【Hash、Set】）

Hash（哈希） 介绍 Redis 中的 Hash 是一个 String 类型的 field-value（键值对） 的映射表，特别适合用于存储对象，后续操作的时候，你可以直接修改这个对象中的某些字段的值。 Hash 类似于 JDK1.…...

编程日记 2024/10/24 11:04:58

15分钟学Go 第9天：函数的定义与调用

第9天：函数的定义与调用欢迎来到第9天的Go语言学习模块！今天我们将深入探讨函数的定义与调用，帮助你掌握如何编写和使用函数。学习函数不仅是Go语言的基础，也是程序设计的核心概念之一。这一节将详细介绍函数的结构、参数传递、…...

编程日记 2024/10/24 11:02:56

Java虚拟机：JVM介绍

1024 程序员节日快乐！愿您我的代码永远没有 bug ，人生永远没有 bug ！ JVM 概述JVM 架构概述 JVM（ Java Virtual Machine ，Java 虚拟机），是 Java 语言的运行环境，是运行所有 Java 程…...

编程日记 2024/10/24 11:00:53

R数据科学 16.5.3练习题

(1) 编写代码以使用一种映射函数完成以下任务。 a. 计算 mtcars 数据集中每列的均值。 b. 确定 nycflights13::flights 数据集中每列的类型。 c. 计算 iris 数据集中每列唯一值的数量。 d. 分别使用 μ -10、0、10 和 100 的正态分布生成 10 个随机数。 library(purrr) # 计算…...

编程日记 2024/10/24 10:59:52

通过conda install -c nvidia cuda=“11.3.0“ 安装低版本的cuda，但是却安装了高版本的12.4.0

问题直接通过 conda install -c nvidia cuda"11.3.0"安装得到的却是高版本的不清楚原理解决方法不过我们可以分个安装 runtime toolkit 和 nvcc 安装指定版本的 cudatoolkit 和 nvcc conda install -c nvidia cuda-cudart"11.3.58" conda instal…...

编程日记 2024/10/24 10:58:51

简易CPU设计入门：验证取指令模块

项目代码下载还是请大家首先准备好本项目所用的源代码。如果已经下载了，那就不用重复下载了。如果还没有下载，那么，请大家点击下方链接，来了解下载本项目的CPU源代码的方法。下载本项目代码准备好了项目源代码以后&#xff…...

编程日记 2024/10/24 10:57:49

【MySQL数据库】MySQL主从复制

文章目录 MySQL主从复制MySQL主从复制的分类MySQL主从复制原理MySQL主从复制的配置步骤MySQL主从复制的同步模式 MySQL主从复制实验环境准备关闭防火墙和 SELinux时间同步主服务器设置从服务器设置 MySQL 主从复制配置主服务器配置从服务器配置（以 Slave1 为例&…...

编程日记 2024/10/24 10:56:48

CDC变更数据捕捉技术是什么？和ETL有什么不同？

一、什么是CDC技术? 变更数据捕获（Change Data Capture，简称 CDC）是一种用于识别和跟踪数据源中发生变化的数据的技术。工作原理： 1.监测数据源：CDC 工具会持续监测指定的数据源，如数据库表、文件系统…...

编程日记 2024/10/24 10:55:47

论文标题：A Federated Learning Platform as a Service for Advancing Stroke Management in European Clinical Centers 作者信息： Diogo Reis Santos, Albert Sund Aillet, Antonio Boiano, Usevalad Milasheuski, Lorenzo Giusti, Marco Di Gennaro…...

编程日记 2024/10/24 10:54:45

给哔哩哔哩bilibili电脑版做个手机遥控器

前言 bilibili电脑版可以在电脑屏幕上观看bilibili视频。然而，电脑版的bilibili不能通过手机控制视频翻页和调节音量，这意味着观看视频时需要一直坐在电脑旁边。那么，有没有办法制作一个手机遥控器来控制bilibili电脑版呢？ 首先…...

编程日记 2024/10/24 10:49:40

opencv dnn模块示例(27) 目标检测 object_detection 之 yolov11

文章目录 1、YOLO v11 介绍1.1、改进点特性1.2、性能对比1.3、多任务支持 2、测试2.1、官方Python测试2.2、Opencv dnn测试2.3、测试统计 3、训练 1、YOLO v11 介绍 YOLO11是Ultralytics实时目标探测器系列中最新的迭代版本，重新定义尖端的精度、速度和效率。在以往…...

编程日记 2024/10/24 10:48:38

鸿蒙开发融云demo初始化和登录

鸿蒙开发融云IMKit初始化和登录融云鸿蒙版是不带UI的，得自己一步步搭建。下面说如何初始化和登录： 一、初始化： /*** desc : 初始化融云* author : congge on 2024-07-12 15:47**/public static initRongIm() {IMEngine.getInstance()…...

编程日记 2024/10/24 10:47:37

手机防窥膜的工作原理是怎样的？有必要使用防窥膜吗？

在信息高度发达的社会中，我们通过手机可以实现非常多的操作，同时手机中有存在许多我们的隐私信息，伴随使用手机的时间增多，手机中的信息也有可能被暴露，尤其是在公共场所旁人很容易通过瞥视你的手机屏幕获取到一些信息…...

编程日记 2024/10/24 10:43:30

【Python_PySide6学习笔记（三十九）】基于QLineEdit实现自定义文本框，用于格式化文本，每四个字符后添加一个空格

基于QLineEdit实现自定义文本框，用于格式化文本，每四个字符后添加一个空格基于QLineEdit实现自定义文本框，用于格式化文本，每四个字符后添加一个空格前言1、实现要点1.1 继承和初始化1.2 定义textChanged的槽函数1.3 格式化逻辑1…...

编程日记 2024/10/24 10:42:29

23种设计模式口诀速记

设计模式的核心在于提供了相关问题的解决方案，使得人们可以更加简单方便的复用成功的设计和体系结构 23种设计模式，此处不举例，可以去看我上传的资源里面由详细汇总口诀： 创建：想见员工丹 [抽象工厂、建造者(生成者…...

编程日记 2024/10/24 10:36:20

n ＞ m 将输出文件 m 和 n 合并。 n ＜ m 将输入文件 m 和 n 合并。有什么区别

在你的描述中，似乎有一点误解。n >& m 和 n <& m 并不是用来合并文件的，而是用于重定向文件描述符（file descriptors）。让我澄清一下这两个命令的确切含义以及它们之间的区别。 n >& m —— 输出重定向含…...

编程日记 2024/10/24 10:35:19

语言障碍在自闭症儿童中的表现及应对

自闭症儿童常常面临着语言障碍的困扰，这给他们的成长和发展带来了巨大挑战。语言障碍在自闭症儿童中的表现形式多样。比如，有个叫小明的自闭症儿童，已经五岁了却还只会说一些简单的词语，如 “爸爸”“妈妈”“要” 等&#xff0c…...

编程日记 2024/10/24 10:33:16

（成功解决）ubuntu22.04不小心更新成了atzlinux12.7.1，右上角出现红色错误符号

文章目录 🌕问题🌕查看系统版本🌕为什么更新更成了atzlinux🌕通过修复依赖关系尝试解决右上角红色错误符号🌕把源换成ubuntu的源🌕删除atzlinux源和自定义的第三方源🌕重新创建/etc/os-release文…...

编程日记 2024/10/24 10:32:14

005 C#语言基本元素概览，初识类型，变量与方法

构成C#语言的基本元素标记 ：C#编译器可以识别的文本关键字(Keyword)操作符(Operator)标识符(Identifier)标点符号文本注释和空白简要介绍数据据类型、变量与方法变量是存放数据的地方，简称数据方法是处理数据的逻辑，简称算法程序…...

编程日记 2024/10/24 10:31:12

TSL2561光传感器Arduino库原理与低功耗工程实践

1. TSL2561光强传感器Arduino库深度解析与工程实践1.1 传感器原理与硬件特性TSL2561是由TAOS（现为AMS）推出的高精度数字环境光传感器，采用CMOS工艺集成双通道光电二极管阵列，分别对可见光（VIS）和红外光&…...

编程新知 2026/3/30 3:28:51

LeetCodehot100-25 K 个一组翻转链表

class Solution { public:ListNode* reverseKGroup(ListNode* head, int k) {if (head nullptr || k 1) return head;ListNode dummy(0);dummy.next head;ListNode* prev &dummy; // 指向待反转组的前一个节点while (true) {// 检查剩余节点是否够k个ListNode* tail …...

编程新知 2026/3/30 3:18:47

鸽姆智库（GG3M Think Tank）核心优势 |Core Strengths of GG3M Think Tank

鸽姆智库（GG3M Think Tank）核心优势鸽姆智库（GG3M Think Tank）的核心优势体现在理论原创性、技术架构创新、东方智慧深度融入与全场景工程落地能力四大维度，构成全球首个以东方哲学为根基的“文明级操作系统”&#xf…...

编程新知 2026/3/30 2:34:34

Wii Nunchuk嵌入式驱动库：I²C协议解析与跨平台适配

1. WiiChuck库概述：面向嵌入式系统的Wii Nunchuk通用适配框架WiiChuck是一个专为嵌入式平台设计的Wii Nunchuk（任天堂Wiimote扩展手柄）通用驱动库，其核心定位是提供跨平台、可裁剪、高可靠性的IC通信接口抽象层。该库并非简单封装…...

编程新知 2026/3/30 1:34:13

24小时运行不掉线：OpenClaw+GLM-4.7-Flash监控告警方案

24小时运行不掉线：OpenClawGLM-4.7-Flash监控告警方案 1. 为什么需要自动化监控告警去年夏天的一个深夜，我负责维护的某个内部服务突然崩溃。直到第二天早上用户反馈才发现问题，整整8小时的服务中断让我意识到：人工巡检存在天然…...

编程新知 2026/3/30 0:53:46

从PointNet++到SoftGroup：手把手带你复现5个经典3D点云分割算法（附PyTorch代码）

从PointNet到SoftGroup：5大3D点云分割算法实战解析与PyTorch实现指南 1. 3D点云分割技术演进与核心挑战在三维视觉领域，点云分割技术正经历着从基础架构到复杂系统的革命性演变。不同于传统图像处理，点云数据具有非结构化、稀疏性和无序性三…...

编程新知 2026/3/30 0:43:44

Windows Cleaner：智能存储管理解决方案让C盘空间释放效率提升60%

Windows Cleaner：智能存储管理解决方案让C盘空间释放效率提升60% 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 当系统频繁弹出"磁盘空间不足&q…...

编程新知 2026/3/30 0:35:43