Python 利用pandas处理CSV文件(DataFrame的基础用法)
前面介绍过通过Python标准库中的CSV模块处理CSV文件:
Python 利用CSV模块处理数据
相比CSV模块,pandas的功能更加强大,本文将简单介绍如何通过pandas来处理CSV文件。
文章目录
- 一、pandas简介
- 二、用法示例
- 2.1 读取CSV文件
- 2.1.1 read_csv参数
- 2.1.2 "坏行"的处理
- 2.2 引用数据
- 2.2.1 位置索引和标签索引
- 2.2.2 使用[]引用数据
- 2.2.3 使用.loc属性通过标签引用数据
- 2.2.4 使用.iloc属性通过位置引用数据
- 2.3 数据过滤
- 2.3 写回csv文件
一、pandas简介
pandas是一个第三方数据分析库,其集成了大量的数据分析工具,可以方便的处理和分析各类数据。这是一个第三方库,使用下面的命令可以安装pandas:
pip install pandas
利用pandas处理CSV文件主要分为3步:
- 通过read_csv()函数,将数据转化为pandas的DataFrame(数据帧)对象,这是一个二维数据对象,集成了大量数据处理方法。
- 操作DataFrame对象,通过自带的方法,完成各种数据处理。
- 通过DataFrame对象的to_csv()方法将数据写回CSV文件。
二、用法示例
我们先创建一个示例文件,将下面的数据拷贝到文件employees.csv中并保存:
emp_no,birth_date,first_name,last_name,gender,salary
1,1953-09-02,Georgi,Facello,M,1000
2,1964-06-02,Bezalel,Simmel,F,2000
3,1959-12-03,Parto,Bamford,M,3000
4,1954-05-01,Chirstian,Koblick,M,4000
5,1955-01-21,Kyoichi,Maliniak,M,5000
6,1953-04-20,Anneke,Preusig,F,6000
7,1957-05-23,Tzvetan,Zielinski,F,7000
8,1958-02-19,Saniya,Kalloufi,M,8000
9,1952-04-19,Sumant,Peac,F,9000
数据对应的excel格式,作为参考:

2.1 读取CSV文件
保证employees.csv文件在当前目录下(或提供文件的绝对路径也可以),例如示例文件保存在d:\dir1目录下,先切换到该目录下:
import os
os.chdir(r'd:\dir1')

pandas的read_csv函数可以读取CSV文件,并返回一个DataFrame对象,首次使用要先导入pandas模块,使用read_csv()函数读取csv文件,并将返回的DataFrame对象赋给变量名df:
import pandas as pd
df = pd.read_csv('employees.csv')
df

2.1.1 read_csv参数
read_csv()在读取过程中有很多自定义设置,上面的示例中只提供了文件名,其他参数都采用了默认值。根据数据格式的不同,可能需要对某些参数进行调整,read_csv函数的常用参数如下:
- sep/delimiter:分隔符,默认为逗号,相当于sep=‘,’,如果文件内容以非逗号分隔,需要显式指定此参数或者使用sep=None来让pandas自己判断分隔符。
- delim_whitespace:是否以空格作为分隔符,相当于sep=‘\s+’,当这个参数被设置为True时,不能使用sep参数。
- header:指定第几行作为列名,并指定数据的起始行,默认header=0,表示第1行作为列名(编号从0开始),数据从第二行开始。如果数据中没有列名,需要指定header=None,这样从第1行开始全部都会当成数据。
- names:用来自定义列名
- index_col:指定某一列作为行索引(默认是0开始的整数)
- usecols:选择列的子集,即只读取指定列
示例:仅选取部分列,只读取emp_no,first_name, salary 这3列,使用参数usecols指定这3列:
df1 = pd.read_csv('employees.csv', usecols=['emp_no', 'first_name', 'salary'])

自定义列名:读取数据并使用col1~col6定义列名,由于原数据第一行为列名,使用header=0指定第一行为列名,这样第一行不会被读作数据。然后使用names参数重新指定列名:
name_list = ['col1', 'col2', 'col3','col4','col5','col6']
df2 = pd.read_csv('employees.csv', header=0, names=name_list)

2.1.2 "坏行"的处理
很多时候我们得到数据格式并不规范,可能出现有些行数据缺失,有些行数据又多。read_csv函数在遇到数据缺失的列会自动用NaN(在pandas中代表空值)来填充(我们把文件中第七行的salary删除,重新读取后,可以看到会用自动用NaN填充):
df2 = pd.read_csv('employees.csv')

但是对于数据列多的行,默认是报错的。在文件第8行后多加一列数据,提示解析错误,期望6列,但是有7列:
df3 = pd.read_csv('employees.csv')

对于这类错误,我们可以用on_bad_lines='skip’来跳过这些行,不影响其他数据的读取,从结果也上可以看到emp_no为8的数据被忽略了:
df3 = pd.read_csv('employees.csv', on_bad_lines='skip')

2.2 引用数据
在完成文件的读取后我们就获得了一个DataFrame对象,利用其自带的方法可以快速进行数据预处理,相对于使用Python代码,可以节约大量逻辑编写的时间。
对数据进行处理的第一步就是引用数据,pandas常用的数据引用方法有:
- 使用[]对数据进行引用
- 使用.loc属性通过标签对数据进行引用
- 使用.iloc属性通过位置对数据进行引用
2.2.1 位置索引和标签索引
在引用数据前先弄清楚位置索引和标签索引:
- 位置索引:行/列的位置编号,从0开始,公差为1的等差数列,0,1,2,3,4….,一定是数字
- 标签索引:行/列的"别名",可以自定义。其中行的标签索引又叫"索引标签",列的标签索引又叫"列标签"。
标签索引如果未显式指定,则默认和位置索引相同。
例如下面的df,红框中的都是标签索引:
- 列标签是emp_no, birth_date ……,
- 索引标签由于未显式指定,所以和位置索引相同,为0,1,2,3,4….,但它不是位置索引。

在标签索引中,可以通过df.index和df.columns属性来分别查看索引标签和列标签:
df.index
df.columns

通过给对应的属性赋值,可以改变标签,通过下面的例子可以直观看到,红框中的0,1,2,3…是索引标签,而不是位置标签:
df.index = [0,1,2,3,'a','b','c','d','e']

2.2.2 使用[]引用数据
使用df[‘列标签’]的格式,通过列标签可以引用数据列,例如选择frist_name列:
df['first_name']

如果要引用多个列,以列表的形式传入多个列,例如选择emp_no, first_name, last_name这3列:
df[['emp_no', 'first_name', 'last_name']]

使用df[start:stop:step]的格式,可以通过位置索引引用行,这和标准的Python切片语法相同(这里不详细介绍):
df[0:4] # 注意[0:4]含头不含尾,即位置索引为0,1,2,3的行

df[::2] # 每隔一行选择,start和stop省略代表全部,2代表步长

df[::-1] # 负的步长代表从结尾开始选择,-1即相当于倒序

2.2.3 使用.loc属性通过标签引用数据
使用[]的引用方式可能有些复杂,它在引用列的时候用的是标签索引,而在引用行的时候是位置索引。
pandas提供了更直观的.loc和.iloc属性:
- .loc专门使用标签索引来引用数据(分片含结尾)
- .iloc专门使用位置索引来引用数据(分片不含结尾)
使用df.loc[‘索引标签’, ‘列标签’]可以引用数据。标签之间用逗号分隔,标签内部的分片用冒号分隔,省略则代表全部。注意,.loc属性中的分片是包含结尾的,这和标准的python分片语法不同。
引用a行(返回的是pandas一维数据类型Series):
df.loc['a'] # 列标签省略,代表所有列,相当于df.loc['a',:]

引用birth_date列:
df.loc[:,'birth_date'] # 行标签省略,代表所有行,用:占位

引用a-e行,及emp_no到last_name列,注意e行和last_name列都是包含在分片结果中的:
df.loc['a':'e', 'emp_no':'last_name']

引用a行,birth_date列的单一元素(没有分片):
df.loc['a', 'birth_date']

2.2.4 使用.iloc属性通过位置引用数据
.iloc的使用方式和.loc很像,只是将索引标签换成了位置标签。语法为df.iloc[‘行位置索引’, ‘列位置索引’],注意.iloc的分片是不包含结尾的(和python相同)。
引用第1,2行:
df.iloc[0:2] # 引用行位置索引为0,1的行,2是不包含在结果中的,相当于df.iloc[0:2, :]

引用第1,2列:
df.iloc[:,0:2] # 行位置索引的:表示全部行

引用1,2行的3,4列数据:
df.iloc[0:2, 2:4]

数据引用配合赋值符号’=',即可以修改DataFrame中的值,例如将emp_no为9的salary改为9999
df.loc['e', 'salary'] = 9999

其他的数据引用方式还有通过属性进行引用,但这种方式存在缺陷,不推荐,这里也不进行介绍。重点掌握.loc和.iloc的方法即可。
2.3 数据过滤
DataFrame的数据过滤非常方便,例如我要选择salary大于5000的数据,下面表达式即是salary列测试结果,由bool型数据组成:
df['salary']>5000

只需要将其再代入df,即可筛选出满足条件的数据:
df[ df['salary']>5000 ]

或者使用query方法,基于字符串形式的条件,直接过滤出结果:
df.query('salary>5000')

2.3 写回csv文件
完成数据处理后,使用DataFrame对象自带的to_csv方法来将数据写回文件,主要参数与read_csv类似:
- sep:分隔符,默认是逗号。
- columns:指定哪些列写入文件
- header:是否将标题写入文件,默认是True
- index:是否将行索引写入文件,默认是True
假设要将salary>5000的数据筛选出来后,重新写入一个CSV文件,你可以直接调用DataFrame的to_csv方法:
df_result = df.query('salary>5000')
df_result.to_csv('result.csv', index=False)


本文的案例只是展示了最简单及最常用的DataFrame数据处理方法,实际pandas的数据处理功能远远不止这些,有兴趣的同学可以自行深入探索。
相关文章:
Python 利用pandas处理CSV文件(DataFrame的基础用法)
前面介绍过通过Python标准库中的CSV模块处理CSV文件: Python 利用CSV模块处理数据 相比CSV模块,pandas的功能更加强大,本文将简单介绍如何通过pandas来处理CSV文件。 文章目录 一、pandas简介二、用法示例2.1 读取CSV文件2.1.1 read_csv参数…...
c++ 的(引用)和*(指针)
在C中,&(引用)和*(指针)在函数参数中的使用有各自的特点和用途。下面是它们的具体使用方式以及它们之间的一些区别: 引用(&) 使用方式: 引用作为函数参数时,可…...
人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解
大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解。在机器学习领域,聚类是一种无监督学习方法,旨在将相似的数据点划分为同一类别。sklearn是一个广泛应用于机器学习的Py…...
Objective-C 中的 isa 不再是简单的结构体指针
了解 Objective-C 中的 isa 指针内存结构 在 Objective-C 中,isa 指针是对象和类之间的重要桥梁。它不仅帮助运行时系统识别对象的类型,还参与了一些内存和性能优化。本文将深入讲解 isa 指针的内存结构,包括其在早期和现代实现中的演变。 …...
中介子方程五十二
XXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXXiXhXXpXiXXpXXbXXpXXiXpXXhXiXXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXaXnXaXXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXXiXhXXpXiXXpXXbXXpXXiXpXXhXiXXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXa…...
LabVIEW在半导体自动化测试中的应用
半导体制造的复杂性和精密度要求极高,每一个生产步骤都需要严格的控制和监测。自动化测试设备在半导体制造中起到了关键作用,通过精密测量和数据分析,确保产品质量和生产效率。本文介绍如何使用LabVIEW结合研华硬件,开发一个用于半…...
政安晨:【Keras机器学习示例演绎】(五十三)—— 使用 TensorFlow 决策森林进行分类
目录 简介 设置 准备数据 定义数据集元数据 配置超参数 实施培训和评估程序 实验 1:使用原始特征的决策森林 检查模型 实验 2:目标编码决策森林 创建模型输入 使用目标编码实现特征编码 使用预处理器创建梯度提升树模型 训练和评估模型 实验…...
51单片机:电脑通过串口控制LED亮灭(附溢出率和波特率详解)
一、功能实现 1.电脑通过串口发送数据:0F 2.点亮4个LED 二、注意事项 1.发送和接受数据的文本模式 2.串口要对应 3.注意串口的波特率要和程序中的波特率保持一致 4.有无校验位和停止位 三、如何使用串口波特率计算器 1.以本程序为例 2.生成代码如下 void Uar…...
Java中的消息中间件选择与比较
Java中的消息中间件选择与比较 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 在分布式系统中,消息中间件是一种关键组件,它能帮助不同…...
react基础语法,模板语法,ui渲染,jsx,useState状态管理
创建一个react应用 这里使用create-react-app的脚手架构建项目(结构简洁,基于webpack-cli), npx create-react-app [项目名称] 使用其他脚手架构建项目可以参考:react框架,使用vite和nextjs构建react项目…...
OJ-0710
示例1 input 4 100 200 300 5001 21 32 4output700100 200 500 300 示例2 input 4 100 200 300 500 1 2 1 3 1 4output1100100 200500300 示例3 input 6 100 200 300 400 300 550 1 2 1 3 1 4 2 5 2 6output1050100 200 300600 300400 import java.util.ArrayList; im…...
人工智能在自动驾驶中的目标检测研究
摘要 随着自动驾驶技术的快速发展,视觉识别作为核心技术之一,扮演着至关重要的角色。本文旨在探讨人工智能如何通过视觉识别在自动驾驶中进行目标检测。我们将详细讨论目标检测的基本原理、常用算法、最新进展、已有的开源项目及其在自动驾驶中的应用和…...
【合并两个有序数组】
合并两个有序数组 一、题目二、普通解法三、双指针 一、题目 二、普通解法 先合并后排序 补充:js合并数组方法详见https://blog.csdn.net/ACCPluzhiqi/article/details/131702269?fromshareblogdetail js排序方法见http://t.csdnimg.cn/wVCOP 时间复杂度:O(mn)…...
链表 OJ(一)
移除链表元素 题目连接: https://leetcode.cn/problems/remove-linked-list-elements/description/ 使用双指针法,开始时,一个指针指向头节点,另一个指针指向头节点的下一个结点,然后开始遍历链表删除结点。 这里要注…...
《Linux与Windows文件系统的区别》
Linux与Windows文件系统的区别 在计算机操作系统领域,Linux和Windows是两种广泛使用的操作系统,它们在文件系统方面有许多显著的差异。这篇博客将详细介绍这两种操作系统文件系统的区别,帮助读者更好地理解它们各自的特点和优势。 类别Linu…...
批量修改Git历史commit信息中的username
之前很长一段时间GitHub上的提交都在使用工作账户, 导致私人仓库中的提交者比较混乱. 在StackOver里面找到了一个bash脚本可以批量修改username, 在这里记录一下. 修改的步骤一共两步: 执行修改脚本将本地修改同步到Git服务器 首先我们来看脚本: #!/bin/shgit filter-branch…...
LabVIEW与ABB工业机器人据监控
1. 前言 随着工业自动化的发展,工业机器人在制造业中的应用越来越广泛。为了实现对工业机器人的高效监控和控制,本文介绍了利用OPC(OLE for Process Control)服务器将ABB工业机器人与LabVIEW连接起来的解决方案。通过OPC服务器…...
c++栈内存和堆内存的基本使用
c栈内存和堆内存的基本使用 #include <iostream>// 定义一个简单的结构体 struct Person {std::string name;int age; };int main() {// 栈内存分配int a 10; // 基本数据类型的栈内存分配Person person; // 结构体的栈内存分配person.name "John";person.a…...
快速入门,springboot知识点汇总
学习 springboot 应该像学习一门编程语言一样,首先要熟练掌握常用的知识,而对于不常用的内容可以简单了解一下。先对整个框架和语言有一个大致的轮廓,然后再逐步补充细节。 前序: Spring Boot 通过简化配置和提供开箱即用的特性,…...
Ubuntu20.04系统非root用户安装GAMIT10.71
(测试环境:20240701升级包和20240701数据,解算通过) QQ:8212714 群:302883438群文件(source安装包20240701升级包) 1、首先在计算机中安装VMware Workstation 16 Pro。建议:分配…...
网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...
mongodb源码分析session执行handleRequest命令find过程
mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程,并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令,把数据流转换成Message,状态转变流程是:State::Created 》 St…...
【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表
1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...
srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
高危文件识别的常用算法:原理、应用与企业场景
高危文件识别的常用算法:原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件,如包含恶意代码、敏感数据或欺诈内容的文档,在企业协同办公环境中(如Teams、Google Workspace)尤为重要。结合大模型技术&…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)
Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败,具体原因是客户端发送了密码认证请求,但Redis服务器未设置密码 1.为Redis设置密码(匹配客户端配置) 步骤: 1).修…...
dify打造数据可视化图表
一、概述 在日常工作和学习中,我们经常需要和数据打交道。无论是分析报告、项目展示,还是简单的数据洞察,一个清晰直观的图表,往往能胜过千言万语。 一款能让数据可视化变得超级简单的 MCP Server,由蚂蚁集团 AntV 团队…...
