Python 利用pandas处理CSV文件(DataFrame的基础用法)
前面介绍过通过Python标准库中的CSV模块处理CSV文件:
Python 利用CSV模块处理数据
相比CSV模块,pandas的功能更加强大,本文将简单介绍如何通过pandas来处理CSV文件。
文章目录
- 一、pandas简介
- 二、用法示例
- 2.1 读取CSV文件
- 2.1.1 read_csv参数
- 2.1.2 "坏行"的处理
- 2.2 引用数据
- 2.2.1 位置索引和标签索引
- 2.2.2 使用[]引用数据
- 2.2.3 使用.loc属性通过标签引用数据
- 2.2.4 使用.iloc属性通过位置引用数据
- 2.3 数据过滤
- 2.3 写回csv文件
一、pandas简介
pandas是一个第三方数据分析库,其集成了大量的数据分析工具,可以方便的处理和分析各类数据。这是一个第三方库,使用下面的命令可以安装pandas:
pip install pandas
利用pandas处理CSV文件主要分为3步:
- 通过read_csv()函数,将数据转化为pandas的DataFrame(数据帧)对象,这是一个二维数据对象,集成了大量数据处理方法。
- 操作DataFrame对象,通过自带的方法,完成各种数据处理。
- 通过DataFrame对象的to_csv()方法将数据写回CSV文件。
二、用法示例
我们先创建一个示例文件,将下面的数据拷贝到文件employees.csv中并保存:
emp_no,birth_date,first_name,last_name,gender,salary
1,1953-09-02,Georgi,Facello,M,1000
2,1964-06-02,Bezalel,Simmel,F,2000
3,1959-12-03,Parto,Bamford,M,3000
4,1954-05-01,Chirstian,Koblick,M,4000
5,1955-01-21,Kyoichi,Maliniak,M,5000
6,1953-04-20,Anneke,Preusig,F,6000
7,1957-05-23,Tzvetan,Zielinski,F,7000
8,1958-02-19,Saniya,Kalloufi,M,8000
9,1952-04-19,Sumant,Peac,F,9000
数据对应的excel格式,作为参考:
2.1 读取CSV文件
保证employees.csv文件在当前目录下(或提供文件的绝对路径也可以),例如示例文件保存在d:\dir1目录下,先切换到该目录下:
import os
os.chdir(r'd:\dir1')
pandas的read_csv函数可以读取CSV文件,并返回一个DataFrame对象,首次使用要先导入pandas模块,使用read_csv()函数读取csv文件,并将返回的DataFrame对象赋给变量名df:
import pandas as pd
df = pd.read_csv('employees.csv')
df
2.1.1 read_csv参数
read_csv()在读取过程中有很多自定义设置,上面的示例中只提供了文件名,其他参数都采用了默认值。根据数据格式的不同,可能需要对某些参数进行调整,read_csv函数的常用参数如下:
- sep/delimiter:分隔符,默认为逗号,相当于sep=‘,’,如果文件内容以非逗号分隔,需要显式指定此参数或者使用sep=None来让pandas自己判断分隔符。
- delim_whitespace:是否以空格作为分隔符,相当于sep=‘\s+’,当这个参数被设置为True时,不能使用sep参数。
- header:指定第几行作为列名,并指定数据的起始行,默认header=0,表示第1行作为列名(编号从0开始),数据从第二行开始。如果数据中没有列名,需要指定header=None,这样从第1行开始全部都会当成数据。
- names:用来自定义列名
- index_col:指定某一列作为行索引(默认是0开始的整数)
- usecols:选择列的子集,即只读取指定列
示例:仅选取部分列,只读取emp_no,first_name, salary 这3列,使用参数usecols指定这3列:
df1 = pd.read_csv('employees.csv', usecols=['emp_no', 'first_name', 'salary'])
自定义列名:读取数据并使用col1~col6定义列名,由于原数据第一行为列名,使用header=0指定第一行为列名,这样第一行不会被读作数据。然后使用names参数重新指定列名:
name_list = ['col1', 'col2', 'col3','col4','col5','col6']
df2 = pd.read_csv('employees.csv', header=0, names=name_list)
2.1.2 "坏行"的处理
很多时候我们得到数据格式并不规范,可能出现有些行数据缺失,有些行数据又多。read_csv函数在遇到数据缺失的列会自动用NaN(在pandas中代表空值)来填充(我们把文件中第七行的salary删除,重新读取后,可以看到会用自动用NaN填充):
df2 = pd.read_csv('employees.csv')
但是对于数据列多的行,默认是报错的。在文件第8行后多加一列数据,提示解析错误,期望6列,但是有7列:
df3 = pd.read_csv('employees.csv')
对于这类错误,我们可以用on_bad_lines='skip’来跳过这些行,不影响其他数据的读取,从结果也上可以看到emp_no为8的数据被忽略了:
df3 = pd.read_csv('employees.csv', on_bad_lines='skip')
2.2 引用数据
在完成文件的读取后我们就获得了一个DataFrame对象,利用其自带的方法可以快速进行数据预处理,相对于使用Python代码,可以节约大量逻辑编写的时间。
对数据进行处理的第一步就是引用数据,pandas常用的数据引用方法有:
- 使用[]对数据进行引用
- 使用.loc属性通过标签对数据进行引用
- 使用.iloc属性通过位置对数据进行引用
2.2.1 位置索引和标签索引
在引用数据前先弄清楚位置索引和标签索引:
- 位置索引:行/列的位置编号,从0开始,公差为1的等差数列,0,1,2,3,4….,一定是数字
- 标签索引:行/列的"别名",可以自定义。其中行的标签索引又叫"索引标签",列的标签索引又叫"列标签"。
标签索引如果未显式指定,则默认和位置索引相同。
例如下面的df,红框中的都是标签索引:
- 列标签是emp_no, birth_date ……,
- 索引标签由于未显式指定,所以和位置索引相同,为0,1,2,3,4….,但它不是位置索引。
在标签索引中,可以通过df.index和df.columns属性来分别查看索引标签和列标签:
df.index
df.columns
通过给对应的属性赋值,可以改变标签,通过下面的例子可以直观看到,红框中的0,1,2,3…是索引标签,而不是位置标签:
df.index = [0,1,2,3,'a','b','c','d','e']
2.2.2 使用[]引用数据
使用df[‘列标签’]的格式,通过列标签可以引用数据列,例如选择frist_name列:
df['first_name']
如果要引用多个列,以列表的形式传入多个列,例如选择emp_no, first_name, last_name这3列:
df[['emp_no', 'first_name', 'last_name']]
使用df[start:stop:step]的格式,可以通过位置索引引用行,这和标准的Python切片语法相同(这里不详细介绍):
df[0:4] # 注意[0:4]含头不含尾,即位置索引为0,1,2,3的行
df[::2] # 每隔一行选择,start和stop省略代表全部,2代表步长
df[::-1] # 负的步长代表从结尾开始选择,-1即相当于倒序
2.2.3 使用.loc属性通过标签引用数据
使用[]的引用方式可能有些复杂,它在引用列的时候用的是标签索引,而在引用行的时候是位置索引。
pandas提供了更直观的.loc和.iloc属性:
- .loc专门使用标签索引来引用数据(分片含结尾)
- .iloc专门使用位置索引来引用数据(分片不含结尾)
使用df.loc[‘索引标签’, ‘列标签’]可以引用数据。标签之间用逗号分隔,标签内部的分片用冒号分隔,省略则代表全部。注意,.loc属性中的分片是包含结尾的,这和标准的python分片语法不同。
引用a行(返回的是pandas一维数据类型Series):
df.loc['a'] # 列标签省略,代表所有列,相当于df.loc['a',:]
引用birth_date列:
df.loc[:,'birth_date'] # 行标签省略,代表所有行,用:占位
引用a-e行,及emp_no到last_name列,注意e行和last_name列都是包含在分片结果中的:
df.loc['a':'e', 'emp_no':'last_name']
引用a行,birth_date列的单一元素(没有分片):
df.loc['a', 'birth_date']
2.2.4 使用.iloc属性通过位置引用数据
.iloc的使用方式和.loc很像,只是将索引标签换成了位置标签。语法为df.iloc[‘行位置索引’, ‘列位置索引’],注意.iloc的分片是不包含结尾的(和python相同)。
引用第1,2行:
df.iloc[0:2] # 引用行位置索引为0,1的行,2是不包含在结果中的,相当于df.iloc[0:2, :]
引用第1,2列:
df.iloc[:,0:2] # 行位置索引的:表示全部行
引用1,2行的3,4列数据:
df.iloc[0:2, 2:4]
数据引用配合赋值符号’=',即可以修改DataFrame中的值,例如将emp_no为9的salary改为9999
df.loc['e', 'salary'] = 9999
其他的数据引用方式还有通过属性进行引用,但这种方式存在缺陷,不推荐,这里也不进行介绍。重点掌握.loc和.iloc的方法即可。
2.3 数据过滤
DataFrame的数据过滤非常方便,例如我要选择salary大于5000的数据,下面表达式即是salary列测试结果,由bool型数据组成:
df['salary']>5000
只需要将其再代入df,即可筛选出满足条件的数据:
df[ df['salary']>5000 ]
或者使用query方法,基于字符串形式的条件,直接过滤出结果:
df.query('salary>5000')
2.3 写回csv文件
完成数据处理后,使用DataFrame对象自带的to_csv方法来将数据写回文件,主要参数与read_csv类似:
- sep:分隔符,默认是逗号。
- columns:指定哪些列写入文件
- header:是否将标题写入文件,默认是True
- index:是否将行索引写入文件,默认是True
假设要将salary>5000的数据筛选出来后,重新写入一个CSV文件,你可以直接调用DataFrame的to_csv方法:
df_result = df.query('salary>5000')
df_result.to_csv('result.csv', index=False)
本文的案例只是展示了最简单及最常用的DataFrame数据处理方法,实际pandas的数据处理功能远远不止这些,有兴趣的同学可以自行深入探索。
相关文章:

Python 利用pandas处理CSV文件(DataFrame的基础用法)
前面介绍过通过Python标准库中的CSV模块处理CSV文件: Python 利用CSV模块处理数据 相比CSV模块,pandas的功能更加强大,本文将简单介绍如何通过pandas来处理CSV文件。 文章目录 一、pandas简介二、用法示例2.1 读取CSV文件2.1.1 read_csv参数…...
c++ 的(引用)和*(指针)
在C中,&(引用)和*(指针)在函数参数中的使用有各自的特点和用途。下面是它们的具体使用方式以及它们之间的一些区别: 引用(&) 使用方式: 引用作为函数参数时,可…...

人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解
大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程6-sklearn机器学习之聚类问题与代码详解。在机器学习领域,聚类是一种无监督学习方法,旨在将相似的数据点划分为同一类别。sklearn是一个广泛应用于机器学习的Py…...

Objective-C 中的 isa 不再是简单的结构体指针
了解 Objective-C 中的 isa 指针内存结构 在 Objective-C 中,isa 指针是对象和类之间的重要桥梁。它不仅帮助运行时系统识别对象的类型,还参与了一些内存和性能优化。本文将深入讲解 isa 指针的内存结构,包括其在早期和现代实现中的演变。 …...
中介子方程五十二
XXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXXiXhXXpXiXXpXXbXXpXXiXpXXhXiXXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXaXnXaXXFXXaXnXaXXαXLXyXXWXuXeXKXXiXyXΣXXΣXXVXuXhXXWXηXXiXhXXpXiXXpXXbXXpXXiXpXXhXiXXηXWXXhXuXVXXΣXXΣXyXiXXKXeXuXWXXyXLXαXXa…...

LabVIEW在半导体自动化测试中的应用
半导体制造的复杂性和精密度要求极高,每一个生产步骤都需要严格的控制和监测。自动化测试设备在半导体制造中起到了关键作用,通过精密测量和数据分析,确保产品质量和生产效率。本文介绍如何使用LabVIEW结合研华硬件,开发一个用于半…...

政安晨:【Keras机器学习示例演绎】(五十三)—— 使用 TensorFlow 决策森林进行分类
目录 简介 设置 准备数据 定义数据集元数据 配置超参数 实施培训和评估程序 实验 1:使用原始特征的决策森林 检查模型 实验 2:目标编码决策森林 创建模型输入 使用目标编码实现特征编码 使用预处理器创建梯度提升树模型 训练和评估模型 实验…...

51单片机:电脑通过串口控制LED亮灭(附溢出率和波特率详解)
一、功能实现 1.电脑通过串口发送数据:0F 2.点亮4个LED 二、注意事项 1.发送和接受数据的文本模式 2.串口要对应 3.注意串口的波特率要和程序中的波特率保持一致 4.有无校验位和停止位 三、如何使用串口波特率计算器 1.以本程序为例 2.生成代码如下 void Uar…...
Java中的消息中间件选择与比较
Java中的消息中间件选择与比较 大家好,我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编,也是冬天不穿秋裤,天冷也要风度的程序猿! 在分布式系统中,消息中间件是一种关键组件,它能帮助不同…...

react基础语法,模板语法,ui渲染,jsx,useState状态管理
创建一个react应用 这里使用create-react-app的脚手架构建项目(结构简洁,基于webpack-cli), npx create-react-app [项目名称] 使用其他脚手架构建项目可以参考:react框架,使用vite和nextjs构建react项目…...
OJ-0710
示例1 input 4 100 200 300 5001 21 32 4output700100 200 500 300 示例2 input 4 100 200 300 500 1 2 1 3 1 4output1100100 200500300 示例3 input 6 100 200 300 400 300 550 1 2 1 3 1 4 2 5 2 6output1050100 200 300600 300400 import java.util.ArrayList; im…...
人工智能在自动驾驶中的目标检测研究
摘要 随着自动驾驶技术的快速发展,视觉识别作为核心技术之一,扮演着至关重要的角色。本文旨在探讨人工智能如何通过视觉识别在自动驾驶中进行目标检测。我们将详细讨论目标检测的基本原理、常用算法、最新进展、已有的开源项目及其在自动驾驶中的应用和…...

【合并两个有序数组】
合并两个有序数组 一、题目二、普通解法三、双指针 一、题目 二、普通解法 先合并后排序 补充:js合并数组方法详见https://blog.csdn.net/ACCPluzhiqi/article/details/131702269?fromshareblogdetail js排序方法见http://t.csdnimg.cn/wVCOP 时间复杂度:O(mn)…...

链表 OJ(一)
移除链表元素 题目连接: https://leetcode.cn/problems/remove-linked-list-elements/description/ 使用双指针法,开始时,一个指针指向头节点,另一个指针指向头节点的下一个结点,然后开始遍历链表删除结点。 这里要注…...
《Linux与Windows文件系统的区别》
Linux与Windows文件系统的区别 在计算机操作系统领域,Linux和Windows是两种广泛使用的操作系统,它们在文件系统方面有许多显著的差异。这篇博客将详细介绍这两种操作系统文件系统的区别,帮助读者更好地理解它们各自的特点和优势。 类别Linu…...
批量修改Git历史commit信息中的username
之前很长一段时间GitHub上的提交都在使用工作账户, 导致私人仓库中的提交者比较混乱. 在StackOver里面找到了一个bash脚本可以批量修改username, 在这里记录一下. 修改的步骤一共两步: 执行修改脚本将本地修改同步到Git服务器 首先我们来看脚本: #!/bin/shgit filter-branch…...

LabVIEW与ABB工业机器人据监控
1. 前言 随着工业自动化的发展,工业机器人在制造业中的应用越来越广泛。为了实现对工业机器人的高效监控和控制,本文介绍了利用OPC(OLE for Process Control)服务器将ABB工业机器人与LabVIEW连接起来的解决方案。通过OPC服务器…...
c++栈内存和堆内存的基本使用
c栈内存和堆内存的基本使用 #include <iostream>// 定义一个简单的结构体 struct Person {std::string name;int age; };int main() {// 栈内存分配int a 10; // 基本数据类型的栈内存分配Person person; // 结构体的栈内存分配person.name "John";person.a…...

快速入门,springboot知识点汇总
学习 springboot 应该像学习一门编程语言一样,首先要熟练掌握常用的知识,而对于不常用的内容可以简单了解一下。先对整个框架和语言有一个大致的轮廓,然后再逐步补充细节。 前序: Spring Boot 通过简化配置和提供开箱即用的特性,…...

Ubuntu20.04系统非root用户安装GAMIT10.71
(测试环境:20240701升级包和20240701数据,解算通过) QQ:8212714 群:302883438群文件(source安装包20240701升级包) 1、首先在计算机中安装VMware Workstation 16 Pro。建议:分配…...
前端倒计时误差!
提示:记录工作中遇到的需求及解决办法 文章目录 前言一、误差从何而来?二、五大解决方案1. 动态校准法(基础版)2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言 前几天听说公司某个项…...

基于Flask实现的医疗保险欺诈识别监测模型
基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施,由雇主和个人按一定比例缴纳保险费,建立社会医疗保险基金,支付雇员医疗费用的一种医疗保险制度, 它是促进社会文明和进步的…...

为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?
在建筑行业,项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升,传统的管理模式已经难以满足现代工程的需求。过去,许多企业依赖手工记录、口头沟通和分散的信息管理,导致效率低下、成本失控、风险频发。例如&#…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
ffmpeg(四):滤镜命令
FFmpeg 的滤镜命令是用于音视频处理中的强大工具,可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下: ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜: ffmpeg…...

mac 安装homebrew (nvm 及git)
mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤 通用: 方法一:使用 Homebrew 安装 Git(推荐) 步骤如下:打开终端(Terminal.app) 1.安装 Homebrew…...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...

【Linux系统】Linux环境变量:系统配置的隐形指挥官
。# Linux系列 文章目录 前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期 四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量:setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...
LangFlow技术架构分析
🔧 LangFlow 的可视化技术栈 前端节点编辑器 底层框架:基于 (一个现代化的 React 节点绘图库) 功能: 拖拽式构建 LangGraph 状态机 实时连线定义节点依赖关系 可视化调试循环和分支逻辑 与 LangGraph 的深…...

保姆级【快数学会Android端“动画“】+ 实现补间动画和逐帧动画!!!
目录 补间动画 1.创建资源文件夹 2.设置文件夹类型 3.创建.xml文件 4.样式设计 5.动画设置 6.动画的实现 内容拓展 7.在原基础上继续添加.xml文件 8.xml代码编写 (1)rotate_anim (2)scale_anim (3)translate_anim 9.MainActivity.java代码汇总 10.效果展示 逐帧…...