【Python入门】文件读取全攻略:5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例
大家好,我是唐叔!今天给大家带来一篇Python文件读取的终极指南。无论是数据分析、办公自动化还是爬虫开发,文件读取都是Python程序员必须掌握的核心技能。本文将详细介绍Python处理5大常用文件格式的方法,包含完整可运行的代码示例,建议收藏备用!
文章目录
- 一、为什么要学习Python文件读取?
- 二、CSV文件读取 - 数据分析第一步
- 2.1 为什么需要读取CSV文件?
- 2.2 最佳实践方案
- 三、Excel文件读取 - 商业数据处理
- 3.1 为什么需要读取Excel?
- 3.2 最佳实践方案
- 四、Word文档处理 - 告别复制粘贴
- 4.1 为什么需要读取Word?
- 4.2 最佳实践方案
- 五、PPT读取 - 演示文稿的自动化处理
- 5.1 为什么需要读取PPT?
- 5.2 最佳实践方案
- 六、PDF文本提取
- 6.1 PDF处理的痛点
- 6.2 最佳实践方案
- 七、终极方案 - 文件类型自动判断
- 八、常见问题解答
- Q1:读取文件时出现编码错误怎么办?
- Q2:处理大文件内存不足怎么解决?
- Q3:如何提高PDF解析速度?
- 九、学习资源推荐
一、为什么要学习Python文件读取?
在开始具体技术讲解前,我们先看看为什么这个技能如此重要:
- 职场需求:据2023年Stack Overflow调查,87%的Python开发者需要处理各种文件格式
- 效率提升:自动化文件处理可节省90%以上的重复操作时间
- 面试高频:Python岗位面试中,文件操作是必考知识点
二、CSV文件读取 - 数据分析第一步
2.1 为什么需要读取CSV文件?
CSV(Comma-Separated Values)是数据科学领域最常用的轻量级数据存储格式,具有以下优势:
- 体积小,读写速度快
- 跨平台兼容性好
- 支持多种数据类型
2.2 最佳实践方案
方案一:使用标准库csv(适合小文件)
import csvwith open('data.csv', mode='r', encoding='utf-8-sig') as f: # 注意编码处理reader = csv.DictReader(f) # 使用DictReader获取字段名for row in reader:print(row['姓名'], row['成绩']) # 通过字段名访问数据
方案二:使用pandas(推荐大数据量)
import pandas as pd# 处理大文件时可分块读取
chunk_size = 10000
for chunk in pd.read_csv('big_data.csv', chunksize=chunk_size):process(chunk) # 自定义处理函数# 常用参数:
# header=None # 无表头
# skiprows=1 # 跳过首行
# usecols=[0,2] # 只读取指定列
三、Excel文件读取 - 商业数据处理
3.1 为什么需要读取Excel?
虽然CSV很香,但现实世界中80%的商业数据仍然躺在Excel里。格式丰富、支持多工作表是它的杀手锏。
Excel 使用场景:
- 财务报表处理
- 客户数据管理
- 项目进度跟踪
3.2 最佳实践方案
# 使用openpyxl(适合.xlsx格式)
from openpyxl import load_workbookwb = load_workbook('report.xlsx')
sheet = wb.active
for row in sheet.iter_rows(values_only=True):print(row)# 使用pandas多表读取
with pd.ExcelFile('report.xlsx') as xls:df1 = pd.read_excel(xls, 'Sheet1')df2 = pd.read_excel(xls, 'Sheet2')
性能优化技巧
- 对于.xlsx大文件,推荐使用
openpyxl的read_only模式 - 仅加载需要的sheet:
pd.read_excel('file.xlsx', sheet_name='Sheet1') - 禁用图表加载提升速度:
load_workbook(..., data_only=True)
四、Word文档处理 - 告别复制粘贴
4.1 为什么需要读取Word?
当你要批量处理上百份合同、简历或者论文时,手动操作简直就是自虐!这个时候就应该考虑下Python操作Word了。
Word 使用场景:
- 合同关键信息提取
- 简历自动筛选
- 文档批量格式化
4.2 最佳实践方案
from docx import Documentdoc = Document('report.docx')# 读取段落
for para in doc.paragraphs:print(para.text)# 读取表格
for table in doc.tables:for row in table.rows:for cell in row.cells:print(cell.text)
高级应用
- 使用正则表达式提取特定内容
- 结合python-docx-template实现模板替换
- 批量生成报告时注意内存管理
五、PPT读取 - 演示文稿的自动化处理
5.1 为什么需要读取PPT?
想象一下每周都要从几十份周报PPT中提取关键数据,手动操作简直让人崩溃!
PPT 使用场景:
- 自动生成报告摘要
- 批量替换PPT内容
- 企业汇报材料分析
5.2 最佳实践方案
from pptx import Presentationprs = Presentation('presentation.pptx')for slide in prs.slides:for shape in slide.shapes:if hasattr(shape, "text"):print(shape.text)# 处理图表数据(如果有)for chart in slide.charts:data = chart.chart_data# 进一步处理图表数据...
六、PDF文本提取
6.1 PDF处理的痛点
PDF设计初衷是为了展示而非数据处理,这使它成为最难处理的格式之一。但别怕,Python依然有办法!
PDF 使用场景:
- 发票信息提取
- 论文内容分析
- 扫描件OCR识别
6.2 最佳实践方案
# 方案1:PyPDF2(适合文本型PDF)
from PyPDF2 import PdfReaderreader = PdfReader("document.pdf")
for page in reader.pages:print(page.extract_text())# 方案2:pdfplumber(更强大的文本提取)
import pdfplumberwith pdfplumber.open("document.pdf") as pdf:first_page = pdf.pages[0]print(first_page.extract_text())# 还能提取表格!table = first_page.extract_table()# 方案3:处理扫描件(需要OCR)
import pytesseract
from PIL import Image# 需要先将PDF转为图片(可用pdf2image库)
image = Image.open('scanned_page.jpg')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)
解决方案对比
| 工具库 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| PyPDF2 | 纯Python实现 | 对复杂PDF支持有限 | 简单文本提取 |
| pdfplumber | 表格提取能力强 | 速度较慢 | 含表格的PDF |
| pdfminer.six | 解析精度高 | API复杂 | 学术论文解析 |
| pytesseract | 支持扫描件OCR | 需要安装Tesseract | 图片型PDF |
七、终极方案 - 文件类型自动判断
唐叔教你一个万能方法,不用记那么多库!
import magic
import pandas as pddef read_any_file(file_path):mime = magic.Magic(mime=True)file_type = mime.from_file(file_path)if 'csv' in file_type:return pd.read_csv(file_path)elif 'excel' in file_type:return pd.read_excel(file_path)elif 'word' in file_type:# 调用word处理逻辑pass# 其他类型判断...else:with open(file_path, 'r') as f:return f.read()# 使用示例
data = read_any_file('unknown_file')
八、常见问题解答
Q1:读取文件时出现编码错误怎么办?
-
尝试常见编码:utf-8、gbk、gb2312、gb18030
-
使用
chardet自动检测编码:import chardet with open('file', 'rb') as f:encoding = chardet.detect(f.read())['encoding']
Q2:处理大文件内存不足怎么解决?
- 使用分块读取(chunksize)
- 考虑使用Dask等分布式计算框架
- 转换为更高效的存储格式(如parquet)
Q3:如何提高PDF解析速度?
- 预处理PDF:
pdf2pdfa -i input.pdf output.pdf - 多进程处理:
from multiprocessing import Pool - 使用GPU加速的OCR工具
九、学习资源推荐
- 官方文档:
- pandas IO工具
- python-docx文档
- 推荐书籍:
- 《Python自动化秘籍》
- 《Python数据处理实战》
- 视频教程:
- B站"Python办公自动化"系列
- Coursera"Data Processing Using Python"
唐叔总结:文件读取看似简单,实则暗藏玄机。掌握这些技巧后,你的Python数据处理能力将提升一个Level!如果觉得有帮助,请点赞+收藏支持,更多Python干货正在路上!
相关文章:
【Python入门】文件读取全攻略:5种常用格式(csv/excel/word/ppt/pdf)一键搞定 | 附完整代码示例
大家好,我是唐叔!今天给大家带来一篇Python文件读取的终极指南。无论是数据分析、办公自动化还是爬虫开发,文件读取都是Python程序员必须掌握的核心技能。本文将详细介绍Python处理5大常用文件格式的方法,包含完整可运行的代码示例…...
【Git】git的简单使用
文章目录 1. 基础概念2. 简单使用2.1 git配置2.1.1 git的配置文件2.1.2 .gitignore文件 2.2 创建仓库2.2.1 创建本地仓库2.2.2 github创建远程仓库step1:github新建一个代码仓step2:创建密钥远程仓库相关指令2.2.3 本地仓库 关联 远程仓库 2.3 分支2.3.1…...
WebSocket 实现数据实时推送原理
WebSocket 实现数据实时推送的核心机制在于其全双工通信能力和持久的连接特性。以下是其工作原理的详细步骤: 1. 握手阶段(HTTP 升级协议) 客户端发起请求:通过发送一个带有特殊头部的 HTTP 请求,请求协议升级。 GET …...
LeetCode 2919 使数组变美的最小增量运算数
动态规划解题:最小操作次数使数组变为美丽数组 问题描述 给定一个下标从0开始、长度为n的整数数组nums和一个整数k。你可以对数组中的任意一个元素进行加1操作,操作次数不限。如果数组中任意长度大于或等于3的子数组的最大值都大于或等于k,…...
[Web 安全] Web 信息收集 —— 信息收集流程
🌟 想系统化学习 Web 渗透?看看这个:[Web 安全] Web 安全攻防 学习手册 提示:本章不涉及任何具体信息收集技术,仅仅是讲解收集这些信息我能干啥,以及如何才能比较全面的收集信息。 0x01:信息收…...
内部聊天软件,BeeWorks-安全的企业内部通讯软件
企业在享受数据便利的同时,如何保障企业数据安全已经成为无法回避的重要课题。BeeWorks作为一款专为企业设计的内部通讯软件,通过全链路的安全能力升维,为企业提供了一个安全、高效、便捷的沟通协作平台,全面保障企业数据安全。 …...
线程安全学习
1 什么是线程 线程是cpu调度的最小单位,在Linux 下 实现线程的方式为轻量级进程,复用进程的结构体,使用clone函数创建 2 线程安全 所谓线程安全,更确切的应该描述为内存安全 #include <stdio.h> #include <pthread.h…...
应用篇02-镜头标定(上)
本节主要介绍相机的标定方法,包括其内、外参数的求解,以及如何使用HALCON标定助手实现标定。 计算机视觉——相机标定(Camera Calibration)_摄像机标定-CSDN博客 1. 原理 本节介绍与相机标定相关的理论知识,不一定全,可以参考相…...
【UE5 C++】“ProceduralMeshComponent”的使用记录
效果 如下所示,通过“ProceduralMeshComponent”创建了一个自定义形状的Mesh,并且该Mesh包含碰撞信息,然后2s后更新Mesh形状。 步骤 1. 在“xxx.Build.cs”中引入“ProceduralMeshComponent”模块 2. 新建一个Actor类,这里命名为…...
解决PIP 安装出错ERROR: cp310-cp310-manylinux_2_28_x86_64.whl is not a supported wheel
ERROR: torch-2.8.0.dev20250325cu128-cp310-cp310-manylinux_2_28_x86_64.whl is not a supported wheel on this platform. 可以 pip debug --verbose | grep manylinux | grep cp310 WARNING: This command is only meant for debugging. Do not use this with automation f…...
通过helm在k8s中安装mysql 8.0.37
使用 Helm 在 Kubernetes 中安装 MySQL 8.0.37 是一个相对简单的过程。以下是详细步骤: 下载helm包 #添加 Helm 仓库 helm repo add bitnami https://charts.bitnami.com/bitnami#搜索mysql helm search repo mysql --versions NAME CHAR…...
【暴力求解】1534. 统计好三元组
1534. 统计好三元组 - 力扣(LeetCode) 给你一个整数数组 arr ,以及 a、b 、c 三个整数。请你统计其中好三元组的数量。 如果三元组 (arr[i], arr[j], arr[k]) 满足下列全部条件,则认为它是一个 好三元组 。 0 < i < j &l…...
前端页面效果收集
文章目录 数字雨元素融化动画电子签名共享屏幕 数字雨 <canvas id"matrix"></canvas> <script>const canvas document.getElementById(matrix);const ctx canvas.getContext(2d);canvas.width window.innerWidth;canvas.height window.innerH…...
(leetcode算法题)309. 买卖股票的最佳时机含冷冻期
按照题目要求,研究对象是最后一天结束后获得的最大利润 那么就可以把问题拆分成 第 1 天结束后获得的最大利润, 第 2 天结束后获得的最大利润, 第 i 天结束后获得的最大利润, 由于规则中强调不能同时参与多笔交易,…...
Chrome漏洞可窃取数据并获得未经授权的访问权限
在发现两个关键漏洞后,谷歌发布了Chrome浏览器的紧急安全更新。这些漏洞可能允许攻击者窃取敏感数据并未经授权访问用户系统。 这些缺陷被识别为CVE-2025-3619和CVE-2025-3620,在Windows和Mac的135.0.7049.95/.96之前影响Chrome版本,影响Linux的135.0.7049.95/.96。该更新将在…...
.net core 项目快速接入Coze智能体-开箱即用-全局说明
目录 一、Coze智能体的核心价值 二、开箱即用-效果如下 三 流程与交互设计 为什么要分析意图,而不是全部交由AI处理。 四 接入前的准备工作 五:代码实现----字节Coze 签署 JWT和获取Token .net core 项目快速接入Coze智能体-开箱即用 .net core快…...
风丘年度活动:2025年横滨汽车工程展览会
| 展会简介: 2025年横滨汽车工程展览会,是由日本汽车工程师学会(JSAE)精心主办的一场行业盛会。预计届时将汇聚超550家参展商,设置1300个展位,展览面积超过20000平方米。展会受众广泛,面向汽车…...
Redis线上操作最佳实践有哪些?
大家好,我是锋哥。今天分享关于【Redis线上操作最佳实践有哪些?】面试题。希望对大家有帮助; Redis线上操作最佳实践有哪些? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在使用 Redis 时,尤其是在生产环境中,合理…...
Gin趣讲
故事背景:Gin快递公司 假设你开了一家名叫“Gin快递”的公司,专门帮客户寄包裹。客户会通过电话(也就是HTTP请求)告诉你他们要寄什么东西,你的公司得快速接单、分任务、处理包裹,最后把结果送回去。Gin框架…...
Redis——五种数据类型
目录 前言 1.String 1.1RAW编码 1.2EMBSTR编码 1.3 INT编码 2.List 3.Set 3.1 InSet编码转化成Dict编码 4.ZSet 4.1结合SkipList和HT实现 4.2使用ZipList实现 4.3编码转换 4.4 ZipList排序功能 5.Hash 5.1Hash底层存储结构 6.Redis数据结构和数据类型关系图 前言…...
Godot学习-创建简单动画
文章目录 1、准备工作Godot资源 2、创建项目3、创建结点4、创建动画1、创建动画2、添加轨道3、创建关键帧3.1 第一个关键帧3.2 第二个关键帧 5、加载后自动播放6、动画循环7、轨道设置1、轨道更新模式2、轨迹插值3、其他属性的关键帧4、编辑关键帧5、使用 RESET 轨道6、洋葱皮 …...
论文阅读VACE: All-in-One Video Creation and Editing
code:https://github.com/ali-vilab/VACE 核心 单个模型同时处理多种视频生成和视频编辑任务通过VCU(视频条件单元)进行实现 方法 视频任务 所有的视频相关任务可以分为4类 文本生视频 参考图片生视频 视频生视频 视频mask生视频 VCU …...
JavaSE学习(前端初体验)
文章目录 前言一、准备环境二、创建站点(创建一个文件夹)三、将站点部署到编写器中四、VScode实用小设置五、案例展示 前言 首先了解前端三件套:HTML、CSS、JS HTML:超文本标记语言、框架层、描述数据的; CSS…...
AlmaLinux 9.2 安装 snmp 后 sshd 服务无法启动
问题 AlmaLinux 9.2 安装 net-snmp 后导致 sshd 无法启动,SSH 无法正常连接。并且在日志中发现OpenSSL version mismatch. Built against 30000010, you have 30200020错误。 问题排查 AlmaLinux 9.2 初始安装 openssl 的版本为 3.0.7。软件包为openssl-3.0.7-6。…...
前端渲染pdf文件解决方案
一、前言 在当今数字化信息传播的时代,PDF文档作为一种常见的文件格式扮演着重要的角色。对于前端开发者而言,实现在网页上渲染和展示PDF文件是一项常见但也具有挑战性的任务。幸运的是,现在有一个强大的工具——react-pdf-viewer,…...
Kubernetes(K8S)内部功能总结
Kubernetes(K8S)是云技术的最核心的部分,也是构建是云原生的基石 K8S K8S,是Kubernetes的缩写,是Google开发的容器编排平台,现在由云原生计算基金会(CNCF)进行维护。 K8Sÿ…...
蓝桥杯日期的题型
做题思路 一般分为3个步骤,首先要定义一个结构体来存储月份的天数,第一循环日期,第二判断日期是否为闰年,第三就是题目求什么 结构体 static int[] ds{0, 31, 28, 31, 30, 31, 30, 31, 31, 30, 31, 30, 31}; 判断是否闰年的函数 public static void f(int m,int d){//被4整…...
【计算机网络】3数据链路层①
这篇笔记专门讲数据链路层的功能。 2.功能 数据链路层的主要任务是让帧在一段链路上或一个网络中传输。 2.1.封装成帧(组帧) 解决的问题:①帧定界②帧同步③透明传输 实现组帧的方法通常有以下种。 2.1.1.字符计数法 原理:在每个帧开头,用一个定长计数字段来记录该…...
Mysql--基础知识点--93--两阶段提交
1 两阶段提交 以update语句的具体执行过程为例: 具体更新一条记录 UPDATE t_user SET name ‘xiaolin’ WHERE id 1;的流程如下: 1.执行器负责具体执行,会调用存储引擎的接口,通过主键索引树搜索获取 id 1 这一行记录&#…...
Nginx底层架构(非常清晰)
目录 前言: 场景带入: HTTP服务器是什么? 反向代理是什么? 模块化网关能力: 1.配置能力: 2.单线程: 3.多worker进程 4.共享内存: 5.proxy cache 6.master进程 最后&…...
