使用Python解析pdf、docx等格式文件。
针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。
1 解析Docx文档
1.1 获取Docx文档中文本
from docx import Document
# pip install python-docx
# python-docx == 0.8.11
filename = 'xxx.docx'
doc = Document(filename)
for para in doc.paragraphs:print(para.text)
1.2 获取Docx文档中表格
from docx import Document
filename = r'sample.docx'
doc = Document(filename)
print(f"\n 便利文档中表格:")
print(f"\n 方法一:")
for table in doc.tables:row_count = len(table.rows)col_count = len(table.columns)for i in range(row_count):row = table.rows[i].cellsprint(f"row : {row}")
print(f"\n 方法二:")
for table in doc.tables:row_count = len(table.rows)col_count = len(table.columns)for i in range(row_count):for j in range(col_count):print(table.cell(i,j).text)
2 解析txt文件
2.1 读取富文本txt
- read() —— 读取所有文本
with open('sample.txt','r+',encoding='utf-8') as f:data = f.read()print(data)
- readline() —— 读取第一行的内容
with open('sample.txt','r+',encoding='utf-8') as f:data = f.readline()print(data)
- readlines() —— 读取全部内容,以数列的形式返回结果
with open('sample.txt','r+',encoding='utf-8') as f:data = f.readlines()print(data)
with open('sample.txt','r+',encoding='utf-8') as f:for ann in f.readlines()ann = ann.strip('\n') # 去除文本中的换行符print(ann)
# 简单版本
for i in open(file='sample.txt',encoding='utf-8').readlines():ann = i.strip('\n')print(ann)
3 解析PDF
3.1 PDF解析神器——pdfplumber
3.1.1 安装
pip install pdfplumber
3.1.2 提取pdf中的纯文本
import pdfplumber
file_name = r'sample.pdf' # 需要解析的pdf文件
output_file = 'sample.txt' # pdf解析后的内容
with pdfplumber.open(file_name) as p:page_count = len(p.pages)for i in range(0,page_count):page = p.pages[i]text_data = page.extract_text()data = open(output_file,'a',encoding='utf-8')data.write(text_data)
3.1.3 提取pdf中的表格
import pdfplumber
from openpyxl import Workbook # 保存表格
file_name = r'sample.pdf'
output_file = 'sample.xlsx'
with pdfplumber.open(file_name) as pdf:page = pdf.pages[0]table = page.extract_table()workbook = Workbook()sheet = workbook.activefor row in table:sheet.append(row)workbook.save(filename=output_file)
- extract_tables()方法——输出文档所有表格,返回一个嵌套列表。
#extract_tables()法
with pdfplumber.open(r'exm.pdf') as pdf: # 打开pdfpage_one = pdf.pages[0] page_one_table =page_one.extract_tables() # 获取pdf第一页的所有表格数据for row in page_one_table:print('第一页的表格数据:', row)
- extact_table()方法——不会返回文档的所有表格,仅返回行数最多的表格数据。如存在多个行数相等的表格,则默认输出顶部表格数据。表格的每一行都为一个单独的列表,列表中的元素即为原表格的各个单元格的数据。
# extract_table()法
with pdfplumber.open(r'exm.pdf') as pdf_info: # 打开pdfpage_one = pdf_info.pages[0] page_one_table = page_one.extract_table()for row in page_one_table:print(row)
相关文章:
使用Python解析pdf、docx等格式文件。
针对不同类型的文件,需要采取特定的访问与解析策略来有效获取其中蕴含的知识。下面我们将介绍对于不同数据源数据的获取方式。 1 解析Docx文档 1.1 获取Docx文档中文本 from docx import Document # pip install python-docx # python-docx 0.8.11 filename xx…...
Linux网络通信基础API
这篇文章只有Linux网络通信基础API大参数信息,和返回值,这篇文章并没有这些基础API的参数类型介绍。accept的第二个参数可以查看客户端信息。 创建socket #include <sys/types.h> /* See NOTES */#include <sys/socket.h>int sock…...
Python爬虫:下载4K壁纸
🎁🎁创作不易,关注作者不迷路🎀🎀 目录 🌸完整代码 🌸分析 🎁基本思路 🎁需要的库 🎁提取图片的链接和标题 👓寻找Cookie和User-Agent &…...
2024年【北京市安全员-B证】新版试题及北京市安全员-B证免费试题
题库来源:安全生产模拟考试一点通公众号小程序 2024年【北京市安全员-B证】新版试题及北京市安全员-B证免费试题,包含北京市安全员-B证新版试题答案和解析及北京市安全员-B证免费试题练习。安全生产模拟考试一点通结合国家北京市安全员-B证考试最新大纲…...
python爬取B站视频实验
实验17:爬虫2 文章目录 实验17:爬虫21.实验目标及要求2. 实验主要内容3.实验小结 1.实验目标及要求 (1)掌握有关爬虫的包 (2)掌握爬虫方法 (3)爬取B站卡塔尔世界杯若干视频 2. 实验…...
10步搞定Python爬虫从零到精通!
学习Python网络爬虫可以分为以下几个步骤,每一步都包括必要的细节和示例代码,以帮助你从零开始掌握这一技能。 第一步:理解网络爬虫基础 什么是网络爬虫? 网络爬虫是一种自动化程序,用来从互联网上收集数据.它通过发送 HTTP 请求…...
SpringMVC学习笔记---带你快速入门和复习
一、初识SpringMVC 1.1、什么是SpringMVC 1.1.1、什么是MVC MVC是一种软件架构模式(是一种软件架构设计思想,不止Java开发中用到,其它语言也需要用到),它将应用分为三块: M:Model࿰…...
Linux系统编程 day09 线程同步
Linux系统编程 day09 线程同步 1.互斥锁2.死锁3.读写锁4.条件变量(生产者消费者模型)5.信号量 1.互斥锁 互斥锁是一种同步机制,用于控制多个线程对共享资源的访问,确保在同一时间只有一个线程可以访问特定的资源或执行特定的操作…...
Vue快速入门(四)——Vue3及组合式API(一)
文章目录 一、认识Vue31. Vue2 选项式 API vs Vue3 组合式API2. Vue3的优势二、使用create-vue搭建Vue3项目1、认识create-vue2. 使用create-vue创建项目三、组合式API - setup选项1. setup选项的写法和执行时机2. setup中写代码的特点3. `<script setup>`语法糖4.小结四…...
vue项目名修改、webstorm和idea创建的项目重命名、重构项目、修改项目名称
一、需求 就是创建了一个项目,后期需要重命名,怎么办?----> 直接修改?肯定不行,因为里面有些配置也需要修改,假如你只改文件夹名称的话,里面配置都没修改,后期可能会出问题。 二…...
【MySQL】数据库约束和多表查询
目录 1.前言 2.数据库约束 2.1约束类型 2.2 NULL约束 2.3 NUIQUE:唯一约束 2.4 DEFAULT:默认值约束 2.5 PRIMARY KEY:主键约束 2.6 FOREIGN KEY:外键约束 1.7 CHECK约束 3.表的设计 3.1一对一 3.2一对多 3.3多对多 …...
抖店飞鸽客服自动回复软件开发教程与下载体验(.NET版)
转载请注明出处! 原文链接:https://blog.csdn.net/zgyulongfei/article/details/140960430 本文适合的读者为: 抖店(抖音小店)个体商家;抖店店群商家(店群商家:指的是开了几十个抖…...
如何关闭redis的自动清理缓存,声明式事务(含有redis)如何解决,redis setnx锁的使用。
20240809 一、解决redis数据被删除的方案1、发现问题2、解决注意!! 二、声明式事务(当有redis的时候)1. 先看代码2. Transactional(rollbackFor Exception.class)3. 如何解决redis在事务里面,如何保证原子性和一致性3…...
C#中抽象类的使用
前言 我们在C#中使用抽象类可以发挥C#多态的功能,把具有共性的方法定义在抽象类中,然后在不同的类中去实现,可增强代码的可读性、扩展性。 1、不使用抽象类 我们定义了下面两个类XiaoWang、XiaoMing,他们有一个Country方法&…...
揭秘网络攻击:深入理解JavaScript中的跨站点请求伪造(CSRF)
标题:揭秘网络攻击:深入理解JavaScript中的跨站点请求伪造(CSRF) 在当今数字化时代,网络安全已成为每个开发者和用户必须关注的重点。其中,跨站点请求伪造(CSRF)是一种常见的网络攻…...
【项目实战】C++视频共享点播系统
目录 一、项目介绍 1.1 对视频共享点播系统的认识 1.2服务端程序负责功能 1.3 服务端功能模块划分 1.4 项目界面演示 1.5预备知识 二.环境搭建 2.1 安装 Jsoncpp 库 2.1.1 使用jsoncpp 2.2 引入httplib库 2.2.1 安装Git(如果你的系统尚未安装Git…...
Android逆向题解 攻防世界难度4- Android2.0
Jeb打开apk 关键代码在Native函数getResult IDA 打开 so 发现代码比较简单,可以直接静态分析。 输出字符串也就是flag 长度是15,然后分成三段,第一段是可以整除3,第二段是除3取余1,第三段是除3取余等于2࿱…...
P4155 [SCOI2015] 计划
[SCOI2015] 计划 - 洛谷 核心思路 注意到, 可推出, 表示 战士 走 步到达战士位置。 若可以走到且 r < 终点 则答案 然后再加上自己这个哨兵,和走回自己的一个哨兵即可。 AC 代码 #include<bits/stdc.h> using namespace std…...
今日(2024年8月12日)科技新闻
国内: 航空航天领域 我国成功发射卫星互联网高轨卫星。我国试验性冰川保护项目取得积极成效,被形容为“为冰川盖棉被”。2024西太平洋国际航次科考队起航,开启探秘深海海山之旅。我国首架固定翼海上专业搜救航空器正式列编。“祥云”as700载…...
CP AUTOSAR标准之ECUStateManager(AUTOSAR_SWS_ECUStateManager)(更新中……)
1 简介和功能概述 ECU管理器模块(如本文档中所述)是一个基本软件模块(参见[1]),用于管理ECU状态的常见方面。具体来说,ECU管理器模块: 初始化和取消初始化OS、SchM和BswM以及一些基本软件驱动模块。根据请求配置ECU进入休眠和关机状态。管理ECU上的所有唤醒事件ECU管理器模块…...
三步掌握Alienware终极控制权:AlienFX Tools新手完全指南
三步掌握Alienware终极控制权:AlienFX Tools新手完全指南 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools 你是否厌倦了Alienware官方软件的…...
ICLR 2026 | 大模型当裁判也“翻车“?北大清华联合多校提出TrustJudge,让LLM评估更值得信赖
让 GPT-4 给两篇文章打分,A 拿了 4 分、B 拿了 3 分。按常理 A 应该比 B 好吧?但换成成对比较,同一个模型却说 "B 更好"。更离谱的情况也有——A > B > C > A 的"石头剪刀布"循环,连传递性都守不住。…...
智慧机场三维空间智能中枢系统白皮书——构建“全域感知 × 空间认知 × 智能调度”的下一代机场操作平台
智慧机场三维空间智能中枢系统白皮书——构建“全域感知 空间认知 智能调度”的下一代机场操作平台(镜像视界(浙江)科技有限公司空间计算技术体系支撑)一、项目背景:机场正在进入“复杂系统时代”现代机场已从单一交…...
hdl_localization实战:在ROS Melodic下,如何不依赖IMU实现16线激光雷达的稳定定位?
无IMU环境下16线激光雷达的hdl_localization实战指南 在机器人自主导航领域,定位系统是核心组件之一。传统方案通常依赖IMU(惯性测量单元)与激光雷达的融合,但在实际工程中,IMU数据可能存在噪声大、校准困难或硬件缺失…...
s11_自主代理设计:为什么 Agent 空闲时不该只是等下一条指令
自主代理设计:为什么 Agent 空闲时不该只是等下一条指令 很多人第一次做多智能体系统时,默认采用的都是“派工制”。 也就是说,lead 负责看全局、拆任务、发消息,每个 teammate 只在被明确点名时才开始动。 这个模式能跑起来&a…...
手把手复现金蝶云星空V8.1文件上传漏洞(附POC与修复建议)
金蝶云星空V8.1文件上传漏洞深度解析与实战指南 在企业数字化转型浪潮中,云ERP系统的安全性日益成为关注焦点。近期曝光的金蝶云星空V8.1版本文件上传漏洞,因其无需认证即可利用的特性,被业界评为高危风险。本文将带您从技术原理到实战复现&…...
别再忍受龟速下载!保姆级教程:Ubuntu 18.04一键更换阿里云/清华源(附SSH无桌面操作)
Ubuntu 18.04国内软件源极速配置指南:告别蜗牛速度的终极方案 每次执行apt update时盯着缓慢爬升的进度条,是否让你产生砸键盘的冲动?作为国内Ubuntu用户,默认国际源的龟速下载堪称开发效率的头号杀手。本文将彻底解决这个痛点——…...
Xournal++终极指南:免费手写笔记与PDF批注完整教程
Xournal终极指南:免费手写笔记与PDF批注完整教程 【免费下载链接】xournalpp Xournal is a handwriting notetaking software with PDF annotation support. Written in C with GTK3, supporting Linux (e.g. Ubuntu, Debian, Arch, SUSE), macOS and Windows 10. S…...
HY-MT1.5-1.8B翻译模型应用场景:跨境电商、多语言客服、文档翻译
HY-MT1.5-1.8B翻译模型应用场景:跨境电商、多语言客服、文档翻译 1. 轻量级翻译模型的核心价值 在全球化商业环境中,语言障碍仍然是企业拓展国际市场的主要挑战之一。HY-MT1.5-1.8B作为一款专为实际业务场景优化的轻量级翻译模型,其"小…...
如何快速掌握赛马娘DMM版汉化与优化:面向新手的完整实践指南
如何快速掌握赛马娘DMM版汉化与优化:面向新手的完整实践指南 【免费下载链接】umamusume-localify Localify "ウマ娘: Pretty Derby" DMM client 项目地址: https://gitcode.com/gh_mirrors/um/umamusume-localify 还在为赛马娘DMM版的日文界面而困…...
