Python 自动化之处理docx文件(一)
批量筛选docx文档中关键词
文章目录
- 批量筛选docx文档中关键词
- 前言
- 一、做成什么样子
- 二、基本架构
- 三、前期输入模块
- 1.引入库
- 2.路径输入
- 3.关键词输入
- 三、数据处理模块
- 1.基本架构
- 2.如果是docx文档
- 2.1.读取当前文档内容
- 2.2.遍历匹配关键字
- 2.3.触发匹配并记录日志
- 3.如果目录下还有一个目录
- 3.1.判断并生成新目录
- 3.2.获取子目录里的东西并遍历它
- 3.3.接着判断如果是docx文档
- 3.4.遍历匹配关键字
- 3.5.触发匹配并记录日志
- 总结
前言
在工作中经常会遇到,需要检查文档千万不能出现某个关键词,一个文档那还好说。但如果有成千上百个需要检查呢?
下面来给大家介绍一个批量检查的教程。

一、做成什么样子
- 支持当前目录下所有docx文档内容的检查。
- 支持当前目录下的子目录里面所有的docx文档内容的检查。
- 当前目录出现的问题会在当前目录生成日志文件记录下来。
- 日志格式为:<<文件绝对路径>> 文档中出现了关键词:《关键词》。
- 支持批量输入关键词,所有关键词都会进行逐一对比。
下面给大家展示一下效果图。

二、基本架构
主要包括以下几部分:
- 库输入模块
- 路径输入模块
- 关键词输入模块
- 数据处理模块
三、前期输入模块
库、路径、关键词比较简单。我就把它们全部写到这一节。
1.引入库
代码如下:
import docx
import os
import re
docx:用来读取文档内容的。
os:用来搞定一系列路径问题。
re:正则表达式模块,用来给关键词搞精确匹配的。
2.路径输入
代码如下:
print(r'请输入文档完整路径(例子:E:\vtest):', end='')
file_path = input()# 获取目录下的所有条目
entries = os.listdir(file_path)
print(entries)
输入路径后,程序会先获取一下当前路径下的东西,形成一个列表并打印出来。
3.关键词输入
代码如下:
# 获取关键词列表
Prohibited_lists = []
while True:print('请输入要查询的关键字(例子:奥利给),按q退出输入:', end='')Prohibited_words = input()if Prohibited_words == 'q':breakProhibited_lists.append(Prohibited_words)print("退出循环,禁止词汇列表:", Prohibited_lists)
首先,创建一个空列表,用来存储用户输入的关键词。
其次,一个while循环,用来保持用户可以一直输入关键词。
然后,关键词触发,当用户输入q可以退出输入关键程序。
最后,打印一条信息,告诉用户都有哪些关键词会进行匹配。
三、数据处理模块
这里我先写一下处理逻辑。
1.基本架构
代码如下:
for entry in entries:if entry.endswith('.docx'): # 如果是docx文档........... elif os.path.isdir(os.path.join(file_path, entry)): # 如果目录里的东西还是个目录...........
首先,搞个循环结构,遍历一下用户输入的路径下的东西。
其次,对这些东西进行判断,进行两中不同的操作。
下面我将会按照这个结构顺序来写。
2.如果是docx文档
2.1.读取当前文档内容
代码如下:
for entry in entries:if entry.endswith('.docx'): # 如果是docx文档# 使用os.path.join()构造完整文件路径full_entry_path = os.path.join(file_path, entry)# 使用 python-docx 打开文档doc = docx.Document(full_entry_path)# 将每一个段落的文本合并为一个字符串text = " ".join([para.text for para in doc.paragraphs])
首先,根据当前遍历的文件和用户输入的路径来共同构成完整文件路径。
其次,根据完整文件路径,读取文件内容。
最后,将每一个段落的文本合并为一个字符串,便于后面的关键字匹配。
2.2.遍历匹配关键字
代码如下:
# 遍历关键字列表for Prohibited_list in Prohibited_lists:# 正则表达式匹配关键字ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')mo = ProhibitedRegex.search(text)
这里我们用的是正则表达式匹配关键字。看不懂的同学要去看下正则表达式的知识点喽。
ProhibitedRegex = re.compile(rf’.{Prohibited_list}+.') 这行代码创建了一个正则表达式对象,用于查找包含在 Prohibited_list 关键词。
mo = ProhibitedRegex.search(text) 这行代码使用了上面创建的正则表达式对象来搜索 text 中是否存在匹配的禁止词汇。如果找到匹配项,则返回一个匹配对象(MatchObject),否则返回 None。
2.3.触发匹配并记录日志
代码如下:
# 如果匹配到了关键字if mo is not None:# 使用os.path.join()构造完整文件路径full_text_path = os.path.join(file_path, 'problems.txt')# 将问题写入text文档,并保存到当前目录with open(full_text_path, 'a') as f:f.write(f'<<{full_entry_path}>> 文档中出现了关键词:{Prohibited_list}\n')# 如果没有匹配到关键字else:print(f'<<{full_entry_path}>> 文档没有出现关键词:{Prohibited_list}。')
一目了然,共分成两部分:一是匹配到了关键字;二是没有匹配到关键字。
匹配到了:第一步先构建日志文件的路径;第二步将问题写入到text文档,并保存到当前目录(如果当前目录没有该文件,会自动创建。)
没匹配到:就简单提示一下啦。
3.如果目录下还有一个目录
3.1.判断并生成新目录
代码如下:
# 判断目录下是否还有目录elif os.path.isdir(os.path.join(file_path, entry)):# 使用字符串拼接一下路径,生成新路径(给子目录下的文档使用)file_path = file_path + '\\' + entry
一般我们保存文件不会一股脑的都保存到一个目录中。最起码目录中再搞一个子目录分一下类。
这个代码就是处理这个问题的。
3.2.获取子目录里的东西并遍历它
代码如下:
# 获取目录下的所有条目entries = os.listdir(file_path)print(entries)# 遍历当前所有条目for entry_1 in entries:
接下来就是获取一下子录下的所有东西啦。
然后再搞一个遍历结构,一个一个的处理它们。
3.3.接着判断如果是docx文档
代码如下:
if entry_1.endswith('.docx'):# 使用os.path.join()构造完整文件路径full_entry_path = os.path.join(file_path, entry_1)# 使用 python-docx 打开文档doc = docx.Document(full_entry_path)# 将每一个段落的文本合并为一个字符串text = " ".join([para.text for para in doc.paragraphs])
请参考 《2.1.读取当前文档内容》
3.4.遍历匹配关键字
代码如下:
# 正则表达式匹配关键字for Prohibited_list in Prohibited_lists:ProhibitedRegex = re.compile(rf'.*{Prohibited_list}+.*')mo = ProhibitedRegex.search(text)
请参考 《2.2.遍历匹配关键字》
3.5.触发匹配并记录日志
代码如下:
if mo is not None:# 使用os.path.join()构造完整文件路径full_text_path = os.path.join(file_path, 'problems.txt')# 将问题写入text文档,并保存到当前目录with open(full_text_path, 'a') as f:f.write(f'<<{full_entry_path}>> 文档中出现了关键词:{Prohibited_list}\n')else:print(f'<<{full_entry_path}>> 文档没有出现关键词:{Prohibited_list}。')
请参考 《2.3.触发匹配并记录日志》
总结
以上的代码,包括我之前写的所有代码,都是在Python 3.11版本下写的,其它版本下运行可能会有问题。并且以上代码可以直接按顺序复制粘贴就可以使用,不用再调格式(可以发现越往后代码前面的空格越多,这个就是格式)。用起来有问题可以私信或者评论给我哦。
相关文章:
Python 自动化之处理docx文件(一)
批量筛选docx文档中关键词 文章目录 批量筛选docx文档中关键词前言一、做成什么样子二、基本架构三、前期输入模块1.引入库2.路径输入3.关键词输入 三、数据处理模块1.基本架构2.如果是docx文档2.1.读取当前文档内容2.2.遍历匹配关键字2.3.触发匹配并记录日志 3.如果目录下还有…...
Vue mixins详解
文章目录 前言Vue中的mixins详解什么是mixins简单例子mixins的特点mixins与vuex的区别mixins与公共组件的区别前言 在Vue中,mixins是一种可重用的代码片段,可以在多个组件中共享。它可以包含组件的选项,如data、methods、computed等,以及生命周期钩子函数。 本文将详细介…...
ssl证书问题导致本地启动前端服务报500
报错如下:注意查看报错信息 问题:系统原是http,后台调整为https后,ssl证书有点问题, vue项目本地服务,使用代理,webpack默认,证书强校验,导致请求无法发出,后…...
Rust 学习
Rust 官网:https://www.rust-lang.org/zh-CN/ 模块 库:https://crates.io/ 1、Rust 简介 Rust 语言的主要目标之一是解决传统 系统级编程语言(如 C 和 C)中常见的安全性问题,例如空指针引用、数据竞争等。为了实现这个…...
1.1 【应用开发】应用开发简介
写在前面 Screen图形子系统基于客户端/服务器模型,其中应用程序是请求图形服务的客户端(Screen)。它包括一个合成窗口系统作为这些服务之一,这意味着所有应用程序渲染都是在离屏缓冲区上执行的,然后可以在稍后用于更新…...
在windows系统搭建LVGL模拟器(codeblock工程)
1.codeblock准备 下载codeblock(mingw),安装。可参考网上教程。 2.pc_simulator_win_codeblocks 工程获取 仓库地址:lvgl/lv_port_win_codeblocks: Windows PC simulator project for LVGL embedded GUI Library (github.com) 拉取代码到本地硬盘&…...
2023第十四届蓝桥杯国赛 C/C++ 大学 B 组
文章目录 前言试题 A: 子 2023作者思考题解答案 试题 B: 双子数作者思考题解 试题 C: 班级活动作者思考题解 试题 D: 合并数列作者思考题解 试题 E: 数三角作者思考题解 试题 F: 删边问题作者思考题解 试题 G: AB 路线作者思考题解 试题 H: 抓娃娃作者思考题解 试题 I: 拼数字试…...
如何在页面中加入百度地图
官方文档:jspopularGL | 百度地图API SDK (baidu.com) 添加一下代码就可以实现 <!DOCTYPE html> <html> <head><meta name"viewport" content"initial-scale1.0, user-scalableno"/><meta http-equiv"Conten…...
Windows VC++提升当前进程权限到管理员权限
Windows VC提升当前进程权限 Windows VC提升当前进程权限到管理员权限 Windows VC提升当前进程权限到管理员权限 有时候Windows下我们需要提升当前进程的权限到管理员权限,相关VC代码如下: #ifndef SAFE_CLOSE_HANDLE #define SAFE_CLOSE_HANDLE(handl…...
算法leetcode|92. 反转链表 II(rust重拳出击)
文章目录 92. 反转链表 II:样例 1:样例 2:提示:进阶: 分析:题解:rust:go:c:python:java: 92. 反转链表 II: 给你单链表的…...
Chapter 7 - 3. Congestion Management in Ethernet Storage Networks以太网存储网络的拥塞管理
Pause Threshold for Long Distance Links长途链路的暂停阈值 This section uses the following basic concepts: 本节使用以下基本概念: Bit Time (BT): It is the time taken to transmit one bit. It is the reciprocal of the bit rate. For example, BT of a 10 GbE po…...
优雅玩转实验室服务器(二)传输文件
使用服务器最重要的肯定是传输文件了,我们不仅需要本地的一些资源上传到服务器,好进行实验,也需要将服务器计算得到的实验结果传输到本地,来进行预览或者报告撰写。 首先,由于涉及到服务器操作,我强烈推荐…...
动态面板简介以及ERP原型图案列
动态面板简介以及ERP原型图案列 1.Axure动态面板简介2.使用Axure制作ERP登录界面3.使用Asure完成左侧菜单栏4.使用Axuer完成公告栏5.使用Axuer完成左边侧边栏 1.Axure动态面板简介 在Axure RP中,动态面板是一种强大的交互设计工具,它允许你创建可交互的…...
漏刻有时百度地图API实战开发(12)(切片工具的使用、添加自定义图层TileLayer)
TileLayer向地图中添加自定义图层 var tileLayer new BMap.TileLayer();tileLayer.getTilesUrl function (tileCoord, zoom) {var x tileCoord.x;var y tileCoord.y;return images/tiles/ zoom /tile- x _ y .png;}var lockMap new BMap.MapType(lock_map, tileLaye…...
python 爬虫 m3u8 视频文件 加密解密 整合mp4
文章目录 一、完整代码二、视频分析1. 认识m3u8文件2. 获取密钥,构建解密器3. 下载ts文件4. 合并ts文件为mp4 三、总结 一、完整代码 完整代码如下: import requests from multiprocessing import Pool import re import os from tqdm import tqdm fro…...
mybatis中xml文件容易搞混的属性
目录 第一章、1.1)MyBatis中resultMap标签1.2)MyBatis的resultType1.3)MyBatis的parameterType1.4)type属性1.5)jdbcType属性1.6)javaType属性1.7)ofType属性 友情提醒: 先看文章目录ÿ…...
android Retrofit2.0请求 延长超时操作
import okhttp3.OkHttpClient; import retrofit2.Retrofit; import retrofit2.converter.gson.GsonConverterFactory;public class MyApiClient {private static final String BASE_URL "https://api.example.com/";// 创建 OkHttpClient,并设置超时时间…...
Axure之动态面板轮播图
目录 一.介绍 二.好处 三.动态面板轮播图 四.动态面板多方式登录 五.ERP登录 六.ERP的左侧菜单栏 七.ERP的公告栏 今天就到这了哦!!!希望能帮到你了哦!!! 一.介绍 Axure中的动态面板是一个非常有用的组…...
一文读懂算法中的时间复杂度和空间复杂度,O(1)、O(logn)、O(n)、O(n^2)、O(2^n) 附举例说明,常见的时间复杂度,空间复杂度
时间复杂度和空间复杂度是什么 时间复杂度(Time Complexity)是描述算法运行时间长短的一个度量。空间复杂度(Space Complexity)是描述算法在运行过程中所需要的存储空间大小的一个度量。 时间复杂度和空间复杂度是衡量算法性能…...
LWIP热插拔功能实现
0 工具准备 1.lwip 1.4.1 2.RTOS(本文使用rt-thread)1 使能连接变化回调功能 打开lwipopts.h,将宏定义LWIP_NETIF_LINK_CALLBACK的值设为1,如下: #define LWIP_NETIF_LINK_CALLBACK 1这个宏定义被使能后会将…...
挑战杯推荐项目
“人工智能”创意赛 - 智能艺术创作助手:借助大模型技术,开发能根据用户输入的主题、风格等要求,生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用,帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
YSYX学习记录(八)
C语言,练习0: 先创建一个文件夹,我用的是物理机: 安装build-essential 练习1: 我注释掉了 #include <stdio.h> 出现下面错误 在你的文本编辑器中打开ex1文件,随机修改或删除一部分,之后…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
使用LangGraph和LangSmith构建多智能体人工智能系统
现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...
如何更改默认 Crontab 编辑器 ?
在 Linux 领域中,crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用,用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益,允许他们自动执行各种系统任务。 编辑 Crontab 文件通常使用文本编…...
iview框架主题色的应用
1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...
