Python和VBA批量提取Word中的表格
表格在word文档中常见的文档元素之一。操作word文件时有时需要提取文件中多个表格的内容到一个新的文件,甚至有时还会要提取题注信息。
今天,给大家分享两种批量提取文档中表格的两种方法,分别是VBA法和Python法两种。
一、VBA法提取word中的表格
1. 代码实现
VBA(Visual Basic for Applications)操作Word文件时,可以执行包括创建、打开、保存、修改文本和格式等多种任务。今天,我们使用VBA来批量提取当前文件中的表格,在每个表格中间添加一个空行。实现代码如下:
Sub ExtractTablesAndPreviousRowToNewFile()Dim docSource As DocumentDim docTarget As DocumentDim tbl As TableDim rng As RangeDim outputPath As StringDim fileName As String' 设置输出文件名和路径fileName = "output.docx"outputPath = ActiveDocument.Path & "\" & fileName' 当前文档设置为源文档Set docSource = ActiveDocument' 创建一个新文档作为目标文档Set docTarget = Documents.AddFor Each tbl In docSource.Tables' 复制表格tbl.Range.CopydocTarget.Content.InsertParagraphAfterdocTarget.Content.Paragraphs.Last.Range.Paste' 在表格后添加一个空行docTarget.Content.InsertParagraphAfterdocTarget.Content.Paragraphs.Last.Range.InsertParagraphAfterNext tbl' 删除目标文档中的第一个空段落If docTarget.Paragraphs.Count > 0 ThendocTarget.Paragraphs(1).Range.DeleteEnd If' 保存新文档到指定路径docTarget.SaveAs2 fileName:=outputPath, FileFormat:=wdFormatXMLDocumentdocTarget.CloseMsgBox "表格及其上方一行内容已经成功提取到 " & outputPath, vbInformation
End Sub
2. 代码分析
以上代码首先激活当前文档作为源文档,然后创建一个新文档output.docx用来放置提取的表格和题注。它会遍历源文档中的所有表格,对于每个表格,尝试复制表格本身到目标文档中。
每个表格后面,还会插入一个空行以保持文件中多个表格间清晰的视觉分隔。
3. 使用方法
首先,在Word中打开你想提取表格的文档,然后按下 Alt + F11 打开VBA编辑器。在【项目】窗格中,选择你的文档,然后插入一个新的模块(右键点击你的文档名称,选择【插入】 > 【模块】)。将以上VBA代码复制并粘贴到新模块中。关闭VBA编辑器,然后运行宏(在Word中,可以通过【视图】 > 【宏】> 【查看宏】,选择这个宏,然后点击【运行】即可。
二、Python法
Python在office办公自动化方面有非常广泛的用途,它有专门的库来处理office中的各个组件,而且这些都是开源免费使用的。操作word文件就要用到python-docx这个库,在编写程序之前要安装新版的Python程序,然后在cmd下面用pip install python-docx来安装这个库,也可以在thonny这个轻量版的集成开发环境中安装python-docx用于操作word文件。
1.代码实现
我们首先从docx中导入Document模块,然后读取指定的word文件,提取表格及其内容到一个新的文件当中并保存。实现代码如下:
from docx import Document
import osdef extract_tables(doc_path, output_path):# 加载原始文档doc = Document(doc_path)new_doc = Document()# 提取表格并添加到新文档for i, table in enumerate(doc.tables):t = new_doc.add_table(rows=1, cols=len(table.columns))t.style = 'Table Grid' # 使用内置的表格样式,这样会自动添加框线# 复制表头for j, cell in enumerate(table.rows[0].cells):t.cell(0, j).text = cell.text# 复制其他行for row in table.rows[1:]:new_row = t.add_row()for j, cell in enumerate(row.cells):new_row.cells[j].text = cell.text# 除了最后一个表格外,在每个表格后添加一个空行(空段落)if i < len(doc.tables) - 1:new_doc.add_paragraph()# 保存新文档new_doc.save(output_path)# 使用示例
extract_tables('example.docx', 'output.docx')
2. 代码分析
以上代码把example.docx文件中的所有表格提取到了output.docx文件中,同时使用了表格的内置样式,给新生成的表格自动添加框线,基本实现表格文本内容的提取,但是表格中的字体颜色、大小和边框样式均无法提取。同时这里也没有提取题注,这时我们需要对代码进一步修改,以使其可以提取表格上方的题注。
3. 提取题注和表格内容
本代码把表格上方居中的文字默认识别为表格的题注,提取表格内容时会一并提取出来。
from docx import Document
from docx.enum.text import WD_ALIGN_PARAGRAPH
import osdef extract_tables_with_titles(doc_path, output_path):# 加载原始文档doc = Document(doc_path)new_doc = Document()# 提取表格并添加到新文档for i, table in enumerate(doc.tables):# 尝试定位并复制表格上方的居中文字# 查找表格前的段落para = table._element.getprevious()if para is not None and para.tag.endswith('p'):# 检查该段落的格式是否为居中p = para.getparent()para_obj = [p for p in doc.paragraphs if p._element == para][0]if para_obj.alignment == WD_ALIGN_PARAGRAPH.CENTER:# 添加居中的段落到新文档new_para = new_doc.add_paragraph(para_obj.text)new_para.alignment = WD_ALIGN_PARAGRAPH.CENTER# 添加表格t = new_doc.add_table(rows=1, cols=len(table.columns))t.style = 'Table Grid' # 使用内置的表格样式,这样会自动添加框线# 复制表头for j, cell in enumerate(table.rows[0].cells):t.cell(0, j).text = cell.text# 复制其他行for row in table.rows[1:]:new_row = t.add_row()for j, cell in enumerate(row.cells):new_row.cells[j].text = cell.text# 除了最后一个表格外,在每个表格后添加一个空行(空段落)if i < len(doc.tables) - 1:new_doc.add_paragraph()# 保存新文档new_doc.save(output_path)# 使用示例
extract_tables_with_titles('example.docx', 'output.docx')
以上代码在原有代码基础上增加了题注内容的提取,通过调用extract_tables_with_titles这个函数,批量把example.docx文件中的表格和题录提取出来,并放到了output.docx当中,并且每个表格之间会有一个空行。
三、演示视频
本人录制了相关视频,供大学参考使用。
VBA和Python提取Word中的表格
四、学后反思
- 利用VBA和Python均可以实现表格内容提取的功能,但是对于文字和表格的样式无法完整提取。后期会进一步探索如何把表格内容和样式完整拷贝出来,但是由于涉及字体等特殊格式,提取样式会有一定的难度。
- 上面两种方法的优势在于可以批量、高效地提取表格内容,但是无法提取样式,因此在提取复杂表格时可能会报错。
- 以上代码默认是把表格批量提取到当前目录,VBA代码应用的是当前的word文件,而python则要求提取的文件名为example.docx,如果想批量提取多个文件中的表格则还需要添加for循环来遍历所有的word文件。
相关文章:
Python和VBA批量提取Word中的表格
表格在word文档中常见的文档元素之一。操作word文件时有时需要提取文件中多个表格的内容到一个新的文件,甚至有时还会要提取题注信息。 今天,给大家分享两种批量提取文档中表格的两种方法,分别是VBA法和Python法两种。 一、VBA法提取word中…...

Swift Combine 有序的异步操作 从入门到精通十二
Combine 系列 Swift Combine 从入门到精通一Swift Combine 发布者订阅者操作者 从入门到精通二Swift Combine 管道 从入门到精通三Swift Combine 发布者publisher的生命周期 从入门到精通四Swift Combine 操作符operations和Subjects发布者的生命周期 从入门到精通五Swift Com…...

国产航顺HK32F030M: 超声波测距模块串口通信数据接收与处理
参考代码 /************************************************************************************************** * file usart_async_tx_no_int_rx_rxneint.c * brief 异步串口通信例程, 通过查询TXE标志发送数据,通过RXNE中断接收数据,当中断接收到数据后会将 * …...

idea:如何连接数据库
1、在idea中打开database: 2、点击 ‘’ ---> Data Source ---> MySQL 3、输入自己的账号和密码其他空白处可以不填,用户和密码可以在自己的mysql数据库中查看 4、最后选择自己需要用的数据库,点击运用ok,等待刷新即可 最后:…...
JS中ES5和ES6的区别
前言 ES5是JavaScript的第五个修订版本,于2009年发布。而ES6是JavaScript的第六个修订版本,也称为ES2015,于2015年发布。以下是它们两个版本之前的一些区别: 变量声明方式 在ES5中,使用var关键字进行变量声明&#…...

软考24-上午题-图1
一、数据结构的回忆 线性结构:(一对一) 除首结点没有前驱、末尾结点没有后继外,一个结点只有唯一的一个直接前驱和唯一的一个直接后继。 树结构:(一对多) 除根节点没有前驱节点外,…...

书生·浦语大模型第四课作业
基础作业: 构建数据集,使用 XTuner 微调 InternLM-Chat-7B 模型, 让模型学习到它是你的智能小助手,效果如下图所示,本作业训练出来的模型的输出需要将不要葱姜蒜大佬替换成自己名字或昵称! 1.安装 # 如果你是在 Int…...

勒索攻击风起云涌,Sodinokibi深度分析
前言 Sodinokibi勒索病毒,又称为REvil勒索病毒,这款勒索病毒最早在国内被发现是2019年4月份,笔者在早期分析这款勒索病毒的时候就发现它与其他勒索病毒不同,于是被笔者称为GandCrab勒索病毒的“接班人”,为什么它是Ga…...
1124. 骑马修栅栏(欧拉路径,模板)
农民John每年有很多栅栏要修理。 他总是骑着马穿过每一个栅栏并修复它破损的地方。 John是一个与其他农民一样懒的人。 他讨厌骑马,因此从来不两次经过一个栅栏。 你必须编一个程序,读入栅栏网络的描述,并计算出一条修栅栏的路径…...

C# CAD2016获取数据操作BlockTableRecord、Polyline、DBObject
一、数据操作说明 //DBObject 基础类 DBObject dbObj (DBObject)tr.GetObject(outerId, OpenMode.ForRead); //Polyline 线段类 Polyline outerPolyline (Polyline)tr.GetObject(outerId, OpenMode.ForRead); //BlockTableRecord 块表类 BlockTableRecord modelSpace (Bloc…...

java SSM新闻管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计
一、源码特点 java SSM新闻管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S…...

Linux_线程
线程与进程 多级页表 线程控制 线程互斥 线程同步 生产者消费者模型 常见概念 下面选取32位系统举例。 一.线程与进程 上图是曾经我们认为进程所占用的资源的集合。 1.1 线程概念 线程是一个执行分支,执行粒度比进程细,调度成本比进程低线程是cpu…...

【selenium】
selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的。Selenium可以直接调用浏览器,它支持所有主流的浏览器。其本质是通过驱动浏览器,完成模拟浏览器操作,比如挑战,输入,点击等。 下载与打…...

HX711压力传感器学习一(STM32)
目录 原理图: 引脚介绍: HX711介绍工作原理: 程序讲解: 整套工程: 发送的代码工程,与博客的不一致,如果编译有报错请按照报错和博客进行修改 原理图: 引脚介绍: VCC和GND引…...
作业2.13
1、选择题 1.1、若有定义语句:int a[3][6]; ,按在内存中的存放顺序,a 数组的第10个元素是 D A)a[0][4] B) a[1][3] C)a[0][3] D)a[1][4] 1.2、有数组 int a[5] {10,20,30,40,50},…...

ArcGIS学习(七)图片数据矢量化
ArcGIS学习(七)图片数据矢量化 通过上面几个任务的学习,大家应该已经掌握了ArcGIS的基础操作,并且学习了坐标系和地理数据库这两个非常重要且稍微难一些的专题。从这一任务开始,让我们进入到实战案例板块。 首先进入第一个案例一一图片数据矢量化。 我们在平时的工作学…...
G口大流量服务器选择的关键点有哪些?
G口服务器指的是接入互联网的带宽达到1Gbps以上的服务器,那么选择使用G口大流量服务器的用户需要注意哪些选择 关键点呢?小编为您整理关于G口大流量服务器的关键点。 G口服务器通常被用于需要大带宽支持的业务场景,比如视频流媒体、金融交易平台、电子商…...
MongoDB聚合:$unset
使用$unset阶段可移除文档中的某些字段。从版本4.2开始支持。 语法 移除单个字段,可以直接指定要移除的字段名: { $unset: "<field>" }移除多个字段,可以指定一个要移除字段名的数组: { $unset: [ "<…...
DS Wannabe之5-AM Project: DS 30day int prep day14
Q1. What is Alexnet? Q2. What is VGGNet? Q3. What is VGG16? Q4. What is ResNet? At the ILSVRC 2015, so-called Residual Neural Network (ResNet) by the Kaiming He et al introduced the anovel architecture with “skip connections” and features heavy b…...

【程序设计竞赛】C++与Java的细节优化
必须强调下,以下的任意一种优化,都应该是在本身采用的算法没有任何问题情况下的“锦上添花”,而不是“雪中送炭”。 如果下面的说法存在误导,请专业大佬评论指正 读写优化 C读写优化——解除流绑定 在ACM里,经常出现…...

19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...

XCTF-web-easyupload
试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...

使用VSCode开发Django指南
使用VSCode开发Django指南 一、概述 Django 是一个高级 Python 框架,专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。 本文将创建一个简单的 Django 应用,其中包含三个使用通用基本模板的页面。在此…...

关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...
鱼香ros docker配置镜像报错:https://registry-1.docker.io/v2/
使用鱼香ros一件安装docker时的https://registry-1.docker.io/v2/问题 一键安装指令 wget http://fishros.com/install -O fishros && . fishros出现问题:docker pull 失败 网络不同,需要使用镜像源 按照如下步骤操作 sudo vi /etc/docker/dae…...
基于matlab策略迭代和值迭代法的动态规划
经典的基于策略迭代和值迭代法的动态规划matlab代码,实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...

2025季度云服务器排行榜
在全球云服务器市场,各厂商的排名和地位并非一成不变,而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势,对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析: 一、全球“三巨头”…...

回溯算法学习
一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...