当前位置: 首页 > news >正文

C# 提取 PDF 文档中的文本

C# .Net 使用 IText7 从PDF文件中提取出所有文本内容

【文 / 张赐荣】

首先在 Nuget 包管理器中,安装"itext7" 和 "itext7.font-asian"。
如果不安装 "itext7.font-asian" PDF 文件中有非Unicode编码的字符,将会抛出运行时异常:iText.IO.Exceptions.IOException:找不到 CMap iText.IO.Font.Cmap.UniGB-UTF16-H。安装好了这两个组件之后,使用以下代码,从PDF文件中提取出所有的文本。

using System;
using System.Collections;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Text;
using System.Threading;
using System.Threading.Tasks;
using System.Runtime.InteropServices;
using iText.Kernel.Pdf;
using iText.Kernel.Pdf.Canvas.Parser;
using iText.Kernel.Pdf.Canvas.Parser.Listener;
using iText.Layout;
using iText.Layout.Element;

namespace ConsoleApplication
{
public static class PDFTextExtractor
{
public static string ExtractText(string pdfFilePath)
{
//创建一个PdfReader对象,用来读取pdf文件
PdfReader pdfReader = new PdfReader(pdfFilePath);
//创建一个PdfDocument对象,用于操作pdf文档
PdfDocument pdfDocument = new PdfDocument(pdfReader);
//创建一个StringBuilder对象,来存储提取的文本
StringBuilder textBuilder = new StringBuilder();
//获取pdf文档的总页数
int pageCount = pdfDocument.GetNumberOfPages();
//遍历每一页
for (int i = 1; i <= pageCount; i++)
{
//获取当前页的PdfPage对象
PdfPage pdfPage = pdfDocument.GetPage(i);
//创建一个ITextExtractionStrategy对象,用于指定提取文本的策略
ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
//使用PdfTextExtractor类的GetTextFromPage方法,根据指定的策略提取当前页的文本
string pageText = PdfTextExtractor.GetTextFromPage(pdfPage, strategy);
//将提取的文本追加到StringBuilder对象中
textBuilder.Append(pageText);
}
//关闭PdfDocument对象
pdfDocument.Close();
//返回StringBuilder对象中的字符串
return textBuilder.ToString();
}
}
}
 

相关文章:

C# 提取 PDF 文档中的文本

C# .Net 使用 IText7 从PDF文件中提取出所有文本内容 【文 / 张赐荣】 首先在 Nuget 包管理器中,安装"itext7" 和 "itext7.font-asian"。 如果不安装 "itext7.font-asian" PDF 文件中有非Unicode编码的字符,将会抛出运行时异常:iText.IO.Excep…...

mac如何升级node版本、切换node版本

一、mac如何升级node版本 当前官网稳定版本是18.15.0 所以我从v14.17.4升级到v18.15.0 二、mac如何切换node版本 切换到16.20.0版本 三、这里是用node.js的多版本管理器n来升级和切换的&#xff0c;命令如下&#xff1a; 1、sudo npm cache clean -f //清除node.js的cache …...

一位大专学历的女程序员要求月薪25K,学历重要吗?来看看面试过程

“请提供一份完整的简历&#xff0c;以便我审查。从您的简历中&#xff0c;我感觉您写得还不错。方便的话&#xff0c;您可以自我简单介绍一下吗&#xff1f;“ ”好的&#xff0c;我叫李娟&#xff0c;拥有大专学位&#xff0c;目前正在寻找一份Java开发架构师的工作岗位。“…...

ESP32驱动1.28寸GC9A01播放视频(一、视频分辨率的调整和视频格式的转换)

ESP32驱动1.28寸GC9A01播放视频&#xff08;一、视频分辨率的调整和视频格式的转换&#xff09;播放前准备转换视频分辨率用FFmpeg将.MP4转换为.mjpeg格式FFmpeg的win10环境搭建FFmpeg的下载环境变量的搭建MP4转换成mjpeg格式总结播放前准备 1.28寸GC9A01屏幕的分辨率是240x24…...

epoll的LT模式(水平触发)和ET模式(边沿触发)

前言 epoll的触发模式是个引发讨论非常多的话题&#xff0c;网络上这方面总结的文章也很多&#xff0c;首先从名字上就不是很统一&#xff0c;LT模式常被称为水平触发、电平触发、条件触发&#xff0c;而ET模式常被称为边缘触发、边沿触发等&#xff0c;这些都是从英文翻译过来…...

Java基础面试20题

Java的八大基本数据类型 答&#xff1a;可以分4种类型&#xff1a;布尔类型(boolean)&#xff0c;字符类型(char)&#xff0c;浮点类型(double&#xff0c;float)&#xff0c;整型(byte&#xff0c;short&#xff0c;int, long)。 String,StringBuffer与StringBuilder的区别? …...

Java面向对象封装

目录 封装的概念 封装具体实现步骤 示例代码如下 封装具体语法 封装的概念 Java封装是一种面向对象的编程方法,它的主要思想是将类的内部细节(包括数据和方法)隐藏起来,对外只提供公共的访问接口,从而保证了程序的安全性和稳定性。 封装具体实现步骤 1、声明类的成…...

队列实现图书信息管理(C语言)

文章目录Queue.hmain.cQueue.c用队列实现一个图书信息管理&#xff0c;这里放一下有哪些文件。&#xff08;ps&#xff1a;我之前写的是学生信息管理&#xff0c;但是有人说我们的作业是写图书&#xff0c;就该了下内容&#xff0c;没有改文件名&#xff09;队列是用链表实现的…...

Java开发 - 读写分离初体验

前言 上一篇中&#xff0c;我们介绍了主从复制&#xff0c;相信学过的小伙伴已经能够很好的掌握主从复制的技术&#xff0c;实际上也并没有那么难&#xff0c;虽然没有讲一主多从&#xff0c;多主多从的配置&#xff0c;但是从一主一从的配置中也很容易联想到该怎么配置&#…...

图文详解CAN Log文件 - ASC文件格式

目录 1 CAN Log文件 -- ASC文件格式 1.1 Header 1.2 版本编号 1.3 经典CAN网络中的描述 1.3.1 经典CAN Standard标准帧的描述 1.3.2 经典CAN Extended扩展帧的描述 1.3.3 CAN Remote远程帧的描述 1.3.4 CAN Error错误帧的描述 1.4 CANFD网络中的描述 1.4.1 经典CAN S…...

网络编程套接字(一)

学习任务&#xff1a; 我们先来认识端口号&#xff0c;区分好主机IP和端口号的区别&#xff0c;以及涉及到进程PID和端口号的区别。 然后简单认识一下TCP协议和UDP协议&#xff0c;这两个协议都是传输层的。接着了解什么是网络字节序&#xff0c;它有什么作用。然后是网络编程的…...

Mysql数据库存储过程

1、参数分类 存储过程的参数类型可以是IN、OUT和INOUT。根据这点分类如下&#xff1a; 1、没有参数&#xff08;无参数无返回&#xff09; 2、仅仅带 IN 类型&#xff08;有参数无返回&#xff09; 3、仅仅带 OUT 类型&#xff08;无参数有返回&#xff09; 4、既带 IN 又带 O…...

当我开始学习人工智能:人工智能的学派及研究目标

上课真是不认真啊&#xff0c;现在都写不来了作业了&#xff0c;真的会谢 一、人工智能的学派及其争论 1.1 对人工智能方法的争论 三个学派 符号主义 认为人的认知基元是符号&#xff0c;认知过程即符号操作过程。 认为人是一个物理符号系统&#xff0c;计算机也是一个物理符…...

Html5钢琴块游戏制作与分享(音游可玩)

当年一款手机节奏音游&#xff0c;相信不少人都玩过或见过。最近也是将其做了出来分享给大家。 游戏的基本玩法&#xff1a;点击下落的黑色方块&#xff0c;弹奏音乐。&#xff08;下落的速度会越来越快&#xff09; 可以进行试玩&#xff0c;手机玩起来效果会更好些。 点击…...

MySQL数据库——数据库设计概念和数据库设计步骤

数据库设计就是根据业务系统的具体需求&#xff0c;结合我们所选用的数据库&#xff0c;建立好表结构及表与表之间的管理关系&#xff0c;为这个业务系统构造出最优秀的数据存储模型的过程。使之能有效的对应用的数据进行存储&#xff0c;并高效的对已经存储的数据进行访问。 …...

【云原生】Kubernetes(k8s)之Pod概念和使用

k8s之Pod概念和使用一、Pod简介1.1、Pod的阶段&#xff08;状态&#xff09;1.2、容器状态二、Pod的定义2.1、restartPolicy2.2、imagePullPolicy2.3、command2.4、args2.5、resources三、Pod的使用3.1、创建并访问Pod3.2、多个应用容器3.3、Init容器3.3.1、Init容器与普通容器…...

数组(九)-- LC[316][321][402] 去除重复字母

1 移掉 K 位数字 1.1 题目描述 题目链接&#xff1a;https://leetcode.cn/problems/remove-k-digits/ 1.2 思路分析 这道题让我们从一个字符串数字中删除 k 个数字&#xff0c;使得剩下的数最小。也就说&#xff0c;我们要保持原来的数字的相对位置不变。 以题目中的 num1432…...

ubuntu下Thrift安装

thrift是一种常用rpc框架&#xff0c;工作中经常会用到&#xff0c;本文记录一下其安装过程。 目录 1.下载软件包 1.1thrift下载 1.2libevent下载 1.3boost下载 2.安装&#xff08;注意步骤&#xff09; 2.1安装libevent 2.2安装boost 2.3安装与Python2.7版本对应的py…...

读懂AUTOSAR :DiagnosticLogAndTrace DLT(四)-- API解析

一、周期调用的函数&#xff1a;Dlt_TxFunction 根据参数DltGeneralTrafficShapingSupport&#xff0c;决定如何去发送DLT消息。如果为TRUE&#xff0c;那需要参考参数DltLogChannelTrafficShapingBandwidth为每个Log通道设置发送带宽&#xff1b;如果为FALSE&#xff0c;那么…...

【LeetCode】剑指 Offer 56. 数组中数字出现的次数 p275 -- Java Version

1. 题目介绍&#xff08;56. 数组中数字出现的次数&#xff09; 面试题56.&#xff1a;数组中数字出现的次数&#xff0c; 一共分为两小题&#xff1a; 题目一&#xff1a;数组中只出现一次的两个数字题目二&#xff1a;数组中唯一只出现一次的数字 2. 题目1&#xff1a;数组中…...

STM32 HAL库设计解析:从GPIO到外设的面向对象编程实践

1. 项目概述&#xff1a;从寄存器操作到HAL API的思维跃迁如果你是从标准外设库&#xff08;SPL&#xff09;或者更早的寄存器直接操作时代过来的STM32开发者&#xff0c;第一次接触HAL库时&#xff0c;可能会觉得有点“绕”。为什么一个简单的引脚翻转&#xff0c;不再是对GPI…...

口碑好的芯片老化座选哪家?

芯片测试和老化是确保产品质量的关键环节。选择一款性能稳定、可靠性高的芯片老化座对于企业来说至关重要。本文将对比分析几家知名品牌的芯片老化座&#xff0c;并推荐其中的佼佼者——鸿怡电子。1. 鸿怡电子&#xff1a;国产优质IC测试座领军者产品特点设计结构&#xff1a;鸿…...

从LED灯珠到手机屏幕:一文搞懂色温、显色指数(CRI)怎么选,告别‘卖家秀’惨案

从LED灯珠到手机屏幕&#xff1a;色温与显色指数的科学选购指南 深夜伏案工作时&#xff0c;你是否总觉得眼睛干涩疲劳&#xff1f;网购衣物到手后颜色总与屏幕显示相差甚远&#xff1f;餐厅美食拍出来总是暗淡无光&#xff1f;这些困扰的根源往往在于——光源质量。当我们面对…...

GraphQL-WS vs 传统GraphQL:为什么WebSocket是实时应用的首选

GraphQL-WS vs 传统GraphQL&#xff1a;为什么WebSocket是实时应用的首选 【免费下载链接】graphql-ws Coherent, zero-dependency, lazy, simple, GraphQL over WebSocket Protocol compliant server and client. 项目地址: https://gitcode.com/gh_mirrors/gr/graphql-ws …...

智能定时任务管理:用自然语言替代Crontab,TickGPTick项目实践

1. 项目概述&#xff1a;一个能“听懂”你需求的定时任务管理器最近在折腾一个自动化脚本项目时&#xff0c;我又一次陷入了“定时任务”的泥潭。相信很多开发者都有同感&#xff1a;写个脚本容易&#xff0c;但想让它定时、可靠、有状态地跑起来&#xff0c;总得和 crontab、s…...

2026届学术党必备的AI辅助写作网站实际效果

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 于学术研究范畴之内&#xff0c;撰写上一篇具备高质量水平的论文&#xff0c;乃是每一位学者…...

达达主义AI艺术正在消失?深度起底平台内容审核算法对“无意义美学”的误判逻辑(含绕过策略与伦理边界声明)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;达达主义AI艺术正在消失&#xff1f; 达达主义以反逻辑、反美学、拥抱偶然性为内核&#xff0c;而当代AI艺术生成工具却日益依赖确定性提示词工程、风格迁移约束与商业审美对齐——这种张力正悄然消解达…...

用STM32和RDM6300模块DIY一个EM4100 ID卡读卡器(附完整代码和避坑指南)

用STM32和RDM6300打造高稳定性EM4100读卡器&#xff1a;从硬件连接到算法优化 在智能门禁、仓储管理和物联网设备身份识别等领域&#xff0c;低频RFID技术因其稳定性和低成本始终占据重要地位。EM4100作为最经典的125kHz只读ID卡芯片&#xff0c;其兼容读卡器的DIY实现一直是嵌…...

基于LoRA与SFT技术构建中文大语言模型:从词表扩展到指令微调实战

1. 项目概述&#xff1a;为什么我们需要中文专属的大语言模型底座&#xff1f; 如果你在过去一年里尝试过用开源的大语言模型&#xff08;LLM&#xff09;来处理中文任务&#xff0c;大概率会遇到过这样的尴尬&#xff1a;模型对英文指令理解得很好&#xff0c;但一换成中文&am…...

Vivado工程文件太大?三步教你用Tcl脚本实现源码“瘦身”与备份(附完整命令)

Vivado工程瘦身实战&#xff1a;Tcl脚本驱动的源码管理与协作优化 在FPGA开发领域&#xff0c;Vivado工程文件的体积膨胀问题一直是开发者面临的痛点。一个中等规模的项目经过几次综合与实现后&#xff0c;工程目录轻松突破数百MB并不罕见。这不仅占用宝贵的存储空间&#xff…...