java 读取pdf文件内容
一、引入maven
<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.25</version>
</dependency>
二、代码工具类
package com.jiayou.peis.utils;//import com.itextpdf.text.pdf.PdfReader;
//import com.itextpdf.text.pdf.parser.PdfTextExtractor;
//import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;import com.google.common.collect.Lists;
import com.jiayou.peis.entity.ImageObject;
import org.apache.commons.io.FileUtils;
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.common.PDStream;
import org.apache.pdfbox.pdmodel.graphics.PDXObject;
import org.apache.pdfbox.pdmodel.graphics.image.PDImage;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.util.ArrayList;
import java.util.List;/*** PDF处理** @author Bob Ren (Copyright © 2015-2029 贵州家有在线网络有限公司)* @version 1.0.0* @date 2022-02-07 16:21*/
public class PdfUtils {// /**
// * 使用itextpdf提取PDF文本(解析不靠谱)
// *
// * @param inputStream
// * @return
// * @throws IOException
// */
// @Deprecated
// public static String toText(InputStream inputStream) throws IOException {
// try {
// StringBuilder buf = new StringBuilder();
// PdfReader reader = new PdfReader(inputStream);
// int pageNum = reader.getNumberOfPages();
// for(int i=1;i<=pageNum;i++){
// // 读取第i页的文档内容
// buf.append(PdfTextExtractor.getTextFromPage(reader, i, new SimpleTextExtractionStrategy()));
// }
return buf.toString();
// return StrUtils.removeReturnChar(buf.toString());
// } finally {
// CloseUtils.closeQuietly(inputStream);
// }
// }public static String text(byte[] data) throws IOException {return PdfUtils.text(data, true);}public static String text(byte[] data, boolean sortByPosition) throws IOException {ByteArrayInputStream inputStream = new ByteArrayInputStream(data);return PdfUtils.text(inputStream, sortByPosition);}/*** 使用pdfbox提取PDF文本(解析正常,可使用)** @param file* @return* @throws IOException*/public static String text(File file, boolean sortByPosition) throws IOException {InputStream inputStream = new FileInputStream(file);return PdfUtils.text(inputStream, sortByPosition);}public static String text(File file) throws IOException {return PdfUtils.text(file, true);}public static String text(InputStream inputStream) throws IOException {return text(inputStream, true);}/*** 使用pdfbox提取PDF文本(解析正常,可使用)** @param inputStream* @return* @throws IOException*/public static String text(InputStream inputStream, boolean sortByPosition) throws IOException {PDDocument document = null;try {
// document = PDDocument.load(inputStream);document = Loader.loadPDF(inputStream);PDFTextStripper textStripper = new PDFTextStripper();// Get total page count of the PDF documentint numberOfPages = document.getNumberOfPages();//set the first page to be extractedtextStripper.setStartPage(1);// set the last page to be extractedtextStripper.setEndPage(numberOfPages);// 获取文本内容textStripper.setSortByPosition(sortByPosition);textStripper.setShouldSeparateByBeads(true);return StrUtils.removeReturnChar(textStripper.getText(document));} finally {CloseUtils.closeQuietly(document, inputStream);}}/*** 使用pdfbox提取PDF文本(解析正常,可使用)** @param file* @return* @throws IOException*/public static List<ImageObject> images(File file) throws IOException {InputStream inputStream = new FileInputStream(file);return PdfUtils.images(inputStream);}public static List<ImageObject> images(byte[] data) throws IOException {ByteArrayInputStream inputStream = null;try {inputStream = new ByteArrayInputStream(data);return PdfUtils.images(inputStream);} finally {CloseUtils.closeQuietly(inputStream);}}/*** 使用pdfbox提取PDF图片列表** @param inputStream* @return* @throws IOException*/public static List<ImageObject> images(InputStream inputStream) throws IOException {List<ImageObject> imageList = Lists.newArrayList();PDDocument document = null;try {
// document = PDDocument.load(inputStream);document = Loader.loadPDF(inputStream);// get resources for a pagePDResources pdResources = document.getPage(0).getResources();int i = 0;for (COSName csName : pdResources.getXObjectNames()) {
// System.out.println(i+":"+csName);PDXObject pdxObject = pdResources.getXObject(csName);if (pdxObject instanceof PDImageXObject) {
// i++;PDStream pdStream = pdxObject.getStream();PDImageXObject image = new PDImageXObject(pdStream, pdResources);String imageSuffix = imageSuffix(image);// image storage location and image nameBufferedImage bufferedImage = image.getImage();ImageObject object = new ImageObject();object.setIndex(i++);object.setImage(bufferedImage);object.setSuffix(imageSuffix);imageList.add(object);}}} finally {CloseUtils.closeQuietly(document, inputStream);}return imageList;}/*** 获取图片后缀** @param pdImage* @return* @throws IOException*/private static String imageSuffix(PDImageXObject pdImage) throws IOException {String suffix = pdImage.getSuffix();if (suffix == null || "jb2".equals(suffix)) {suffix = "png";} else if ("jpx".equals(suffix)) {// use jp2 suffix for file because jpx not known by windowssuffix = "jp2";}if (hasMasks(pdImage)) {// TIKA-3040, PDFBOX-4771: can't save ARGB as JPEGsuffix = "png";}return suffix;}private static boolean hasMasks(PDImage pdImage) throws IOException {if (pdImage instanceof PDImageXObject) {PDImageXObject ximg = (PDImageXObject) pdImage;return ximg.getMask() != null || ximg.getSoftMask() != null;}return false;}/*** 保存图片到指定文件夹** @param imageList* @param dir* @param prefixName* @throws IOException*/public static void saveImage(List<ImageObject> imageList, String dir, String prefixName) throws IOException {File imgDir = new File(dir);FileUtils.forceMkdir(imgDir);for(ImageObject image:imageList){File imgFile = new File(dir, prefixName+"_"+image.getIndex()+"."+image.getSuffix());ImageIO.write(image.getImage(), image.getSuffix(), imgFile);}}
}相关文章:
java 读取pdf文件内容
一、引入maven <dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.25</version> </dependency>二、代码工具类 package com.jiayou.peis.utils;//import com.itextpdf.text.pd…...
【linux】安装rpmrebuild
rpmrebuild是一种从已经安装的包中构建RPM文件的工具。它可以用于轻松构建修改后的包,并适用于任何使用RPM的Linux发行版。 访问地址 rpm rebuild download | SourceForge.net 选择版本 版本地址:版本地址 下载安装包 安装 rpm -ivh rpmrebuild-2.15…...
设计模式——访问者模式(Visitor Pattern)+ Spring相关源码
文章目录 一、访问者模式(Visitor Pattern)二、文字描述三、例子例子一:菜鸟教程对象定义访问者定义使用总结 例子二:Spring的BeanDefinitionVisitor 一、访问者模式(Visitor Pattern) 行为型模式。 目的&…...
SQL Delete 语句(删除表中的记录)
SQL DELETE 语句 DELETE语句用于删除表中现有记录。 SQL DELETE 语法 DELETE FROM table_name WHERE condition; 请注意删除表格中的记录时要小心!注意SQL DELETE 语句中的 WHERE 子句! WHERE子句指定需要删除哪些记录。如果省略了WHERE子句ÿ…...
在 Android 上测试 Kotlin 数据流
文章目录 一 创建虚构数据提供方二 在测试中断言数据流发出测试期间持续收集 三 测试 StateFlow使用 stateIn 创建的 StateFlow 转自: https://developer.android.google.cn/kotlin/flow/test?hlzh-cn#producer 与数据流进行通信的单元或模块的测试方式取决于受测对…...
day43
今日内容 python操作MySQL(重要) SQL注入问题(安全相关的xss,csrf) 视图(了解) 触发器(了解) 事务(重要) 存储过程(了解) 内置函数(了解,很多) 流程控制(了解) 索引(重点) python操作MySQL MySQL本身就是一款c/s架构,有服务端、有客户端&…...
终端管理制度
1、总则 1.1、目的 为规范XXXXX单位员工在使用计算机终端过程中的行为,提高计算机终端的安全性,确保员工安全使用计算机终端,特制定本制度。 1.2、范围 本规定适用于在XXXXX单位使用计算机终端的所有员工,包括内部终端和外部终…...
视频相关学习笔记
YUV 和rgb一样是一种表示色彩的格式,Y表示亮度,UV表示色度(U是蓝色投影,V是红色投影),只有Y就是黑白的,所以这个格式的视频图片可以兼容黑白电视,所以彩色电视使用的都是YUV 存储方…...
神经网络中epoch、batch、batchsize区别
目录 1 epoch 2 batch 3 batchsize 4 区别 1 epoch 当数据集中的全部数据样本通过神经网络一次并且返回一次的过程即完成一次训练称为一个epoch。 当我们分批学习时,每次使用过全部训练数据完成一次Forword运算以及一次BP运算,称为完成了一次epoch。 epoch时期 = 所有训练…...
如何将Mysql数据库的表导出并导入到另外的架构
如何将Mysql数据库的表导出并导入到另外的架构 准备一、解决方法1.右键->导出->用mysqldump导出2.注意路径一般为:C:/Program Files/MySQL/MySQL Server 8.0/bin/mysqldump.exe和导出的sql文件位置3.右键->SQL脚本->运行SQL脚本4.找到SQL脚本并点击确定…...
【tio-websocket】9、服务配置与维护—TioConfig
场景 我们在写 TCP Server 时,都会先选好一个端口以监听客户端连接,再创建N组线程池来执行相关的任务,譬如发送消息、解码数据包、处理数据包等任务,还要维护客户端连接的各种数据,为了和业务互动,还要把这些客户端连接和各种业务数据绑定起来,譬如把某个客户端绑定到一…...
数据结构—线性表(下)
文章目录 6.线性表(下)(4).栈与队列的定义和ADT#1.ADT#2.栈的基本实现#3.队列的形式#4.队列的几种实现 (5).栈与队列的应用#1.栈的应用i.后缀表达式求值ii.中缀表达式转后缀表达式 #2.队列的应用 (6).线性表的其他存储方式#1.索引存储#2.哈希存储i.什么是哈希存储ii.碰撞了怎么…...
apisix之插件开发,包含java和lua两种方式
https://download.csdn.net/download/tiantangpw/88475630 有ppt和springboot程序包,可以运行...
【面试经典150 | 链表】合并两个有序链表
文章目录 Tag题目来源题目解读解题思路方法一:递归方法二:迭代 写在最后 Tag 【递归】【迭代】【链表】 题目来源 21. 合并两个有序链表 题目解读 合并两个有序链表。 解题思路 一种朴素的想法是将两个链表中的值存入到数组中,然后对数组…...
【linux】麒麟v10安装Redis主从集群(ARM架构)
安装redis单示例的请看:麒麟v10安装Redis(ARM架构) 安装环境 HostnameIP addressmaster192.168.0.1slave1192.168.0.2slave2192.168.0.3 下载安装包 (三台都操作) wget https://repo.huaweicloud.com/kunpeng/…...
解决k8s删除名称空间无法强制删除的问题
问题起因:删除k8s名称空间的时候(此时名称空间下还有很多pod)一直删不掉,被我强行ctrl c了, 问题表象:然后就出现下面这悲催的一幕了,两个名称空间一直处于Terminating了 [rootmaster02 ~]# ku…...
华为---DHCP中继代理简介及示例配置
DHCP中继代理简介 IP动态获取过程中,客户端(DHCP Client)总是以广播(广播帧及广播IP报文)方式来发送DHCPDISCOVER和DHCPREQUEST消息的。如果服务器(DHCP Server)和 客户端不在同一个二层网络(二…...
五、W5100S/W5500+RP2040树莓派Pico<UDP Client数据回环测试>
文章目录 1. 前言2. 协议简介2.1 简述2.2 优点2.3 应用 3. WIZnet以太网芯片4. UDP Client回环测试4.1 程序流程图4.2 测试准备4.3 连接方式4.4 相关代码4.5 测试现象 5. 注意事项6. 相关链接 1. 前言 UDP是一种无连接的网络协议,它提供了一种简单的、不可靠的方式来…...
死锁Deadlock
定义 死锁是指两个或多个线程互相持有对方所需的资源,从而导致它们无法继续执行的情况。如下图所示,现有两个线程,分别是线程A及线程B,线程A持有锁A,线程B持有锁B。此时线程A想获取锁B,但锁B需等到线程B的结…...
【spark客户端】Spark SQL CLI详解:怎么执行sql文件、注释怎么写,支持的文件路径协议、交互式模式使用细节
文章目录 一. Spark SQL Command Line Options(命令行参数)二. The hiverc File1. without the -i2. .hiverc 介绍 三. 支持的路径协议四. 支持的注释类型五. Spark SQL CLI交互式命令六. Examples1. running a query from the command line2. setting Hive configuration vari…...
mRNA疫苗序列生物信息学分析:从密码子优化到免疫原性预测
1. 项目概述:解码两大mRNA疫苗的“核心蓝图”作为一名在生物信息学和基因组学领域摸爬滚打了十多年的“老码农”,我见过太多令人兴奋的数据集,但当我第一次在GitHub上看到这个名为“Assemblies-of-putative-SARS-CoV2-spike-encoding-mRNA-se…...
IDEA 2018.2.3 下 Maven 依赖包消失?别慌,可能是版本兼容性在作祟
IDEA 2018.2.3 下 Maven 依赖包消失的深度排查指南 当你打开一个尘封已久的老项目,准备继续维护或迁移时,突然发现IDEA的External Libraries里空空如也,只剩下孤零零的JDK包,整个项目文件一片飘红——这种场景对许多维护历史代码库…...
如何用applera1n免费绕过iOS激活锁:完整指南与操作教程
如何用applera1n免费绕过iOS激活锁:完整指南与操作教程 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 你是否购买了一部二手iPhone或iPad,却发现设备被原主人的Apple ID锁定&a…...
Zotero插件市场:三步快速上手的插件管理神器
Zotero插件市场:三步快速上手的插件管理神器 【免费下载链接】zotero-addons Zotero Add-on Market | Zotero插件市场 | Browsing, installing, and reviewing plugins within Zotero 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-addons 想象一下&a…...
深度解析:Performance-Fish如何通过四级缓存架构实现《环世界》400%性能优化
深度解析:Performance-Fish如何通过四级缓存架构实现《环世界》400%性能优化 【免费下载链接】Performance-Fish Performance Mod for RimWorld 项目地址: https://gitcode.com/gh_mirrors/pe/Performance-Fish Performance-Fish是《环世界》(Rim…...
终极指南:3步实现PotPlayer实时字幕翻译,外语视频无障碍观看
终极指南:3步实现PotPlayer实时字幕翻译,外语视频无障碍观看 【免费下载链接】PotPlayer_Subtitle_Translate_Baidu PotPlayer 字幕在线翻译插件 - 百度平台 项目地址: https://gitcode.com/gh_mirrors/po/PotPlayer_Subtitle_Translate_Baidu 还…...
从零到一:基于GD32E230核心板的PCB设计实战与模块化解析
1. GD32E230核心板硬件设计基础 第一次拿到GD32E230这颗国产MCU时,说实话有点小激动。作为兆易创新基于Cortex-M23内核的拳头产品,它用55nm工艺把芯片面积压缩到了惊人的3x3mm,却集成了5个定时器、2个SPI、2个I2C这些实用外设。我在去年一个智…...
5分钟免费获取:开源鼠标连点器MouseClick完整使用指南
5分钟免费获取:开源鼠标连点器MouseClick完整使用指南 【免费下载链接】MouseClick 🖱️ MouseClick 🖱️ 是一款功能强大的鼠标连点器和管理工具,采用 QT Widget 开发 ,具备跨平台兼容性 。软件界面美观 ,…...
Windows鼠标指针主题定制:从.cur/.ani文件到个性化交互体验
1. 项目概述:一个为Windows终端注入灵魂的鼠标指针主题如果你和我一样,每天有超过8小时的时间是与Windows操作系统相伴的,那么你对那个千篇一律的白色箭头鼠标指针,恐怕早已感到审美疲劳。它就像一个沉默的、功能性的背景板&#…...
gnamiblast-skill:基于技能化与管道化的智能文本处理工具解析
1. 项目概述与核心价值最近在GitHub上闲逛,又发现了一个挺有意思的项目,叫gabrivardqc123/gnamiblast-skill。光看这个名字,可能有点摸不着头脑,gnamiblast听起来像是个自造词,skill又指向了某种技能或功能。作为一名常…...
