当前位置：首页 > news >正文

合并PDF出现OOM异常

news 2026/2/9 4:51:09

优化方法一：使用PdfSmartCopy类代替PdfCopy类。这个类可以在合并PDF文件时，检测并消除重复的对象，从而减少内存的占用。您可以参考以下代码示例：

//创建一个Document对象
Document document = new Document();//创建一个PdfSmartCopy对象
PdfSmartCopy copy = new PdfSmartCopy(document, new FileOutputStream("output.pdf"));//打开Document对象
document.open();//创建一个PdfReader对象
PdfReader reader = null;//遍历要合并的PDF文件
for (String file : files) {//加载PDF文件reader = new PdfReader(file);//获取PDF文件的总页数int n = reader.getNumberOfPages();//遍历每一页，添加到PdfSmartCopy对象中for (int page = 0; page < n;) {copy.addPage(copy.getImportedPage(reader, ++page));}
}//关闭PdfReader对象
reader.close();//关闭Document对象
document.close();//创建一个PdfStamper对象
PdfStamper stamper = new PdfStamper(new PdfReader("output.pdf"), new FileOutputStream("output.pdf"));//获取总页数
int pageCount = stamper.getReader().getNumberOfPages();//遍历每一页，添加页码
for (int i = 1; i <= pageCount; i++) {//获取当前页PdfContentByte content = stamper.getOverContent(i);//设置字体和颜色content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);content.setRGBColorFill(0, 0, 0);//获取当前页的宽度和高度Rectangle pageSize = stamper.getReader().getPageSize(i);float width = pageSize.getWidth();float height = pageSize.getHeight();//计算页码的位置float x = width / 2;float y = 10;//添加页码content.beginText();content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页，共" + pageCount + "页", x, y, 0);content.endText();
}//关闭PdfStamper对象
stamper.close();

优化方法二：使用PdfWriter类代替PdfCopy类。这个类可以在合并PDF文件时，直接将每一页写入到输出流中，而不需要将整个文档加载到内存中。可以参考以下代码示例：

//创建一个Document对象
Document document = new Document();//创建一个PdfWriter对象
PdfWriter writer = PdfWriter.getInstance(document, new FileOutputStream("output.pdf"));//打开Document对象
document.open();//创建一个PdfImportedPage对象
PdfImportedPage page = null;//创建一个PdfReader对象
PdfReader reader = null;//遍历要合并的PDF文件
for (String file : files) {//加载PDF文件reader = new PdfReader(file);//获取PDF文件的总页数int n = reader.getNumberOfPages();//遍历每一页，添加到PdfWriter对象中for (int i = 1; i <= n; i++) {//获取当前页的宽度和高度Rectangle pageSize = reader.getPageSizeWithRotation(i);float width = pageSize.getWidth();float height = pageSize.getHeight();//设置Document对象的页面大小document.setPageSize(pageSize);//创建一个新的页面document.newPage();//导入当前页page = writer.getImportedPage(reader, i);//将当前页添加到PdfWriter对象中writer.addPageDictEntry(PdfName.ROTATE, pageSize.getRotationAsPageDictEntry());writer.addDirectImageSimple(page);writer.getCurrentPage().add(page);//创建一个PdfContentByte对象PdfContentByte content = writer.getDirectContent();//设置字体和颜色content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);content.setRGBColorFill(0, 0, 0);//计算页码的位置float x = width / 2;float y = 10;//添加页码content.beginText();content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页，共" + pageCount + "页", x, y, 0);content.endText();}
}//关闭PdfReader对象
reader.close();//关闭Document对象
document.close();

优化方法三：使用PdfReader类的partial和selectPages方法。这些方法可以在加载PDF文件时，只读取需要的页面，而不需要将整个文档加载到内存中。可以参考以下代码示例：

//创建一个Document对象
Document document = new Document();//创建一个PdfCopy对象
PdfCopy copy = new PdfCopy(document, new FileOutputStream("output.pdf"));//打开Document对象
document.open();//创建一个PdfReader对象
PdfReader reader = null;//遍历要合并的PDF文件
for (String file : files) {//设置partial为true，只读取需要的页面reader = new PdfReader(new RandomAccessFileOrArray(file), null);reader.consolidateNamedDestinations();reader.partial = true;//获取PDF文件的总页数int n = reader.getNumberOfPages();//创建一个List对象，存储需要的页面List<Integer> pages = new ArrayList<Integer>();//遍历每一页，添加到List对象中for (int i = 1; i <= n; i++) {pages.add(i);}//使用selectPages方法，只选择需要的页面reader.selectPages(pages);//将选择的页面添加到PdfCopy对象中for (int i = 0; i < pages.size(); ) {copy.addPage(copy.getImportedPage(reader, ++i));}
}//关闭PdfReader对象
reader.close();//关闭Document对象
document.close();//创建一个PdfStamper对象
PdfStamper stamper = new PdfStamper(new PdfReader("output.pdf"), new FileOutputStream("output.pdf"));//获取总页数
int pageCount = stamper.getReader().getNumberOfPages();//遍历每一页，添加页码
for (int i = 1; i <= pageCount; i++) {//获取当前页PdfContentByte content = stamper.getOverContent(i);//设置字体和颜色content.setFontAndSize(BaseFont.createFont(BaseFont.HELVETICA, BaseFont.WINANSI, BaseFont.NOT_EMBEDDED), 12);content.setRGBColorFill(0, 0, 0);//获取当前页的宽度和高度Rectangle pageSize = stamper.getReader().getPageSize(i);float width = pageSize.getWidth();float height = pageSize.getHeight();//计算页码的位置float x = width / 2;float y = 10;//添加页码content.beginText();content.showTextAligned(PdfContentByte.ALIGN_CENTER, "第" + i + "页，共" + pageCount + "页", x, y, 0);content.endText();
}//关闭PdfStamper对象
stamper.close();

[java - How to avoid OutOfMemoryError when merging PDFs using iText? - Stack Overflow]

[java - How to merge pdf files without loading all the documents in memory? - Stack Overflow]

合并PDF出现OOM异常

优化方法一：使用PdfSmartCopy类代替PdfCopy类。这个类可以在合并PDF文件时，检测并消除重复的对象，从而减少内存的占用。您可以参考以下代码示例： //创建一个Document对象 Document document new Document();//创建一个PdfSmartC…...

编程日记 2023/11/29 15:41:24

c语言-数据结构-链式二叉树

目录 1、二叉树的概念及结构 2、二叉树的遍历概念 2.1 二叉树的前序遍历 2.2 二叉树的中序遍历 2.3 二叉树的后序遍历 2.4 二叉树的层序遍历 3、创建一颗二叉树 4、递归方法实现二叉树前、中、后遍历 4.1 实现前序遍历 4.2 实现中序遍历 4.3 实现后序遍历 5、…...

编程日记 2023/11/29 15:40:23

DelayQueue介绍

5.1 DelayQueue介绍&应用 DelayQueue就是一个延迟队列，生产者写入一个消息，这个消息还有直接被消费的延迟时间。需要让消息具有延迟的特性。 DelayQueue也是基于二叉堆结构实现的，甚至本事就是基于PriorityQueue实现的功能。二叉堆结构…...

编程日记 2023/11/29 15:39:22

centos8 redis 6.2.6源码安装+主从哨兵

文章目录 centos8 redis 6.2.6源码安装主从哨兵下载解压编译安装配置配置systemd服务启停及开机启动登录验证主从同步配置哨兵哨兵注册systemd centos8 redis 6.2.6源码安装主从哨兵单机安装下载解压 cd /data wget http://download.redis.io/releases/redis-6.2.6.tar.gz…...

编程日记 2023/11/29 15:38:21

机器学习之危险品车辆目标检测

危险品的运输涉及从离开仓库到由车辆运输到目的地的风险。监控事故、车辆运动动态以及车辆通过特定区域的频率对于监督车辆运输危险品的过程至关重要。在线工具推荐： 三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数…...

编程日记 2023/11/29 15:37:19

DHCP协议及实验omnipeek抓包工具分析 IPv4协议

一抓包命令 adb shell tcpdump -i wlan0 -w /data/tcpdump.pcap 抓包后截图如下二 DHCP是什么 2.1 DHCP定义 DHCP（ Dynamic Host Configuration Protocol，动态主机配置协议）定义：存在于应用层（OSI）前身是BOOTP（Bootstrap Protocol）协议是一个使用UDP（User …...

编程日记 2023/11/29 15:36:18

考过了PMP，面试的时候应该怎么办？

近期喜番在后台收到了很多同学们的私信，表示自己已经过了8月份的PMP考试，开始着手往项目管理岗位转型，但是对于项目管理岗位的面试却一筹莫展。放轻松，大家的需求喜番都了解了，喜番给大家总结了一些项目经理在面试的时…...

编程日记 2023/11/29 15:34:17

技巧-PyTorch中num_works的作用和实验测试

简介在 PyTorch 中，num_workers 是 DataLoader 中的一个参数，用于控制数据加载的并发线程数。它允许您在数据加载过程中使用多个线程，以提高数据加载的效率。具体来说，num_workers 参数指定了 DataLoader 在加载数据时将创建的…...

编程日记 2023/11/29 15:33:16

Android：FragmentTransaction

上一篇Android：FragmentTransaction我们大概介绍了FragmentManager的大致工作流程，知道了每个动作都会添加到Op队列里，并由FragmentTransaction进行管理，那么我们就来看看FragmentTransaction的具体内容。首先FragmentTransacti…...

编程日记 2023/11/29 15:32:15

5.golang字符串的拆解和拼接

字符串是 Go 中的字节切片。可以通过将一组字符括在双引号中来创建字符串" "。Go 中的字符串是兼容Unicode编码的，并且是UTF-8编码的。访问字符串的单个字节或字符由于字符串是字节切片，因此可以访问字符串的每个字节。 func printStr(s …...

编程日记 2023/11/29 15:31:14

配置 Mantis 在 Windows 上的步骤

配置 Mantis Bug Tracker 在 Windows 上的步骤 Mantis Bug Tracker 是一款开源的缺陷跟踪系统，用于管理软件开发中的问题和缺陷。在 Windows 环境下配置 Mantis 可以帮助开发者更方便地进行项目管理。以下是一个详细的教程，包含了 EasyPHP Devserver 和…...

编程日记 2023/11/29 15:30:13

Android 单元测试初体验(二)-断言

[TOC](Android 单元测试初体验(二)-断言) 前言当初在学校学安卓的时候，老师敢教学进度，翻到单元测试这一章节的时候提了两句，没有把单元测试当重点讲，只是说我们工作中几乎不会用到，果真在之前的几年工作当中我真的没…...

编程日记 2023/11/29 15:29:10

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示

通过ros系统中websocket中发送sensor_msgs::Image数据给web端显示(一) 图片数据转成base64编码方式 #include <ros/ros.h> #include <signal.h> #include <sensor_msgs/Image.h> #include <message_filters/subscriber.h> #include <message_filt…...

编程日记 2023/11/29 15:28:09

【 Kubernetes 风云录】- Istio 应用多版本流量控制

文章目录原理实现DeploymentVirtualServiceDestinationRule 约束部署目的: 根据不同的引擎版本，可以把请求发送到指定的引擎上。可以实现版本降级。原理 Istio通过VirtualService和DestinationRule两个资源对象来实现流量管理，其中VirtualService用于…...

编程日记 2023/11/29 15:26:07

比尔盖茨：GPT-5不会比GPT-4好多少，生成式AI已达到极限

比尔盖茨一句爆料，成为机器学习社区热议焦点： “GPT-5不会比GPT-4好多少。” 虽然他已不再正式参与微软的日常运营，但仍在担任顾问，并且熟悉OpenAI领导团队的想法。消息来自德国《商报》（Handelsblatt）对…...

编程日记 2023/11/29 15:24:04

let const 与var的区别

1、let可以形成块级作用域，在es6之前javascript只有函数作用域，没有块级作用域。在es6之前实现块级作用域: 2、可以看到通过一个立即执行函数表达式，我们实现了一个局部作用域或者块级作用域，但是有了let之后就不需要写这样的代…...

编程日记 2023/11/29 15:23:02

git 把项目托管到码云

码云： 把项目托管到码云 1.注册并微活码云账号(https://gitee.com/] 2.牛成井前博 SSH公钥 (运行 ssh -t gitgitee.com 构测 SSH 公明是否有开成功) 3.创建率户的码人伦;库 4.把本地项口上传到码云对应的空白仓库中第一：上传个新项目 cd existing_git_…...

编程日记 2023/11/29 15:22:02

sCrypt 现已支持各类主流前端框架

sCrypt 现已支持各类主流前端框架，包括： ReactNext.jsAngularSvelteVue 3.x or 2.x bundled with Vite or Webpack 通过在这些支持的前端框架中集成sCrypt开发环境，你可以直接在前端项目里访问合约实例和调用合约，方便用户使用Se…...

编程日记 2023/11/29 15:21:01

leetcode:2549. 统计桌面上的不同数字（python3解法）

难度：简单给你一个正整数 n ，开始时，它放在桌面上。在 109 天内，每天都要执行下述步骤： 对于出现在桌面上的每个数字 x ，找出符合 1 < i < n 且满足 x % i 1 的所有数字 i 。然后，将这些…...

编程日记 2023/11/29 15:20:00

数据结构 / day03作业

1.顺序表按元素删除 //main.c#include "head.h" int main(int argc, const char *argv[]) {sqlist *listcreate_space();// printf("&list%p\n", list);int n;int index;data_type element, key;printf("please input n;");scanf("%d&…...

编程日记 2023/11/29 15:18:58

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2026/2/8 4:37:20

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

目录 1.TCP的连接管理机制（1）三次握手①握手过程②对握手过程的理解 （2）四次挥手（3）握手和挥手的触发（4）状态切换①挥手过程中状态的切换②握手过程中状态的切换 2.TCP的可靠性&…...

编程新知 2026/1/30 0:09:51

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

简介前面两期文章我们介绍了I2S的读取和写入，一个是通过INMP441麦克风模块采集音频，一个是通过PCM5102A模块播放音频，那如果我们将两者结合起来，将麦克风采集到的音频通过PCM5102A播放，是不是就可以做一个扩音器了呢…...

编程新知 2026/2/5 8:19:14

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2026/2/4 23:47:47

苍穹外卖--缓存菜品

1.问题说明用户端小程序展示的菜品数据都是通过查询数据库获得，如果用户端访问量比较大，数据库访问压力随之增大 2.实现思路通过Redis来缓存菜品数据，减少数据库查询操作。缓存逻辑分析： ①每个分类下的菜品保持一份缓存数据…...

编程新知 2026/2/7 15:39:49

【git】把本地更改提交远程新分支feature_g

创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...

编程新知 2025/12/13 4:20:30

Map相关知识

数据结构二叉树二叉树，顾名思义，每个节点最多有两个“叉”，也就是两个子节点，分别是左子节点和右子节点。不过，二叉树并不要求每个节点都有两个子节点，有的节点只有左子节点，有的节点只有…...

编程新知 2026/2/4 16:21:14

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2026/2/4 18:09:49

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2026/1/28 1:40:03

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

相关文章：