将HTML转换为PDF:使用Spire.Doc的详细指南(一) 试用版
目录
引言
1. 为什么选择 Spire.Doc?
1.1 主要特点
1.2 适用场景
2. 准备工作
2.1 引入 Spire.Doc 依赖
2.2 禁用 SSL 证书验证
3. 实现功能
3.1 主类结构
3.2 代码解析
4. 处理图像
5. 性能优化
5.1 异步下载图像
示例代码
5.2 批量处理优化
示例代码
6. 错误处理与日志管理
6.1 错误处理
示例代码
6.2 日志管理
示例代码
7. 总结
引言
在现代软件开发中,生成 PDF 文档的需求日益增长,尤其是在金融、教育、医疗等行业。PDF 格式以其固定的外观和出色的可移植性受到广泛欢迎。本文将详细介绍如何使用 Spire.Doc 库将 HTML 文件转换为 PDF 文件。本文包括完整代码示例、相关依赖管理,以及对过程中的关键概念的深入探讨。
1. 为什么选择 Spire.Doc?
Spire.Doc 是一款强大的 .NET 文档处理库,支持多种文档格式的创建、编辑和转换。使用 Spire.Doc 可以简化 HTML 转 PDF 的过程,支持复杂的 HTML 内容,包括图片、样式和链接等。
1.1 主要特点
- 无依赖:Spire.Doc 不依赖于 Microsoft Office,可以直接在服务器端运行。
- 高性能:能够快速处理和转换文档。
- 易于使用:提供友好的 API 接口,便于开发者快速上手。
1.2 适用场景
- 生成报表:将动态生成的 HTML 报告转换为 PDF。
- 文档归档:将在线文档归档为 PDF,便于存储和分发。
- 邮件发送:将用户生成的内容转换为 PDF,并通过邮件发送。
2. 准备工作
在开始之前,请确保你的开发环境中已配置 Java,并安装了 IDE(如 IntelliJ IDEA 或 Eclipse)。接下来,需要在项目中添加 Spire.Doc 依赖。
2.1 引入 Spire.Doc 依赖
在你的项目中,可以通过 Maven 引入 Spire.Doc,如下所示:
<dependency> <groupId>e-iceblue</groupId> <artifactId>spire.doc.free</artifactId> <version>5.2.0</version>
</dependency>
2.2 禁用 SSL 证书验证
在处理一些需要 HTTPS 连接的 HTML 内容时,可能会遇到 SSL 证书验证问题。为了避免这些问题,可以临时禁用 SSL 验证。下面是一个实现示例:
public static void disableSSLVerification() { try { TrustManager[] trustAllCerts = new TrustManager[]{ new X509TrustManager() { public X509Certificate[] getAcceptedIssuers() { return null; } public void checkClientTrusted(X509Certificate[] certs, String authType) { } public void checkServerTrusted(X509Certificate[] certs, String authType) { } } }; SSLContext sc = SSLContext.getInstance("SSL"); sc.init(null, trustAllCerts, new java.security.SecureRandom()); HttpsURLConnection.setDefaultSSLSocketFactory(sc.getSocketFactory()); HttpsURLConnection.setDefaultHostnameVerifier((hostname, session) -> true); } catch (Exception e) { e.printStackTrace(); }
}
3. 实现功能
接下来,我们将实现一个完整的 Java 类,通过读取 HTML 文件,将其转换为 PDF。在这个过程中,我们将重点介绍文件读取、HTML 内容处理和 PDF 文件生成的步骤。
3.1 主类结构
以下是我们的主类 DocToPdfConverter
的结构,这里包含了所有必要的方法:
package com.dahua.saas.illegalpunish.controller; import com.spire.doc.Document;
import com.spire.doc.FileFormat;
import com.spire.doc.Section; import javax.net.ssl.*;
import java.security.cert.X509Certificate;
import java.io.BufferedReader;
import java.io.FileReader;
import java.io.IOException;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern; public class DocToPdfConverter { public static void main(String[] args) throws IOException { disableSSLVerification(); String inputHtml = "C:\\cloud\\dahua\\VIASBIllegalPunish\\file\\1912202400018.doc"; Document doc = new Document(); Section sec = doc.addSection(); String htmlText = readTextFromFile(inputHtml); sec.addParagraph().appendHTML(replaceImagesWithHighRes(htmlText)); doc.saveToFile("C:\\cloud\\dahua\\VIASBIllegalPunish\\file\\1912202400018.pdf", FileFormat.PDF); doc.dispose(); } // 读取文本文件内容 public static String readTextFromFile(String fileName) throws IOException { StringBuilder sb = new StringBuilder(); BufferedReader br = new BufferedReader(new FileReader(fileName)); String content; while ((content = br.readLine()) != null) { sb.append(content); sb.append(System.lineSeparator()); } return sb.toString(); } // 替换 HTML 文本中的图片链接为高分辨率图像 public static String replaceImagesWithHighRes(String html) { String imageUrlPattern = "https?://[^\\s\"'<>]+"; Pattern pattern = Pattern.compile(imageUrlPattern); Matcher matcher = pattern.matcher(html); StringBuffer resultHtml = new StringBuffer(); while (matcher.find()) { String imageUrl = matcher.group(); String highResImage = downloadImage(imageUrl); matcher.appendReplacement(resultHtml, highResImage); } matcher.appendTail(resultHtml); return resultHtml.toString(); } // 下载图片,返回高分辨率的图像数据 public static String downloadImage(String imageUrl) { try { URL url = new URL(imageUrl); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setDoInput(true); connection.connect(); InputStream input = connection.getInputStream(); // 这里可以实现将输入流转换为适合插入 PDF 的格式 return imageUrl; // 现在只是返回原始 URL } catch (IOException e) { e.printStackTrace(); return imageUrl; } }
}
3.2 代码解析
-
禁用 SSL 验证:通过调用
disableSSLVerification()
方法来忽略 SSL 证书验证,以便可以访问 HTTP 和 HTTPS 内容。 -
读取 HTML 文件:使用
readTextFromFile()
方法读取指定路径下的 HTML 文件。这个方法使用BufferedReader
逐行读取,最终返回一个完整的 HTML 内容字符串。 -
处理图片链接:在
replaceImagesWithHighRes()
方法中,首先通过正则表达式查找所有的图片链接,然后下载高分辨率的图片。在这里,具体的下载逻辑需要根据实际情况实现,例如可以选择将图像转换为 Base64 格式,并替换 HTML 内容中的src
属性以达到嵌入图像的效果。 -
生成 PDF:使用 Spire.Doc 库创建一个新的
Document
对象,并添加一个Section
,然后通过appendHTML()
方法将处理后的 HTML 内容添加到文档中。最后,调用saveToFile()
方法将文档保存为 PDF 格式的文件。
4. 处理图像
在本示例中,downloadImage
方法返回的是原始的图像 URL。在实际应用中,您可能需要将下载的图片以适当的格式嵌入 PDF,例如将其转换为 Base64 字符串。下面是一个简单的实现示例:
public static String downloadImage(String imageUrl) { try { URL url = new URL(imageUrl); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setDoInput(true); connection.connect(); InputStream input = connection.getInputStream(); // Convert InputStream to byte array byte[] imageBytes = input.readAllBytes(); String base64Image = Base64.getEncoder().encodeToString(imageBytes); return "data:image/png;base64," + base64Image; // Assuming image is PNG } catch (IOException e) { e.printStackTrace(); return imageUrl; }
}
5. 性能优化
在处理大量图像时,批量处理或异步下载可以显著提高程序的性能和响应速度。以下是一些优化建议和具体实现策略。
5.1 异步下载图像
使用 Java 的并发 API,可以实现异步下载图像。这意味着在处理 HTML 的同时,可以在后台下载图像,不阻塞主线程。
示例代码
使用 CompletableFuture
来实现异步下载图像的能力:
import java.util.concurrent.CompletableFuture; public static CompletableFuture<String> downloadImageAsync(String imageUrl) { return CompletableFuture.supplyAsync(() -> { try { URL url = new URL(imageUrl); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setDoInput(true); connection.connect(); InputStream input = connection.getInputStream(); byte[] imageBytes = input.readAllBytes(); String base64Image = Base64.getEncoder().encodeToString(imageBytes); return "data:image/png;base64," + base64Image; // 假设图像为 PNG } catch (IOException e) { e.printStackTrace(); return imageUrl; } });
}
然后在 replaceImagesWithHighRes()
方法中,使用 Java 的流处理来启动异步下载:
public static String replaceImagesWithHighRes(String html) { String imageUrlPattern = "https?://[^\\s\"'<>]+"; Pattern pattern = Pattern.compile(imageUrlPattern); Matcher matcher = pattern.matcher(html); List<CompletableFuture<String>> futures = new ArrayList<>(); StringBuffer resultHtml = new StringBuffer(); while (matcher.find()) { String imageUrl = matcher.group(); CompletableFuture<String> future = downloadImageAsync(imageUrl); futures.add(future); matcher.appendReplacement(resultHtml, ""); // 先将占位符放入结果 HTML } matcher.appendTail(resultHtml); // 等待所有图像下载完成 CompletableFuture<Void> allOf = CompletableFuture.allOf(futures.toArray(new CompletableFuture[0])); allOf.join(); // 等待所有 CompletableFuture 完成 // 用下载后的图像替换 for (int i = 0; i < futures.size(); i++) { try { String downloadedImage = futures.get(i).get(); // 获取下载过的图像 String placeholder = ""; // 这里可以根据需要生成占位符 // 将占位符替换为实际的图像 resultHtml = new StringBuffer(resultHtml.toString().replaceFirst(Pattern.quote(placeholder), downloadedImage)); } catch (Exception e) { e.printStackTrace(); } } return resultHtml.toString();
}
通过以上方式,您可以实现图像的异步下载,从而提升程序的性能,特别是在处理大量数据时。
5.2 批量处理优化
如果 HTML 文件中包含大量的图像,您还可以采取以下措施进行批量处理:
- 限制并发量:在实际运行中,尤其是在网络条件不确定的情况下,限制并发请求的数量可以避免请求过载和资源竞争。可以使用 Java 的信号灯(Semaphore)来控制并发。
示例代码
import java.util.concurrent.Semaphore; private static final Semaphore semaphore = new Semaphore(5); // 最多允许 5 个并发下载 public static CompletableFuture<String> downloadImageAsync(String imageUrl) { return CompletableFuture.supplyAsync(() -> { try { semaphore.acquire(); // 获取信号量 try { // 文章前面提到的下载逻辑 URL url = new URL(imageUrl); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setDoInput(true); connection.connect(); InputStream input = connection.getInputStream(); byte[] imageBytes = input.readAllBytes(); String base64Image = Base64.getEncoder().encodeToString(imageBytes); return "data:image/png;base64," + base64Image; } finally { semaphore.release(); // 释放信号量 } } catch (IOException e) { e.printStackTrace(); return imageUrl; } });
}
通过这种方式,您可以控制并发量,从而降低服务器负载和提高下载成功率。
6. 错误处理与日志管理
在处理网络请求和文件操作时,错误处理至关重要。应确保在项目中实现有效的日志记录和错误处理机制。
6.1 错误处理
确保任何网络请求、文件读取和转换操作都能妥善处理异常情况。以下是一些建议:
- 捕获并记录异常:应在每个网络请求和文件操作中捕获异常并记录详细信息,以便后期调试。
- 使用重试机制:对于短暂的网络问题,可以使用重试逻辑重新尝试下载图像。
示例代码
public static String downloadImageWithRetry(String imageUrl, int retryCount) { for (int i = 0; i < retryCount; i++) { try { return downloadImage(imageUrl); // 使用之前定义的下载逻辑 } catch (IOException e) { if (i == retryCount - 1) { e.printStackTrace(); // 记录最终失败的情况 } } } return imageUrl; // 默认返回原始的 URL
}
6.2 日志管理
可以使用日志框架(如 SLF4J、Log4j)来进行日志管理。将日志记录在适当的级别(例如 INFO、WARN、ERROR),可以帮助开发人员在出现问题时快速定位。
示例代码
import org.slf4j.Logger;
import org.slf4j.LoggerFactory; public class DocToPdfConverter { private static final Logger logger = LoggerFactory.getLogger(DocToPdfConverter.class); public static void main(String[] args) { try { // 主逻辑 } catch (Exception e) { logger.error("Error occurred during PDF conversion", e); } }
}
7. 总结
本文介绍了如何使用 Spire.Doc 将 HTML 文件转换为 PDF 的详细过程。我们探讨了图像处理方法,包括同步和异步下载,并提供了实用的性能优化建议。此外,我们还强调了错误处理和日志管理的重要性,以增强代码的健壮性。
应用这些技术,您将能够高效地处理 HTML 文档,转化为高质量的 PDF 格式,满足现代软件开发中的各种需求。如需进一步信息或帮助,欢迎随时联系我解答您的疑问。希望本文能够为您的开发工作提供实用的参考和指导!
相关文章:
将HTML转换为PDF:使用Spire.Doc的详细指南(一) 试用版
目录 引言 1. 为什么选择 Spire.Doc? 1.1 主要特点 1.2 适用场景 2. 准备工作 2.1 引入 Spire.Doc 依赖 2.2 禁用 SSL 证书验证 3. 实现功能 3.1 主类结构 3.2 代码解析 4. 处理图像 5. 性能优化 5.1 异步下载图像 示例代码 5.2 批量处理优化 示例代…...

数据结构经典算法总复习(下卷)
第五章:树和二叉树 先序遍历二叉树的非递归算法。 void PreOrderTraverse(BiTree T, void (*Visit)(TElemType)) {//表示用于查找的函数的指针Stack S; BiTree p T;InitStack(S);//S模拟工作栈while (p || !StackEmpty(S)) {//S为空且下一个结点为空,意味着结束遍…...

mac 安装graalvm
Download GraalVM 上面链接选择jdk的版本 以及系统的环境下载graalvm的tar包 解压tar包 tar -xzf graalvm-jdk-<version>_macos-<architecture>.tar.gz 移入java的文件夹目录 sudo mv graalvm-jdk-<version> /Library/Java/JavaVirtualMachines 设置环境变…...

【SH】在Ubuntu Server 24中基于Python Web应用的Flask Web开发(实现POST请求)学习笔记
文章目录 Flask开发环境搭建保持Flask运行Debug调试 路由和视图可变路由 请求和响应获取请求信息Request属性响应状态码常见状态码CookieSession 表单GET请求POST请求 Flask 在用户使用浏览器访问网页的过程中,浏览器首先会发送一个请求到服务器,服务器…...
一些经济政治学类书籍推荐 --- 以及与之相关我的经历和理解
我给所开设的兴趣专栏_墨#≯的博客-CSDN博客,的介绍是: 聊聊关于文学、经济(股票等)、法律方面的个人感受与理解。 不过目前已有的两篇以及现在在写的这篇都是经济相关的,其实专栏开设的9月至今,我也看了好几本文学相关的书&#…...

设计模式之 abstract factory
适用场景 一个系统要独立于它的产品的创建、组合和表示时。一个系统要由多个产品系列中的一个来配置时。当你要强调一系列相关的产品对象的设计以便进行联合使用时。当你提供一个产品类库,而只想显示它们的接口而不是实现时 架构演示 首先client这个东西可以接触到…...

汽车IVI中控开发入门及进阶(三十八):手机投屏HiCar开发
手机投屏轻松实现手机与汽车的无缝连接,导航、音乐、通话等功能应有尽有,还支持更多第三方应用,让车载互联生活更加丰富多彩。 HiCar在兼容性和开放性上更具优势。 手机投屏可以说是车机的杀手级应用,大大拓宽了车机的可用性范围。其中华为推出的HiCar就是非常好用的一种。…...
Springmvc,spring ,mybatis,整合,ssm
上一章内容: 1.spring框架:作用 开源的框架--提供IOC和AOPIOC控制反转 把创建对象的权力交于spring创建,并管理对象的生命周期,通过DI完成对象属性的注入。 2. spring配置中<bean>也可以使用注解Component Controller Service Repo…...

《庐山派从入门到...》板载按键启动!
《庐山派从入门到...》板载按键启动! 《庐山派从入门到...》板载按键启动! 视频内容大致如下 我们之前了解了GPIO的输出模式使用方法,并且成功点灯,很明显本篇要来分享的自然是GPIO的输入模式 正好回顾一下之前学的python基础包…...

Mapbox-GL 中 `token` 的使用
Mapbox-GL 是一个开源的 JavaScript 库,允许开发者在网页上渲染交互式地图。token 在 Mapbox 中主要是指 access token,它用于身份验证和授权,确保应用程序能够访问 Mapbox 的地图服务。 下面详细解析 Mapbox GL 中 token 的使用,…...

Flutter组件————PageView
PageView 可以创建滑动页面效果的widget,它允许用户通过水平或垂直滑动手势在多个子页面(child widgets)之间切换。每个子页面通常占据屏幕的全部空间。 参数 参数名类型描述childrenList<Widget>包含在 PageView 中的所有子部件&am…...
c#自定义事件
自定义事件类 定义一个自定义事件参数类 为了传递更多的信息,我们定义一个自定义的事件参数类 public class CustomEventArgs : EventArgs {public string Message { get; set; } } 3. 定义一个发布者类 接下来,我们定义一个发布者类,包含…...
【读书笔记】《论语别裁》寂寞的享受
1.内容摘要 在《论语别裁》中,第一章《学而》探讨了做学问的孤独与坚持。作者强调,真正的学者在追求知识时,必须保持“仁”与“义”的核心价值观,愿意为自己的信念与理想而牺牲。他以孔子为例,描绘了孔子一生的寂寞与…...

Oracle筑基篇-调度算法-LRU的引入
常见的调度算法 图1 调度算法思维导图 一、LRU算法的典型使用场景 1. 操作系统中的页面置换 什么时候用到页面置换算法呢? 当CPU发出指令需要访问某个地址时,若该地址在TLB(Translation Lookaside Buffer,快表)或页…...

单元测试-Unittest框架实践
文章目录 1.Unittest简介1.1 自动化测试用例编写步骤1.2 相关概念1.3 用例编写规则1.4 断言方法 2.示例2.1 业务代码2.2 编写测试用例2.3 生成报告2.3.1 方法12.3.2 方法2 1.Unittest简介 Unittest是Python自带的单元测试框架,适用于:单元测试、Web自动…...
linux驱动:6ull(3)自动分配设备号来创建led驱动
在 linux驱动:6ull(2)的文章代码上进行更改 步骤: 创建入口函数和出口函数定义一个设备结构体和创建一个led设备在入口函数init中添加初始化led的gpio在入口函数init中添加自动分配设备号来创建led字符设备在出口函数中取消led的…...

GM_T 0039《密码模块安全检测要求》题目
单项选择题 根据GM/T 0039《密码模块安全检测要求》,送检单位的密码模块应包括()密码主管角色。 A.一个 B.两个 C.至少一个 D.至少两个 正确答案:C 多项选择题 根据GM/T 0039《密码模块安全检测要求》,关于非入侵式安全,以下属于安全三级密码模块要求的是()。 …...

第四届电气工程与控制科学
重要信息 官网:www.ic2ecs.com 时间:2024年12月27-29日 简介 第四届电气工程与控制科学定于2024年12月27-29日在中国南京召开。主要围绕“电气工程“、”控制科学“、”机械工程“、”自动化”等主题展开,旨在为从电…...

LabVIEW在电液比例控制与伺服控制中的应用
LabVIEW作为一种图形化编程环境,广泛应用于各类控制系统中,包括电液比例控制和伺服控制领域。在这些高精度、高动态要求的控制系统中,LabVIEW的优势尤为突出。以下从多个角度探讨其应用与优势: 1. 灵活的控制架构 LabVIEW为电…...

植物大战僵尸杂交版v3.0.2最新版本(附下载链接)
B站游戏作者潜艇伟伟迷于12月21日更新了植物大战僵尸杂交版3.0.2版本!!!,有b站账户的记得要给作者三连关注一下呀! 不多废话下载链接放上: 夸克网盘链接::https://pan.quark.cn/s/5c…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

简易版抽奖活动的设计技术方案
1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...
生成 Git SSH 证书
🔑 1. 生成 SSH 密钥对 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明: -t rsa&#x…...
安卓基础(aar)
重新设置java21的环境,临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的: MyApp/ ├── app/ …...

springboot整合VUE之在线教育管理系统简介
可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生,小白用户,想学习知识的 有点基础,想要通过项…...

三分算法与DeepSeek辅助证明是单峰函数
前置 单峰函数有唯一的最大值,最大值左侧的数值严格单调递增,最大值右侧的数值严格单调递减。 单谷函数有唯一的最小值,最小值左侧的数值严格单调递减,最小值右侧的数值严格单调递增。 三分的本质 三分和二分一样都是通过不断缩…...
BLEU评分:机器翻译质量评估的黄金标准
BLEU评分:机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域,衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标,自2002年由IBM的Kishore Papineni等人提出以来,…...

rknn toolkit2搭建和推理
安装Miniconda Miniconda - Anaconda Miniconda 选择一个 新的 版本 ,不用和RKNN的python版本保持一致 使用 ./xxx.sh进行安装 下面配置一下载源 # 清华大学源(最常用) conda config --add channels https://mirrors.tuna.tsinghua.edu.cn…...

在 Visual Studio Code 中使用驭码 CodeRider 提升开发效率:以冒泡排序为例
目录 前言1 插件安装与配置1.1 安装驭码 CodeRider1.2 初始配置建议 2 示例代码:冒泡排序3 驭码 CodeRider 功能详解3.1 功能概览3.2 代码解释功能3.3 自动注释生成3.4 逻辑修改功能3.5 单元测试自动生成3.6 代码优化建议 4 驭码的实际应用建议5 常见问题与解决建议…...

C# winform教程(二)----checkbox
一、作用 提供一个用户选择或者不选的状态,这是一个可以多选的控件。 二、属性 其实功能大差不差,除了特殊的几个外,与button基本相同,所有说几个独有的 checkbox属性 名称内容含义appearance控件外观可以变成按钮形状checkali…...