当前位置: 首页 > news >正文

【DuodooBMS】给PDF附件加“受控”水印的完整Python实现

给PDF附件加“受控”水印的完整Python实现

功能需求

在实际工作中,许多文件需要添加水印以标识其状态,例如“受控”“机密”等。对于PDF文件,添加水印不仅可以增强文件的可识别性,还可以防止未经授权的使用。本代码的功能需求是:

  1. 修复PDF文件:在添加水印之前,确保PDF文件是完整且可读的,避免因文件损坏导致操作失败。

  2. 添加水印:在PDF的每一页上添加指定的水印图像或文字,水印可以设置位置、角度和透明度。

  3. 保存输出:将添加水印后的PDF文件保存到指定路径,并返回其二进制数据以便后续处理。

实现过程

  1. 修复PDF文件

    • 使用PyMuPDF库打开PDF文件,并尝试修复。如果文件损坏,PyMuPDF可以尝试修复并保存为一个新的二进制流。

    • 如果修复失败,则直接返回原始的PDF二进制数据。

    Python复制

    def repair_pdf(self, input_pdf_binary):try:# 使用 PyMuPDF 打开并修复 PDFdoc = fitz.open(stream=input_pdf_binary, filetype="pdf")repaired_pdf_binary = BytesIO()doc.save(repaired_pdf_binary)doc.close()repaired_pdf_binary.seek(0)return repaired_pdf_binary.read()except Exception as e:print(f"Error repairing PDF: {e}")return input_pdf_binary
  2. 添加水印

    • 使用reportlab库创建一个临时的PDF文件作为水印。水印可以是图像或文字,支持设置位置、角度和透明度。

    • 使用PyPDF2库将水印PDF与原始PDF合并。通过merge_page方法,将水印添加到每一页。

    Python复制

    def add_watermark(self, input_pdf_binary, output_pdf, watermark_image, x_position=30, y_position=50, opacity=1):# 尝试修复 PDFrepaired_pdf_binary = self.repair_pdf(input_pdf_binary)input_pdf_obj = PdfReader(BytesIO(repaired_pdf_binary))  # 从二进制数据中读取 PDFoutput_pdf_obj = PdfWriter()output_buffer = BytesIO()# 创建一个临时的 PDF 作为水印page_width, page_height = A4[1], A4[0]c = canvas.Canvas(output_buffer, pagesize=(page_width, page_height))try:c.setFillColor(colors.white)  # 将背景设置为白色c.setFillColor(colors.red)  # 设置字体颜色为红色c.setFont("Helvetica", 12)  # 设置字体和字体大小c.setFillAlpha(opacity)  # 设置透明度c.setStrokeColor(colors.transparent)  # 设置笔触颜色为透明img = ImageReader(watermark_image)if x_position is not None and y_position is not None:c.saveState()c.translate(x_position, y_position)c.rotate(20)c.drawImage(img, 0, 0, width=60, height=25)c.restoreState()else:x = (page_width - 60) / 2y = (page_height - 25) / 2c.saveState()c.translate(x, y)c.rotate(20)c.drawImage(img, 0, 0, width=60, height=25)c.restoreState()except Exception as e:raise ValueError(f"Error drawing image: {e}")c.showPage()c.save()# 将水印 PDF 与原始 PDF 合并watermark_pdf = PdfReader(output_buffer)for page in input_pdf_obj.pages:page.merge_page(watermark_pdf.pages[0])output_pdf_obj.add_page(page)# 保存输出 PDFfinal_output_buffer = BytesIO()output_pdf_obj.write(final_output_buffer)binary_data = final_output_buffer.getvalue()with open(output_pdf, 'wb') as f:output_pdf_obj.write(f)return binary_data
  3. 调用示例

    • 准备一个PDF文件和一个水印图像文件。

    • 调用add_watermark方法,指定输入PDF、输出路径、水印图像路径等参数。

    Python复制

    if __name__ == "__main__":from io import BytesIOfrom PyPDF2 import PdfReader, PdfWriterfrom reportlab.pdfgen import canvasfrom reportlab.lib.pagesizes import A4from reportlab.lib import colorsfrom reportlab.lib.utils import ImageReaderimport fitzclass WatermarkPDF:def repair_pdf(self, input_pdf_binary):try:doc = fitz.open(stream=input_pdf_binary, filetype="pdf")repaired_pdf_binary = BytesIO()doc.save(repaired_pdf_binary)doc.close()repaired_pdf_binary.seek(0)return repaired_pdf_binary.read()except Exception as e:print(f"Error repairing PDF: {e}")return input_pdf_binarydef add_watermark(self, input_pdf_binary, output_pdf, watermark_image, x_position=30, y_position=50, opacity=1):repaired_pdf_binary = self.repair_pdf(input_pdf_binary)input_pdf_obj = PdfReader(BytesIO(repaired_pdf_binary))output_pdf_obj = PdfWriter()output_buffer = BytesIO()page_width, page_height = A4[1], A4[0]c = canvas.Canvas(output_buffer, pagesize=(page_width, page_height))try:c.setFillColor(colors.white)c.setFillColor(colors.red)c.setFont("Helvetica", 12)c.setFillAlpha(opacity)c.setStrokeColor(colors.transparent)img = ImageReader(watermark_image)if x_position is not None and y_position is not None:c.saveState()c.translate(x_position, y_position)c.rotate(20)c.drawImage(img, 0, 0, width=60, height=25)c.restoreState()else:x = (page_width - 60) / 2y = (page_height - 25) / 2c.saveState()c.translate(x, y)c.rotate(20)c.drawImage(img, 0, 0, width=60, height=25)c.restoreState()except Exception as e:raise ValueError(f"Error drawing image: {e}")c.showPage()c.save()watermark_pdf = PdfReader(output_buffer)for page in input_pdf_obj.pages:page.merge_page(watermark_pdf.pages[0])output_pdf_obj.add_page(page)final_output_buffer = BytesIO()output_pdf_obj.write(final_output_buffer)binary_data = final_output_buffer.getvalue()with open(output_pdf, 'wb') as f:output_pdf_obj.write(f)return binary_data# 示例调用watermark_pdf = WatermarkPDF()with open("example.pdf", "rb") as f:input_pdf_binary = f.read()watermark_image = "watermark.png"output_pdf = "output_with_watermark.pdf"watermark_pdf.add_watermark(input_pdf_binary, output_pdf, watermark_image)

实现总结

本代码通过PyMuPDF修复PDF文件,使用reportlab创建水印PDF,并通过PyPDF2将水印合并到原始PDF中。整个过程支持自定义水印的位置、角度和透明度,能够灵活地满足不同场景的需求。代码结构清晰,易于扩展和维护,适合在实际项目中使用。

 

让转型不迷航——邹工转型手札

 

相关文章:

【DuodooBMS】给PDF附件加“受控”水印的完整Python实现

给PDF附件加“受控”水印的完整Python实现 功能需求 在实际工作中,许多文件需要添加水印以标识其状态,例如“受控”“机密”等。对于PDF文件,添加水印不仅可以增强文件的可识别性,还可以防止未经授权的使用。本代码的功能需求是…...

【虚幻引擎UE】UE4.23到UE5.5的核心功能变化

简单总结从UE4.23到UE5.5,虚幻引擎的重大变化: 1. WebGL/HTML5 平台支持和像素流 UE4.23-UE4.25:移除官方HTML5支持,改为社区插件维护。 但通过第三方插件(如WebAssemblyWebGPU)可在浏览器运行部分项目。U…...

阿里云《AI 剧本生成与动画创作》解决方案技术评测

引言 随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声…...

commons-io 包 IOUtils、FileUtils、FilenameUtils

1. IOUtils void IOUtils.closeQuietly(Closeable... closeables) 无条件关闭流。int IOUtils.copy(InputStream inputStream, OutputStream outputStream) 将字节从InputStream复制到OutputStream,返回复制的长度,流最大不能超过2G,默认缓冲…...

JavaScript 加密技术全面指南

一、加密技术概述 在现代 Web 开发中,加密技术在保护用户数据和确保信息安全方面发挥着至关重要的作用。本文将带您了解 JavaScript 加密技术的基本概念、分类及其在实际应用中的场景。 加密的基本概念 加密是一种将明文数据转换为密文的技术,以保护数…...

【笔记】deep-seek wechat项目

1、安装ollama ollama官网 2、ollama上部署deepseek ollama官网下载deepseek模型(我下了1.5B) 3、配置python 国内镜像源 pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ 安装依赖包 pip install wxauto pip instal…...

FloodFill算法——搜索算法

一、什么是FloodFill算法 FloodFill算法字面意思就是洪水灌溉法,比如我们有这么一块地: 0表示平原,正数表示高地,负数表示凹地,那么当洪水来临时这些凹地会被优先灌满。而我们要找的正是这些联通块,如&…...

H5接入支付宝手机网站支付并实现

小程序文档 - 支付宝文档中心 1.登录 支付宝开放平台 创建 网页/移动应用 2.填写创建应用信息 3.配置开发设置 4.网页/移动应用:需要手动上线。提交审核后,预计 1 个工作日的审核时间。详细步骤可点击查看 上线应用 。应用上线后,还需要完成…...

基于SpringBoot+uniapp的在线办公小程序+LW示例参考

1.项目介绍 系统角色:管理员、普通用户功能模块:员工管理、部门信息管理、职位信息管理、会议记录、待办事项、工资信息、留言板等技术选型:SpringBoot,Vue(后端管理web),uniapp等测试环境&…...

文章精读篇——OMG-LLaVA

题目:OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding 会议:Conference on Neural Information Processing Systems 2024 论文:http://arxiv.org/abs/2406.19389 主页:https://lxtgh…...

两个同一对象targetList和 sourceList 去重

我现在需要解决的问题是从一个Java的源列表`sourceList`中移除所有在目标列表`targetList`中存在的数据,并且还要去除`targetList`中的重复数据。让我先理清楚这两个问题的思路。 首先,如何快速从`sourceList`中移除含有`targetList`的数据。这里的“含有”应该是指两个列表中…...

软件开发 | GitHub企业版常见问题解读

什么是GitHub企业版? GitHub企业版是一个企业级软件开发平台,专为现代化开发的复杂工作流程而设计。 作为可扩展的平台解决方案,GitHub企业版使组织能够无缝集成其他工具和功能,并根据特定需求定制开发环境,提高整体…...

Docker 网络的配置与管理

目录 查看所有网络 查看网络详细信息 创建新的网络 删除网络 清理未使用的网络 将容器连接到网络 将容器从网络中断开 将容器端口映射到宿主机 绑定到特定 IP 地址 为容器设置自定义 DNS 查看所有网络 docker network ls 功能:列出所有 Docker 网络。 工…...

新手自学:如何用gromacs对简单分子复合物进行伞形采样

1、建立体系: 1、将蛋白的pdb文件转化为gmx: gmx pdb2gmx -f 2BEG_model1_capped.pdb -ignh -ter -o complex.gro 这个网页可以实现将多肽序列转化为pdb: ProBuilder On-line 这个教程的蛋白2BFG包含两条链(chain A和B) 在生成的topol文件中,增加如下的内容,效果就…...

力扣第一题 哈希解法 O(n)时间复杂度

题目: 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那俩个整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相同的元素。 你可以按任意顺序返…...

elementui: el-dialog的header设置样式不生效

问&#xff1a; el-dialog的header设置样式不生效 回答&#xff1a; 场景&#xff1a; <el-dialogv-model"dialogVisible"width"800px":before-close"beforeClose"append-to-body:close-on-click-modal"false"title"增加文…...

libpcap 的使用

1.libpcap的模式 有线环境: 使用混杂模式promisous&#xff0c;完成监听无线环境: 使用监听模式monitor&#xff0c;完成监听 2.交叉编译libpcap 设置好交叉编译工具链后下载libpcap源码使用configure进行构建&#xff1a;–disable-shared 构建静态库&#xff0c;–host 、…...

ArcGISPro AA表O_Name字段 内容 复制到BB表BB字段里

import arcpy# 设置工作空间和要处理的表路径 resource_shape_table r"AA表.shp" # 源表路径 resource_assets_table r"BB表.shp" # 目标表路径# 使用 SearchCursor 读取源表中的 O_Name 字段 with arcpy.da.SearchCursor(resource_shape_table, [O_Na…...

2.5 使用注解进行单元测试详解

Mockito 使用注解进行单元测试详解 Mockito 提供了一系列注解来简化测试代码的编写&#xff0c;减少手动创建和管理 Mock 对象的样板代码。结合 JUnit 5&#xff0c;可以更高效地构建清晰、易维护的单元测试。 1. 核心注解概览 注解作用Mock创建并注入一个 Mock 对象&#xf…...

当没有OpenGL时,Skia如何绘制?

Skia 是可以在没有 OpenGL 的情况下进行图形绘制的&#xff0c;但是具体能否成功绘制图形&#xff0c;取决于 Skia 是如何配置的&#xff0c;以及平台上是否提供了其他的底层图形 API。 Skia 的底层依赖 Skia 的目标是提供一种跨平台的 2D 图形绘制接口。为了加速图形渲染&…...

从仿真卡死到波形完美:手把手调试Verilog Testbench时钟的那些坑

从仿真卡死到波形完美&#xff1a;手把手调试Verilog Testbench时钟的那些坑 数字电路仿真中&#xff0c;时钟信号就像交响乐团的指挥棒&#xff0c;一个微小的节奏错误就可能导致整个系统失序。刚接触Verilog仿真的工程师们&#xff0c;往往会在时钟生成这个看似简单的环节栽跟…...

别再为毕设供电发愁了!手把手教你用航模电池+降压模块搞定多电压系统

毕设供电系统实战指南&#xff1a;航模电池与智能降压方案全解析 刚拿到毕设题目的电子系学生小张&#xff0c;正盯着实验室桌上散落的传感器、单片机和电机发愁——这些设备需要的供电电压各不相同&#xff1a;单片机要7-12V&#xff0c;电机要12V&#xff0c;传感器却只要5V。…...

大厂光环褪去后,技术人该如何评估一份工作的价值?

当“进入大厂”不再是职业发展的唯一解&#xff0c;当“稳定”成为一种奢求&#xff0c;软件测试从业者需要一套更内核的价值评估体系。这套体系不应依赖于公司的名头或短期的薪资涨幅&#xff0c;而应聚焦于那些能够被你带走、并持续产生复利的核心资产。我们可以从以下四个维…...

【2026实测】论文AI率从81%降至个位数?8款降AIGC工具深度横测

内容ai率检测数值太高&#xff0c;不得不熬夜改了一遍又一遍&#xff0c;润色到想吐&#xff0c;结果检测报告上数字还是不尽人意&#xff0c;截止日期越逼越近&#xff0c;真的是没办法了。 我花了整整三天&#xff0c;把2026全网热门的几十款降AI工具通通测了个遍&#xff0…...

地铁站内人员危险情况检测人员跌倒检测数据集VOC+YOLO格式4369张2类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;4369 标注数量(xml文件个数)&#xff1a;4369 标注数量(txt文件个数)&#xff1a;4369 …...

信息学奥赛经典回溯:八皇后问题深度解析与OpenJudge实战

1. 八皇后问题&#xff1a;从棋盘游戏到算法经典 第一次接触八皇后问题时&#xff0c;我正在准备信息学奥赛的选拔考试。当时觉得这不过是个棋盘游戏&#xff0c;直到真正动手编码时&#xff0c;才发现其中蕴含的算法智慧远比想象中丰富。这个问题要求在一个8x8的国际象棋棋盘上…...

从NLP基础到LLM实战:手把手构建大模型全栈能力

1. 从NLP到LLM&#xff1a;为什么你需要一个坚实的“地基” 最近几年&#xff0c;大语言模型&#xff08;LLM&#xff09;的火爆程度有目共睹&#xff0c;ChatGPT、Claude、文心一言这些名字几乎成了日常谈资。很多开发者&#xff0c;尤其是刚入行的朋友&#xff0c;可能一上来…...

CANopen协议核心机制与工业自动化应用实践

1. CANopen协议的核心机制解析 CANopen协议作为工业自动化领域的通信标准&#xff0c;其核心在于三个关键机制&#xff1a;对象字典、网络管理&#xff08;NMT&#xff09;以及过程数据对象&#xff08;PDO&#xff09;/服务数据对象&#xff08;SDO&#xff09;。理解这些机制…...

3分钟解决Windows 11 LTSC应用生态缺失:微软商店一键恢复终极指南

3分钟解决Windows 11 LTSC应用生态缺失&#xff1a;微软商店一键恢复终极指南 【免费下载链接】LTSC-Add-MicrosoftStore Add Windows Store to Windows 11 24H2 LTSC 项目地址: https://gitcode.com/gh_mirrors/ltscad/LTSC-Add-MicrosoftStore 你是否正在使用Windows …...

JavaScript零基础到精通

&#x1f4da; 教程定位与目标 本教程专为‌零基础学习者‌设计&#xff0c;覆盖从‌语法入门‌到‌现代JavaScript精通‌的完整路径&#xff0c;内容严格遵循‌ES2026标准‌&#xff0c;融合‌MDN、freeCodeCamp、W3Schools‌权威结构&#xff0c;并适配‌中文学习者习惯‌。…...