文档处理的相关工具
目前网页端的文档,可以通过沉浸式翻译来进行翻译阅读和学习。
但是某些文献只有pdf下载的版本,所以需要一个免费的针对pdf的翻译工具。
保留公式和图片格式。
推荐一个pdf翻译的工具,可以自己部署使用。如果需要word版本,后面讨论了几个工具,最后使用adobe 的pdf文档处理的。
文章目录
- 英文pdf到中文和一些语言的pdf工具
- 通过uv安装
- 直接下载win安装版
- python 下载和网页GUI
- 参数
- 语言
- 📌 核心参数
- ⚗️ 实验性选项(Experimental)
- ⚠️ 使用建议
- 💡 注意事项
- 通过命令行使用
- Key Notes:
- pdf2word
- Pandoc 使用说明
- Pandoc
- Windows
- macOS
- Linux
- 基本语法
- 常用转换示例
- Markdown 转 HTML
- Markdown 转 PDF
- Markdown 转 Word
- HTML 转 Markdown
- LaTeX 转其他格式
- 重要选项参数
- 基本选项
- 格式相关
- PDF 相关选项
- 高级用法
- 使用模板
- 过滤器使用
- 元数据设置
- 处理图片
- 支持的格式
- 输入格式
- 输出格式
- 实用技巧
- 批量转换
- 配置文件
- 数学公式支持
- 常见问题解决
- 中文支持
- 代码高亮

英文pdf到中文和一些语言的pdf工具
PDFMathTranslate
这里有网页版的直接使用
本地配置方案:达到的目的,把一个英文pdf文献,翻译为中文,并且变成可编辑的word格式。
通过uv安装
已安装 Python (3.10 <= 版本 <= 3.12)
pip install uv
uv tool install --python 3.12 pdf2zh
uv 是一个新一代的 Python 包管理工具,由开发 Ruff 的团队 (Astral) 创建,旨在替代传统的 pip 和 pip-tools。它的主要特点是:
极速安装:用 Rust 编写,比 pip 快 10-100 倍
跨平台:支持 Windows/macOS/Linux
兼容性:完全兼容 pip 和 requirements.txt
轻量化:独立的二进制文件,无需虚拟环境
pdf2zh document.pdf
直接下载win安装版
下载链接
pdf2zh-v1.9.9-with-assets-win64.zip: (推荐)带资源(字体、模型等)的 pdf2zh
因为字体的资源需要排版和识别。
python 下载和网页GUI
使用conda创建一个独立环境
conda create -n pdf_translation python=3.12
pip install pdf2zh
pdf2zh -i
最好在,需要生成的目录下,打开这个网页。
尝试使用
参数
这个命令应该有不少参数,网页端对于链接现在测试不通过。
但是file文件是可以使用的。
语言
可以看到对于主流的语言,翻译是覆盖了的
根据你提供的配置界面截图(image.png
),这是 PDFMathTranslate 工具的选项设置界面。以下是各参数的详细解释:
📌 核心参数
-
Service(翻译服务)
- 当前选择:
Bing
- 说明:使用的翻译引擎(可能还支持 Google/DeepL 等)
- 当前选择:
-
Translate from(源语言)
- 当前选择:
English
- 说明:PDF 原文的语言
- 当前选择:
-
Translate to(目标语言)
- 当前选择:
Simplified Chinese
- 说明:需要翻译成的语言(简体中文)
- 当前选择:
-
Pages(页面范围)
- 选项:
All
:转换全部页面First
:仅第一页First 5 pages
:前5页Others
:自定义页码范围(需手动输入)
- 选项:
⚗️ 实验性选项(Experimental)
-
Number of threads(线程数)
- 默认值:
4
- 说明:多线程处理加速转换(建议 ≤ CPU 核心数)
- 默认值:
-
Skip font subsetting(跳过字体子集化)
- 说明:忽略 PDF 中的字体子集(可能加快速度但影响排版)
-
Ignore cache(忽略缓存)
- 说明:强制重新处理(适用于更新后的 PDF)
-
Custom formula font regex(公式字体正则)
- 说明:用正则表达式指定公式字体(高级用户使用)
-
Use BabelDOC(✓ 已启用)
- 说明:启用 BabelDOC 引擎(优化公式转换的兼容性)
- 效果:
- 提升复杂公式识别率
- 支持 LaTeX/MathML 混合输出
- 解决特殊符号乱码问题
⚠️ 使用建议
-
基础转换:
python translate.py input.pdf --to zh-CN --service bing
-
启用 BabelDOC(推荐):
python translate.py input.pdf --use_babeldoc
-
多线程加速:
python translate.py input.pdf --threads 8
-
自定义页码范围:
python translate.py input.pdf --pages 1,3-5
💡 注意事项
- BabelDOC 是核心功能:对含数学公式的 PDF 有显著优化效果
- 线程数选择:
- 小文件:4 线程
- 大文件(>50页):建议 8-12 线程
- 中文排版:若遇乱码可尝试
--skip_font_subsetting
该界面通过
config_gui.py
启动(项目中的 GUI 配置文件),完整参数可参考config.ini
文件。
通过命令行使用
更多的扩展命令和高级用法说明文档
此处会设置选择和配置模型。
Below is the organized table of command options for pdf2zh
based on the provided information:
Option (选项) | Function (功能) | Example (示例) |
---|---|---|
files | Local files (本地文件) | pdf2zh ~/local.pdf |
links | Online files (在线文件) | pdf2zh http://arxiv.org/paper.pdf |
-i | Enter GUI (进入图形用户界面) | pdf2zh -i |
-p | Partial document translation (部分文档翻译) | pdf2zh example.pdf -p 1 |
-li | Source language (源语言) | pdf2zh example.pdf -li en |
-lo | Target language (目标语言) | pdf2zh example.pdf -lo zh |
-s | Translation service (翻译服务) | pdf2zh example.pdf -s deepl |
-t | Multi-threads (多线程) | pdf2zh example.pdf -t 1 |
-o | Output dir (输出目录) | pdf2zh example.pdf -o output |
-f , -c | Exceptions (异常) | pdf2zh example.pdf -f "(MS.*)" |
-cp , --compatible | Compatibility Mode (兼容模式) | pdf2zh example.pdf --compatible |
--skip-subset-fonts | Skip font subset (跳过字体子集) | pdf2zh example.pdf --skip-subset-fonts |
--ignore-cache | Ignore translate cache (忽略翻译缓存) | pdf2zh example.pdf --ignore-cache |
--share | Public link (公共链接) | pdf2zh -i --share |
--authorized | Authorization (授权) | pdf2zh -i --authorized users.txt [auth.html] |
--prompt | Custom Prompt (自定义提示) | pdf2zh --prompt [prompt.txt] |
--onnx | Use Custom DocLayout-YOLO ONNX model (使用自定义 DocLayout-YOLO ONNX 模型) | pdf2zh --onnx [onnx/model/path] |
--serverport | Use Custom WebUI/Gradio port (使用自定义 WebUI/Gradio 端口) | pdf2zh --serverport 7860 |
--dir | Batch translate (批量翻译) | pdf2zh --dir /path/to/translate/ |
--config | Configuration file (配置文件) | pdf2zh --config /path/to/config/config.json |
--babeldoc | Use Experimental backend BabelDOC to translate (使用 BabelDOC 后端翻译) | pdf2zh --babeldoc -s openai example.pdf |
--mcp | Enable MCP STDIO mode (启用 MCP STDIO 模式) | pdf2zh --mcp |
--sse | Enable MCP SSE mode (启用 MCP SSE 模式,需配合 --mcp ) | pdf2zh --mcp --sse |
Key Notes:
-
位置参数
files
: 直接输入本地文件路径links
: 直接输入在线文件 URL
-
别名选项
- 异常处理:
-f
和-c
功能相同 - 兼容模式:
-cp
和--compatible
功能相同
- 异常处理:
-
依赖选项
--sse
需与--mcp
同时使用
-
特殊模式
-i
启动 GUI 后,可配合--share
/--authorized
实现高级功能--babeldoc
需指定翻译服务 (如-s openai
)
-
覆盖逻辑
--config
可覆盖其他命令行参数--ignore-cache
强制重新翻译全文
pdf2word
pandoc
pdf2docx 这个python库,对于word的转换,支持的只有txt格式的pdf,对于图片无法处理。
直接使用Adobe Acrobat进行pdf转换。(有较多的图片块,可以编辑和粘贴,但是和正常的word版本不一致)
对于Pandoc使用进行的说明,适合。
Pandoc 使用说明
Pandoc 是一个强大的文档转换工具,被称为"文档转换的瑞士军刀"。它可以在多种标记格式之间进行转换,包括 Markdown、HTML、LaTeX、Word、PDF 等。但是此处并不是很合适,无法直接从pdf到word。
事实上,使用typora这个markdown的编辑器,并进行转换应用比较合适。
官网最新版本需要付费。
过去的版本,不需要付费
Pandoc
Windows
从 Pandoc 官网 下载 Windows 安装包,或使用包管理器:
# 使用 Chocolatey
choco install pandoc# 使用 Scoop
scoop install pandoc
macOS
# 使用 Homebrew
brew install pandoc# 使用 MacPorts
sudo port install pandoc
Linux
# Ubuntu/Debian
sudo apt-get install pandoc# CentOS/RHEL
sudo yum install pandoc# Arch Linux
sudo pacman -S pandoc
基本语法
Pandoc 的基本命令格式为:
pandoc [选项] [输入文件] -o [输出文件]
常用转换示例
Markdown 转 HTML
# 基本转换
pandoc input.md -o output.html# 生成完整的 HTML 文档(包含 head 和 body)
pandoc input.md -s -o output.html# 指定 CSS 样式
pandoc input.md -s --css style.css -o output.html
Markdown 转 PDF
# 需要先安装 LaTeX 或使用其他 PDF 引擎
pandoc input.md -o output.pdf# 使用特定的 PDF 引擎
pandoc input.md --pdf-engine=xelatex -o output.pdf# 设置中文支持
pandoc input.md --pdf-engine=xelatex -V mainfont="SimSun" -o output.pdf
Markdown 转 Word
pandoc input.md -o output.docx# 使用自定义模板
pandoc input.md --reference-doc=template.docx -o output.docx
HTML 转 Markdown
pandoc input.html -o output.md
LaTeX 转其他格式
# LaTeX 转 HTML
pandoc input.tex -o output.html# LaTeX 转 Word
pandoc input.tex -o output.docx
重要选项参数
基本选项
-o, --output
:指定输出文件-f, --from
:指定输入格式-t, --to
:指定输出格式-s, --standalone
:生成完整的文档--toc
:生成目录
格式相关
# 明确指定输入输出格式
pandoc -f markdown -t html input.md -o output.html# 生成带目录的文档
pandoc input.md --toc -s -o output.html# 设置目录深度
pandoc input.md --toc --toc-depth=2 -s -o output.html
PDF 相关选项
# 设置页边距
pandoc input.md -V geometry:margin=1in -o output.pdf# 设置字体
pandoc input.md -V mainfont="Times New Roman" -o output.pdf# 设置文档类别
pandoc input.md -V documentclass=article -o output.pdf
高级用法
使用模板
# 使用自定义 HTML 模板
pandoc input.md --template=mytemplate.html -o output.html# 查看默认模板
pandoc -D html > default.html
过滤器使用
# 使用 Lua 过滤器
pandoc input.md --lua-filter=filter.lua -o output.html# 使用多个过滤器
pandoc input.md --filter=filter1 --filter=filter2 -o output.html
元数据设置
# 在命令行中设置元数据
pandoc input.md -V title="我的文档" -V author="作者名" -o output.html# 使用元数据文件
pandoc input.md --metadata-file=metadata.yaml -o output.html
处理图片
# 提取媒体文件到指定目录
pandoc input.md --extract-media=./media -o output.html# 设置图片路径
pandoc input.md --resource-path=./images -o output.html
支持的格式
输入格式
- Markdown(多种变体)
- HTML
- LaTeX
- Word docx
- OpenDocument
- MediaWiki
- Textile
- reStructuredText
- Emacs Org mode
输出格式
- HTML
- LaTeX
- Word docx
- OpenDocument
- ePub
- MediaWiki
- 各种幻灯片格式(reveal.js、Slidy、Beamer)
实用技巧
批量转换
# 批量转换所有 md 文件为 html
for file in *.md; dopandoc "$file" -o "${file%.md}.html"
done
配置文件
创建 ~/.pandoc/defaults.yaml
文件来设置默认选项:
from: markdown
to: html
standalone: true
toc: true
css: style.css
然后使用:
pandoc input.md -d defaults -o output.html
数学公式支持
# 使用 MathJax 渲染数学公式
pandoc input.md --mathjax -s -o output.html# 使用 KaTeX
pandoc input.md --katex -s -o output.html
常见问题解决
中文支持
对于包含中文的文档,转换为 PDF 时需要:
pandoc input.md --pdf-engine=xelatex -V CJKmainfont="SimSun" -o output.pdf
代码高亮
# 启用语法高亮
pandoc input.md --highlight-style=github -s -o output.html# 查看可用的高亮样式
pandoc --list-highlight-styles
Pandoc 是一个功能强大且灵活的工具,掌握这些基本用法后,你就可以轻松地在各种文档格式之间进行转换了。更多高级功能可以参考 Pandoc 官方文档。
相关文章:

文档处理的相关工具
目前网页端的文档,可以通过沉浸式翻译来进行翻译阅读和学习。 但是某些文献只有pdf下载的版本,所以需要一个免费的针对pdf的翻译工具。 保留公式和图片格式。 推荐一个pdf翻译的工具,可以自己部署使用。如果需要word版本,后面讨论…...

java基础(面向对象进阶高级)内部类
内部类 内部类概述、成员内部类 (了解) 内部类创建对象: 一定要继承外部类对象,才能创建内部类对象。 拓展:成员内部类访问外部类的成员特点: 成员内部类中,是否可以直接访问外部类的实例成员?? 当然可以啊&#x…...

使用Python,OpenCV,Tesseract-OCR对自己的运动数据图片进行识别及分析,并使用Matplotlib绘制配速图出来
使用Python,OpenCV,Tesseract-OCR对自己的运动数据图片进行识别及分析,并使用Matplotlib绘制配速图出来 1. 效果图2. 源码3. 全量源码及运动图片资源参考主要分为 目录下图片解析及读取;拼九宫格图片出来,可以自由配置(m*n)取决于自己有多少张运动图片遍历图片并进行运动…...

小白的进阶之路系列之七----人工智能从初步到精通pytorch自动微分优化以及载入和保存模型
本文将介绍Pytorch的以下内容 自动微分函数 优化 模型保存和载入 好了,我们首先介绍一下关于微分的内容。 在训练神经网络时,最常用的算法是反向传播算法。在该算法中,根据损失函数相对于给定参数的梯度来调整参数(模型权重)。 为了计算这些梯度,PyTorch有一个内置…...

创建型模式之 Builder (生成器)
创建型模式之 Builder (生成器) 摘要: 本文介绍了生成器(Builder)设计模式,属于创建型模式之一。该模式通过将复杂对象的构建与表示分离,使同一构建过程能创建不同表现形式。文章以小米汽车不同配置版本为例说明了模式…...

智能物资出入库管控系统
概述 智能物资管理系统利用RFID自动识别技术,物联网技术、人脸识别、指纹、指静脉生物识别技术,应用于军械装备的管理,可实时准确采集军械装备编配、 储存、供应、使用等数据,实时掌握军械装备物资的分布及数量 状况。细化管理到…...
鸿蒙OSUniApp 制作倒计时与提醒功能#三方框架 #Uniapp
使用 UniApp 制作倒计时与提醒功能 前言 倒计时与提醒功能在移动应用中应用广泛,如活动秒杀、任务提醒、考试倒计时等。一个实用的倒计时组件不仅要精准计时,还要兼容多端,尤其是在鸿蒙(HarmonyOS)等新兴平台上保证流…...
深入剖析网络协议:七层协议与四层协议详解
在计算机网络的世界中,数据的传输与交互离不开协议的规范。其中,七层协议和四层协议是网络通信架构的核心概念,它们如同网络世界的 “交通规则”,保障着数据准确、高效地在不同设备间流转。本文将深入解读七层协议与四层协议&…...

机器学习-线性回归基础
一、什么是回归 依据输入x写出一个目标值y的计算方程,求回归系数的过程就叫回归。简言之:根据题意列出方程,求出系数的过程就叫做回归。 回归的目的是预测数值型的目标值y,分类的目的预测标称型的目标值y。 二、线性回归 2.1线性…...
自学嵌入式 day 25 - 系统编程 标准io 缓冲区 文件io
(3)二进制文件读写函数: ①fread: size_t fread(void *ptr, size_t size, size_t nmemb, FILE *stream); 功能:从指定的stream流对象中获取nmemeb个大小为size字节的数据块到ptr所在的本地内存中。 参数&…...

[Vue组件]半环进度显示器
[Vue组件]半环进度显示器 纯svg实现,不需要其他第三方库,功能简单,理论上现代浏览器都能支持 封装组件 所有参数都选填,进度都可选填 <template><div class"ys-semiring"><div class"svg-container…...

科技赋能建筑行业,智能楼宇自控系统崭露头角成发展新势力
在科技浪潮席卷全球的时代背景下,传统建筑行业正面临着前所未有的变革压力。随着城市化进程加快,建筑规模与复杂度不断攀升,能源消耗、运营效率、用户体验等问题日益凸显。智能楼宇自控系统凭借物联网、大数据、人工智能等前沿技术࿰…...
Rust入门之并发编程基础(一)
Rust入门之并发编程基础(一) 无畏并发 本文源码 安全且高效地处理并发编程是 Rust 的另一个主要目标。并发编程(Concurrent programming),代表程序的不同部分相互独立地执行,而 并行编程(par…...
高级特性实战:死信队列、延迟队列与优先级队列(二)
三、延迟队列:实现任务定时执行 3.1 延迟队列概念解析 延迟队列(Delay Queue),是一种特殊的队列,它的独特之处在于队列中的元素(消息)并不会立即被处理,而是会在指定的延迟时间过后…...
VR 电缆故障测试系统:技术革新
VR 电缆故障测试系统,作为电力领域的创新科技成果,融合了虚拟现实技术、三维建模、实时交互等前沿技术,为电缆故障测试带来了全新的解决方案。它的工作原理犹如一位经验丰富的侦探,通过层层线索,精准地锁定电缆故障的位…...
Rocky Linux上安装Go
使用官方二进制包安装 1. 下载 Go 官方二进制包 cd /tmp wget https://go.dev/dl/go1.22.3.linux-amd64.tar.gz2. 解压并安装到 /usr/local sudo rm -rf /usr/local/go # 如果之前有旧版本先删除 sudo tar -C /usr/local -xzf go1.22.3.linux-amd64.tar.gz3. 设置环境变量…...
深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models
深度学习论文: FastVLM: Efficient Vision Encoding for Vision Language Models FastVLM: Efficient Vision Encoding for Vision Language Models PDF: https://www.arxiv.org/abs/2412.13303 PyTorch代码: https://github.com/shanglianlm0525/CvPytorch PyTorch代码: https…...

白杨SEO:做AI搜索优化的DeepSeek、豆包、Kimi、百度文心一言、腾讯元宝、通义、智谱、天工等AI生成内容信息采集主要来自哪?占比是多少?
大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。 在开始写之前,先说个抱歉。 上周在上海客户以及线下聚会AI搜索优化分享说各大AI模型的联网搜索是关闭的,最开始上来确实是的。…...

显示docker桌面,vnc远程连接docker
目录 相关概念: 实现步骤: 1.启动docker容器 2.安装x11 3.Docker 容器中安装一个完整的图形桌面(XFCE)和 VNC 远程桌面服务器(TightVNC) 4.配置vncservice 5.本地安装VNC Viewer连接VNC Viewer下载地…...
Web 端顶级视效实现:山海鲸端渲染底层原理与发布模式详解
大家好,欢迎大家回到山海鲸的渲染模式系列教程。昨天,我们看了一下山海鲸支持的3种渲染模式的整体概览。今天,我们就来看一下山海鲸支持的最基础的渲染模式,也就是端渲染的渲染设置。 1. 山海鲸的端渲染 我们说到端渲染…...

腾讯云国际站性能调优
全球化业务扩张中,云端性能直接决定用户体验与商业成败。腾讯云国际站通过资源适配、网络优化与存储革新,为企业提供全链路调优方案。 资源精准适配 实例选型需与业务场景深度耦合,计算优化型实例加速AI训练效率3倍,内存…...

深入解析操作系统内核与用户空间以及内核态与用户态转换
用户空间和内核空间的划分是现代操作系统的基础,对应用程序网络模型的设计和优化有着深远的影响。 内核空间与用户空间的分工 现代操作系统为了保证系统的稳定性和安全性,将虚拟内存空间划分为用户空间和内核空间。 一、用户空间 用户空间是用户程序…...

每日一题洛谷P8662 [蓝桥杯 2018 省 AB] 全球变暖c++
P8662 [蓝桥杯 2018 省 AB] 全球变暖 - 洛谷 (luogu.com.cn) DFS #include<iostream> using namespace std; int n, res; char a[1005][1005]; bool vis[1005][1005]; bool flag; int dx[4] { 0,0,1,-1 }; int dy[4] { 1,-1,0,0 }; void dfs(int x, int y) {vis[x][y]…...

【JVM】初识JVM 从字节码文件到类的生命周期
初识JVM JVM(Java Virtual Machine)即 Java 虚拟机,是 Java 技术的核心组件之一。JVM的本质就是运行在计算机上的一个程序,通过软件模拟实现了一台抽象的计算机的功能。JVM是Java程序的运行环境,负责加载字节码文件&a…...

多级体验体系构建:基于开源AI智能客服与AI智能名片的S2B2C商城小程序体验升级路径研究
摘要:在体验经济时代,传统企业单一的总部体验模式难以覆盖全链路用户需求。本文针对B端与C端体验深度差异,提出“一级总部体验—二级区域体验—三级终端体验”的分层架构,并引入“开源AI智能客服”与“AI智能名片”技术࿰…...
每日算法 -【Swift 算法】字符串转整数算法题详解:myAtoi 实现与正则表达式对比
Swift 字符串转整数算法题详解:myAtoi 实现与正则表达式对比 🧩 题目背景 LeetCode 上的经典算法题 8. String to Integer (atoi) 是一道考察字符串解析与边界处理的题目。这道题虽看似简单,但处理细节相当复杂。我们将使用 Swift 语言实现…...
记录一个难崩的bug
1.后端配置了 Filter 过滤器,如果再配置了Configuration ,那么会出现冲突吗? 过滤器与Configuration类本身无直接冲突,但需注意注册机制、执行顺序和依赖管理。通过显式控制过滤器的注册方式和优先级,结合Spring Security的链式配…...

Git切换历史版本及Gitee云绑定
1、git介绍 Git是目前世界上最先进的分布式版本控制系统 Linux <- BitKeeper(不是开源的,但免费的,后来要收费) Linus Torvalds(林纳斯托瓦兹) 两周时间吧,弄了个 Git;大约一个月就把Linux代码从BitK…...
智能外呼系统中 NLP 意图理解的工作原理与技术实现
智能外呼系统通过整合语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)等技术,实现了自动化的电话交互。其中,NLP 意图理解是核心模块,负责解析用户话语中的语义和意图&…...

服务器的IP是什么东西?
一、什么是服务器的IP地址? 服务器的IP地址是互联网协议(Internet Protocol)的缩写,是服务器在网络中的唯一数字标识符。它类似于现实生活中的门牌号,用于标识服务器在网络中的位置,使其他设备能够通过它与…...