自动提取pdf公式 ➕ 输出 LaTeX
# 创建打包脚本的主内容
script_content = """
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import osdef main():pdf_path = "your_file.pdf" # 将你的PDF命名为 your_file.pdf 并放在同目录下output_dir = "formulas"os.makedirs(output_dir, exist_ok=True)print("👉 正在提取公式图像...")extract_formula_imgs(pdf_path, output_dir, dpi=300)print("✅ 公式图像提取完成,开始识别 LaTeX 公式...")p2t = Pix2Text()with open("extracted_formulas.txt", "w", encoding="utf-8") as f_out:for fname in sorted(os.listdir(output_dir)):if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))print(f"{fname} → {latex}")f_out.write(f"{fname}: {latex}\\n")print("\\n🎉 所有公式识别完成,结果已保存至 extracted_formulas.txt")if __name__ == "__main__":main()
"""requirements_content = """
doc2x[pix2text]
"""# 写入打包文件
script_path = "/mnt/data/extract_formulas.py"
requirements_path = "/mnt/data/requirements.txt"with open(script_path, "w", encoding="utf-8") as f:f.write(script_content.strip())with open(requirements_path, "w", encoding="utf-8") as f:f.write(requirements_content.strip())script_path, requirements_path
# 创建打包脚本的主内容 extract_formulas.py
依赖环境文件:requirements.txt
doc2x[pix2text]
用方法(只需3步):
-
将你的 PDF 重命名为:
your_file.pdf,放在脚本同一目录下 -
安装环境:
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple -
运行脚本:
python extract_formulas.py
完成后会自动:
-
提取所有数学公式区域图像
-
识别为 LaTeX 格式
-
保存结果到:
extracted_formulas.txt
转换成GUI工具
# 将脚本转换为简单的 tkinter GUI 应用程序
gui_script = """
import os
import tkinter as tk
from tkinter import filedialog, messagebox
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Imagedef select_pdf():file_path = filedialog.askopenfilename(filetypes=[("PDF Files", "*.pdf")])if file_path:entry_pdf.delete(0, tk.END)entry_pdf.insert(0, file_path)def run_extraction():pdf_path = entry_pdf.get()if not os.path.isfile(pdf_path) or not pdf_path.endswith(".pdf"):messagebox.showerror("错误", "请选择有效的 PDF 文件。")returnoutput_dir = os.path.join(os.path.dirname(pdf_path), "formulas")os.makedirs(output_dir, exist_ok=True)messagebox.showinfo("提示", "正在提取公式图像,请稍候...")extract_formula_imgs(pdf_path, output_dir, dpi=300)p2t = Pix2Text()output_file = os.path.join(os.path.dirname(pdf_path), "extracted_formulas.txt")with open(output_file, "w", encoding="utf-8") as f_out:for fname in sorted(os.listdir(output_dir)):if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))f_out.write(f"{fname}: {latex}\\n")messagebox.showinfo("完成", f"🎉 公式提取完成!结果保存在\\n{output_file}")# GUI 界面
root = tk.Tk()
root.title("PDF 公式提取工具")
root.geometry("500x150")tk.Label(root, text="选择 PDF 文件:").pack(pady=5)
entry_pdf = tk.Entry(root, width=50)
entry_pdf.pack(padx=10)
tk.Button(root, text="浏览", command=select_pdf).pack(pady=5)tk.Button(root, text="开始提取公式", command=run_extraction, bg="#4CAF50", fg="white").pack(pady=10)root.mainloop()
"""gui_script_path = "/mnt/data/pdf_formula_gui.py"
with open(gui_script_path, "w", encoding="utf-8") as f:f.write(gui_script.strip())gui_script_path
-
安装依赖(首次运行):
pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple -
双击运行或使用命令:
python pdf_formula_gui.py -
在弹出的窗口中:
-
选择你的 PDF 文件
-
点击【开始提取公式】
-
将这个图形界面程序打包成
.exe可执行文件的详细教程,适合 Windows 用户👇
✅ 步骤一:安装打包工具 PyInstaller
打开命令行,运行:
pip install pyinstaller
✅ 步骤二:使用 PyInstaller 打包为 EXE
在包含
pdf_formula_gui.py文件的文件夹中运行以下命令:pyinstaller --onefile --windowed pdf_formula_gui.py参数解释:
-
--onefile:打包成单个.exe文件 -
--windowed:不显示命令行窗口(适合 GUI 应用) -
你可以双击它,像普通软件一样运行!
✅ 步骤三:获取打包好的 EXE 文件
dist/pdf_formula_gui.exe自动生成:LaTeX 识别结果(
extracted_formulas.txt)
-
自动安装依赖 .bat 文件
你还可以创建一个 install_and_run.bat 文件,内容如下:
@echo off pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple start pdf_formula_gui.exe
这样就可以发给别人用了,一键安装依赖并启动程序 🪄
相关文章:
自动提取pdf公式 ➕ 输出 LaTeX
# 创建打包脚本的主内容 script_content """ from doc2x.extract_formula import extract_formula_imgs from pix2text import Pix2Text from PIL import Image import osdef main():pdf_path "your_file.pdf" # 将你的PDF命名为 your_file.pdf 并…...
(十)安卓开发中的Activity之间的通信使用详解
在 Android 开发中,Activity 之间的通信是非常常见且核心的功能之一,常见的方式包括: 使用显式 Intent 传递数据使用隐式 Intent 实现跨组件调用使用 startActivityForResult(或新版 Activity Result API)回传数据传递…...
python 浅拷贝copy与深拷贝deepcopy 理解
一 浅拷贝与深拷贝 1. 浅拷贝 浅拷贝只复制了对象本身(即c中的引用)。 2. 深拷贝 深拷贝创建一个新的对象,同时也会创建所有子对象的副本,因此新对象与原对象之间完全独立。 二 代码理解 1. 案例一 a 10 b a b 20 print…...
基于neo4j存储知识树-mac
1、安装jdk21 for mac(jdk-21_macos-aarch64_bin.dmg) 2、安装neo4j for mac(neo4j-community-5.26.0-unix.tar.gz) 3、使用默认neo4j/neo4j登录http://localhost:7474 修改登录密码,可以使用生成按钮生成密码,连接数据库,默认设置为neo4j…...
Tiktok 关键字 视频及评论信息爬虫(1) [2025.04.07]
🙋♀️Tiktok APP的基于关键字检索的视频及评论信息爬虫共分为两期,希望对大家有所帮助。 第一期见下文。 第二期:基于视频URL的评论信息爬取 1. Node.js环境配置 首先配置 JavaScript 运行环境(如 Node.js)&#x…...
基于人工智能的高中教育评价体系重构研究
基于人工智能的高中教育评价体系重构研究 一、引言 1.1 研究背景 在科技飞速发展的当下,人工智能技术已广泛渗透至各个领域,教育领域亦不例外。人工智能凭借其强大的数据处理能力、智能分析能力和个性化服务能力,为教育评价体系的创新与发…...
【学习笔记】文件上传漏洞--二次渲染、.htaccess、变异免杀
目录 第十二关 远程包含地址转换 第十三关 突破上传删除 条件竞争 第十四关 二次渲染 第十五关 第十六关 第十七关 .htaccess 第十八关 后门免杀 第十九关 日志包含 第十二关 远程包含地址转换 延续第十一关,加一个文件头,上传成功,…...
C++ 基础进阶
C 基础进阶 内容概述: 函数重载:int add(int x, inty);,long long add(long long x, long long y);,double add(double x, double y);模板函数:template<typename T> 或 template<class T>结构体&#x…...
【OS】Process Management(3)
《计算机操作系统(第三版)》(汤小丹)学习笔记 文章目录 5、进程通信(Inter-Process Communication)5.1、进程通信的类型5.1.1、共享存储器系统(Shared Memory System)5.1.2、消息传递…...
单reactor实战
前言:reactor作为一种高性能的范式,值得我们学习 本次目标 实现一个基于的reactor 具备echo功能的服务器 核心组件 Reactor本身是靠一个事件驱动的框架,无疑引出一个类似于moduo的"EventLoop "以及boost.asio中的context而言,不断…...
初阶C++笔记第一篇:C++基础语法
虽然以下大多数知识点都在C语言中学过,但还是有一些知识点和C语言不同,比如:代码格式、头文件、关键字、输入输出、字符串类型等... 1. 初识C 1.1 第一个C程序 编写C分为4个步骤: 创建项目创建文件编写代码运行程序 C的第一条…...
java基础 流(Stream)
Stream Stream 的核心概念核心特点 Stream 的操作分类中间操作(Intermediate Operations)终止操作(Terminal Operations) Stream 的流分类顺序流(Sequential Stream)并行流(Parallel Stream&…...
【AI】prompt engineering
prompt engineering ## prompt engineering ## prompt engineering ## prompt engineering 一、定义 Prompt 工程(Prompt Engineering)是指在使用语言模型(如 ChatGPT、文心一言等)等人工智能工具时,设计和优化输入提…...
无需libpacp库,BPF指令高效捕获指定数据包
【环境】无libpacp库的Linux服务器 【要求】高效率读取数据包,并过滤指定端口和ip 目前遇到两个问题 一是手写BPF,难以兼容,有些无法正常过滤二是性能消耗问题,尽可能控制到1% 大方向:过滤数据包要在内核层处理&…...
LeetCode算法题(Go语言实现)_36
题目 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点到子节点…...
react实现上传图片到阿里云OSS以及问题解决(保姆级)
一、优势 提高上传速度:前端直传利用了浏览器与 OSS 之间的直接连接,能够充分利用用户的网络带宽。相比之下,后端传递文件时,文件需要经过后端服务器的中转,可能会受到后端服务器网络环境和处理能力的限制,…...
无法看到新安装的 JDK 17
在 Linux 系统中使用 update-alternatives --config java 无法看到新安装的 JDK 17,可能是由于 JDK 未正确注册到系统备选列表中。 一、原因分析 JDK 未注册到 update-alternatives update-alternatives 工具需要手动注册 JDK 路径后才能识别新版本。如果仅安装 JDK…...
LeetCode 3396.使数组元素互不相同所需的最少操作次数:O(n)一次倒序遍历
【LetMeFly】3396.使数组元素互不相同所需的最少操作次数:O(n)一次倒序遍历 力扣题目链接:https://leetcode.cn/problems/minimum-number-of-operations-to-make-elements-in-array-distinct/ 给你一个整数数组 nums,你需要确保数组中的元素…...
Vue2 快速过度 Vue3 教程 (后端学习)
隔好长一段时间没有写文章了,因为最近公司一个项目进度很赶,导致一直加班,没有时间空出来学习新的东西,这次趁着周末,赶紧补一下之前落下的一直想重新学一下整个大前端生态的想法,这次写一篇自己学习Vue3的…...
供应链管理-职业规划:数字化供应链管理专家 / 供应链管理商业模式专家 / 供应链管理方案专家
一、背景阐述 依据联合国产业分类标准,工业体系被细致划分为41个工业大类、207个工业中类以及666个工业小类。中国凭借其独特的产业布局,成为全球唯一一个全面涵盖所有这些门类的国家,成功构建起独立且完备的现代工业体系。这一辉煌成就&…...
无状态版的DHCPv6是不是SLAAC? 笔记250405
无状态版的DHCPv6是不是SLAAC? 笔记250405 无状态版 DHCPv6 不是 SLAAC,但二者在 IPv6 网络中可协同工作。以下是核心区别与协作关系: 本质区别 特性SLAAC无状态 DHCPv6主要功能生成 IPv6 地址(基于路由器通告的前缀)分发 DNS、…...
遍历算法及其应用详解
李升伟 整理 什么是遍历? 遍历是指按照某种规则或顺序,系统地访问数据结构(如树、图等)中的每个节点一次且仅一次的过程。遍历是算法设计中的基本操作,用于访问、检查或修改数据结构中的所有元素。 主要遍历算法 1…...
Python 字典和集合(常见的映射方法)
本章内容的大纲如下: 常见的字典方法 如何处理查找不到的键 标准库中 dict 类型的变种set 和 frozenset 类型 散列表的工作原理 散列表带来的潜在影响(什么样的数据类型可作为键、不可预知的 顺序,等等) 常见的映射方法 映射类型…...
基于大模型的ALS预测与手术优化系统技术方案
目录 技术方案文档:基于大模型的ALS预测与手术优化系统1. 数据预处理与特征工程模块流程图伪代码2. 多模态融合预测模型模型架构图伪代码3. 术中实时监测与动态干预系统系统流程图伪代码4. 统计验证与可解释性模块验证流程图伪代码示例(SHAP分析)5. 健康教育与交互系统系统架…...
创建一个简单的HTML游戏站
创建一个简单的HTML游戏站涉及多个步骤,包括规划网站结构、设计用户界面、编写游戏逻辑以及测试和部署。下面是一个详细的步骤指南: 1. 规划网站结构 确定目标受众:了解你的目标用户群体。选择游戏类型:决定你要开发的游戏类型&…...
Matlab轴承故障信号仿真与故障分析
1.摘要 本文介绍了一个基于Matlab的轴承故障信号仿真与分析程序,旨在模拟和分析轴承内圈故障信号的特征。程序首先通过生成故障信号、共振信号和调制信号,添加噪声和离散化处理,构建模拟的振动信号,并保存相关数据。通过快速傅里…...
Linux 进程 | 概念 / 特征 / 状态 / 优先级 / 空间
注: 本文为 “Linux 进程” 相关文章合辑。 未整理去重。 Linux 进程概念(精讲) A little strawberry 于 2021-10-15 10:23:55 发布 基本概念 课本概念:程序的一个执行实例,正在执行的程序等。 内核观点ÿ…...
项目中如何防止超卖
什么是超卖?假如只剩下一个库存,却被多个订单买到了,简单理解就是库存不够了还能正常下单。 方案1:数据库行级锁 1. 实体类 Data TableName("product") public class Product {TableId(type IdType.AUTO)private Lon…...
重回全面发展亲自操刀
项目场景: 今年工作变动,优化后在一家做国有项目的私人公司安顿下来了。公司环境不如以前,但是好在瑞欣依然可以每天方便的买到。人文氛围挺好,就是工时感觉有点紧,可能长期从事产品迭代开发,一下子转变做项…...
3D珠宝渲染用什么软件比较好?渲染100邀请码1a12
印度珠宝商 Mohar Fine Jewels 和英国宝石商 Gemfields 在今年推出了合作珠宝系列——「Emeralds in Full Bloom」,它的灵感源自花草绽放的春季田野,共有 39 件作品,下面这个以植物为主题的开口手镯就是其中一件。 在数字时代,像这…...
