当前位置: 首页 > article >正文

自动提取pdf公式 ➕ 输出 LaTeX

# 创建打包脚本的主内容
script_content = """
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import osdef main():pdf_path = "your_file.pdf"  # 将你的PDF命名为 your_file.pdf 并放在同目录下output_dir = "formulas"os.makedirs(output_dir, exist_ok=True)print("👉 正在提取公式图像...")extract_formula_imgs(pdf_path, output_dir, dpi=300)print("✅ 公式图像提取完成,开始识别 LaTeX 公式...")p2t = Pix2Text()with open("extracted_formulas.txt", "w", encoding="utf-8") as f_out:for fname in sorted(os.listdir(output_dir)):if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))print(f"{fname} → {latex}")f_out.write(f"{fname}: {latex}\\n")print("\\n🎉 所有公式识别完成,结果已保存至 extracted_formulas.txt")if __name__ == "__main__":main()
"""requirements_content = """
doc2x[pix2text]
"""# 写入打包文件
script_path = "/mnt/data/extract_formulas.py"
requirements_path = "/mnt/data/requirements.txt"with open(script_path, "w", encoding="utf-8") as f:f.write(script_content.strip())with open(requirements_path, "w", encoding="utf-8") as f:f.write(requirements_content.strip())script_path, requirements_path

# 创建打包脚本的主内容 extract_formulas.py

依赖环境文件:requirements.txt

doc2x[pix2text]

用方法(只需3步):

  1. 将你的 PDF 重命名为:your_file.pdf,放在脚本同一目录下

  2. 安装环境:

    pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

  3. 运行脚本:

    python extract_formulas.py

完成后会自动:

  • 提取所有数学公式区域图像

  • 识别为 LaTeX 格式

  • 保存结果到:extracted_formulas.txt

转换成GUI工具

# 将脚本转换为简单的 tkinter GUI 应用程序
gui_script = """
import os
import tkinter as tk
from tkinter import filedialog, messagebox
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Imagedef select_pdf():file_path = filedialog.askopenfilename(filetypes=[("PDF Files", "*.pdf")])if file_path:entry_pdf.delete(0, tk.END)entry_pdf.insert(0, file_path)def run_extraction():pdf_path = entry_pdf.get()if not os.path.isfile(pdf_path) or not pdf_path.endswith(".pdf"):messagebox.showerror("错误", "请选择有效的 PDF 文件。")returnoutput_dir = os.path.join(os.path.dirname(pdf_path), "formulas")os.makedirs(output_dir, exist_ok=True)messagebox.showinfo("提示", "正在提取公式图像,请稍候...")extract_formula_imgs(pdf_path, output_dir, dpi=300)p2t = Pix2Text()output_file = os.path.join(os.path.dirname(pdf_path), "extracted_formulas.txt")with open(output_file, "w", encoding="utf-8") as f_out:for fname in sorted(os.listdir(output_dir)):if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))f_out.write(f"{fname}: {latex}\\n")messagebox.showinfo("完成", f"🎉 公式提取完成!结果保存在\\n{output_file}")# GUI 界面
root = tk.Tk()
root.title("PDF 公式提取工具")
root.geometry("500x150")tk.Label(root, text="选择 PDF 文件:").pack(pady=5)
entry_pdf = tk.Entry(root, width=50)
entry_pdf.pack(padx=10)
tk.Button(root, text="浏览", command=select_pdf).pack(pady=5)tk.Button(root, text="开始提取公式", command=run_extraction, bg="#4CAF50", fg="white").pack(pady=10)root.mainloop()
"""gui_script_path = "/mnt/data/pdf_formula_gui.py"
with open(gui_script_path, "w", encoding="utf-8") as f:f.write(gui_script.strip())gui_script_path
  • 安装依赖(首次运行):

    pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple

  • 双击运行或使用命令:

    python pdf_formula_gui.py

  • 在弹出的窗口中:

    • 选择你的 PDF 文件

    • 点击【开始提取公式】

    • 将这个图形界面程序打包成 .exe 可执行文件的详细教程,适合 Windows 用户👇


      ✅ 步骤一:安装打包工具 PyInstaller

      打开命令行,运行:

      pip install pyinstaller


      ✅ 步骤二:使用 PyInstaller 打包为 EXE

      在包含 pdf_formula_gui.py 文件的文件夹中运行以下命令:

      pyinstaller --onefile --windowed pdf_formula_gui.py

      参数解释:

    • --onefile:打包成单个 .exe 文件

    • --windowed:不显示命令行窗口(适合 GUI 应用)

    • 你可以双击它,像普通软件一样运行!


      ✅ 步骤三:获取打包好的 EXE 文件

      dist/pdf_formula_gui.exe

      自动生成:LaTeX 识别结果(extracted_formulas.txt

自动安装依赖 .bat 文件

你还可以创建一个 install_and_run.bat 文件,内容如下:

@echo off pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple start pdf_formula_gui.exe

这样就可以发给别人用了,一键安装依赖并启动程序 🪄

相关文章:

自动提取pdf公式 ➕ 输出 LaTeX

# 创建打包脚本的主内容 script_content """ from doc2x.extract_formula import extract_formula_imgs from pix2text import Pix2Text from PIL import Image import osdef main():pdf_path "your_file.pdf" # 将你的PDF命名为 your_file.pdf 并…...

(十)安卓开发中的Activity之间的通信使用详解

在 Android 开发中,Activity 之间的通信是非常常见且核心的功能之一,常见的方式包括: 使用显式 Intent 传递数据使用隐式 Intent 实现跨组件调用使用 startActivityForResult(或新版 Activity Result API)回传数据传递…...

python 浅拷贝copy与深拷贝deepcopy 理解

一 浅拷贝与深拷贝 1. 浅拷贝 浅拷贝只复制了对象本身(即c中的引用)。 2. 深拷贝 深拷贝创建一个新的对象,同时也会创建所有子对象的副本,因此新对象与原对象之间完全独立。 二 代码理解 1. 案例一 a 10 b a b 20 print…...

基于neo4j存储知识树-mac

1、安装jdk21 for mac(jdk-21_macos-aarch64_bin.dmg) 2、安装neo4j for mac(neo4j-community-5.26.0-unix.tar.gz) 3、使用默认neo4j/neo4j登录http://localhost:7474 修改登录密码,可以使用生成按钮生成密码,连接数据库,默认设置为neo4j…...

Tiktok 关键字 视频及评论信息爬虫(1) [2025.04.07]

🙋‍♀️Tiktok APP的基于关键字检索的视频及评论信息爬虫共分为两期,希望对大家有所帮助。 第一期见下文。 第二期:基于视频URL的评论信息爬取 1. Node.js环境配置 首先配置 JavaScript 运行环境(如 Node.js)&#x…...

基于人工智能的高中教育评价体系重构研究

基于人工智能的高中教育评价体系重构研究 一、引言 1.1 研究背景 在科技飞速发展的当下,人工智能技术已广泛渗透至各个领域,教育领域亦不例外。人工智能凭借其强大的数据处理能力、智能分析能力和个性化服务能力,为教育评价体系的创新与发…...

【学习笔记】文件上传漏洞--二次渲染、.htaccess、变异免杀

目录 第十二关 远程包含地址转换 第十三关 突破上传删除 条件竞争 第十四关 二次渲染 第十五关 第十六关 第十七关 .htaccess 第十八关 后门免杀 第十九关 日志包含 第十二关 远程包含地址转换 延续第十一关,加一个文件头,上传成功&#xff0c…...

C++ 基础进阶

C 基础进阶 内容概述&#xff1a; 函数重载&#xff1a;int add(int x, inty);&#xff0c;long long add(long long x, long long y);&#xff0c;double add(double x, double y);模板函数&#xff1a;template<typename T> 或 template<class T>结构体&#x…...

【OS】Process Management(3)

《计算机操作系统&#xff08;第三版&#xff09;》&#xff08;汤小丹&#xff09;学习笔记 文章目录 5、进程通信&#xff08;Inter-Process Communication&#xff09;5.1、进程通信的类型5.1.1、共享存储器系统&#xff08;Shared Memory System&#xff09;5.1.2、消息传递…...

单reactor实战

前言&#xff1a;reactor作为一种高性能的范式&#xff0c;值得我们学习 本次目标 实现一个基于的reactor 具备echo功能的服务器 核心组件 Reactor本身是靠一个事件驱动的框架,无疑引出一个类似于moduo的"EventLoop "以及boost.asio中的context而言&#xff0c;不断…...

初阶C++笔记第一篇:C++基础语法

虽然以下大多数知识点都在C语言中学过&#xff0c;但还是有一些知识点和C语言不同&#xff0c;比如&#xff1a;代码格式、头文件、关键字、输入输出、字符串类型等... 1. 初识C 1.1 第一个C程序 编写C分为4个步骤&#xff1a; 创建项目创建文件编写代码运行程序 C的第一条…...

java基础 流(Stream)

Stream Stream 的核心概念核心特点 Stream 的操作分类中间操作&#xff08;Intermediate Operations&#xff09;终止操作&#xff08;Terminal Operations&#xff09; Stream 的流分类顺序流&#xff08;Sequential Stream&#xff09;并行流&#xff08;Parallel Stream&…...

【AI】prompt engineering

prompt engineering ## prompt engineering ## prompt engineering ## prompt engineering 一、定义 Prompt 工程&#xff08;Prompt Engineering&#xff09;是指在使用语言模型&#xff08;如 ChatGPT、文心一言等&#xff09;等人工智能工具时&#xff0c;设计和优化输入提…...

无需libpacp库,BPF指令高效捕获指定数据包

【环境】无libpacp库的Linux服务器 【要求】高效率读取数据包&#xff0c;并过滤指定端口和ip 目前遇到两个问题 一是手写BPF&#xff0c;难以兼容&#xff0c;有些无法正常过滤二是性能消耗问题&#xff0c;尽可能控制到1% 大方向&#xff1a;过滤数据包要在内核层处理&…...

LeetCode算法题(Go语言实现)_36

题目 给定一个二叉树的根节点 root &#xff0c;和一个整数 targetSum &#xff0c;求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始&#xff0c;也不需要在叶子节点结束&#xff0c;但是路径方向必须是向下的&#xff08;只能从父节点到子节点…...

react实现上传图片到阿里云OSS以及问题解决(保姆级)

一、优势 提高上传速度&#xff1a;前端直传利用了浏览器与 OSS 之间的直接连接&#xff0c;能够充分利用用户的网络带宽。相比之下&#xff0c;后端传递文件时&#xff0c;文件需要经过后端服务器的中转&#xff0c;可能会受到后端服务器网络环境和处理能力的限制&#xff0c;…...

无法看到新安装的 JDK 17

在 Linux 系统中使用 update-alternatives --config java 无法看到新安装的 JDK 17&#xff0c;可能是由于 JDK 未正确注册到系统备选列表中。 一、原因分析 JDK 未注册到 update-alternatives update-alternatives 工具需要手动注册 JDK 路径后才能识别新版本。如果仅安装 JDK…...

LeetCode 3396.使数组元素互不相同所需的最少操作次数:O(n)一次倒序遍历

【LetMeFly】3396.使数组元素互不相同所需的最少操作次数&#xff1a;O(n)一次倒序遍历 力扣题目链接&#xff1a;https://leetcode.cn/problems/minimum-number-of-operations-to-make-elements-in-array-distinct/ 给你一个整数数组 nums&#xff0c;你需要确保数组中的元素…...

Vue2 快速过度 Vue3 教程 (后端学习)

隔好长一段时间没有写文章了&#xff0c;因为最近公司一个项目进度很赶&#xff0c;导致一直加班&#xff0c;没有时间空出来学习新的东西&#xff0c;这次趁着周末&#xff0c;赶紧补一下之前落下的一直想重新学一下整个大前端生态的想法&#xff0c;这次写一篇自己学习Vue3的…...

供应链管理-职业规划:数字化供应链管理专家 / 供应链管理商业模式专家 / 供应链管理方案专家

一、背景阐述 依据联合国产业分类标准&#xff0c;工业体系被细致划分为41个工业大类、207个工业中类以及666个工业小类。中国凭借其独特的产业布局&#xff0c;成为全球唯一一个全面涵盖所有这些门类的国家&#xff0c;成功构建起独立且完备的现代工业体系。这一辉煌成就&…...

无状态版的DHCPv6是不是SLAAC? 笔记250405

无状态版的DHCPv6是不是SLAAC? 笔记250405 无状态版 DHCPv6 不是 SLAAC&#xff0c;但二者在 IPv6 网络中可协同工作。以下是核心区别与协作关系&#xff1a; 本质区别 特性SLAAC无状态 DHCPv6主要功能生成 IPv6 地址&#xff08;基于路由器通告的前缀&#xff09;分发 DNS、…...

遍历算法及其应用详解

李升伟 整理 什么是遍历&#xff1f; 遍历是指按照某种规则或顺序&#xff0c;系统地访问数据结构&#xff08;如树、图等&#xff09;中的每个节点一次且仅一次的过程。遍历是算法设计中的基本操作&#xff0c;用于访问、检查或修改数据结构中的所有元素。 主要遍历算法 1…...

Python 字典和集合(常见的映射方法)

本章内容的大纲如下&#xff1a; 常见的字典方法 如何处理查找不到的键 标准库中 dict 类型的变种set 和 frozenset 类型 散列表的工作原理 散列表带来的潜在影响&#xff08;什么样的数据类型可作为键、不可预知的 顺序&#xff0c;等等&#xff09; 常见的映射方法 映射类型…...

基于大模型的ALS预测与手术优化系统技术方案

目录 技术方案文档:基于大模型的ALS预测与手术优化系统1. 数据预处理与特征工程模块流程图伪代码2. 多模态融合预测模型模型架构图伪代码3. 术中实时监测与动态干预系统系统流程图伪代码4. 统计验证与可解释性模块验证流程图伪代码示例(SHAP分析)5. 健康教育与交互系统系统架…...

创建一个简单的HTML游戏站

创建一个简单的HTML游戏站涉及多个步骤&#xff0c;包括规划网站结构、设计用户界面、编写游戏逻辑以及测试和部署。下面是一个详细的步骤指南&#xff1a; 1. 规划网站结构 确定目标受众&#xff1a;了解你的目标用户群体。选择游戏类型&#xff1a;决定你要开发的游戏类型&…...

Matlab轴承故障信号仿真与故障分析

1.摘要 本文介绍了一个基于Matlab的轴承故障信号仿真与分析程序&#xff0c;旨在模拟和分析轴承内圈故障信号的特征。程序首先通过生成故障信号、共振信号和调制信号&#xff0c;添加噪声和离散化处理&#xff0c;构建模拟的振动信号&#xff0c;并保存相关数据。通过快速傅里…...

Linux 进程 | 概念 / 特征 / 状态 / 优先级 / 空间

注&#xff1a; 本文为 “Linux 进程” 相关文章合辑。 未整理去重。 Linux 进程概念&#xff08;精讲&#xff09; A little strawberry 于 2021-10-15 10:23:55 发布 基本概念 课本概念&#xff1a;程序的一个执行实例&#xff0c;正在执行的程序等。 内核观点&#xff…...

项目中如何防止超卖

什么是超卖&#xff1f;假如只剩下一个库存&#xff0c;却被多个订单买到了&#xff0c;简单理解就是库存不够了还能正常下单。 方案1&#xff1a;数据库行级锁 1. 实体类 Data TableName("product") public class Product {TableId(type IdType.AUTO)private Lon…...

重回全面发展亲自操刀

项目场景&#xff1a; 今年工作变动&#xff0c;优化后在一家做国有项目的私人公司安顿下来了。公司环境不如以前&#xff0c;但是好在瑞欣依然可以每天方便的买到。人文氛围挺好&#xff0c;就是工时感觉有点紧&#xff0c;可能长期从事产品迭代开发&#xff0c;一下子转变做项…...

3D珠宝渲染用什么软件比较好?渲染100邀请码1a12

印度珠宝商 Mohar Fine Jewels 和英国宝石商 Gemfields 在今年推出了合作珠宝系列——「Emeralds in Full Bloom」&#xff0c;它的灵感源自花草绽放的春季田野&#xff0c;共有 39 件作品&#xff0c;下面这个以植物为主题的开口手镯就是其中一件。 在数字时代&#xff0c;像这…...