当前位置: 首页 > article >正文

PDF转Markdown/JSON软件MinerU最新1.3.12版整合包下载

MinerU发布至今我已经更新多版整合包了,5天前MinerU发布了第一个正式版1.0.1,并且看到在18小时之前有更新模型文件,我就做了个最新版的一键启动整合包。


2025年02月21日更新v1.1.0版整合包

2025年02月27日更新v1.2.0版整合包

2025-06-05 更新v1.3.12版本

MinerU介绍

可能还有很多人没使用过这个软件。MinerU是一款非常热门的高质量PDF转markdown和JSON格式软件

MinerU主要特点

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检

在1月10日的时候发布了第一个正式版1.0.1版。1.0.1版更新内容有:

引入了全新的API接口,并通过大量重构增强了兼容性,同时引入了全新的自动语言识别功能:

  • 新的 API 接口
    • 对于数据端API,我们引入了Dataset类,旨在提供强大而灵活的数据处理框架。该框架目前支持多种文档格式,包括图片(.jpg和.png)、PDF、Word文档(.doc和.docx)和PowerPoint演示文稿(.ppt和.pptx)。它确保有效支持从简单到复杂的数据处理任务。
    • 对于用户端API,我们精心设计了MinerU的处理流程为一系列可组合的Stage,每个Stage代表一个具体的处理步骤,用户可以根据自己的需求定义新的Stage,并创造性地组合这些Stage来定制自己的数据处理流程。
  • 增强兼容性
    • 通过优化依赖环境和配置项,保证在ARM架构Linux系统上稳定、高效的运行。
    • 与华为Ascend NPU加速深度融合,提供自主可控的高性能计算能力,支撑中国AI应用平台的本土化发展。Ascend NPU加速
  • 自动语言识别
    • 通过引入新的语言识别模型,在文档解析时将配置设置langauto将自动选择合适的OCR语言模型,提高扫描文档解析的准确性。

更多更新内容可查看以前版本介绍《PDF转Markdown格式软件MinerU一键启动整合包v0.10.0版》

1.3.12更新内容

  • 增加ppocrv5模型的支持,将ch_server模型更新为PP-OCRv5_rec_serverch_lite模型更新为PP-OCRv5_rec_mobile(需更新模型)
    • 在测试中,发现ppocrv5(server)对手写文档效果有一定提升,但在其余类别文档的精度略差于v4_server_doc,因此默认的ch模型保持不变,仍为PP-OCRv4_server_rec_doc
    • 由于ppocrv5强化了手写场景和特殊字符的识别能力,因此您可以在日繁混合场景以及手写文档场景下手动选择使用ppocrv5模型
    • 您可通过lang参数lang='ch_server'(python api)或--lang ch_server(命令行)自行选择相应的模型:
      • ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)
      • ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)
      • ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)
      • ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)
      • ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)
  • 增加手写文档的支持,通过优化layout对手写文本区域的识别,现已支持手写文档的解析
    • 默认支持此功能,无需额外配置
    • 可以参考上述说明,手动选择ppocrv5模型以获得更好的手写文档解析效果

MinerU整合包使用说明

首先将软件压缩包从网盘下载到本地电脑上并解压。由于模型文件比较大,我没有打包进压缩包里,而是做了个下载程序,可以从阿里平台上高速下载。首先双击运行【下载模型文件.exe】,稍等几分钟就可以下载完成,下载完成时终端窗口中会提示模型下载完成信息。

然后双击运行【启动软件.exe】即可打开软件操作界面。

首先选择待处理PDF文件,你可以点击选择文件按钮选择文件,也可以把想要处理的文件鼠标左键按住拖动到软件窗口中,软件会自动填充路径。软件也支持批量处理,你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件: .png .jpg .ppt .pptx .doc .docx

处理方法:默认auto模式,你也可以手动选择ocr或txt,如果是纯文本文档,建议选择txt,速度更快

PDF语言:用于辅助优化ocr的准确性,填写语言代码,如英语文档填:en

v1.3.12更新语言识别模型:

  • ch :PP-OCRv4_rec_server_doc(默认)(中英日繁混合/1.5w字典)
  • ch_server :PP-OCRv5_rec_server(中英日繁混合+手写场景/1.8w字典)
  • ch_lite :PP-OCRv5_rec_mobile(中英日繁混合+手写场景/1.8w字典)
  • ch_server_v4 :PP-OCRv4_rec_server(中英混合/6k字典)
  • ch_lite_v4 :PP-OCRv4_rec_mobile(中英混合/6k字典)

起始页:想从PDF哪页开始处理。页数从0开始计数的,比如想从第二页开始处理,这里就填1

结束页:想要软件处理到哪页结束,和上面一样,填数字

默认只需要设置待处理文件和保存位置即可,其它不需要设置。

其它选项说明:

表格识别模型默认为RapidTable,你也可以选择其它模型

表格识别和公式识别功能默认都是开启的,如果你用不到这些功能或是电脑带不动,你可以选择关闭这些功能。

软件支持使用通义千问大语言模型对相关功能辅助优化,使用的是在线通义千问功能,所以如果你想要使用这个功能的话,需要申请API KEY。

首先申请一个阿里云百炼的API KEY:https://bailian.console.aliyun.com/?apiKey=1#/api-key

API KEY为sk-开头的一串字符串,然后申请开通大模型:https://bailian.console.aliyun.com/#/model-market,选择一个你想使用的模型,鼠标放在【立即体验】四个字上方会出现开通提示,你点击去开通,开通了大模型使用权限你才可以通过API调用相关大模型

然后在软件API KEY输入框里填写你的阿里云百炼key点击设置就可以了。

要注意,通义千问在线大语言模型并不是完全免费的,是有一定的免费额度的,注意你的用量

PDF文档处理完成后结果会保存在你设置的输出目录里。

输出结果文件说明:

├——some_pdf.md#最终md文件

├——images#图像存储目录

├——some_pdf_layout.pdf#布局图

├——some_pdf_middle.json#MinerU中间处理结果

├——some_pdf_model.json模型推理结果

├——some_pdf_origin.pdf#根据设置处理后的原始pdf文件,如裁剪了页数范围

├——some_pdf_spans.pdf#最小粒度bbox位置信息图

└——some_pdf_content_list.json#按阅读顺序排列的富文本json


视频教程:

注意事项

英伟达低配显卡可用,但建议显存不低于4G

支持英伟达50系列显卡

整合包只支持Windows 10或11系统

软件运行路径中不要有非英文字符和空格,待处理文件同样注意

保存位置不要选择盘符根目录下

如果软件转移过文件夹,或是以前使用过mineru,需要随便点个开始处理以外的设置按钮,以更新配置文件内容

PDF转Markdown软件MinerU 1.3.12版整合包下载链接

夸克网盘分享

相关文章:

PDF转Markdown/JSON软件MinerU最新1.3.12版整合包下载

MinerU发布至今我已经更新多版整合包了,5天前MinerU发布了第一个正式版1.0.1,并且看到在18小时之前有更新模型文件,我就做了个最新版的一键启动整合包。 2025年02月21日更新v1.1.0版整合包 2025年02月27日更新v1.2.0版整合包 2025-06-05 更…...

Android第十三次面试总结基础

Activity生命周期和四大启动模式详解 一、Activity 生命周期 Activity 的生命周期由一系列回调方法组成,用于管理其创建、可见性、焦点和销毁过程。以下是核心方法及其调用时机: ​onCreate()​​ ​调用时机​:Activity 首次创建时调用。​…...

【深入学习Linux】System V共享内存

目录 前言 一、共享内存是什么? 共享内存实现原理 共享内存细节理解 二、接口认识 1.shmget函数——申请共享内存 2.ftok函数——生成key值 再次理解ftok和shmget 1)key与shmid的区别与联系 2)再理解key 3)通过指令查看/释放系统中…...

编程基础:执行流

能帮到你的话,就给个赞吧 😘 文章目录 执行流同步:顺序执行,只有一个执行流异步:新开后台(次)执行流,后台执行流要确保不能影响主执行流。共有两个执行流。 阻塞:任务阻塞执行流,导致…...

理解非结构化文档:将 Reducto 解析与 Elasticsearch 结合使用

作者:来自 Elastic Adel Wu 演示如何将 Reducto 的文档处理与 Elasticsearch 集成以实现语义搜索。 Elasticsearch 与业界领先的生成式 AI 工具和提供商有原生集成。欢迎观看我们的网络研讨会,了解如何超越 RAG 基础,或使用 Elastic 向量数据…...

算法训练第十天

232. 用栈实现队列 代码: class MyQueue(object):def __init__(self):self.arr1 []self.arr2 []def push(self, x):""":type x: int:rtype: None"""self.arr1.append(x)def pop(self):""":rtype: int""…...

2种官方方法关闭Windows防火墙

2种官方方法关闭Windows防火墙 引言一、防火墙:你电脑的"智能安检员"二、这些场景,可能需要"临时撤防"三、极速关闭方案方法一:通过系统设置(Win10/11专属通道)方法二:通过传统控制面板(全系统通用:Win7-11全系)四、 必读安全警告(关闭前请三思!…...

[面试精选] 0094. 二叉树的中序遍历

文章目录 1. 题目链接2. 题目描述3. 题目示例4. 解题思路5. 题解代码6. 复杂度分析 1. 题目链接 94. 二叉树的中序遍历 - 力扣(LeetCode) 2. 题目描述 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 3. 题目示例 示例 1 : 输入&…...

股指期货期权交易规则是什么?

本文主要介绍股指期货期权交易规则是什么?股指期货期权是以股指期货合约为标的物的期权交易,其规则结合了期货与期权的特点。 股指期货期权交易规则是什么? 一、基础交易规则 交易时间 交易日9:30-11:30,13:00-15:00&#xff0…...

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1]

学习笔记(23): 机器学习之数据预处理Pandas和转换成张量格式[1] 学习机器学习,需要学习如何预处理原始数据,这里用到pandas,将原始数据转换为张量格式的数据。 1、安装pandas pip install pandas 2、写入和读取数据 >>创建一个人工…...

2025年6月6日第一轮

2025年6月6日 The rapid in Chiese industdy is developnig e,and it is From be in a enjoy a deep is developing The drone industry in China is developing The drone industy in china develops rapidly and is in a leading position in in the world. The dro…...

记一次运行spark报错

提交spark任务运次报错 06/03 18:27:50 INFO Client: Setting up container launch context for our AM 25/06/03 18:27:50 INFO Client: Setting up the launch environment for our AM container 25/06/03 18:27:50 INFO Client: Preparing resources for our AM container …...

12-Oracle 23ai Vector 使用ONNX模型生成向量嵌入

一、Oracle 23ai Vector Embeddings 核心概念​ 向量嵌入(Vector Embeddings)​​ -- 将非结构化数据(文本/图像)转换为数值向量 - - 捕获数据的语义含义而非原始内容 - 示例:"数据库" → [0.24, -0.78, 0.5…...

2. 库的操作

2.1 创建数据库 语法: CREATE DATABASE [IF NOT EXISTS] db_name [create_specification [, create_specification] ...] create_specification: [DEFAULT] CHARACTER SET charset_name # 字符集: 存储编码 [DEFAULT] COLLATE collation_name # 校验集: 比较/选择/读…...

pytorch 与 张量的处理

系列文章目录 文章目录 系列文章目录一、Tensor 的裁剪二、Tensor 的索引与数据筛选torch.wheretorch.indicestorch.gathertorch.masked_selecttorch.taketorch.nonzero(省略) 三、Tensor 的组合与拼接torch.cattorch.stack 四、Tensor的切片chunksplit …...

layer norm和 rms norm 对比

Layer norm # Layer Norm 公式 mean x.mean(dim-1, keepdimTrue) var x.var(dim-1, keepdimTrue) output (x - mean) / sqrt(var eps) * gamma beta特点: 减去均值(去中心化)除以标准差(标准化)包含可学习参数 …...

Java高级 | 【实验六】Springboot文件上传和下载

隶属文章:Java高级 | (二十二)Java常用类库-CSDN博客 系列文章:Java高级 | 【实验一】Springboot安装及测试 |最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客 Java高级 | 【实验三】Springboot 静…...

RKNN开发环境搭建1-基于Ubuntu 18.04系统使用Docker安装rknn-toolkit2

目录 写在最前面Docker 方式安装rknn-toolkit2写在最前面 瑞芯微在RKNN的环境搭建方面的资料很多,但是在搭建过程中发现很多问题教程中并未提及,对初学者不友好。所以博主做了这个系列的文章,从开始搭建环境到对于RKNN Model Zoo的示例进行实践,希望能对初学者有帮助。坚持…...

qt使用笔记二:main.cpp详解

Qt中main.cpp文件详解 main.cpp是Qt应用程序的入口文件&#xff0c;包含程序的启动逻辑。下面我将详细解析其结构和功能。 基本结构 一个典型的Qt main.cpp 文件结构如下&#xff1a; #include <QApplication> // 或者 QGuiApplication/QCoreApplication #include &…...

VBA进度条ProgressForm1

上一章《VBA如何使用ProgressBar进度条控件》介绍了ProgressBar控件的使用方法&#xff0c;今天我给大家介绍ProgressForm1进度条的使用方法&#xff0c;ProgressForm1是集成ProgressBar控件和Label控件的窗体&#xff0c;可以同时显示进度条和百分比&#xff0c;如下图&#x…...

行为型设计模式之Interpreter(解释器)

行为型设计模式之Interpreter&#xff08;解释器&#xff09; 前言&#xff1a; 自己的话理解&#xff1a;自定义一个解释器用来校验参数或数据是否合法。 1&#xff09;意图 给定一个语言&#xff0c;定义它的文法的一种表示&#xff0c;并定义一个解释器&#xff0c;这个解…...

深入解析 CAS 操作

一、CAS 的本质&#xff1a;硬件级别的乐观锁 CAS&#xff08;Compare-And-Swap&#xff0c;比较并交换&#xff09; 是一种原子操作指令&#xff0c;用于实现对共享变量的无锁并发修改。它是现代多核处理器支持的底层硬件指令&#xff0c;也是构建高效并发数据结构&#xff0…...

vue3+TS+eslint9配置

记录eslint升级到9.x的版本之后遇到的坑 在 ESLint 9 中&#xff0c;配置方式发生了变化。Flat Config 格式&#xff08;eslint.config.js 或 .ts&#xff09;不再支持 extensions 选项。所以vscode编辑器中的 extensions 需要注释掉&#xff0c;要不然保存的时候不会格式化。…...

【bug】Error: /undefinedfilename in (/tmp/ocrmypdf.io.9xfn1e3b/origin.pdf)

在使用ocrmypdf的时候&#xff0c;需要Ghostscript9.55及以上的版本&#xff0c;但是ubuntu自带为9.50 然后使用ocrmypdf报错了 sudo apt update sudo apt install ghostscript gs --version 9.50 #版本不够安装的版本为9.50不够&#xff0c;因此去官网https://ghostscript.c…...

HarmonyOS5.0——CodeGenie:鸿蒙生态的AI编程革命​

​​CodeGenie&#xff1a;鸿蒙生态的AI编程革命​​ 华为推出的 ​​CodeGenie​​ 是集成于 DevEco Studio 的 AI 辅助编程工具&#xff0c;专为 HarmonyOS 应用开发设计。它通过深度优化 ArkTS 和 C 语言的代码生成能力&#xff0c;显著提升开发效率&#xff0c;降低鸿蒙生…...

【Dv3Admin】系统视图字典管理API文件解析

业务系统中静态数据管理常被忽视&#xff0c;但它直接影响到扩展性与维护效率。字典模块通过集中管理各类基础数据&#xff0c;避免硬编码&#xff0c;使系统具备更高的灵活性和适配能力&#xff0c;成为后台管理平台的重要基础组件。 文章解析 dvadmin/system/views/dictiona…...

免费 SecureCRT8.3下载、安装、注册、使用与设置

参考&#xff1a;SecureCRT 8.3中文 安装教程 - Hope - 博客园...

Redis :String类型

String类型 String是Redis中的字符串&#xff0c;是Redis中最基本的数据类型&#xff0c;直接是按照二进制数据的进行存储 Redis中的所有key都是String类型&#xff0c;但是value是有差别的 常见的命令 set 将String类型的value存储到key中&#xff0c;如果之间有相同的ke…...

两种Https正向代理的实现原理

正向代理 HTTPS 主要有两种方案&#xff0c;分别是基于证书的解密与再加密方案和基于 HTTP CONNECT 隧道的方案&#xff0c;以下是这两种方案的具体信息&#xff1a; 一、基于证书的解密与再加密方案 原理 工作原理&#xff1a;代理服务器拥有自己的证书&#xff0c;客户端需…...

第18节 Node.js Web 模块

什么是 Web 服务器&#xff1f; Web服务器一般指网站服务器&#xff0c;是指驻留于因特网上某种类型计算机的程序。 Web服务器的基本功能就是提供Web信息浏览服务。它只需支持HTTP协议、HTML文档格式及URL&#xff0c;与客户端的网络浏览器配合。 大多数web服务器都支持服务…...