当前位置：首页 > article >正文

PDF 转 Markdown

article 2026/4/7 22:36:31

本地可部署的模型

Marker

Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。

转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件
在给定 JSON 架构（beta）的情况下进行结构化提取
设置表格、表单、方程式、内联数学、链接、引用和代码块的格式
提取和保存图像
删除页眉/页脚/其他工件
可使用您自己的格式和逻辑进行扩展
（可选）使用 LLM 提高准确性
适用于 GPU、CPU 或 MPS

https://github.com/VikParuchuri/marker

Surya

Surya 是一个文档 OCR 工具包，它做到了：

90+ 种语言的 OCR，与云服务相比具有优势
任何语言的行级文本检测
布局分析（表格、图像、标题等检测）
读取顺序检测
表识别（检测行/列）
LaTeX OCR

https://github.com/VikParuchuri/surya

MinerU

MinerU 是一种将 PDF 转换为机器可读格式（例如 markdown、JSON）的工具，可以轻松提取为任何格式。 MinerU 诞生于 InternLM 的预训练过程中。我们专注于解决科学文献中的符号转换问题，希望为大模型时代的技术发展做出贡献。

https://github.com/opendatalab/MinerU

需API调用的模型工具

llamaPaser

LlamaCloud

使用样例：

pip install dotenv

pip install llama_parse

pip install llama-index-llms-openai

在 modelDownload.py 文件所在的目录创建一个名为 .env 的文件，并在其中添加以下内容：

LLAMA_CLOUD_API_KEY='llamapaser API密钥'
OPENAI_API_KEY = 'openai APkey'

配置好环境后运行代码：

# 需要LLAMA_CLOUD_API_KEY
from dotenv import load_dotenv
load_dotenv()   # LlamaParse PDF reader for PDF Parsing
from llama_parse import LlamaParse
documents = LlamaParse(result_type="markdown").load_data("90-文档-Data/黑悟空/黑神话悟空.pdf"
)
print(documents)from llama_index.core.node_parser import MarkdownElementNodeParser
node_parser = MarkdownElementNodeParser()
nodes = node_parser.get_nodes_from_documents(documents)print(nodes)

效果如下：

PDF 转 Markdown

本地可部署的模型 Marker Marker 快速准确地将文档转换为 markdown、JSON 和 HTML。转换所有语言的 PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB 文件在给定 JSON 架构 （beta） 的情况下进行结构化提取设置表格、表单、方程式、内联数学、链接、引用和代…...

编程日记 2026/4/7 22:36:31

北大开源音频编辑模型PlayDiffusion，可实现音频局部编辑，比传统 AR 模型的效率高出 50 倍！

北大开源了一个音频编辑模型PlayDiffusion，可以实现类似图片修复(inpaint)的局部编辑功能 - 只需修改音频中的特定片段，而无需重新生成整段音频。此外，它还是一个高性能的 TTS 系统，比传统 AR 模型的效率高出 50 倍。自回归 Tra…...

编程日记 2026/4/7 20:25:11

蒲公英盒子连接问题debug

1、现象描述 2、问题解决上图为整体架构图，其中左边一套硬件设备是放在机房，右边是放在办公室。左边的局域网连接了可以访问外网的路由器，利用蒲公英作为旁路路由将局域网暴露在外网环境下。我需要通过蒲公英作为旁路路由来进行远程访问&…...

编程日记 2026/4/7 4:24:28

Unity | AmplifyShaderEditor插件基础（第五集：简易膨胀shader）

一、👋🏻前言大家好，我是菌菌巧乐兹~本节内容主要讲一下，如何用shader来膨胀~ 效果预览： 二、💨膨胀的基本原理之前的移动是所有顶点朝着一个方向走，所以是移动如果所有顶点照着自己的方…...

编程日记 2026/4/7 6:23:13

Django核心知识点全景解析

引言本文深入剖析Django核心组件，涵盖数据交换、异步交互、状态管理及安全认证，附完整代码示例和避坑指南！ 目录引言一、JSON：轻量级数据交换标准 1. 核心特性 2. 标准格式 3. 各语言处理方法 4. 常见错误示例二、AJA…...

编程日记 2026/2/27 10:54:59

生物发酵展同期举办2025中国合成生物学与生物制造创新发展论坛

一、会议介绍 2025中国合成生物学与生物制造创新发展论坛暨上海国际合成生物学与生物制造展览会于2025年8月7-9日在上海新国际博览中心（浦东新区龙阳路2345号）召开，本次论坛汇聚了国内外顶尖学者、行业领袖及政策制定者，将围绕“…...

编程日记 2026/3/7 11:36:27

WINUI——Magewell视频捕捉开发手记

背景因需要融合视频，并加载患者CT中提取出的气管镜与病变，以便能实时查看气管镜是否在正确位置。开发环境硬件：Magewell的USB Capture HDMI Gen 2 IDE：VS2022 FrameWork: .Net6 WINUI Package: MVVMToolKit NLog Ma…...

编程日记 2026/4/7 13:55:17

Jetpack Compose 中，DisposableEffect、LaunchedEffect 和 sideEffect 区别和用途

在 Jetpack Compose 中，DisposableEffect、LaunchedEffect 和 sideEffect 都是用于处理副作用（Side Effects）的 API，但它们的用途和触发时机不同。以下是它们的核心概念和区别： 1. 副作用（Side Effect&…...

编程日记 2026/2/24 4:55:01

STM32开发，创建线程栈空间大小判断

1. 使用RTOS提供的API函数（以FreeRTOS为例） 函数原型：UBaseType_t uxTaskGetStackHighWaterMark(TaskHandle_t xTask)功能：获取指定任务堆栈中剩余的最小空间（以字为单位，非字节）。使用步骤&am…...

编程日记 2026/3/31 13:11:01

// 配置化文件类型检测（集中管理支持的类型） const FILE_TYPE_CONFIG {video: {extensions: [mp4, webm, ogg, quicktime], // 可扩展支持更多格式regex: /^video\/(mp4|webm|ogg|quicktime)$/i // 自动生成正则},image: {extensions: [jpeg, jpg, png,…...

编程日记 2026/3/16 16:41:54

Qwen大语言模型里，＜CLS＞属于特殊的标记：Classification Token

Qwen大语言模型里，＜CLS＞属于特殊的标记：Classification Token 目录 Qwen大语言模型里，＜CLS＞属于特殊的标记：Classification Token功能解析工作机制应用场景举例说明技术要点在自然语言处理（NLP）领域都是＜CLS＞ + ＜SEP＞吗？一、CLS和SEP的作用与常见用法1. **CLS标…...

编程日记 2026/4/6 9:26:39

TDengine 开发指南——无模式写入

简介在物联网应用中，为了实现自动化管理、业务分析和设备监控等多种功能，通常需要采集大量的数据项。然而，由于应用逻辑的版本升级和设备自身的硬件调整等原因，数据采集项可能会频繁发生变化。为了应对这种挑战，TDen…...

编程日记 2026/4/7 14:07:51

分布式互斥算法

1. 概述：什么是分布式互斥假设有两个小孩想玩同一个玩具（临界资源），但玩具只有一个，必须保证一次只有一个人能够玩。当一个小孩在玩时，另一个小孩只能原地等待，直到玩完才能轮到自己。这就是 …...

编程日记 2026/3/22 11:06:23

第34次CCF-CSP认证真题解析（目标300分做法）

第34次CCF-CSP认证矩阵重塑（其一）AC代码及解析矩阵重塑（其二）AC代码及解析货物调度AC代码及解析矩阵重塑（其一） 输入输出及样例： AC代码及解析 1.线性化原矩阵 ：由于cin的特性我们…...

编程日记 2026/4/7 9:18:22

video-audio-extractor：视频转换为音频

软件介绍前几天在网上看见有人分享了一个源码，大概就是py调用的ffmpeg来制作的。这一次我带来源码版（需要py环境才可以运行），开箱即用版本（直接即可运行） 软件特点软件功能视频提取音频&#xff1a…...

编程日记 2026/3/27 3:09:11

rk3588 区分两个相同的usb相机

有时候会插入两个一模一样的usb相机，担心每次启动他们所对应的设备节点 /dev/video* 会变化，所以需要绑定usb口，区分两个相机。把两个相机都插入后，查看usb信息 rootrk3588:/# udevadm info --attribute-walk --name/dev/video0U…...

编程日记 2026/2/16 18:06:21

[概率论基本概念4]什么是无偏估计

关键词：Unbiased Estimation 一、说明对于无偏和有偏估计，需要了解其叙事背景，是指整体和抽样的关系，也就是说整体的叙事是从理论角度的，而估计器原理是从实践角度说事；为了表明概率理论（不可…...

编程日记 2026/4/7 13:39:32

乐观锁与悲观锁的实现和应用

乐观锁与悲观锁：原理、实现与应用详解在并发编程和数据库操作中，乐观锁和悲观锁是两种重要的并发控制策略，它们在原理、实现方式和应用场景上存在显著差异。下面我们将通过图文结合的方式，深入探讨这两种锁机制。一、基本概念 1…...

编程日记 2026/3/16 11:16:10

PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式

PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式文章目录 PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式1. 查询效果2. 处理方式3. 再次查询 1. 查询效果 2. 处理方式 3. 再次查询...

编程日记 2026/4/7 12:48:35

【vue】Uniapp 打包Android 文件选择上传问题详解~

需求 uniapp兼容android app，pc，h5的文件选择并上传功能。需要支持拍照和相册选择，以及选择其他类型文件上传~ 实践过程和问题开始使用uni-file-picker组件以为很顺利，android模拟器测试…… 忽略了平台兼容性提示~&#…...

编程日记 2026/4/7 9:33:18

ASR技术（自动语音识别）深度解析

ASR技术（自动语音识别）深度解析自动语音识别（Automatic Speech Recognition，ASR）是将人类语音转换为文本的核心技术，以下是其全面解析：一、技术原理架构 #mermaid-svg-QlJOWpMtlGi9LNeF {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:1…...

编程日记 2026/3/16 14:45:47

图论水题2

div2 361 D. Tree Requests 题意对于一颗 n n n节点的树，每个节点有一个字母，有 m m m次询问，每次询问求对于顶点 v v v的子树中深度为 h h h的结点能否组成一个回文串$ (1 \leq n \leq m \leq 5 \cdot 10^5) $ 思路关于 v v v的子树结…...

编程日记 2026/2/25 18:10:51

Ctrl-Crash 助力交通安全：可控生成逼真车祸视频，防患于未然

视频扩散技术虽发展显著，但多数驾驶数据集事故事件少，难以生成逼真车祸图像，而提升交通安全又急需逼真可控的事故模拟。为此，论文提出可控车祸视频生成模型 Ctrl-Crash，它以边界框、碰撞类型、初始图像帧等为条件&…...

编程日记 2026/4/6 15:15:03

网络编程之服务器模型与UDP编程

一、服务器模型在网络通信中，通常要求一个服务器连接多个客户端为了处理多个客户端的请求，通常有多种表现形式 1、循环服务器模型一个服务器可以连接多个客户端，但同一时间只能连接并处理一个客户的请求 socket() 结构体 bind() listen() …...

编程日记 2026/4/7 13:21:42

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测目录 Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测预测效果基本介绍程序设计参考资料预测效果基本介绍 Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五…...

编程日记 2026/4/6 18:28:38

阿里云服务器安装nginx并配置前端资源路径（前后端部署到一台服务器并成功访问）

运行以下命令，安装Nginx相关依赖。 yum install -y gcc-c yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 运行wget命令下载Nginx 1.21.6。您可以通过Nginx开源社区直接获取对应版本的安装包URL&…...

编程日记 2026/4/7 11:49:42

Ubuntu 下开机自动执行命令的方法

Ubuntu 下开机自动执行命令的方法（使用 crontab） 在日常使用 Ubuntu 或其他 Linux 系统时，我们常常需要让某些程序或脚本在系统启动后自动运行。例如：启动 Clash 代理、初始化服务、定时同步数据等。本文将介绍一种简单且常用的…...

编程日记 2026/2/21 14:34:33

C++11新增重要标准（下）

前言一，forward（完美转发） 二，可变参数模板三，emplace系列接口四，新增类功能五，default与delete 六，lambda表达式七，包装器八，bind 在C11中新增…...

编程日记 2026/4/7 5:16:36

【第六篇】 SpringBoot的日志基础操作

简介日志系统在软件开发中至关重要，用于调试代码、记录运行信息及错误堆栈。本篇文章不仅详细介绍了日志对象的创建及快速使用，还说明了日志持久化的两种配置方式和滚动日志的设置。实际开发需根据场景选择合适的日志级别和存储策略。文章内容若存在错误…...

编程日记 2026/4/7 15:11:05

Pluto论文阅读笔记

主要还是参考了这一篇论文笔记：https://zhuanlan.zhihu.com/p/18319150220 Pluto主要有三个创新点： 横向纵向用lane的query来做将轨迹投回栅格化地图，计算碰撞loss对数据进行正增强和负增强，让正增强的结果也无增强的结果相近&a…...

编程日记 2026/4/6 20:04:35

PDF 转 Markdown

本地可部署的模型

Marker

Surya

MinerU

需API调用的模型工具

llamaPaser

相关文章：

PDF 转 Markdown

北大开源音频编辑模型PlayDiffusion，可实现音频局部编辑，比传统 AR 模型的效率高出 50 倍！

蒲公英盒子连接问题debug

Unity | AmplifyShaderEditor插件基础（第五集：简易膨胀shader）

Django核心知识点全景解析

生物发酵展同期举办2025中国合成生物学与生物制造创新发展论坛

WINUI——Magewell视频捕捉开发手记

Jetpack Compose 中，DisposableEffect、LaunchedEffect 和 sideEffect 区别和用途

STM32开发，创建线程栈空间大小判断

正则表达式检测文件类型是否为视频或图片

Qwen大语言模型里，＜CLS＞属于特殊的标记：Classification Token

TDengine 开发指南——无模式写入

分布式互斥算法

第34次CCF-CSP认证真题解析（目标300分做法）

video-audio-extractor：视频转换为音频

rk3588 区分两个相同的usb相机

[概率论基本概念4]什么是无偏估计

乐观锁与悲观锁的实现和应用

PL/SQLDeveloper中数值类型字段查询后显示为科学计数法的处理方式

【vue】Uniapp 打包Android 文件选择上传问题详解~

ASR技术（自动语音识别）深度解析

图论水题2

Ctrl-Crash 助力交通安全：可控生成逼真车祸视频，防患于未然

网络编程之服务器模型与UDP编程

Transformer-BiLSTM、Transformer、CNN-BiLSTM、BiLSTM、CNN五模型时序预测

阿里云服务器安装nginx并配置前端资源路径（前后端部署到一台服务器并成功访问）

Ubuntu 下开机自动执行命令的方法

C++11新增重要标准（下）

【第六篇】 SpringBoot的日志基础操作

Pluto论文阅读笔记