当前位置：首页 > news >正文

知识库Dify和cherry无法解析影印pdf word解决方案

news 2025/7/8 5:33:03

近期收到大量读者反馈：上传pdf/图文PDF到Dify、Cherry Studio等知识库时，普遍存在格式错乱、图片丢失、表格失效三大痛点。

在试用的几款知识库中除了ragflow具备图片解析的能力外，其他的都只能解析文本。

如果想要解析扫描件，或者带图片的pdf或word，怎么办？

通过工具将文档转成markdown

私密性的文件，建议本地部署，本地模型，非私密性的文件，可以使用一些在线服务。

marker

https://github.com/VikParuchuri/marker

在github上21.6k星

总结下用途

多格式转换：支持 PDF、图像、PPTX/DOCX/XLSX/HTML/EPUB → Markdown/JSON/HTML
复杂内容提取：表格、公式、代码块、链接，支持图像保留与 OCR 修复，适配论文、金融文档等场景。
可扩展优化：通过 --use_llm 调用 Gemini/Ollama 等模型提升准确率，支持自定义处理规则。

优点

速度与精度：单页平均处理仅 0.18 秒（H100 GPU），基准测试优于 Llamaparse/Mathpix；
灵活性强：兼容 GPU/CPU/MPS，支持批量并发（122 页/秒多 GPU 模式）；
开源易扩展：模块化设计，可自定义 Processor/Renderer。

缺点

文档复杂度限制：复杂嵌套表格需依赖 LLM 辅助；
商业化壁垒：模型权重非商用，企业使用需营收<$5M；
硬件高需求：GPU 加速依赖显存（单进程峰值 5GB）。

所需硬件资源

基础配置：CPU/MPS（Mac 芯片）可轻量运行，但速度下降；
推荐配置：多 CUDA GPU（如 H100/A100）提升吞吐，显存≥16GB 优化并行；
LLM 附加：启用 --use_llm 需联网调用云服务（Gemini/Claude/Ollama）。

markitdown

https://github.com/microsoft/markitdown

在github上39.4k星

用途

将多种文件类型（PDF、Office文档、图像、音频、HTML、ZIP、YouTube等）转换为Markdown格式，支持文本分析、索引生成等场景，并提供插件扩展能力。

优点

格式丰富：支持超过20种文件格式（含音视频、图像OCR、YouTube字幕）。
灵活安装：按需选择依赖（如[pdf]/[docx]），减少冗余资源占用。
扩展性强：支持第三方插件（GitHub搜索#markitdown-plugin），适配定制需求。
集成AI能力：结合Azure文档智能、OpenAI模型（如GPT-4o）增强OCR、音频转录与图像描述功能。
多场景适配：提供CLI、Python API、Docker镜像，适合本地开发与云环境。

缺点

依赖管理复杂：需手动选择安装依赖项（默认不全覆盖），可能引发兼容性问题。
外部服务依赖：Azure/OpenAI功能需API密钥和网络支持，增加配置门槛。
版本变更风险：v0.0.1至v0.0.2存在破坏性更新，旧项目迁移需调整。

所需硬件资源

基础配置：适用于常规文件处理（CPU/RAM需求低）。
复杂任务：大文件处理、AI模型调用（如OCR/语音转录）建议高配置CPU/内存。
云服务依赖：Azure或OpenAI功能需稳定网络环境及对应API资源。

MinerU

https://github.com/opendatalab/MinerU

在github上27.1k星

用途

文档结构化转换：PDF转Markdown/JSON，保留文本、表格、公式、图像结构。
学术/技术处理：精准提取论文公式（LaTeX）、表格（HTML）。
多语言OCR：支持84种语言的扫描文档识别。

优点

高效精准：多模型加速（10倍+速度），跨页拼接优化。
多模态支持：图文表公式一体化提取。
跨平台加速：兼容CPU/GPU/NPU/MPS，灵活部署。

缺点

场景局限：复杂布局（杂志/艺术册）、垂直文本支持不足。
硬件门槛：GPU需8GB+显存，NPU需华为Ascend生态。
小语种误差：变音符号或罕见字符OCR可能偏差。

所需硬件资源

最低配置：8GB内存+SSD（CPU模式）。
推荐配置：
- GPU：RTX 3060+（8GB显存）；
- NPU：华为Ascend 910B；
- Apple：M2芯片+16GB内存（禁用公式识别优化性能）。

官方硬件推荐

本想在线体验下，打开报

docling

https://github.com/DS4SD/docling

在github上23.2k星，让deepseek联网搜索，竟然没有找到这个的产

用途

Docling 是文档处理工具，支持多格式解析（PDF、DOCX、HTML、图片等），重点增强 PDF 的布局、表格、代码、公式理解及 OCR 功能，提供统一文档结构表达，并与 LangChain、LlamaIndex 等 AI 框架集成，助力生成式 AI 应用开发。

优点

多格式支持：覆盖 PDF、DOCX、HTML 等常见格式。
高级 PDF 解析：精准识别布局、表格、公式、图像分类。
本地化执行：支持敏感数据和断网环境。
生态系统集成：无缝对接 LangChain 等 AI 工具链。
OCR 能力：有效处理扫描件与图片文本提取。

缺点

复杂结构支持待完善：图表、分子结构等理解功能标注为“即将推出”。
外部模型依赖：需遵守第三方模型许可协议，可能存在版权风险。
实验性功能：部分功能（如 VLM 管道）可能稳定性不足。

所需硬件资源

跨平台支持：macOS/Linux/Windows（x86_64 及 arm64）。
推荐配置：未明确具体需求，但 OCR 与视觉模型可能需中等以上 CPU/GPU 资源，本地执行时需预留存储空间（依赖 HuggingFace 模型缓存）。
轻量场景：基础文档解析可在普通配置运行，复杂任务建议配备 GPU 加速。

然后我deepseek综合对比了下这款产品，各有优缺点，联网竟然没有查到Docling

工具	适用场景	优点	缺点	硬件资源需求
Marker	复杂PDF解析（财报、学术文献），支持段落、表格、图片提取，适用于RAG场景。	- 段落解析准确 - 表格转Markdown格式 - 开源（GitHub Star 14.5k）	- 表格标题行易识别错误 - 目录误判为表格 - 复杂表格解析混乱	需较高计算资源（可能依赖GPU加速）
MinerU	PDF解析（技术文档、报告），强调结构化输出（版面分析、表格定位）	- 版面分析精准 - 表格定位能力强 - 目录和标题识别优于Marker	- 表格未优化处理（保存为图片） - 图片识别偶尔错误	需较强CPU性能（对GPU依赖较低）
MarkitDown	多格式转换（Office文件、PDF、图片→Markdown），适合内容创作、开发者及AI分析场景	- 支持多格式转换（含OCR） - 可结合AI模型生成智能描述 - MIT开源协议，灵活扩展	- 依赖外部AI模型（成本高） - 复杂PDF解析能力有限	轻量级设计，但大文件（多页PPT/高清图片）需较高内存
Docling	无信息	无信息	无信息	无信息
这些产品都得自己折腾。

在线服务TextIn

一个群友强烈安利我这款产品Textln，有在线体验，注册可以免费解析100页，（我不会告诉你，我加了他们的小助手后，给我增加了1000页）。我拿着群友发的影印件体验了下。大家可以扫描体验。

点击位置1上传文件，上传文件以后先不要执行
点击位置2参数配置
调整完参数点击3

特别注意：它家的速度贼快，第一次没注意配置，上传一个99页的演示稿，直接点击识别，几秒就用了99页的免费额度。

这里1可以设置从哪页开始解析
同时可以设置解析的页数2
如果pdf有密码，可以输入pdf的密码
最重要的是要设置下4 全文识别

可以通过1查看识别出来的表格、公式等是否正确，特别是公式
通过2可以看到整个的识别还是蛮准确的
通过3可以复制出结果
通过4可以导出结果，我们一般用这个
通过5可以对文档进行编辑，目前的识别准确率还是很不错的。

导出结果如下。

在dify中建立知识库，导入文档。

注意分段标识符，1位置使用正则^###(?!#)\s。
2设置把分段长度往长了设置，如果文档不大全文作为整体
3子分段以句号为分隔符

按照官方的说法，是可以按照https://regexr.com/ 进行正则解析的，但是我在实际使用的时候，官方是可以的，到dify中并没有生效。

然后我又看了下表格解析。

好家伙，影印件中那么模糊的文本，都能扫描出来，我特意用自己高度近视的眼睛（堪比24K钛合金探测器）逐字比对，结果发现字符识别零误差，实在是太强大，速度又快，准确率又高。

Textln不仅有文档解析，还有很多的其他的服务。

这么好用的东西，我以前竟然没有发现，而且这个公司我以前怎么没听过，然后看了一下公司业务。

噢，原来是，扫描全能王，以前经常用的app。

在cherry studio和dify中无法上传影印件的同学，可以去试试，注意，别上传隐私信息。另外他家也有本地化部署服务。

系列文档：

DeepSeek本地部署相关

ollama+deepseek本地部署
局域网或断网环境下安装DeepSeek

DeepSeek相关资料

清华出品！《DeepSeek从入门到精通》免费下载，AI时代进阶必看！
清华出品！《DeepSeek赋能职场应用》轻松搞定PPT、海报、文案

DeepSeek个人应用

不要浪费deepseek的算力了，DeepSeek提示词库指南
服务器繁忙，电脑配置太低，别急deepseek满血版来了’
DeepSeek+本地知识库：真的太香了(修订版)
DeepSeek+本地知识库：真是太香了（企业方案）
deepseek一键生成小红书爆款内容，排版下载全自动！睡后收入不是梦
最轻量级的deepseek应用，支持联网和知识库

当我把公众号作为知识库塞进了智能体后

个人神级知识库DeepSeek+ima 个人学习神器

dify相关

DeepSeek+dify 本地知识库：真的太香了

Deepseek+Dify本地知识库相关问题汇总
dify的sandbox机制，安全隔离限制
DeepSeek+dify 本地知识库：高级应用Agent+工作流
DeepSeek+dify知识库，查询数据库的两种方式（api+直连）
DeepSeek+dify 工作流应用,自然语言查询数据库信息并展示
聊聊dify权限验证的三种方案及实现
dify1.0.0版本升级及新功能预览

ragflow相关

DeepSeek+ragflow构建企业知识库：突然觉的dify不香了（1）
# DeepSeek+ragflow构建企业知识库之工作流，突然觉的dify又香了

关于我

资深全栈技术专家 | 互联网领域十年架构沉淀
技术纵深：高并发架构 | 应用调优 | 分布式系统
技术版图：Java/Vue/Go/Python
管理沉淀：8年技术团队管理 | 百万级DAU经验
专注输出：
✓ 架构思维 × 技术管理 × 全栈实战
✓ 新技术应用 × 行业趋势前瞻

📢【三连好运 福利拉满】📢🌟 若本日推送有收获：
👍 点赞 → 小手一抖，bug没有
📌 在看 → 一点扩散，知识璀璨
📥 收藏 → 代码永驻，防止迷路
📤 分享 → 传递战友，功德+999
🔔 关注 → 关注5ycode，追更不迷路，干货永同步💬 若有槽点想输出：
👉 评论区已铺好红毯，等你来战！

marker

总结下用途

优点

缺点

所需硬件资源

markitdown

用途

优点

缺点

所需硬件资源

MinerU

用途

优点

缺点

所需硬件资源

docling

用途

优点

缺点

所需硬件资源

在线服务TextIn

相关资料

系列文档：

DeepSeek本地部署相关

DeepSeek相关资料

DeepSeek个人应用

dify相关

ragflow相关

关于我

相关文章：