当前位置: 首页 > news >正文

PDF文件提取开源工具调研总结

概述

PDF是一种日常工作中广泛使用的跨平台文档格式,常常包含丰富的内容:包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用,尤其是RAG项目中,通过将非结构化数据转化为结构化和可访问的信息,极大地提高了信息检索和生成的准确性、效率和实用性。所以PDF文档提取在RAG中显得尤为重要。

目前提取PDF文档内容的思路主要分为三个精细度:

  1. 直接解析PDF的内容流和内部结构,获取文本和元素信息。这种方式只适合标准的PDF,扫描版的PDF无法识别。
  2. 基于布局分析小模型和OCR模型识别文本块、段落和表格等。这种方式适用于标准版和扫描版的PDF,满足大多数需求,但是如果PDF非标准化布局,效果就不太好。OCR工具可以识别文字,布局分析模型识别PDF的基本布局和元素。
  3. 基于布局分析模型、OCR模型、识别公式和表格的模型,识别PDF中更加丰富的元素。这种方法能识别复杂和丰富的各种PDF元素,但是基于大模型,需要的资源较多,并且在CPU环境下速度较慢,需要基于GPU运行。

下面是几个开源的PDF提取工具分析调研和总结,希望能跟感兴趣的同行一起分享学习。

PyMuPDF

这是一个Python处理PDF的神器,后面会重点写博客,介绍这个工具的使用技巧和方法。

PyMuPDF 1.24.9 documentation

PyMuPDF 是一个基于 MuPDF 引擎的轻量级 PDF 处理库,用于在 Python 中处理和分析 PDF (和其他)文档。它提供了丰富的功能,包括从 PDF 中提取文本和图像、处理注释、生成页面截图等。PyMuPDF 的设计目标是高效、灵活且易于使用,适合需要对 PDF 文档进行深入处理的开发者和数据分析师。

基本原理

核心依赖于 MuPDF 引擎,MuPDF 是一款高性能的 PDF 和 XPS 渲染器,专注于快速、紧凑的 PDF 处理。PyMuPDF 将 MuPDF 的强大功能通过 Python 接口暴露出来,提供给用户。

  • 页面渲染:MuPDF 使用高效的渲染算法,将 PDF 页面内容转换为位图图像。PyMuPDF 可以直接调用这些渲染功能,将页面生成高质量的图像文件。
  • 文本和图像提取:MuPDF 能够解析 PDF 文档的内容流,识别出其中的文本、图像和绘制对象。PyMuPDF 使用这些解析功能,将文本和图像提取为 Python 对象。
  • 内容结构分析:MuPDF 的解析引擎可以读取 PDF 的内部结构,PyMuPDF 基于此提供页面内容分析功能,允许用户深入了解 PDF 页面各个部分的构成。

主要功能

  • 文本提取
    • 直接从 PDF 页面中提取文本,支持提取特定区域的文本内容。
    • 可以按段落、行或单词提取文本,同时保留文本的布局信息。
  • 图像提取
    • 从 PDF 页面中提取嵌入的图像,支持提取图像对象和绘制的矢量图形。
    • 可以指定页面区域来提取部分图像内容。
  • 页面渲染
    • 将 PDF 页面渲染为图像文件(如 PNG、JPEG),用于创建页面截图或预览。
    • 支持设置渲染分辨率和缩放比例,以满足不同分辨率下的需求。
  • 处理注释和标注
    • 读取和提取 PDF 页面上的注释和标注(如高亮、下划线、注释框)。
    • 可以添加、删除或修改页面上的注释对象。
  • PDF 文件操作
    • 支持合并、分割、旋转、裁剪和重新排列 PDF 页面。
    • 可以创建新的 PDF 文档,添加文本、图像和图形。
  • 页面搜索
    • 在 PDF 文档中搜索特定的文本内容,返回匹配文本的位置和所在页面。
  • 内容分析
    • 提供对 PDF 页面内容(如文本块、图形、形状、路径等)的详细分析功能,帮助用户了解页面的结构和内容布局。

实际使用效果

优点:

  • 可以准确的提取出正常PDF中的所有元素和bbox布局,包括文字、表格和图片。文字的识别准确率基本高于99%。
  • 可以直接进行PDF页面的拷贝和截取
  • 可以直接把PDF页面转换为图片
  • 可以合并、分割、旋转、裁剪和重新排列PDF页面

缺点:

  • 识别图片只能识别图层,某些复杂的PDF识别出来的图片并不是原始的图片
  • 识别表格,容易把表格邻近的文字识别进去
  • 无法识别公式
  • 无法自动去除页眉页脚

扩展功能

1. PyMuPDF4LLM

支持将PDF转换为Markdown格式,也支持输出LlamaIndex的文档输出。可以识别文本、表格、图片和标题。

测试结论:实际测试发现,这里面还是存在很多问题,比如左右版面的pdf没办法正确输出顺序。但是其中识别pdf文档标题的内容可以借鉴,还有识别图片准确位置的方法可以借鉴,后续用于优化我们的PDF提取功能。

2. PyMuPDF Pro

在PyMyPDF支持pdf的基础上,增加对Office文档的支持,包括doc/docx、xls/xlsx、ppt/pptx、hwp/hwpx。不过效果也一般,跟实际解析word、ppt文档的效果还差一些。

3. PyMuPDF OCR

基于Tesseract-OCR服务,实现pdf的扫描版文字解析,基本原理是把扫描版pdf转成图片,然后提交给Tesseract-OCR进行OCR识别。

测试结论:但是功能有限,OCR识别准确率很低,且需要提前指定语言,只能识别指定语言的内容。就算指定了语言,识别效果也很差,准确率低于50%。

MinerU

这个工具是国内团队开源出来的,对于中文PDF提取效果很好,后面会详细介绍这个项目的原理和源码

OpenDataLab 是一个专注于数据和人工智能研究的开源平台,致力于提供高质量的数据集、模型和工具,支持科研人员和开发者的工作。并且提供开源数据处理全流程的工具,包括数据提取、数据清洗、数据标注、数据质量评估、数据可视化与分析等。本文中重点关注数据提取工具MinerU。

整体介绍

项目地址:opendatalab/MinerU: A one-stop, open-source, high-quality data extraction tool, supports PDF/webpage/e-book extraction.一站式开源高质量数据提取工具,支持PDF/网页/多格式电子书提取。 (github.com)

MinerU是一个一站式、开源、高质量的数据提取工具,主要包含以下功能:

  • 提取PDF,基于PDF-Extract-Kit工具(后面会详细介绍这个工具)实现精确和高效的提取PDF英文和中文文档
  • 提取Office文档(opendatalab/magic-doc (github.com),是一个轻量级、开源的用于将多种格式的文档(PPT/PPTX/DOC/DOCX/PDF)转化为 markdown 格式的工具
  • 提取HTML文档(opendatalab/magic-html (github.com),提供了一套工具,能够轻松地从HTML中提取主体区域内容。无论您处理的是复杂的HTML结构还是简单的网页,这个库都旨在为您的HTML抽取需求提供一个便捷高效的接口。

这里重点调研了提取PDF的功能,下面是详细介绍。

功能简介

Magic-PDF是OpenDataLab基于PDF-Extract-Kit实现的PDF提取工具平台,实现了精确和高效的提取PDF英文和中文文档的功能,可以在cpu和gpu上运行,并且提供命令行和API两种使用方式。核心的功能包括:

  • 识别版面元素,删除页眉/页脚/脚注,保留正文图表
  • 定位图片/表格,准确转换为多模态Markdown格式(表格识别很慢,但是如果不开启可以直接切成图片)
  • 解析数学公式、超长公式,转换为Markdown格式
  • 保留原文档的结构,包括标题、段落、列表
  • 提取图像、图片标题、表格、表格标题
  • 自动识别文档中的公式并将公式转换成latex
  • 自动识别文档中的表格并将表格转换成latex
  • 乱码PDF自动检测并启用OCR
  • 支持CPU和GPU环境
  • 支持windows/linux/mac平台

提供的用户API包括:

  • 解析普通的pdf
  • 解析扫描版的pdf
  • 解析普通和扫描混合的pdf

功能测试结果

整体测试识别得准确率较高,基本高于95%,跟PyMyPDF识别普通版pdf的效果差不多。下面是详细的功能点测试效果说明。

功能点测试效果备注说明
识别pdf类型(普通/扫描)可以识别普通类型和扫描版本的pdf,还可以识别pdf是否被加密了,如果是加密了,则不解析。1、竖向的文字没办法识别
2、扫描版的pdf识别效果挺好,并且自动去掉页眉页脚等元素
3、普通类型的pdf识别效果反而不如PyMuPdf,会有一些文字识别不太准确
识别版面元素,删除页眉/页脚/脚注,保留正文图表扫描pdf和普通pdf都可以识别,并且去掉了页眉页脚的内容1、有时候识别得并不精确,反而会去掉一些不属于页眉页脚的内容
2、如果页眉页脚里版面内容比较近,就没办法去掉。一般有明显标记的页眉页脚,能很好的去掉,比如横线等。所以也跟训练模型的输入有关
解析数学公式,并将公式转换成latex学术论文的公式可以正常识别,但是简单公式识别效果不理想这里应该是因为模型训练使用的学术论文较多,所以识别学术论文的公式效果比较好,识别普通的比如“1+N”这种公式反而效果不好了
保留原文档的结构,包括标题、段落、列表扫描pdf和普通pdf都可以做到1、标题识别出来都是一级标题,感觉没有做区分?
2、段落内部的每一行识别出来也有多余的换行符
3、列表识别出来无法区分有序和无序
提取图像扫描pdf和普通pdf都可以做到1、但是扫描版本的图像切割的时候,有部分会把周边的文字切入进来,不过问题不大,能正常识别出来
提取表格能够正确的识别表格,但是表格提取很慢目前在16G内存cpu的环境中,识别一个很小的表格,比如5行5列的表格,基本上的400秒左右。

基本原理

整个项目分为如下几个模块:

  • API层,提供用户使用的API,目前提供了三个API,包括:PDF内容的提取、结果格式化输出(Markdown、json等)、提取过程中间结果的输出
  • 预处理层,主要用来识别PDF的分类,比如是普通PDF或者扫描版本PDF或者是混合PDF,提取PDF的元数据信息(页面宽度高度等、基础的版面信息),同时做一些乱码检测,去掉无法解析的部分
  • 模型层,首先进行版面布局的识别,识别出基本的元素(文字、图片、表格、格式),构建统一的模型结构。这一层主要使用的PDF-Extract-Kit这个工具包,封装的LayoutMv3、OCR、公式识别、表格识别的模型
  • 管线层(pipeline),是整个提取过程的自动化流程,结合前面处理的步骤,统一对PDF提取复杂过程构建流程,然后输出统一的中间格式
  • 输出层,结合统一输出的中间格式,根据用户的需要输出最终的结果。

1. 原始文档分类

  • 文档类型:论文、财报、文本书籍、图文PDF、PPT
  • 语言分类:英文或者中文

2. 版面检测

1)布局检测

使用LayoutLMv3模型进行区域检测,如图像表格,标题,文本等。LayoutLMv3-SFT指的是我们在LayoutLMv3-base-chinese预训练权重的基础上进一步做了SFT训练后的模型。论文验证集由402张论文页面构成,教材验证集由587张不同来源的教材页面构成。

2)公式检测

公式检测:使用YOLOv8进行公式检测,包含行内公式行间公式

YOLOv8-Trained是在YOLOv8l模型的基础上训练后的权重。论文验证集由255张论文页面构成,多源验证集由789张不同来源的页面构成,包括教材、书籍等。

3. 内容识别方式

1)公式识别

使用UniMERNet进行公式识别;

直接使用的是UniMERNet的权重

2)表格识别

目前支持三种表格识别方式:

  • 使用TableMaster进行表格识别
  • 使用StructEqTable进行表格识别
  • 使用RapidTable进行表格识别

3)OCR识别

使用PaddleOCR进行文本识别;

OCRmyPDF

项目简介

项目地址:ocrmypdf/OCRmyPDF: OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched (github.com)

说明:OCRmyPDF是基于TesseractOCR实现,用于对扫描版PDF文件进行OCR(光学字符识别)的开源工具。它的核心功能是通过OCR技术将扫描版PDF中的图像转换为可搜索和可复制的文本,从而生成一个数字版PDF。这个工具的工作原理大致如下:

  1. 图像提取:OCRmyPDF 会从PDF中提取每一页的图像。
  2. 光学字符识别:它使用 Tesseract-OCR 或其他OCR引擎对这些图像进行字符识别,将图像中的文字转换为可编辑的文本。
  3. 文本嵌入:识别出的文本被嵌入到原始的PDF文件中,生成一个包含图像和隐藏文本层的PDF文件。这个文本层是搜索和复制的基础。
  4. PDF优化:OCRmyPDF 还可以对PDF文件进行优化,例如压缩文件大小、校正页面方向等。

光学字符扫描(OCR)工具

OCR识别工具,在PDF提取中,主要用于识别PDF中的文字内容,常见的

PaddleOCR

项目地址:PaddlePaddle/PaddleOCR: Awesome multilingual OCR toolkits based on PaddlePaddle (practical ultra lightweight OCR system, support 80+ languages recognition, provide data annotation and synthesis tools, support training and deployment among server, mobile, embedded and IoT devices) (github.com)

官方文档地址:概述 - PaddleOCR 文档 (paddlepaddle.github.io)

说明:是中文开源项目,对中文的支持最好,所以国内的PDF识别开源项目大多基于这个项目进行OCR识别

TesseractOCR

项目地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) (github.com)

文档地址:tesseract/README.md at main · tesseract-ocr/tesseract (github.com)

说明:由谷歌维护的开源OCR引擎,支持多种语言。它对格式良好的文本非常准确,广泛应用于各种应用中。、

EasyOCR

项目地址:JaidedAI/EasyOCR: Ready-to-use OCR with 80+ supported languages and all popular writing scripts including Latin, Chinese, Arabic, Devanagari, Cyrillic and etc. (github.com)

说明:一个基于Python的OCR工具,支持80多种语言,使用简单的API从图像中提取文本。它很容易集成到现有的Python项目中。

其他工具

LayoutLMv3

说明:LayoutLMv3是微软为文档理解任务开发的模型。它是LayoutLM系列的第三个版本,将语言模型的功能与空间布局信息相结合,使其对于需要理解文本和文档布局的任务特别有效。

项目地址:unilm/layoutlmv3 at master · microsoft/unilm (github.com)

文档地址:unilm/layoutlmv3/README.md at master · microsoft/unilm (github.com)

Ultralytics YOLOv8

说明:是一种用于图像或者视频中对象检测的深度学习模型,它是 YOLO(You Only Look Once)系列模型的最新版本。YOLOv8 继承了 YOLO 系列模型的快速、实时检测的优点,同时在精度和性能方面进行了显著提升。可以检测出图像或者视频中的物体,并返回边界框,同时能将图像中的不同对象分割出来,生成像素级掩码,也能对整个图像分类,识别图像的主要内容或者类别,检测出物体的关键位置点,如人脸的眼睛鼻子等。在PDF提取中,主要用来做公式检测。

项目地址:ultralytics/ultralytics: NEW - YOLOv8 in PyTorch > ONNX > OpenVINO > CoreML > TFLite (github.com)

文档地址:Home - Ultralytics YOLO Docs

StructEqTable

说明:是一种将Table图像转换为LaTeX的模型工具,该模型能够从可视化表格图像中精确地获得相应的LaTeX描述,并执行多个与表格相关的推理任务,包括结构提取和问答,从而拓宽了其应用范围和潜力。

项目地址:UniModal4Reasoning/StructEqTable-Deploy: A High-efficiency Open-source Toolkit for Table-to-Latex Task (github.com)

RapidTable

是专门用来文档类图像的表格结构还原,表格结构模型均属于序列预测方法,结合RapidOCR,将给定图像中的表格转化对应的HTML格式。

RapidAI/RapidTable: 基于序列表格识别算法推理库,集成PP-Structure和modelscope等表格识别算法。

相关文章:

PDF文件提取开源工具调研总结

概述 PDF是一种日常工作中广泛使用的跨平台文档格式,常常包含丰富的内容:包括文本、图表、表格、公式、图像。在现代信息处理工作流中发挥了重要的作用,尤其是RAG项目中,通过将非结构化数据转化为结构化和可访问的信息&#xff0…...

多监控m3u8视频流,怎么获取每个监控的封面图(纯前端)

文章目录 1.背景2.问题分析3.解决方案3.1解决思路3.2解决过程3.2.1 封装播放组件3.2.2 隐形的视频div3.2.3 截取封面图 3.3 结束 1.背景 有这样一个需求: 给你一个监控列表,每页展示多个监控(至少12个,m3u8格式)&…...

【机器学习实战入门项目】使用深度学习创建您自己的表情符号

深度学习项目入门——让你更接近数据科学的梦想 表情符号或头像是表示非语言暗示的方式。这些暗示已成为在线聊天、产品评论、品牌情感等的重要组成部分。这也促使数据科学领域越来越多的研究致力于表情驱动的故事讲述。 随着计算机视觉和深度学习的进步,现在可以…...

技术洞察:C++在后端开发中的前沿趋势与社会影响

文章目录 引言C在后端开发中的前沿趋势1. 高性能计算的需求2. 微服务架构的兴起3. 跨平台开发的便利性 跨领域技术融合与创新实践1. C与人工智能的结合2. C与区块链技术的融合 C对社会与人文的影响1. 提升生产力与创新能力2. 促进技术教育与人才培养3. 技术与人文的深度融合 结…...

【人工智能 | 大数据】基于人工智能的大数据分析方法

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈智能大数据分析 ⌋ ⌋ ⌋ 智能大数据分析是指利用先进的技术和算法对大规模数据进行深入分析和挖掘,以提取有价值的信息和洞察。它结合了大数据技术、人工智能(AI)、机器学习(ML&a…...

数字经济时代下的创新探索与实践:以“开源AI智能名片2+1链动模式S2B2C商城小程序源码”为核心

摘要:在数字经济蓬勃发展的今天,中国作为全球数字经济的领航者,正以前所未有的速度推进“数字中国”建设。本文旨在探讨“开源AI智能名片21链动模式S2B2C商城小程序源码”在数字经济背景下的应用潜力与实践价值,从多个维度分析其对…...

【English-Book】Go in Action目录页翻译中文

第8页 内容 前言 xi 序言 xiii 致谢 xiv 关于本书 xvi 关于封面插图 xix 1 介绍 Go 1 1.1 用 Go 解决现代编程挑战 2 开发速度 3 • 并发 3 • Go 的类型系统 5 内存管理 7 1.2 你好,Go 7 介绍 Go 玩具 8 1.3 总结 8 2 Go 快速入门 9 2.1 程序架构 10 2.2 主包 …...

js: 区分后端返回数字是否为null、‘-’ 或正常number类型数字。

问&#xff1a; 这是我的代码<CountTo v-if!isNaN(Number(item.num))> <span v-else>{{item.num}}</span> 我希望不是null的时候走countTo&#xff0c;是null的时候直接<span>{{item.num}}</span>显示 回答&#xff1a; 最终结果&#xff1a; …...

网络变压器的分类

网络变压器是局域网(LAN)中各级网络设备中必备的元件。它们的主要功能是传输数据&#xff0c;增强信号&#xff0c;并提供电气隔离&#xff0c;以防雷保护和匹配阻抗。网络变压器也被称为数据泵或网络隔离变压器。它们广泛应用于网络交换机、路由器、网卡、集线器等设备中。 网…...

SUCTF-SU_BBRE-好久不见21

哈哈哈哈哈哈&#xff0c;&#xff0c;&#xff0c;&#xff0c;纯汇编有大佬用工具反编译成伪代码吗。。。 题解&#xff1a; 由function2处逻辑&#xff0c;解rc4得到第一段flag We1com3ToReWorld&#xff0c;正常输入下执行完function0&#xff0c;程序结束&#xff0c;cong…...

Python 实现 NLP 的完整流程

&#x1f496; 欢迎来到我的博客&#xff01; 非常高兴能在这里与您相遇。在这里&#xff0c;您不仅能获得有趣的技术分享&#xff0c;还能感受到轻松愉快的氛围。无论您是编程新手&#xff0c;还是资深开发者&#xff0c;都能在这里找到属于您的知识宝藏&#xff0c;学习和成长…...

穷举vs暴搜vs深搜vs回溯vs剪枝系列一>N 皇后

题目&#xff1a; 解析&#xff1a; 1.决策树&#xff1a; 代码设计&#xff1a; 根据决策树剪枝设计&#xff1a; 代码&#xff1a; class Solution {private List<List<String>> ret;private char[][] path;private boolean[] checkdig1,checkdig2,checkco…...

JEL分类号

JEL分类系统&#xff0c;是美国经济学会“经济文献杂志”(《经济文献杂志》)所创立的对经济学文献的主题分类系统&#xff0c;并被现代西方经济学界广泛采用。 该分类方法主要采用开头的一个英文字母与随后的两位阿拉伯数字一起对经济学各部类进行“辞书式”编码分类。 https:…...

设计和优化用于 AR、HUD 和高级显示系统的表面浮雕光栅

表面浮雕光栅是许多光学系统中的关键组件&#xff0c;在控制增强现实 &#xff08;AR&#xff09; 显示器、平视显示器 &#xff08;HUD&#xff09; 和其他先进光子器件中的光传播方面发挥着关键作用。作为在这个领域工作的工程师和设计师&#xff0c;您了解针对特定应用优化这…...

【今日分享】人工智能加速发现能源新材料的结构与性能

人工智能与材料国际学术会议(ICAIM)workshop9是由来自宁夏大学材料与新能源学院副院长王海龙教授及马薇副教授、杜鑫老师组成&#xff0c;他们将以“人工智能加速发现新能源新材料的结构与性能”为主题开展研讨工作&#xff0c;欢迎对该主题感兴趣的专家学者携稿加入。 loadin…...

Boost Asio TCP异步服务端和客户端

服务端 消息分两次发送&#xff0c;第一次发送head&#xff0c;第二次发送body。接收也是先接收head&#xff0c;然后通过head结构中的body长度字段再接收body。 TcpServer.h #pragma once #include <atomic> #include <vector> #include <unordered_set> #…...

1.7 ChatGPT:引领AI对话革命的致胜之道

ChatGPT:引领AI对话革命的致胜之道 随着人工智能(AI)技术的迅猛发展,特别是在自然语言处理(NLP)领域,OpenAI 的 ChatGPT 已经成为了举世瞩目的技术突破。从普通的自动化客服到深入的创作与协作,ChatGPT 通过其卓越的语言理解和生成能力,改变了人们与计算机交互的方式…...

WPS数据分析000001

目录 一、表格的新建、保存、协作和分享 新建 保存 协作 二、认识WPS表格界面 三、认识WPS表格选项卡 开始选项卡 插入选项卡 页面布局选项卡 公式选项卡 数据选项卡 审阅选项卡 视图选项卡 会员专享选项卡 一、表格的新建、保存、协作和分享 新建 ctrlN------…...

电脑风扇声音大怎么办? 原因及解决方法

电脑风扇是电脑的重要组件之一&#xff0c;它的作用是为电脑的各个部件提供冷却&#xff0c;防止电脑过热。然而&#xff0c;有时候我们会发现电脑风扇的声音特别大&#xff0c;不仅影响我们的使用体验&#xff0c;也可能是电脑出现了一些问题。那么&#xff0c;电脑风扇声音大…...

高效实现 Markdown 转 PDF 的跨平台指南20250117

高效实现 Markdown 转 PDF 的跨平台指南 引言 Markdown 文件以其轻量化和灵活性受到开发者和技术写作者的青睐&#xff0c;但如何将其转换为易于分享和打印的 PDF 格式&#xff0c;是一个常见需求。本文整合了 macOS、Windows 和 Linux 三大平台的转换方法&#xff0c;并探讨…...

springboot 百货中心供应链管理系统小程序

一、前言 随着我国经济迅速发展&#xff0c;人们对手机的需求越来越大&#xff0c;各种手机软件也都在被广泛应用&#xff0c;但是对于手机进行数据信息管理&#xff0c;对于手机的各种软件也是备受用户的喜爱&#xff0c;百货中心供应链管理系统被用户普遍使用&#xff0c;为方…...

遍历 Map 类型集合的方法汇总

1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂&#xff08;如抗体、抑制肽&#xff09;在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上&#xff0c;高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术&#xff0c;但这类方法普遍面临资源消耗巨大、研发周期冗长…...

java 实现excel文件转pdf | 无水印 | 无限制

文章目录 目录 文章目录 前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解 二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件 总结 前言 java处理excel转pdf一直没找到什么好用的免费jar包工具,自己手写的难度,恐怕高级程序员花费一年的事件,也…...

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径&#xff0c; 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解&#xff0c;但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后&#xff0c;通常在该文件中会出现以下配置&…...

【磁盘】每天掌握一个Linux命令 - iostat

目录 【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景 注意事项 【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat&#xff08;I/O Statistics&#xff09;是Linux系统下用于监视系统输入输出设备和CPU使…...

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备 ​​环境搭建​​&#xff1a; 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 ​​项目创建​​&#xff1a; File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键 插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 &#xff08;忘了有没有这步了 估计有&#xff09; 刷机程序 和 镜像 就不提供了。要刷的时…...

数据链路层的主要功能是什么

数据链路层&#xff08;OSI模型第2层&#xff09;的核心功能是在相邻网络节点&#xff08;如交换机、主机&#xff09;间提供可靠的数据帧传输服务&#xff0c;主要职责包括&#xff1a; &#x1f511; 核心功能详解&#xff1a; 帧封装与解封装 封装&#xff1a; 将网络层下发…...