当前位置: 首页 > news >正文

基于AI大模型的复杂扫描件PDF信息提取与规整

前言

场景大致是会上传一个几十页的扫描件PDF,让AI在当中找出我需要的字段,本文会隐去具体行业信息和具体的AI提示词内容,只分享技术相关内容,请见谅。

AI模型选择

针对我们行业的使用场景,我主要测试了GPT、Claude以及国内知名的AI公司产品。

下标中”PDF可“的代表能够识别扫描件PDF。

相似字符有3组测试用例,1组为6与8相似,2组为0与O相似,3组为0与Q相似。

信息匹配应该是有2个组。

文件歧义号码查找,是指一个页面上有两个编号,通过我的提示语去查找正确的那个号码。

平台

翻墙

能够读取的文件类型

横向文件识别

特例对比(相似字符识别)

特例对比(信息匹配)

特例对比(歧义号码查找)

速度

备注

KIMI🐅

PDF可

👌

3对,第一个6和8都错了,第二个O和0没识别出来。

只分了1个组,每组里面2个字段不对,1个字段没找到。

找错

OK

豆包

PDF可

👌

1对,第二个O和0没识别出来,第三个压根没识别

只分了1个组,每组里面1个字段不对,5个字段没找到。

👌

OK

GPT

扫描版pdf不支持

文件单次最多10

/

/

/

/

/

Claude

扫描版pdf不支持

文件单次支持5

/

/

/

/

/

通义

扫描版pdf不支持

/

/

/

/

/

百川智能🐅

PDF可

👌

1、3对,第二个O和0没识别出来。

分了2组。2个字段没有按要求提供,多个字段没找到。

👌

OK

讯飞星火

PDF可

找不到

找不到

找不到

找不到

非常慢

少有的交白卷选手

智谱清言🐅

PDF可

👌

1、3对,第二个O和0没识别出来。

分了2个组,2个字段没有按要求提供,2个字段不对,1个字段没找到。

找错

很慢

当我给AI的提示词有任何错误,如输入文字打错、json的某几个引号打成中文引号了,都会影响他的输出,唯一一个对输入语言没有纠错的模型。

文心一言

PDF可

👌

1、3对,第二个O识别成一个小圆圈,但是至少把0和O区别是看出来了

🚫一塌糊涂,直接把我输入的Json字段瞎替换了

👌

超级无敌慢,上传之后文件要先阅读很久,然后才能提交问题

海螺ai🐅

PDF可

👌

1、3对,第二个O和0没识别出来。

分了两个组,匹配的字段全对,除了2个字段没有按要求翻译成中文。

👌

OK

360智脑

PDF可

/

数据全部都是瞎填的

🚫一塌糊涂,直接把我输入的Json字段瞎替换了

找错

超级无敌慢

天工ai

不能上传文件

/

/

/

/

/

万知🐅

PDF可

👌

1、3对,第二个O和0没识别出来。

分了2个组,2个字段没有按要求提供,3个字段不对,3个字段没找到。

👌

慢,解析要时间,被迫阅读全文要时间,然后才能提问

上传文档不能同时提问,每次都要等他月度总结完才能提问

实验下来,发现提示词非常重要,调整了好多天的提示词后,AI返回的结果已经尽可能符合我们希望得到的结果了。

我们最满意海螺ai的效果,但是当我们想接到系统,发现海螺的Minimax公司下提供的接口,上传文件后返回的是文件id,无法喂给ChatCompletion接口使用。

发现Kimi的Moonshoot接口有上传文件功能,样例是会先把pdf转换成文字内容,再做逻辑判断。

提示词

先总结一下我最后使用的提示词吧。

需要明确AI的定位、为我们做些什么。如果有整理好需要AI提取的内容,直接整理成Json形式让它填写更好,也便于我们对接其他系统。给AI可执行的步骤,有特别的定义可以写定义,如果没有也可以去掉。特殊要求中的1我觉得十分重要,避免AI胡乱填写,其他则填写一些具体的逻辑相关需求,如哪个字段要怎么查找,需要做什么处理。

职位:你是一个勤劳的具备图像信息提取、信息规整的智能助手,不要进行任何形式的偷懒。

职能:我有一个文件,其中包含了大量信息。我已经准备了一个JSON模板,其中列出了我需要从PDF中提取的所有字段和结构。请根据PDF内容填写这个JSON模板。以下是JSON模板的示例结构:

{

        "字段1":"",

        "字段2":"",

        "字段3":[

                {

                        "字段3-1":"",

                        "字段3-2":"",

                        "字段3-3":""

                }

        ],

}

请按照以下步骤操作:

  1. 阅读PDF文件:仔细阅读PDF文件,确保理解所有内容
  2. 填写JSON模板:根据PDF文件中的信息,填写上述JSON模板中的相应字段。
  3. 定义
    • XXXX内容为XX
  4. 特殊要求:
    • 对于没有在文件中找到的信息,请保留空白,不要胡编乱造。
    • 字段1需要在中文内容中查找
  5. 验证信息:在完成填写后,请仔细检查所有信息,确保没有遗漏或错误。尤其要再次核对是否都满足我的特殊要求了。
  6. 输出结果:将填好的JSON模板作为最终结果提供给我。

请确认你理解了我的要求,并开始处理文件。如果有任何不清楚的地方,请随时询问。

虽然复制是复杂了一些,但是目前测试下来效果还是蛮不错的。

Python API使用代码

其实我开始是试过使用Dify的,Dify现在支持上传PDF了,但是支持使用PDF内容的模型非常少。加上后来希望直接对接到我们现有系统里,于是还是直接上手试了一下API。

纯使用Moonshot的我这边就不贴出来了,文档里面写的很清晰。

https://platform.moonshot.cn/docs/api/files#%E4%B8%8A%E4%BC%A0%E6%96%87%E4%BB%B6

 借这个思路,我尝试了使用Moonshot提供的读取PDF接口,(虽然他的OCR效果不能说最佳,但是使用确实方便…),拿到信息后丢给Minimax来分析。我需要的场景下,确实这么做出来的结果要比纯Moonshot的更好一些。

如果涉及到返回结果里面有,易涉及隐私问题的文本信息,包括但不限于邮箱、域名、链接、证件号、家庭住址等,Minimax是默认会返回时候打星号。一定要记得加上"mask_sensitive_info":False。

# -*- coding: utf-8 -*-
import requests
from pathlib import Path
from openai import OpenAI
import re
import jsongroup_id=""
api_key="" # <--在这里使用MiniMax账户管理-接口密钥中API KEY进行接入client = OpenAI(api_key="MOONSHOT_API_KEY", # 在这里将 MOONSHOT_API_KEY 替换为你从 Kimi 开放平台申请的 API Keybase_url="https://api.moonshot.cn/v1",
)# moonshot.pdf 是一个示例文件, 我们支持文本文件和图片文件,对于图片文件,我们提供了 OCR 的能力
# 上传文件时,我们可以直接使用 openai 库的文件上传 API,使用标准库 pathlib 中的 Path 构造文件
# 对象,并将其传入 file 参数即可,同时将 purpose 参数设置为 file-extract;注意,目前文件上传
# 接口仅支持 file-extract 一种 purpose 值。
file_object = client.files.create(file=Path("720380146.pdf"), purpose="file-extract")# 获取结果
# file_content = client.files.retrieve_content(file_id=file_object.id)
# 注意,某些旧版本示例中的 retrieve_content API 在最新版本标记了 warning, 可以用下面这行代替
# (如果使用旧版本的 SDK,可以继续延用 retrieve_content API)
file_content = client.files.content(file_id=file_object.id).text
#print(file_content)url = "https://api.minimax.chat/v1/text/chatcompletion_pro?GroupId=" + group_id
headers = {"Content-Type":"application/json", "Authorization":"Bearer " + api_key}payload = {"bot_setting":[{"bot_name":"MM智能助理","content":"MM智能助理是一款由MiniMax自研的,没有调用其他产品的接口的大型语言模型。MiniMax是一家中国科技公司,一直致力于进行大模型相关的研究。",}],"messages":[{"sender_type":"USER", "sender_name":"username", "text":file_content},{"sender_type":"USER", "sender_name":"username",  "text":"提示词"}],"reply_constraints":{"sender_type":"BOT", "sender_name":"MM智能助理"},"model":"abab6.5s-chat","tokens_to_generate":2048,"temperature":0.01,"top_p":0.95,"mask_sensitive_info":False
}response = requests.request("POST", url, headers=headers, json=payload)
response_msg = json.loads(response.text)# 提取 choices[0].messages[0].text 的内容
result = response_msg['choices'][0]['messages'][0]['text']#提取当中JSON返回的内容,其他部分为描述文字,这个场景下系统不需要
# 尝试找到JSON的开始和结束位置
try:# 找到第一个{的位置start = result.index('{')# 找到最后一个}的位置end = result.rindex('}')# 提取JSON字符串json_str = result[start:end+1]# 解析JSON字符串data = json.loads(json_str)print(data)
except (ValueError, json.JSONDecodeError) as e:#没有找到json内容print("系统错误")

相关文章:

基于AI大模型的复杂扫描件PDF信息提取与规整

前言 场景大致是会上传一个几十页的扫描件PDF&#xff0c;让AI在当中找出我需要的字段&#xff0c;本文会隐去具体行业信息和具体的AI提示词内容&#xff0c;只分享技术相关内容&#xff0c;请见谅。 AI模型选择 针对我们行业的使用场景&#xff0c;我主要测试了GPT、Claude以…...

为什么https先非对称加密,然后对称加密?

HTTPS之所以先使用非对称加密&#xff0c;然后在对称加密&#xff0c;主要是基于两者在加密效率与安全性方面的特性考虑。 首先&#xff0c;非对称加密具有极高的安全性&#xff0c;因为它使用了公钥和私钥这一对密钥。公钥是公开的&#xff0c;任何人都可以使用它来加密数据&…...

【Coroutines】Full Understanding of Kotlinx.Corutines Framework

文章目录 What is CorutinesDifference between Corutine and ThreadFast UsageSuspend FunctionAdvanced Usage of CoroutineCoroutine EssentialsCoroutineContextCoroutineScopePredefined CoroutineScopePredefined DispatchersPredefined CoroutineStartJobCreate a Corou…...

Python面向对象,实现图片处理案例,支持:高斯模糊、Canny边缘检测、反转边缘图像、生成手绘效果、调亮度......等等

实验图片如下&#xff1a; 命名为img1.jpg, 放在项目下新建文件夹images下 项目构造如下&#xff1a; app.py源码如下 import cv2 import os from matplotlib import pyplot as plt import numpy as npclass ImageProcessor:def __init__(self, image_path):self.image cv…...

SOLID - 依赖倒置原则(Dependency Inversion Principle)

SOLID - 依赖倒置原则&#xff08;Dependency Inversion Principle&#xff09; 定义 依赖倒置原则&#xff08;Dependency Inversion Principle&#xff0c;DIP&#xff09;是面向对象设计中的五大基本原则之一&#xff0c;通常缩写为SOLID中的D。DIP由Robert C. Martin提出&…...

【.NET 8 实战--孢子记账--从单体到微服务】--需求拆分与规划

在上一篇文章中我们收集了需求&#xff0c;并对需求进行了简单的分析和规划&#xff0c;但是对于开发人员来说&#xff0c;上一篇文章的需求还不够详细&#xff0c;并且没有形成计划。因此本篇文章将带领大家来拆分需求并规划开发里程碑。 一、详细需求列表 项目组进行了多次…...

在macOS的多任务处理环境中,如何平衡应用的性能与用户体验?这是否是一个复杂的优化问题?如何优化用户体验|多任务处理|用户体验|应用设计

目录 一 多任务处理与应用性能 1. macOS中的多任务处理机制 2. 性能优化的基本策略 二 用户体验的关键要素 1. 响应速度 2. 界面友好性 3. 功能的直观性 三 平衡性能与用户体验的策略 1. 资源管理 2. 优化数据加载 3. 使用合适的线程模型 4. 实时监测和调整 四 使…...

Vscode配置CC++编程环境的使用体验优化和补充说明

文章目录 快速编译运行&#x1f47a;code runner插件方案Code Runner Configuration 直接配置 相关指令和快捷键默认task配置和取消默认 配置文件补充介绍(可选 推荐阅读)&#x1f60a;使用vscode预置变量和环境变量环境变量的使用使用环境变量的好处环境变量可能引起的问题 检…...

十个方法杜绝CAD图纸泄密风险!2024年图纸防泄密指南!「必看」

随着信息技术的发展&#xff0c;CAD图纸的应用日益普遍&#xff0c;然而随之而来的图纸泄密风险也愈加严重。企业在提升效率的同时&#xff0c;更需重视信息安全。为此&#xff0c;本文将介绍十个有效的方法&#xff0c;帮助企业杜绝CAD图纸泄密风险&#xff0c;保障商业机密。…...

技术干货|HyperMesh CFD功能详解:虚拟风洞 Part 1

虚拟风洞VWT 从2023版本开始&#xff0c;虚拟风洞VWT&#xff08;Virtual Wind Tunnel&#xff09;模块合并到HyperMesh CFD中。 用户在VWT模块中完成LBM求解器ultraFluidX的前处理设置&#xff0c;导出参数文件XML和模型文件STL&#xff0c;并在GPU服务器上提交计算。 VWT目前…...

022集——统计多条线的总长度(CAD—C#二次开发入门)

如下图所示&#xff0c;选择多条线并统计长度&#xff1a; c#中不包含直接获取curve曲线长度 属性&#xff0c;需用如下方法&#xff1a;curve.GetDistanceAtParameter(item.EndParam) 附部分代码如下&#xff1a; using Autodesk.AutoCAD.ApplicationServices; using Autode…...

大模型重要技术系列三:高效推理

接上一篇高效训练&#xff0c;这一篇汇总下高效推理的方法。高效推理的两个主要优化目标是低延迟&#xff08;快速得到推理结果&#xff09;和高吞吐量&#xff08;能同时处理很多请求&#xff09;&#xff0c;同时还要尽可能地少用资源&#xff08;算力、存储、网络带宽&#…...

Android 刘海屏适配指南

如果您不希望您的内容与刘海区域重叠&#xff0c; 以确保您的内容不会与状态栏及 导航栏。如果您要呈现在刘海区域中&#xff0c;请使用 WindowInsetsCompat.getDisplayCutout() 检索 DisplayCutout 对象 包含每个刘海屏的安全边衬区和边界框。借助这些 API 您需要检查视频内容…...

微信小程序服务通知

项目中用到了小程序的服务消息通知&#xff0c;通知订单状态信息&#xff0c;下边就是整理的一下代码&#xff0c;放到项目中&#xff0c;把项目的小程序appid和小程序的secret写进去&#xff0c;直接运行即可 提前申请好小程序服务信息通知短信模板&#xff0c;代码需要用到模…...

Ubuntu使用Qt虚拟键盘,支持中英文切换

前言 ​ 最近领导给了个需求&#xff0c;希望将web嵌入到客户端里面&#xff0c;做一个客户端外壳&#xff0c;可以控制程序的启动、停止、重启&#xff0c;并且可以调出键盘在触摸屏上使用(我们的程序虽然是BS架构&#xff0c;但程序还是运行在本地工控机上的)&#xff0c;我…...

泰州农商行

该文章用于测试&#xff0c;暴露面检测服务 1595116111115951161112159511611131595116111415951161115159511611161595116111715951161118159511611191595116112015951161121159511611221595116112315951161124159511611251595116112615951161127159511611281595116112915951…...

扫雷(C语言)

目录​​​​​​​ 前言 一、前提知识 二、扫雷游戏编写 2.2 test文件基本逻辑 2.2.1菜单编写 2.2.2game函数的逻辑 2.2.2.1定义两个数组 2.2.2.2两个数组数组的初始化 2.2.2.3打印棋盘 2.2.2.4布置雷 2.2.2.5排查雷 2.2.2.6获取坐标附近雷的数量 2.2.2.7什么时候…...

【实践功能记录8】使用UseElementSize实现表格高度自适应

一、关于 UseElementSize UseElementSize 是一个 Vue 组合式 API 的实用工具&#xff0c;通常用于获取 DOM 元素的尺寸信息&#xff0c;例如宽度、高度等。它通常与 v-slot 一起使用&#xff0c;以便在模板中直接访问这些尺寸信息。 地址&#xff1a;https://vueuse.org/core/u…...

SMO算法 公式推导

min ⁡ α 1 2 ∑ i 1 N ∑ j 1 N α i α j y i y j K ( x i ⋅ x j ) − ∑ i 1 N α i s.t. ∑ i 1 N α i y i 0 0 ≤ α i ≤ C , i 1 , 2 , ⋯ , N (9-69) \begin{aligned} & \min_{\alpha} \quad \frac{1}{2} \sum_{i1}^{N} \sum_{j1}^{N} \alpha_i \alpha_j…...

nodejs包管理器pnpm

简介 通常在nodejs项目中我们使用npm或者yarn做为默认的包管理器&#xff0c;但是pnpm的出现让我们的包管理器有了更多的选择&#xff0c;pnpm相比npm具有以下优势&#xff1a; 速度更快&#xff0c;pnpm在安装依赖时&#xff0c;会将依赖包缓存到全局目录&#xff0c;下次安…...

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API&#xff0c;用于在函数组件中使用 state 和其他 React 特性&#xff08;例如生命周期方法、context 等&#xff09;。Hooks 通过简洁的函数接口&#xff0c;解决了状态与 UI 的高度解耦&#xff0c;通过函数式编程范式实现更灵活 Rea…...

突破不可导策略的训练难题:零阶优化与强化学习的深度嵌合

强化学习&#xff08;Reinforcement Learning, RL&#xff09;是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程&#xff0c;然后使用强化学习的Actor-Critic机制&#xff08;中文译作“知行互动”机制&#xff09;&#xff0c;逐步迭代求解…...

根据万维钢·精英日课6的内容,使用AI(2025)可以参考以下方法:

根据万维钢精英日课6的内容&#xff0c;使用AI&#xff08;2025&#xff09;可以参考以下方法&#xff1a; 四个洞见 模型已经比人聪明&#xff1a;以ChatGPT o3为代表的AI非常强大&#xff0c;能运用高级理论解释道理、引用最新学术论文&#xff0c;生成对顶尖科学家都有用的…...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

OPenCV CUDA模块图像处理-----对图像执行 均值漂移滤波(Mean Shift Filtering)函数meanShiftFiltering()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在 GPU 上对图像执行 均值漂移滤波&#xff08;Mean Shift Filtering&#xff09;&#xff0c;用于图像分割或平滑处理。 该函数将输入图像中的…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中&#xff0c;CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时&#xff0c;通常会导致应用响应缓慢&#xff0c;甚至服务不可用&#xff0c;严重影响用户体验和业务运行。因此&#xff0c;掌握一套科学有效的CPU飙高问题排查方法&…...

LeetCode - 199. 二叉树的右视图

题目 199. 二叉树的右视图 - 力扣&#xff08;LeetCode&#xff09; 思路 右视图是指从树的右侧看&#xff0c;对于每一层&#xff0c;只能看到该层最右边的节点。实现思路是&#xff1a; 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

【分享】推荐一些办公小工具

1、PDF 在线转换 https://smallpdf.com/cn/pdf-tools 推荐理由&#xff1a;大部分的转换软件需要收费&#xff0c;要么功能不齐全&#xff0c;而开会员又用不了几次浪费钱&#xff0c;借用别人的又不安全。 这个网站它不需要登录或下载安装。而且提供的免费功能就能满足日常…...

PostgreSQL——环境搭建

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

WebRTC从入门到实践 - 零基础教程

WebRTC从入门到实践 - 零基础教程 目录 WebRTC简介 基础概念 工作原理 开发环境搭建 基础实践 三个实战案例 常见问题解答 1. WebRTC简介 1.1 什么是WebRTC&#xff1f; WebRTC&#xff08;Web Real-Time Communication&#xff09;是一个支持网页浏览器进行实时语音…...