PDF 解析格式化输出 API 数据接口
PDF 解析格式化输出 API 数据接口
支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。

1. 产品功能
- 通用的识别接口, 支持标准 PDF 文件解析;
- 多种格式输出,支持 TEXT HTML XML TAG;
- HTML 包含完美排版格式;
- 基于机器学习不断提高的识别率;
- 1M 文件毫秒级识别性能;
- 数据持续更新与维护;
- 全接口支持 HTTPS(TLS v1.0 / v1.1 / v1.2 / v1.3);
- 全面兼容 Apple ATS;
- 全国多节点 CDN 部署;
- 接口极速响应,多台服务器构建 API 接口负载均衡;
- 接口调用状态与状态监控
2. API 文档
接口详情: https://www.gugudata.com/api/details/pdf2format
接口地址: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}
返回格式: application/json; charset=utf-8
请求方式: POST
请求协议: HTTPS
请求示例: https://api.gugudata.com/imagerecognition/pdf2format?appkey={{appkey}}&type={{type}}
数据预览: https://www.gugudata.com/preview/pdf2format
接口测试: https://api.gugudata.com/imagerecognition/pdf2format/demo
3. 请求参数
| 参数名 | 参数类型 | 是否必须 | 默认值 | 备注 |
|---|---|---|---|---|
| appkey | string | 是 | YOUR_APPKEY | 付费后获取的 APPKEY |
| type | string | 是 | YOUR_VALUE | 定义输出格式,可选 text|html|xml|tag |
| pdffile | file | 是 | YOUR_VALUE | 文件格式参数,待转换的 PDF 文件 |
4. 返回参数
| 参数名 | 参数类型 | 备注 |
|---|---|---|
| DataStatus.StatusCode | int | 接口返回状态码 |
| DataStatus.StatusDescription | string | 接口返回状态说明 |
| DataStatus.ResponseDateTime | string | 接口数据返回时间 |
| DataStatus.DataTotalCount | int | 此条件下的总数据量,一般用于分页计算 |
| Data.Data | string | 接口解析 PDF 返回数据,格式由 type 参数决定 |
5. 接口 HTTP 响应标准状态码
| 状态码 | 状态码解释 | 备注 |
|---|---|---|
| 200 | 接口正常响应 | 业务状态码参见下方 接口自定义状态码 |
| 403 | 请求频率超限 | CDN 层通过 IP 请求频率智能判断,一般的高频请求不会触发此状态码 |
6. 接口响应状态码
| 状态码 | 状态码解释 | 备注 |
|---|---|---|
| 100 | 正常返回 | 可通过判断此状态码断言接口正常返回 |
| -1 | 请求失败 | 请求处理请求失败 |
| 501 | 参数错误 | 请检查您传递的参数个数以及参数类型是否匹配 |
| 502 | 请求频率受限 | 一般建议每秒请求不超过 100 次 |
| 503 | APPKEY 权限超限/订单到期 | 请至开发者中心检查您的 APPKEY 是否到期或是否权限超限 |
| 504 | APPKEY 错误 | 请检查传递的 APPKEY 是否为开发者中心获取到的值 |
| 505 | 请求的次数超出接口限制 | 请检查对应接口是否有请求次数限制以及您目前的接口请求剩余次数 |
| 900 | 接口内部响应错误 | 接口可用性为 99.999%,如获取到此状态码请邮件联系我们 |
7. 开发语言请求示例代码
示例代码包含的开发语言:C#, Go, Java, jQuery, Node.js, Objective-C, PHP, Python, Ruby, Swift 等,其他语言进行对应的 RESTful API 请求实现即可。

8. 常见问题 Q&A
-
Q: 数据请求有缓存吗?
A: 所有的数据都是直接返回的,部分周期性数据在更新周期内数据是缓存的。
-
Q: 如何保证请求时 key 的安全性?
A: 一般建议将对我们 API 的请求放置在您应用的后端服务中发起,您应用的所有前端请求都应该指向您自己的后端服务,这样的架构也更加地纯粹且易维护。
-
Q: 接口可以用于哪些开发语言?
A: 可以使用于所有可以进行网络请求的开发语言,用于您项目快速地进行数据构建。
-
Q: 接口的性能可以保证吗?
A: 接口后台架构和我们给企业提供的商业项目架构一致,您可以通过访问测试接口查看接口相关返回性能与信息。
咕咕数据,专业的数据提供商,提供专业全面的数据接口、商业数据分析,让数据成为您的生产原料。

咕咕数据基于我们七年来为企业客户提供的千亿级数据存储与性能优化、相关海量基础数据支撑,将合规的部分通用数据、通用功能抽象成产品级数据 API,大大满足了用户在产品开发过程中对基础数据的需求,同时降低了海量数据的存储与运维成本,以及复杂功能的技术门槛与人力开发成本。
除了我们已开放的分类数据与功能接口外,还有海量数据正在整理、清洗、整合、构建中,后期会开放更多的数据与云端功能接口 API 供用户使用。
目前已开放的数据接口 API
- [条码工具] 通用二维码生成
- [条码工具] Wi-Fi 无线网二维码生成
- [条码工具] 通用条形码生成
- [图像识别] 通用 OCR
- [图像识别] 通用图片 OCR 到 Word
- [图像识别] HTML 转 PDF
- [图像识别] HTML 转 Word
- [图像识别] Markdown 转 PDF
- [图像识别] PDF 解析格式化输出
- [区域/坐标] 全国大学高校基础信息
- [区域/坐标] 地理坐标逆编码
- [区域/坐标] IP 地址定位
- [区域/坐标] 全国省市区街道区域信息
- [区域/坐标] 地理坐标系转换
- [元数据/字典] 历年高考省录取分数线
- [元数据/字典] 历年高考高校录取分数线
- [元数据/字典] 历年高考专业录取分数线
- [新闻/资讯] 软件开发技术博文头条
- [新闻/资讯] 获取任意链接文章正文
- [新闻/资讯] 公众号头条文章
- [新闻/资讯] 获取任意链接正文图片
- [新闻/资讯] 获取公众号文章封面
- [新闻/资讯] 幽默笑话大全
- [短信/语音] 手机归属地查询
- [短信/语音] 国际手机号码检查纠正
- [文字/文本] 中文文本分词
- [文字/文本] 中英文排版规范化
- [文字/文本] 百万中国对联数据
- [文字/文本] 国际标准书号 ISBN
- [文字/文本] 简体繁体互转
- [文字/文本] 唐诗宋词大全
- [文字/文本] 关键字摘要智能提取
- [文字/文本] 文本语义相似度检测
- [文字/文本] NLP中文智能纠错
- [文字/文本] 人工智能对联生成
- [文字/文本] NLP 语种检测
- [天气/空气质量] 全国天气预报信息
- [天气/空气质量] 全国实时空气质量指数
- [天气/空气质量] 日出与日落时间
- [天气/空气质量] 农历与二十四节气
- [网站工具] 获取任意站点标题与图标
- [股票行情] 美股实时行情数据
- [股票行情] 美股历史行情数据
- [股票行情] 美股分时交易数据
- [股票行情] 美股历年基本财务数据
- [股票行情] 港股实时行情数据
- [股票行情] 港股历史行情数据
- [股票行情] 港股分时交易数据
- [股票行情] 港股上市公司公告
- [股票行情] 港股历年三大财务报表
- [股票行情] A 股实时行情数据
- [股票行情] A 股历史行情数据
- [股票行情] A 股分时交易数据
- [股票行情] A 股历年三大财务报表
- [股票行情] 中国股票指数数据
- [股票行情] A 股个股信息查询
- [股票行情] A 股历年财务指标
- [股票行情] A 股指数成分数据
- [股票行情] A 股指数历史数据
- [股票行情] A 股盘前数据
- [股票行情] A 股分笔交易数据
- [股票行情] A 股交易日历
- [股票行情] 期权实时行情数据
- [股票行情] 基金基本信息列表
- [股票行情] 指数型基金基本信息
- [股票行情] 开放式基金净值实时数据
- [股票行情] 开放式基金净值历史数据
- [股票行情] 科创板历史行情数据
- [股票行情] 美股粉单实时行情数据
- [股票行情] 分类美股实时行情数据
- [股票行情] 公募开放式基金实时数据
- [股票行情] 公募开放式基金历史数据
- [股票行情] 场内交易基金实时数据
- [股票行情] 场内交易基金历史数据
- [股票行情] 场内交易基金分时行情
- [体育/比赛] 历年奥运比赛数据
相关文章:
PDF 解析格式化输出 API 数据接口
PDF 解析格式化输出 API 数据接口 支持输出 TEXT HTML XML TAG,多种格式输出,超精准识别率。 1. 产品功能 通用的识别接口, 支持标准 PDF 文件解析;多种格式输出,支持 TEXT HTML XML TAG;HTML 包含完美排…...
RL笔记:基于策略迭代求CliffWaking-v0最优解(python实现)
目录 1. 概要 2. 实现 3. 运行结果 1. 概要 CliffWalking-v0是gym库中的一个例子[1],是从Sutton-RLbook-2020的Example6.6改编而来。不过本文不是关于gym中的CliffWalking-v0如何玩的,而是关于基于策略迭代求该问题最优解的实现例。 CliffWalking-v0的…...
350. 两个数组的交集 II
两个数组的交集 II 给你两个整数数组 nums1 和 nums2 ,请你以数组形式返回两数组的交集。返回结果中每个元素出现的次数,应与元素在两个数组中都出现的次数一致(如果出现次数不一致,则考虑取较小值)。可以不考虑输出结…...
Android仿微信选择图片
效果展示首先先添加用到的权限<uses-permission android:name"android.permission.INTERNET" /><!--获取手机存储卡权限--><uses-permission android:name"android.permission.READ_EXTERNAL_STORAGE"/><uses-permission android:nam…...
python+嵌入式——串口通信篇(收发解包)
目录前言安装pyserialpyserial大致概括整体流程硬件连接例子(简单版)详细使用serial初始化参数发包收包收包检查包并解包python struct模块结语前言 这几年,自己也做了一些嵌入式机器人。在整个开发的过程中,调通信通常会花费一段比较长的时间ÿ…...
剖析G1 垃圾回收器
简单回顾 在Java当中,程序员在编写代码的时候只需要创建对象,从来不需要考虑将对象进行释放,这是因为Java中对象的垃圾回收全部由JVM替你完成了(所有的岁月静好都不过是有人替你负重前行)。 而JVM的垃圾回收由垃圾回收器来负责,在…...
如何打造一款专属于自己的高逼格电脑桌面
作为一名电脑重度使用者,你是否拥有一款属于你自己的高逼格电脑桌面呢?你是不是也像大多数同学一样,会把所有的内容全部都堆积到电脑桌面,不仅找东西困难,由于桌面内容太多还会导致C盘空间不足,影响电脑的反…...
【C++】string的使用及其模拟实现
文章目录1. STL的介绍1.1 STL的六大组件1.2 STL的版本1.3 STL的缺陷2. string的使用2.1 为什么要学习string类?2.2 常见构造2.3 Iterator迭代器2.4 Capacity2.5 Modifiers2.6 String operations3. string的模拟实现3.1 构造函数3.2 拷贝构造函数3.3 赋值运算符重载和…...
怀念在青鸟的日子
时间过的可真快,一转眼来到了2023年!我初中上完就没有在念,下了学门步入社会,那时的我一片迷茫,不知道该去干什 么,父母说要不去学挖掘机、理发、修车...我思考再三,一个都没有我喜欢的…...
学习记录---Python内置类型
文章目录字符串split()列表常见操作列表相减字典创建普通创建eval(s)添加或更新元素d[t] 1d.update({c: 3}){**d1, **d2} **字典解包装运算符删除元素 d.pop(c)属性d.items()d.keys()d.values()访问元素d[Name]d.get(score)遍历字典for key in dictfor key, values in dict.it…...
Python笔记 -- 列表
文章目录1、列表简介2、修改、添加、删除元素2.1、添加2.2、删除3、排序、倒序4、遍历列表5、创建数值列表6、列表切片7、列表复制8、元组1、列表简介 在Python中用方括号[]表示列表,用逗号隔开表示其元素 通过索引访问列表 names [aa,bb,cc,dd]print(names[0]) …...
谈谈UVM中的uvm_info打印
uvm_info宏的定义如下: define uvm_info(ID,MSG,VERBOSITY) \begin \if (uvm_report_enabled(VERBOSITY,UVM_INFO,ID)) \uvm_report_info (ID, MSG, VERBOSITY, uvm_file, uvm_line); \end 从这里可以看出uvm_info由两部分组成:uvm_report_enabled(VER…...
矩阵理论1 集合上的等价关系(equivalence relations on a set S)
定义 对于一个集合S, 如果集合E⊂SS\mathcal{E} \subset S\times SE⊂SS满足以下条件 自反性: 对于∀s∈S,都有(s,s)∈E\forall s\in S, 都有 (s, s) \in \mathcal{E}∀s∈S,都有(s,s)∈E对称性: (s,t)∈E⇔(t,s)∈E(s,t) \in \mathcal{E} \Leftrightarrow (t,s)\in \mathcal…...
【网络监控】Zabbix详细安装部署(最全)
文章目录Zabbix详细安装部署环境准备安装依赖组件访问初始化配置Zabbix详细安装部署 Zabbix 是一个高度集成的网络监控解决方案,可以提供企业级的开源分布式监控解决方案,由一个国外的团队持续维护更新,软件可以自由下载使用,运作…...
阿里云轻量服务器--Docker--Nacos安装(使用外部Mysql数据存储)
前言:docker 安装nacos 如果不设置外部的mysql 默认使用内嵌的内嵌derby为数据源,这个时候如果,重新部署nacos 则会造成原有数据丢失情况; 1 默认安装的nacos 启动后使用的是内嵌的存储: 2 使用外部mysql 作为存储&a…...
unity开发知识点小结01
unity对象生命周期函数 Awake():最早调用,所以可以实现单例模式 OnEnable():组件激活后调用,在Awake后调用一次 Stat():在Update()之前,OnEnable…...
软件系统[软件工程]
What’s the link? They all involve outdated (legacy) software technology. All have had huge socio-economical impact. Prompting national lockdowns. Spreadsheet workflow error led to thousands of preventable infections and deaths. Huge losses of citizen dat…...
电力系统稳定性的定义与分类
1电力系统稳定性的定义与分类 IEEE给出电力系统稳定性定义:电力系统稳定性是指电力系统这样的一种能力—对于给定的初始运行状态,经历物理扰动后,系统能够重新获得运行平衡点的状态,同时绝大多数系统变量有界,因此整个…...
基于java的俱乐部会员管理系统
技术:Java、JSP等摘要:随着科学技术的飞速发展,科学技术在人们日常生活中的应用日益广泛,也给各行业带来发展的机遇,促使各个行业给人们提供更加优质的服务,有效提升各行业的管理水平。俱乐部通过使用一定的…...
线程池执行父子任务,导致线程死锁
前言, 一次线程池的不当使用,导致了现场出现了线程死锁,接口一直不返回。而且由于这是一个公共的线程池,其他使用了次线程池的业务也一直阻塞,系统出现了OOM,不过是幸好是线程同事测试出来的,没…...
高频面试之3Zookeeper
高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个?3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制(过半机制࿰…...
剑指offer20_链表中环的入口节点
链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...
学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...
docker 部署发现spring.profiles.active 问题
报错: org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...
基于 TAPD 进行项目管理
起因 自己写了个小工具,仓库用的Github。之前在用markdown进行需求管理,现在随着功能的增加,感觉有点难以管理了,所以用TAPD这个工具进行需求、Bug管理。 操作流程 注册 TAPD,需要提供一个企业名新建一个项目&#…...
计算机基础知识解析:从应用到架构的全面拆解
目录 前言 1、 计算机的应用领域:无处不在的数字助手 2、 计算机的进化史:从算盘到量子计算 3、计算机的分类:不止 “台式机和笔记本” 4、计算机的组件:硬件与软件的协同 4.1 硬件:五大核心部件 4.2 软件&#…...
c++第七天 继承与派生2
这一篇文章主要内容是 派生类构造函数与析构函数 在派生类中重写基类成员 以及多继承 第一部分:派生类构造函数与析构函数 当创建一个派生类对象时,基类成员是如何初始化的? 1.当派生类对象创建的时候,基类成员的初始化顺序 …...
go 里面的指针
指针 在 Go 中,指针(pointer)是一个变量的内存地址,就像 C 语言那样: a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10,通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...
