当前位置: 首页 > news >正文

打造自己的RAG解析大模型:(新技能)企业垂类数据标注(一)

在上一篇文章中,我们以通用版面分析服务为例,展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤,值得庆祝!这不仅意味着你已成功安装PaddleX,还掌握了利用它发布OCR和目标检测等大模型服务的能力,这离创建属于你的RAG解析平台仅一步之遥。现在,你已经拥有百度飞桨提供的通用开源模型部署能力,可以满足一些基础需求。然而,要进一步满足企业的特定需求,还需要对行业数据进行标注,并利用这些数据集进行模型训练,从而打造适用于垂直领域的定制化模型。这种垂类模型能够深入挖掘企业特定场景的信息,更精确地服务于业务目标,最终带来更大的应用价值。

工欲善其事,必先利其器

正如古语所言:“工欲善其事,必先利其器。”想要高效、准确地标注优质的垂类数据集,选择一款合适的标注工具至关重要。在下文中,我将介绍几款开源标注工具,这些工具都经过我的亲身体验,适合处理不同的标注需求。我会详细讲解每款工具的主要功能、支持的标注类型,以及它们在特定场景中的优势,以帮助你找到最合适的标注工具,为高质量的数据集奠定坚实基础。

PPOCRLabelv2

PPOCRLabel 是一款专为 OCR 任务设计的半自动化图像标注工具,能够大大提高标注效率。它集成了 PP-OCR 模型,可自动标注文本区域并重新识别,帮助用户快速完成标注工作。该工具由 Python3 和 PyQT5 编写,导出的数据格式可直接用于 PaddleOCR 的模型训练。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • Paddle Table格式
  • Json

启动后界面:

在这里插入图片描述

表格标注示意图:

图片

开源地址:

https://github.com/PFCCLab/PPOCRLabel

Labelme

LabelMe 是一款为计算机视觉研究设计的图像标注工具,提供 Web 和 GUI 两种界面模式,满足不同场景需求。Web 界面支持多人协作标注,适合团队项目和分布式任务,便于数据共享和进度跟踪;而 GUI 界面更适合单人使用,提供直观的交互体验,非常适合经验丰富的独立标注者。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • VOC

启动后界面:

在这里插入图片描述

实例分割示意图:

在这里插入图片描述

开源地址:

https://github.com/wkentaro/labelme

Label Studio

Label Studio 是一款功能丰富的开源数据标注工具,提供基于 Web 的界面,支持多人协作,适合团队在同一平台上管理多个项目和用户。它不仅支持多种数据类型(如文本、图像、音频、视频),还提供丰富的标注模板,能够满足从简单标注到复杂任务的需求。对于需要灵活处理多种数据类型的团队来说,Label Studio 提供了高效的解决方案,有助于提升标注工作流的规范性和效率。

支持标签图形:

  • 矩形框
  • 正方形框
  • 多点框

支持的标注场景:

  • 表格
  • 版面
  • 不规则文本
  • 关键信息

数据导出格式:

  • COCO
  • VOC

启动界面:

在这里插入图片描述

示意图:

在这里插入图片描述

项目管理示意图(上图)

在这里插入图片描述

数据管理器(上图)

在这里插入图片描述

整体说明(上图)

Label Studio支持多账号管理,支持分组标注,可以根据自己的项目来建立标注分组,多人同时标注。

开源地址:

https://github.com/HumanSignal/label-studio/

展望

以上介绍的开源标注工具如 PPOCRLabel、LabelMe 和 Label Studio 都各具特色,适用于不同的标注需求。当然,开源社区中还有其他工具同样优秀,如 VoTT、labelImg、roLabelImg,用户可根据具体需求选择。我们列出了这些工具的开源地址,供大家自行探索。后续会专门探讨不同场景下如何选择合适的工具以及相应的标注技巧,如文字检测、版面分析、表格、关系识别等。高质量的标注数据对模型精度至关重要,是构建高性能 OCR 和目标检测模型的关键一步。随着对数据标注需求的增加,掌握标注技能不仅有助于个人技术成长,也具有很强的市场应用前景。希望后续文章能够帮助大家掌握这一实用技能。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

相关文章:

打造自己的RAG解析大模型:(新技能)企业垂类数据标注(一)

在上一篇文章中,我们以通用版面分析服务为例,展示了从模型发布到API集成的完整流程。如果你成功完成了这些步骤,值得庆祝!这不仅意味着你已成功安装PaddleX,还掌握了利用它发布OCR和目标检测等大模型服务的能力&#x…...

怎么理解ES6 Proxy

Proxy 可以理解成,在目标对象之前架设一层 “拦截”,外界对该对象的访问,都必须先通过这层拦截,因此提供了一种机制,可以对外界的访问进行过滤和改写。Proxy 这个词的原意是代理,用在这里表示由它来 “代理…...

verilog实现一个5bit序列检测器

以下是用 Verilog 实现一个 5bit 序列检测器的代码: module five_bit_sequence_detector(input clk,input reset,input [4:0] in,output reg detected );// 定义状态参数localparam IDLE 4b0000;localparam STATE1 4b0001;localparam STATE2 4b0010;localparam …...

Redis数据安全_持久化机制

由于Redis的数据都存放在内存中,如果没有配置持久化,Redis重启后数据就全丢失了,于是需要开启Redis的持久化功能,将数据保存到磁盘上,当Redis重启后,可以从磁盘中恢复数据。 持久化机制概述 对于Redis而言…...

什么是信息熵,什么是交叉熵,什么是KL散度?

什么是信息熵? 信息熵(Entropy)是信息论中的一个基本概念,用来衡量一个随机变量不确定性的大小。它反映了对一个事件结果的预测难度,或者说是描述这个事件需要多少“信息量”。信息熵是由香农(Claude Shan…...

开发者的福音:PyTorch 2.5现已支持英特尔独立显卡训练

《PyTorch 2.5重磅更新:性能优化新特性》中的一个新特性就是:正式支持在英特尔独立显卡上训练模型! PyTorch 2.5 独立显卡类型 支持的操作系统 Intel 数据中心GPU Max系列 Linux Intel Arc™系列 Linux/Windows 本文将在IntelCore™…...

Deep InfoMax(DIM)(2019-02-ICLR)

论文:LEARNING DEEP REPRESENTATIONS BY MUTUAL INFORMATION ESTIMATION AND MAXIMIZATION ABSTRACT 研究目标 研究通过最大化输入和深度神经网络编码器输出之间的互信息来进行无监督表示学习目的是学习到对下游任务有用的特征表示 核心发现:结构很重…...

2024年10月中国数据库排行榜:TiDB续探花,GaussDB升四强

10月中国数据库流行度排行榜如期发布,再次印证了市场分层的加速形成。国家数据库测评结果已然揭晓,本批次通过的产品数量有限,凸显了行业标准的严格与技术门槛的提升。再看排行榜,得分差距明显增大,第三名与后续竞争者…...

css边框修饰

一、设置线条样式 通过 border-style 属性设置,可选择的一些属性如下: dotted:点线 dashed:虚线 solid:实线 double:双实线 效果如下: 二、设置边框线宽度 ① 通过 border-width 整体设置…...

利用Python进行数据可视化:实用指南与推荐库

利用Python进行数据可视化:实用指南与推荐库 数据可视化是将数据转化为图形和图表的过程,它能够帮助我们更直观地理解数据的趋势、模式和关系。在Python中,有许多强大的库可用于数据可视化,从简单的折线图到复杂的交互式图表,应有尽有。本文将详细介绍Python数据可视化的…...

MobileNetv2网络详解

背景: MobileNet v1中DW卷积在训练完之后部分卷积核会废掉,大部分参数为“0” MobileNet v2网络是由Google团队在2018年提出的,相比于MobileNet v1网络,准确率更高,模型更小 网络亮点: Inverted Residu…...

惊了!大模型连这样的验证码都能读懂_java_识别验证码

最近在看视觉大模型的能力,然后用了某网站的一个验证码试了试,竟然连这样的验证码都能认识,这个有点夸张,尤其是这个9和6颠倒的都能理解,现在的能力已经这么牛了么 具体就是用了通义最新的qwen vl模型spring ai alibab…...

【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)

目录 1 先从一个例题出来,预期值和现实值的差异怎么评价? 1.1 这样一个问题 1.2 我们的一般分析 1.3 用到的关键点1 1.4 但是差距多远,算是远呢? 2 极大似然估计 2.1 极大似然估计的目的 2.1.1 极大似然估计要解决什么问题…...

【日常记录-Java】SLF4J扫描实现框架的过程

1. 简介 SLF4J(Simple Logging Facade for Java)作为一种简单的门面或抽象,服务于其他各种日志框架,例如JUL、log4j、logback等,核心作用有两项: 提供日志接口;提供获取具体日志对象的方法; 2. 扫描过程 …...

uni-app 获取 android 手机 IMEI码

1、需求来源 最近项目上需要获取手机的IMEI码,并且在更换手机号登录后,需要提示重新更新IMEI码。 2、需求拆分 2.1 获取 IMEI 码 查阅 uni-app 官网发现在android 10 已经无法获取imei码,所以对于这个需求拆分成两种情况。 第一种情况&am…...

后台管理系统的通用权限解决方案(八)认证机制介绍、JWT介绍与jjwt框架的使用

文章目录 1 认证机制介绍1.1 HTTP Basic Auth1.2 Cookie-Session Auth1.3 OAuth1.4 Token Auth 2 JWT2.1 JWT介绍2.2 JWT的数据结构2.2.1 JWT头2.2.2 JWT有效载荷2.2.3 JWT签名 3 jjwt3.1 jjwt介绍3.2 jjwt案例 1 认证机制介绍 1.1 HTTP Basic Auth HTTP Basic Auth 是一种简…...

接口测试 —— Postman 变量了解一下!

Postman变量是在Postman工具中使用的一种特殊功能,用于存储和管理动态数据。它们可以用于在请求的不同部分、环境或集合之间共享和重复使用值。 Postman变量有以下几种类型: 1、环境变量(Environment Variables): 环境变量是在…...

鸿蒙系统:核心特性、发展历程与面临的机遇与挑战

好动与不满足是进步的第一必需品 文章目录 前言重要特点和组成部分核心特性主要组件发展历程 机遇挑战总结 前言 鸿蒙系统(HarmonyOS)是由华为技术有限公司开发的一款面向全场景的分布式操作系统。它旨在为用户提供更加流畅、安全且高效的数字生活体验&…...

从0到1,用Rust轻松制作电子书

我之前简单提到过用 Rust 做电子书,今天分享下如何用Rust做电子书。制作电子书其实用途广泛,不仅可以用于技术文档(对技术人来说非常方便),也可以制作用户手册、笔记、教程等,还可以应用于文学创作。 如果…...

半天入门!锂电池剩余寿命预测(Python)

往期精彩内容: 时序预测:LSTM、ARIMA、Holt-Winters、SARIMA模型的分析与比较 全是干货 | 数据集、学习资料、建模资源分享! EMD变体分解效果最好算法——CEEMDAN(五)-CSDN博客 拒绝信息泄露!VMD滚动分…...

AHT20传感器数据漂移?STM32硬件I2C与软件模拟的稳定性对比测试

STM32硬件I2C与软件模拟I2C在AHT20传感器应用中的稳定性深度解析 工业级环境监测系统对温湿度数据的可靠性有着严苛要求。AHT20作为一款高精度温湿度传感器,其数据采集的稳定性直接关系到整个系统的可信度。本文将深入探讨STM32平台下硬件I2C与GPIO模拟I2C两种实现方…...

华为AR路由器VRRP配置实战:从单点故障到流量黑洞,一个实验全搞定

华为AR路由器VRRP高可用实战:规避单点故障与流量黑洞的深度解析 在现网架构中,网关设备的可靠性直接决定了整个网络的稳定性。想象一下这样的场景:当核心网关突然宕机,整个办公区的网络瞬间瘫痪,业务系统中断&#xff…...

英雄联盟智能助手如何解决游戏操作繁琐问题?提升游戏效率完全指南

英雄联盟智能助手如何解决游戏操作繁琐问题?提升游戏效率完全指南 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是…...

从移位相加到硬件实现:FPGA二进制乘法器的设计精髓

1. 从纸笔计算到硬件逻辑:二进制乘法的本质 记得第一次学二进制乘法时,我拿着铅笔在纸上画了半天移位相加的步骤。比如计算11011011,就像小学生列竖式一样,先写下110111101,然后11011左移一位变成11010,接着…...

数据库连接优化:DBeaver连接阻塞问题的系统解决方案

数据库连接优化:DBeaver连接阻塞问题的系统解决方案 【免费下载链接】dbeaver DBeaver 是一个通用的数据库管理工具,支持跨平台使用。* 支持多种数据库类型,如 MySQL、PostgreSQL、MongoDB 等;提供 SQL 编辑、查询、调试等功能&am…...

如何在10分钟内实现AI助手与Figma的无缝协作?TalkToFigma Desktop完整指南

如何在10分钟内实现AI助手与Figma的无缝协作?TalkToFigma Desktop完整指南 【免费下载链接】cursor-talk-to-figma-mcp Cursor Talk To Figma MCP 项目地址: https://gitcode.com/GitHub_Trending/cu/cursor-talk-to-figma-mcp 您是否厌倦了在AI编程工具和Fi…...

RTX 4090D专属PyTorch 2.8镜像:支持torch.distributed多卡训练教程

RTX 4090D专属PyTorch 2.8镜像:支持torch.distributed多卡训练教程 1. 镜像环境介绍 1.1 硬件与软件配置 这个专为RTX 4090D优化的PyTorch 2.8镜像提供了完整的深度学习训练环境,主要配置包括: 显卡支持:专为RTX 4090D 24GB显…...

# 数据仓库分层设计指南

从 0 搭建企业级数仓架构,ODS/DWD/DWS/ADS 分层详解📌 前言 为什么你的 SQL 越来越难维护? 为什么每次加需求都要改一堆表? 为什么数据口径对不上? 根本原因:没有分层设计! 这篇文章带你从零设计…...

pyNastran:破解工程仿真困境的Python技术革新者

pyNastran:破解工程仿真困境的Python技术革新者 【免费下载链接】pyNastran A Python-based interface tool for Nastrans file formats 项目地址: https://gitcode.com/gh_mirrors/py/pyNastran 揭示行业痛点:有限元分析的三大核心挑战 现代工程…...

Claude Code 工程化实战:从工具使用者到 Agent 构建者的进阶之路

Claude Code 工程化实战:从工具使用者到 Agent 构建者的进阶之路 声明: 📝 作者:甜城瑞庄的核桃(ZMJ) 原创学习笔记,欢迎分享,但请保留作者信息及原文链接哦~ 摘要&#…...