当前位置：首页 > news >正文

LLM应用实战: 产业治理多标签分类

news 2026/2/9 13:53:28

数据介绍

标签体系

产业治理方面的标签体系共计200+个，每个标签共有4个层级，且第3、4层级有标签含义的概括信息。

原始数据

企业官网介绍数据，包括基本介绍、主要产品等
企业专利数据，包括专利名称和专利摘要信息，且专利的数据量大。

LLM选型

经调研，采用Qwen2-72B-Instruct-GPTQ-Int4量化版本，占用显存更少，且效果与非量化相当，具体可见Qwen2官网说明。

技术难点

团队无标注人员，因此无法使用Bert类小模型完成多标签分类任务
涉及垂直领域，即使有标注人员，也需要很强的背景知识，方能开展标注
标签数量多，层次深，且项目对准确率有要求

方案设计

由于缺少标注人员，且对标注员的背景要求高，因此只能选择LLM进行任务开展。

标签体系中每个标签的含义不够具象，属于总结性的，针对特定场景，LLM可能无法准确分类。因此，可以考虑抽取特定领域的关键词，作为基础知识，以实现RAG。

企业官网及专利数据量巨大，调用LLM存在耗时超长的问题，好在有2台8卡的机器，可以做分布式推理，提高响应性能。

总体的方案设计如下：

图虽然简单明了，但其中的细节还是值得玩味的。

词级匹配模块

(1) 针对垂直领域，基于标签的含义及经验知识，人工整理标签可能涉及的关键词，如智能汽车，可能存在智能驾驶、自动泊车、变道辅助等，但人工整理的关键词有限；

(2) 针对企业及专利数据，采用LAC+Jieba分词(注意，人工整理的词表不进行拆分)，然后使用KeyBert+编辑距离进行关键词匹配(keybert底层模型采用目前效果最优的xiaobu-embedding-v2)，筛选出关键词可能匹配的映射标签

分类RAG模块

(1) 每类标签的第3层级下的第4级标签的个数有限，因此首先针对标签的前3层级进行分类。取巧的地方在于先粗后精，即前3层级对应的标签个数较多，因此拆分为N组，每组通过prompt调用LLM输出一个结果，然后再针对输出的结果进行聚合，再调用一次LLM生成细粒度的标签

(2) 前3层级标签确定之后，再基于第4层级标签进行末级标签确定

功能特点

1、为什么使用关键词进行RAG？

答：关键词虽然无法直接映射对应的标签(客官可以想想为什么？)，但关键词有较强的背景提示，因此prompt中关键词有值的标签筛选出来的概率更大一些

2、关键词语义匹配为什么还需要增加编辑距离？

答：因为语义相似度模型一般针对较短文本的比较，针对词的比较效果较差，因此引入编辑距离，提高词级匹配度

3、同一个关键词对应多个标签的场景如何解决？

答：通过底层的LLM进行分辨具体应该属于哪一个

4、分类RAG是如何考虑的

答：由于标签数量较多，层级较深，而且LLM的输入长度有限，因此采用化繁为简(或先分后合)的方式，将整个标签体系先进行分组，然后调用LLM输出每个分组输出结果，再对结果进行整合，再次调用LLM进行细粒度分类确认

5、分类RAG先粗后细有什么好处？

答：粗粒度分类，LLM只能观察到给定的一组标签，而看不到整体标签，粗粒度划分好之后，细粒度再次确认，有助于提高分类的准确性。实验结果表明，准确率可以从70%-80%，上升到85%-90%，当然该实验只是针对该特定场景，但缺点是增加了LLM的响应时间。

6、标签划分N组后调用LLM，如何提高响应性能？

答：由于部署的是Qwen2量化版，且有2台8张卡可以使用，因此起了8个vllm进程，用haproxy做请求转发，从而提高LLM的响应性能。实验表明，7W+数据，只需要耗时1天左右即可跑完结果，单节点非量化版本，可能需要几个礼拜才能跑完。

7、具体效果层面如何？

答：基于这一套方案，针对每个标签进行随机采样抽检，准确率能保持在85%-95%之间

8、为什么不增加fewshot呢？

答：此处的关键词就类似于fewshot示例，若直接以公司或专利作为fewshot，首先所属标签示例范围较广，不好整理，其次严重影响LLM的响应时间，因为输入长度变长。

9、人工未整理的关键词场景，如何确保分类准确？

答：依赖于底层LLM能力，这就是为什么选择Qwen2-72B的原因，当前Qwen2-72B的效果属于业界翘首。

未来优化点

如果想要进一步提升准确率，当前方案已经预留口子，即标签的详细说明及垂直领域关键词的人工整理。标签说明越详细，关键词整理的越完备，分类的准确性就会越高。

但引出的问题是，关键词的人工整理耗时耗力，如何进一步减少人工整理，成为下一步的优化方向。

总结

一句话足矣~

本文主要是采用LLM实现产业治理领域的多标签分类任务，包括具体的方案，LLM工程层面优化，实现效果以及未来的优化方向。

文章转载自：mengrennwpu

原文链接：https://www.cnblogs.com/mengrennwpu/p/18369900

体验地址：引迈 - JNPF快速开发平台_低代码开发平台_零代码开发平台_流程设计器_表单引擎_工作流引擎_软件架构

LLM应用实战: 产业治理多标签分类

数据介绍标签体系产业治理方面的标签体系共计200个，每个标签共有4个层级，且第3、4层级有标签含义的概括信息。原始数据企业官网介绍数据，包括基本介绍、主要产品等企业专利数据，包括专利名称和专利摘要信息，且专…...

编程日记 2024/9/7 2:33:01

下载Mongodb 4.2.25 版本教程

1、MongoDB 安装包的下载链接 Download MongoDB Community Server | MongoDB 进入如下截图： 2、查找历史版本往下拉，点击“...”,找到”Archived releases”,点击进入、 3、下载Mongodb 4.2.25 版本找到如下图4.2.25版本下载链接，点击就可…...

编程日记 2024/9/7 2:31:59

1.配置文件 mkdir -p redis-cluster/7001/ mkdir -p redis-cluster/7002/ mkdir -p redis-cluster/7003/ mkdir -p redis-cluster/7004/ mkdir -p redis-cluster/7005/ mkdir -p redis-cluster/7006/cd redis-clustervim 7001/redis.confbind 0.0.0.0port 7001cluster-enabled…...

编程日记 2024/9/7 2:28:56

React16新手教程记录

文章目录前言一些前端面试题1. 搭建项目1. 1 cdn1. 2 脚手架 2. 基础用法2.1 表达式和js语句区别：2.2 jsx2.3 循环map2.4 函数式组件2.5 类式组件2.6 类组件点击事件2.6.1 事件回调函数this指向2.6.2 this解决方案2.6.2.1 通过bind2.6.2.2 箭头函数（推荐…...

编程日记 2024/9/7 2:27:54

怎么摆脱非自然链接？

什么是非自然链接？ 非自然链接是人为创建的链接，用于操纵网站在搜索引擎中的排名。非自然链接违反了Google 的准则，网站可能会因此受到惩罚。它们不是由网站所有者编辑放置或担保的。示例包括带有过度优化锚文本的链接、通过 PR 的广告、嵌…...

编程日记 2024/9/7 2:26:52

【2024数模国赛赛题思路公开】国赛B题第二套思路丨附可运行代码丨无偿自提

2024年数模国赛B题解题思路 B 题生产过程中的决策问题一、问题1解析问题1的任务是为企业设计一个合理的抽样检测方案，基于少量样本推断整批零配件的次品率，帮助企业决定是否接收供应商提供的这批零配件。具体来说，企业需要依据两个不同…...

编程日记 2024/9/7 2:25:51

P1166 打保龄球

共可以投 1 局一局10轮在一局中，一共有十个柱，会出现很多种情况。第1次把10个打倒全部 >> 分数10后2次得分 --若是第10轮则还需另加两次滚球； 没全部打倒 >> 第2次把剩下的打倒 >&g…...

编程日记 2024/9/7 2:24:47

[数据集][目标检测]西红柿成熟度检测数据集VOC+YOLO格式3241张5类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：3241 标注数量(xml文件个数)：3241 标注数量(txt文件个数)：3241 标注…...

编程日记 2024/9/7 2:21:44

数仓工具—Hive语法之URL 函数

hive—语法—URL 函数业务需求中，我们经常需要对用户的访问、用户的来源进行分析，用于支持运营和决策。例如我们经常对用户访问的页面进行统计分析，分析热门受访页面的Top10，观察大部分用户最喜欢的访问最多的页面等：又或者我们需要分析不同搜索平台的用户来源分析，统…...

编程日记 2024/9/7 2:20:40

c#如何实现触发另外一个文本框的回车事件

一.需求我需要实现listview中的一行双击后，将其中的一个值传给一个文本框，传完后，给文本框一个回车指令。我的方法：后面加上 \rthis.txt_ID.Text this.listView1.SelectedItems[0].Text"\r" 结果无效。二.问通义…...

编程日记 2024/9/7 2:19:39

Vue 中 nextTick 的最主要作用是什么，为什么要有这个 API

在 Vue.js 中，nextTick 是一个用于在 DOM 更新后执行代码的 API。它的主要作用是确保在某个操作完成后，DOM 已经更新且可以被访问或操作。这个 API 在处理需要等待 DOM 更新完成的逻辑时非常有用。 nextTick 的最主要作用确保 DOM 更新完成: Vue 的响应…...

编程日记 2024/9/7 2:18:38

python科学计算：NumPy 数组的运算

1 数组的数学运算 NumPy 提供了一系列用于数组运算的函数和操作符，这些运算可以作用于数组的每个元素上。常见的数学运算包括加、减、乘、除等。 1.1 元素级运算 NumPy 支持对数组的每个元素进行逐元素运算。这些操作可以通过标准的数学符号或 NumPy 函数来完成。…...

编程日记 2024/9/7 2:17:37

SAP B1 基础实操 - 用户定义字段 (UDF)

目录一、功能介绍 1. 使用场景 2. 操作逻辑 3. 常用定义部分 3.1 主数据 3.2 营销单据 4. 字段设置表单 4.1 字段基础信息 4.2 不同类详细设置 4.3 默认值/必填二、案例 1 要求 2 操作步骤一、功能介绍 1. 使用场景在实施过程中，经常会碰见用户需…...

编程日记 2024/9/7 2:13:26

Idea发布springboot项目无法识别到webapp下面的静态资源

问题： Idea发布springboot项目无法识别到webapp下面的静态资源访问报错404 解决办法： 修改之后重新构建，访问成功...

编程日记 2024/9/7 2:11:21

Redis及其他缓存

1.NOSQL、Redis概述，通用命令，redis五大数据类型，三大特殊数据类型 NOSQL概述： (NOT ONLY SQL-不仅仅是SQL),泛指非关系型数据库，为解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用问题常见no…...

编程日记 2024/9/7 2:10:17

golang入门

学习视频：https://www.bilibili.com/video/BV1gf4y1r79E go安装 go源码包一般解压到/usr/local/linux下go的环境变量配置： export GOROOT/usr/local/go # 源码包export GOPATH$HOME/go # 工作路径export PATH P A T H : PATH: PATH:GOROOT/bin:$GOPATH/…...

编程日记 2024/9/7 2:09:16

Behind the Code：与 Rakic 和 Todorovic 对话 OriginTrail 如何实现 AI 去中心化

原文：https://www.youtube.com/watch?vZMuLyLCtE3s&listPLtyd7v_I7PGnko80O0LCwQQsvhwAMu9cv&index12 作者：The Kusamarian 编译：OneBlock 随着人工智能技术的飞速发展，一系列前所未有的挑战随之而来：模型的…...

编程日记 2024/9/7 2:08:15

TS 学习 (持续更新中)

如果我们在 ts 中写不用运行就能在文件中报错 ts 是一种静态类型的检查能将运行时出现的错误前置一般不用命令行编译 ts 转换成 js 将中文转码 tsc index（.ts） 输入命令生成配置文件能在中间进行配置转换成 js 的哪个规范 es5 还是 6 和其它转…...

编程日记 2024/9/7 2:05:11

el-table使用type=“expand”根据数据条件隐藏展开按钮

一：添加className <el-table :data"tableData" border :loading"loading" :row-class-name"getRowClass" expand-change"expandchange"><el-table-column type"expand"><template #default"…...

编程日记 2024/9/7 2:04:07

9月6日(∠・ω＜)⌒☆

1、手写unique_ptr指针指针 #include <iostream> #include <stdexcept>template <typename T> class unique_ptr { public:// 构造函数explicit unique_ptr(T* ptr nullptr) : m_ptr(ptr) {}// 析构函数~unique_ptr() {delete m_ptr;}// 禁止复制构造函数…...

编程日记 2024/9/7 2:00:03

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下： struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

编程新知 2025/11/27 21:52:13

ES6从入门到精通：前言

ES6简介 ES6（ECMAScript 2015）是JavaScript语言的重大更新，引入了许多新特性，包括语法糖、新数据类型、模块化支持等，显著提升了开发效率和代码可维护性。核心知识点概览变量声明 let 和 const 取代 var&#xf…...

编程新知 2025/8/18 16:42:44

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点： 路径验证：确保相对路径.…...

编程新知 2025/12/1 19:23:04

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

借阿里云中企出海大会的东风，以**「云启出海，智联未来｜打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办，现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...

编程新知 2026/1/30 0:00:28

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

每日一言生活的美好，总是藏在那些你咬牙坚持的日子里。硬件：OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写，"1306" 是产品编号。驱动 OLED 屏幕的 IIC 总线数据传输格式示意图 …...

编程新知 2026/1/30 4:16:26

SpringBoot+uniapp 的 Champion 俱乐部微信小程序设计与实现，论文初版实现

摘要本论文旨在设计并实现基于 SpringBoot 和 uniapp 的 Champion 俱乐部微信小程序，以满足俱乐部线上活动推广、会员管理、社交互动等需求。通过 SpringBoot 搭建后端服务，提供稳定高效的数据处理与业务逻辑支持；利用 uniapp 实现跨平台前…...

编程新知 2026/1/31 10:55:22

【AI学习】三、AI算法中的向量

在人工智能（AI）算法中，向量（Vector）是一种将现实世界中的数据（如图像、文本、音频等）转化为计算机可处理的数值型特征表示的工具。它是连接人类认知（如语义、视觉特征）与…...

编程新知 2026/1/1 14:01:45

大模型多显卡多服务器并行计算方法与实践指南

一、分布式训练概述大规模语言模型的训练通常需要分布式计算技术，以解决单机资源不足的问题。分布式训练主要分为两种模式：数据并行：将数据分片到不同设备，每个设备拥有完整的模型副本模型并行：将模型分割到不同设备，每个设备处理部分模型计算现代大模型训练通常结合…...

编程新知 2025/12/10 20:45:02

C++ 求圆面积的程序（Program to find area of a circle）

给定半径r，求圆的面积。圆的面积应精确到小数点后5位。例子： 输入：r 5 输出：78.53982 解释：由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982，因为我们只保留小数点后 5 位数字。输…...

编程新知 2026/1/31 12:52:15

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例，模拟20个网页的爬取，每个网页假设要0.5-2秒完成。代码 Python多线程爬虫教程核心概念多线程：允许程序同时执行多个任务，提高IO密集型任务（如网络请求）的效率…...

编程新知 2025/12/16 18:04:55