当前位置: 首页 > news >正文

面包多面包多面包多面包多面包多面包多

1.背景

在这里插入图片描述

1.摘要

本文是针对智慧政务中的文本数据挖掘应用的研究。通过建立基于三层网络结构的fastText文本分类模型,聚类量化模型,熵权评估模型解决了群众留言分类,热点问题挖掘,答复意见评价等问题。
针对群众留言分类问题,本文利用所给数据进行词频统计和词云图分析。得到所给训练集是一种不平衡数据集,我们对已有的数据集进行采样,从而扩充训练集,解决数据不平衡问题。为了方便应用分类模型,我们对文本数据进行正则预处理,去停用词,jieba智能分词来获取特征文本。分词部分,我们利用逆向最大匹配分词算法BMM和jieba分词实现了更好的分词效果。对于分类模型的建立,我们考虑基于TFIDF关键词抽取和最大相似度匹配的无监督分类模型,最终在验证集上的F1得分为0.56。为了得到更加精准的分类模型,利用表征学习进行文本词嵌入,结合fastText文本分类模型实现了有监督聚类,最终的验证集F1评分为0.93。该模型的分类效果较好,基本满足分类需求。
针对热点问题挖掘,本文通过建立k-means聚类量化模型实现了问题热度指数的量化。首先量化留言关注度,将一条留言所有的点赞数和反对数相加作为一个留言关注度量化评分。我们考虑从留言具体内容的角度来研究留言热度。我们利用词频共现算法来获取关键词指数,然后利用文本相关系数构建k-means聚类量化模型,文本热度指数可以根据留言到中心簇的距离公式来量化。综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。最终根据留言热度指数量化结果排序,获取了排名前五的热点问题。进一步利用聚类算法对热点问题进行归类,得到的最终热点问题结果表见正文表3。其中前五的热点问题中有三条是关于A市58车贷案,这也说明该问题引起了广泛关注。
针对答复意见的评价问题,本文通过量化相关性,完整性,可解释性来综合量化留言质量。对于相关性,我们利用莱文斯坦相似度计算留言和答复的文本相似性来量化。对于答复意见的完整性指标量化,我们考虑利用文本分词算法,通过文本分词数来衡量。可解释性指标,我们利用字符串匹配结合高频词统计来获取。根据量化的三个指标,我们建立了熵权综合评估模型,利用python编程,最终给出了每个答复的熵权评分作为答复意见质量评分。最终给出了排名前10的留言答复意见结果表,具体见正文表4。

2.思路分析

2.1问题一的分析

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二多给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
为了能够较好的应用分类模型,我们首先针对文本数据进行特征预处理,利用正则替换,jieba分词,去除停止词等手段来清洗数据。进一步利用清洗之后的特征数据进行分类建模。对于分词部分,虽然利用了jieba智能分词模块,但仍旧有很多比较长的专业词很难完整的划分出来,因此我们利用逆向最大匹配分词算法BMM借助自建词表实现最佳分词。利用预处理之后的分类特征,我们首先尝试利用关键词提取以及关键词和标签词的最大相似度匹配来实现文本分类。关键词提取主要采用TFIDF算法来实现文本关键词抽取。
但是考虑到这种方法是一种无监督的分类算法,准确率可能比较低,因此我们考虑利用表征学习进行词嵌入,进一步利用开源Fasttext文本分类框架构建分类模型,从而实现有监督训练的文本分类。我们还提出了利用word2vec对文本进行表征学习,并且构建LGB最大提升树模型来实现文本分类的有监督训练。并且对比主流模型在测试集评分结果,从而得到较好的分类结果。

2.2问题二的分析

本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题。也就是给每一条留言都量化一个热度指数。并且根据热度指数进行排序,从而获取热度较高的评价问题。
对于热度指数的量化,我们通过对附件3数据可以发现问题的点赞数与反对数可以在一定程度上反应这个问题的关注度情况。因此问题的点赞数与反对数也是衡量问题热度的一个重要指标。比如问题的点赞数越多,就越说明这个问题反应人民群众的心声。进一步我们考虑从留言具体内容的角度来研究留言热度。首先对文本数据进行预处理,同样包括正则字符处理,jieba分词,然后针对预处理之后留言文本进行词频统计分析。进一步根据词频共现算法来获取关键词指数。根据关键词指数量化文本之间的相关关系,然后根据文本相关系数进行聚类。从而将距离聚类中心簇较远的留言视为热点问题。
文本热度指数可以根据留言到中心簇的距离公式来量化,再综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。进一步排序获取最终的结果。

2.3问题三的分析

本题要求根据部门对于留言的答复意见给出一套意见的质量评价。我们尝试从各种角度来评估答复意见的质量,主要包括从相关性,完整性以及可解释性等角度。
对于答复意见的相关性质量,我们考虑利用文本相似度计算来衡量,通过利用前文的关键词抽取算法,抽取出留言的关键词文本和答复意见文本计算余弦相似度或者是莱文斯坦相似度。其中,莱文斯坦相似度描述的是两端文本之间的形体相似性。最终利用上述相似度计算结果归一化获取答复意见与问题的相关性系数。对于答复意见的完整性评价,我们利用前文的文本分词算法,通过文本词长度统计来衡量,一般来说文本含有的词语越多,回复意见越完整。此外对于答复意见的可解释性评估,主要考虑利用字符串匹配来获取,主要是统计答复意见中高频词出现在问题中高频词的次数进行统计。最终量化出三个评价指标,然后建立熵权综合评价模型,最终给出每个答复意见的质量评价得分。

3.解题过程

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
对于文本标签的分类,我们结合无监督相似性识别和有监督聚类来实现最终的多分类模型构建,从而训练一个更加准确的分类器。
根据上述分析,我们给出了问题一解题思路流程图如下:

在这里插入图片描述
在这里插入图片描述

图2 一级标签留言的占比情况

相关文章:

面包多面包多面包多面包多面包多面包多

1.背景 1.摘要 本文是针对智慧政务中的文本数据挖掘应用的研究。通过建立基于三层网络结构的fastText文本分类模型,聚类量化模型,熵权评估模型解决了群众留言分类,热点问题挖掘,答复意见评价等问题。 针对群众留言分类问题&#…...

windows下Tomcat安装

目录 1.安装java环境 2.配置Tomcat环境变量 3.安装服务 4.启动前修改配置文件 (1)设置tomcat端口 (2)设置临时日志等文件夹的位置 5.放入应用 6.启动Tomcat服务 1.安装java环境 安装tomcat版本对应的JDK 比如:…...

4月17号软件资讯更新合集.....

CrateDB 5.3.0 发布,分布式 SQL 数据库 CrateDB 是一个分布式的 SQL 数据库,使得实时存储和分析大量的机器数据变得简单。CrateDB 提供了通常与 NoSQL 数据库相关的可扩展性和灵活性,最小的 CrateDB 集群可以轻松地每秒摄取数万条记录。这些…...

[java基础]面向对象(五)

访问控制修饰符:--------------保护数据的安全(隐藏数据、暴露行为),实现封装 public:公开的,任何类 private:私有的,本类 protected:受保护的,本类、派生类、同包类 默认的&…...

React应用(基于React脚手架)

目录 前言:一、使用create-react-app创建react应用1、什么是 react 脚手架?2. 创建 cli 脚手架方式13. 创建 cli 脚手架方式24. npx:5. react脚手架项目结构6. 功能界面的组件化编码流程(通用)7. 如何更改脚手架版本 二、React 组…...

Redis(03)List--附有示例

文章目录 reids-listBLMOVEBLMPOPBLPOPBRPOPBRPOPLPUSHLINDEXLINSERTLLENLMOVELMPOPLPOPLPOSLPUSHLPUSHXLRANGELREMLSETLTRIMRPOPRPOPLPUSHRPUSHRPUSHX reids-list 本文介绍了Redis中的表命令。LSET用于设置列表中指定索引位置的元素的值;LTRIM用于按照索引范围修剪…...

openEuler-linux下部署zabbix-超级详细

一、准备工作 下载:zabbix包 地址:下载Zabbix 准备2台openEuler-linux虚拟机: linux-1:当服务器端 IP地址:192.168.100.100 修改hosts文件 [rootzbx ~]# vim /etc/hosts 192.168.100.100 zbx.xx.cn linux-2&…...

nginx 简介 第四章

一、Nginx简介 1、Nginx简介 Nginx(特点:占用内存少,并发能力强) Nginx是一个高性能的 HTTP 和反向代理服务器。 Nginx是一款轻量级的 Web 服务器/反向代理服务器及电子邮件 单台物理服务器可支持30 000~50 000个并发…...

c++ float32 与 float16 互转

背景: 最近用到一块推理加速卡时,推理输入的数据是 float16 类型,而我们平常用到的数据是 float 类型,也就是 float32类型,这需要输入数据时float32 转 float16,解析输出数据时 float16 转 float。 参考&…...

Redis问题

一、认识Redis 1. 什么是 Redis? Redis 是一种基于内存的数据库,对数据的读写操作都是在内存中完成,因此读写速度非常快,常用于缓存,消息队列、分布式锁等场景。Redis 提供了多种数据类型来支持不同的业务场景&#…...

[API]ListList方法集合排序Lambda表达式(四)

List接口: 继承自Collection接口,List集合是可重复集合,并且有序,还提供了一套可以通过下标来操作元素的方法 常见的实现类: ArrayList:内部使用数组实现,查询性能更好(直接下标找到物理地址)、…...

【ChatGPT】无需魔法打开即用的 AI 工具集锦

作者:明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐…...

Choco-slover的使用

一. 相关资料 choco-slover github源代码以及工具下载网址:https://github.com/chocoteam/choco-solverchoco-slover 官网文档:https://choco-solver.org/choco-slover安装eclipse视频:https://www.youtube.com/watch?v=qz6ATkEI_F8视频所采用的资源网址:https://drive.go…...

亚马逊、ebay、temu如何提升产品点击率?测评自养号解析

产品点击率对于店铺销售额的影响至关重要,尤其是在竞争越来越激烈的市场环境中,想要有销量和转化,提高产品listing点击率成为了非常关键的一环。 1. 产品主图 顾客浏览产品时,第一眼看到的就是主图,一张优质的主图更容…...

人工智能的前沿信息获取之使用谷歌学术搜索

谷歌学术是谷歌公司开发的一款专门针对学术搜索的在线搜索引擎[4],谷歌学术的网址为https://scholar.google.com,界面如图 6‑1所示。使用谷歌学术搜索可以检索会议或者期刊论文。只需要在检索框中输入关键字,然后点搜索按钮即可,…...

PHP快速入门06-类型转换

文章目录 前言一、关于类型转换1.1 自动类型转换1.2 显式类型转换 二、15个常用类型转化示例2.1 将字符串转换为整型2.2 将整型转换为字符串2.3 将浮点型转换为整型2.4 将整型转换为浮点型2.5 将布尔型转换为整型2.6 将整型转换为布尔型2.7 将字符串转换为浮点型2.8 将浮点型转…...

Motion Planning学习笔记一:配置空间、图、图搜索、图遍历

学习高飞博士的路径规划课程所总结的学习笔记。 目录 1、配置空间(Configuration Space, C-space) 2、图(Graphs) 3、图搜索(Graph Search Basis) 3.1、总体框架 3.2、两种基本的图遍历算法 3.3、启…...

C语言中如何判断大小端字节序?

大小端(Endian)是指多字节整数在内存中存储的方式。在计算机中,一个多字节整数由多个字节组成,而不同的机器和处理器在存储多字节整数时会有两种不同存储方式,分别为大端字节序和小端字节序。 以一个4字节整数0x12345…...

用spring-boot-starter实现事务的统一配置

一、前言 微服务架构下,多个微服务都需要事务操作,如果在每个微服务下都从头配置事务,将非常繁锁。事务配置具有高度的一致性,可以抽取出来,制作starter,在需要配置事务的服务中引入starter依赖即可。 采用…...

C语言中fopen的详细用法

fopen是C语言中用于打开文件的函数,其原型为: FILE *fopen(const char *filename, const char *mode); 其中,filename是要打开的文件名,mode是打开文件的模式。fopen函数返回一个指向FILE类型的指针,该指针指向打开的…...

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析 一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类 二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务 三、…...

生成 Git SSH 证书

🔑 1. ​​生成 SSH 密钥对​​ 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ​​参数说明​​: -t rsa&#x…...

基于Docker Compose部署Java微服务项目

一. 创建根项目 根项目&#xff08;父项目&#xff09;主要用于依赖管理 一些需要注意的点&#xff1a; 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件&#xff0c;否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

CSS设置元素的宽度根据其内容自动调整

width: fit-content 是 CSS 中的一个属性值&#xff0c;用于设置元素的宽度根据其内容自动调整&#xff0c;确保宽度刚好容纳内容而不会超出。 效果对比 默认情况&#xff08;width: auto&#xff09;&#xff1a; 块级元素&#xff08;如 <div>&#xff09;会占满父容器…...

Yolov8 目标检测蒸馏学习记录

yolov8系列模型蒸馏基本流程&#xff0c;代码下载&#xff1a;这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中&#xff0c;**知识蒸馏&#xff08;Knowledge Distillation&#xff09;**被广泛应用&#xff0c;作为提升模型…...

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

人工智能--安全大模型训练计划:基于Fine-tuning + LLM Agent

安全大模型训练计划&#xff1a;基于Fine-tuning LLM Agent 1. 构建高质量安全数据集 目标&#xff1a;为安全大模型创建高质量、去偏、符合伦理的训练数据集&#xff0c;涵盖安全相关任务&#xff08;如有害内容检测、隐私保护、道德推理等&#xff09;。 1.1 数据收集 描…...

stm32wle5 lpuart DMA数据不接收

配置波特率9600时&#xff0c;需要使用外部低速晶振...