当前位置: 首页 > news >正文

面包多面包多面包多面包多面包多面包多

1.背景

在这里插入图片描述

1.摘要

本文是针对智慧政务中的文本数据挖掘应用的研究。通过建立基于三层网络结构的fastText文本分类模型,聚类量化模型,熵权评估模型解决了群众留言分类,热点问题挖掘,答复意见评价等问题。
针对群众留言分类问题,本文利用所给数据进行词频统计和词云图分析。得到所给训练集是一种不平衡数据集,我们对已有的数据集进行采样,从而扩充训练集,解决数据不平衡问题。为了方便应用分类模型,我们对文本数据进行正则预处理,去停用词,jieba智能分词来获取特征文本。分词部分,我们利用逆向最大匹配分词算法BMM和jieba分词实现了更好的分词效果。对于分类模型的建立,我们考虑基于TFIDF关键词抽取和最大相似度匹配的无监督分类模型,最终在验证集上的F1得分为0.56。为了得到更加精准的分类模型,利用表征学习进行文本词嵌入,结合fastText文本分类模型实现了有监督聚类,最终的验证集F1评分为0.93。该模型的分类效果较好,基本满足分类需求。
针对热点问题挖掘,本文通过建立k-means聚类量化模型实现了问题热度指数的量化。首先量化留言关注度,将一条留言所有的点赞数和反对数相加作为一个留言关注度量化评分。我们考虑从留言具体内容的角度来研究留言热度。我们利用词频共现算法来获取关键词指数,然后利用文本相关系数构建k-means聚类量化模型,文本热度指数可以根据留言到中心簇的距离公式来量化。综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。最终根据留言热度指数量化结果排序,获取了排名前五的热点问题。进一步利用聚类算法对热点问题进行归类,得到的最终热点问题结果表见正文表3。其中前五的热点问题中有三条是关于A市58车贷案,这也说明该问题引起了广泛关注。
针对答复意见的评价问题,本文通过量化相关性,完整性,可解释性来综合量化留言质量。对于相关性,我们利用莱文斯坦相似度计算留言和答复的文本相似性来量化。对于答复意见的完整性指标量化,我们考虑利用文本分词算法,通过文本分词数来衡量。可解释性指标,我们利用字符串匹配结合高频词统计来获取。根据量化的三个指标,我们建立了熵权综合评估模型,利用python编程,最终给出了每个答复的熵权评分作为答复意见质量评分。最终给出了排名前10的留言答复意见结果表,具体见正文表4。

2.思路分析

2.1问题一的分析

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二多给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
为了能够较好的应用分类模型,我们首先针对文本数据进行特征预处理,利用正则替换,jieba分词,去除停止词等手段来清洗数据。进一步利用清洗之后的特征数据进行分类建模。对于分词部分,虽然利用了jieba智能分词模块,但仍旧有很多比较长的专业词很难完整的划分出来,因此我们利用逆向最大匹配分词算法BMM借助自建词表实现最佳分词。利用预处理之后的分类特征,我们首先尝试利用关键词提取以及关键词和标签词的最大相似度匹配来实现文本分类。关键词提取主要采用TFIDF算法来实现文本关键词抽取。
但是考虑到这种方法是一种无监督的分类算法,准确率可能比较低,因此我们考虑利用表征学习进行词嵌入,进一步利用开源Fasttext文本分类框架构建分类模型,从而实现有监督训练的文本分类。我们还提出了利用word2vec对文本进行表征学习,并且构建LGB最大提升树模型来实现文本分类的有监督训练。并且对比主流模型在测试集评分结果,从而得到较好的分类结果。

2.2问题二的分析

本题要求针对热点问题进行挖掘,主要目的是从群众留言中挖掘出热点问题。也就是给每一条留言都量化一个热度指数。并且根据热度指数进行排序,从而获取热度较高的评价问题。
对于热度指数的量化,我们通过对附件3数据可以发现问题的点赞数与反对数可以在一定程度上反应这个问题的关注度情况。因此问题的点赞数与反对数也是衡量问题热度的一个重要指标。比如问题的点赞数越多,就越说明这个问题反应人民群众的心声。进一步我们考虑从留言具体内容的角度来研究留言热度。首先对文本数据进行预处理,同样包括正则字符处理,jieba分词,然后针对预处理之后留言文本进行词频统计分析。进一步根据词频共现算法来获取关键词指数。根据关键词指数量化文本之间的相关关系,然后根据文本相关系数进行聚类。从而将距离聚类中心簇较远的留言视为热点问题。
文本热度指数可以根据留言到中心簇的距离公式来量化,再综合考虑点赞数与反对数指标,从而加权归一化得到整体的留言热度指数。进一步排序获取最终的结果。

2.3问题三的分析

本题要求根据部门对于留言的答复意见给出一套意见的质量评价。我们尝试从各种角度来评估答复意见的质量,主要包括从相关性,完整性以及可解释性等角度。
对于答复意见的相关性质量,我们考虑利用文本相似度计算来衡量,通过利用前文的关键词抽取算法,抽取出留言的关键词文本和答复意见文本计算余弦相似度或者是莱文斯坦相似度。其中,莱文斯坦相似度描述的是两端文本之间的形体相似性。最终利用上述相似度计算结果归一化获取答复意见与问题的相关性系数。对于答复意见的完整性评价,我们利用前文的文本分词算法,通过文本词长度统计来衡量,一般来说文本含有的词语越多,回复意见越完整。此外对于答复意见的可解释性评估,主要考虑利用字符串匹配来获取,主要是统计答复意见中高频词出现在问题中高频词的次数进行统计。最终量化出三个评价指标,然后建立熵权综合评价模型,最终给出每个答复意见的质量评价得分。

3.解题过程

本题要求针对文本留言内容建立一个一级标签分类模型。从而实现群众留言的自动化分类。我们首先针对附件二给的文本数据进行定性的分析,包括文本词频统计,词云图绘制等。
对于文本标签的分类,我们结合无监督相似性识别和有监督聚类来实现最终的多分类模型构建,从而训练一个更加准确的分类器。
根据上述分析,我们给出了问题一解题思路流程图如下:

在这里插入图片描述
在这里插入图片描述

图2 一级标签留言的占比情况

相关文章:

面包多面包多面包多面包多面包多面包多

1.背景 1.摘要 本文是针对智慧政务中的文本数据挖掘应用的研究。通过建立基于三层网络结构的fastText文本分类模型,聚类量化模型,熵权评估模型解决了群众留言分类,热点问题挖掘,答复意见评价等问题。 针对群众留言分类问题&#…...

windows下Tomcat安装

目录 1.安装java环境 2.配置Tomcat环境变量 3.安装服务 4.启动前修改配置文件 (1)设置tomcat端口 (2)设置临时日志等文件夹的位置 5.放入应用 6.启动Tomcat服务 1.安装java环境 安装tomcat版本对应的JDK 比如:…...

4月17号软件资讯更新合集.....

CrateDB 5.3.0 发布,分布式 SQL 数据库 CrateDB 是一个分布式的 SQL 数据库,使得实时存储和分析大量的机器数据变得简单。CrateDB 提供了通常与 NoSQL 数据库相关的可扩展性和灵活性,最小的 CrateDB 集群可以轻松地每秒摄取数万条记录。这些…...

[java基础]面向对象(五)

访问控制修饰符:--------------保护数据的安全(隐藏数据、暴露行为),实现封装 public:公开的,任何类 private:私有的,本类 protected:受保护的,本类、派生类、同包类 默认的&…...

React应用(基于React脚手架)

目录 前言:一、使用create-react-app创建react应用1、什么是 react 脚手架?2. 创建 cli 脚手架方式13. 创建 cli 脚手架方式24. npx:5. react脚手架项目结构6. 功能界面的组件化编码流程(通用)7. 如何更改脚手架版本 二、React 组…...

Redis(03)List--附有示例

文章目录 reids-listBLMOVEBLMPOPBLPOPBRPOPBRPOPLPUSHLINDEXLINSERTLLENLMOVELMPOPLPOPLPOSLPUSHLPUSHXLRANGELREMLSETLTRIMRPOPRPOPLPUSHRPUSHRPUSHX reids-list 本文介绍了Redis中的表命令。LSET用于设置列表中指定索引位置的元素的值;LTRIM用于按照索引范围修剪…...

openEuler-linux下部署zabbix-超级详细

一、准备工作 下载:zabbix包 地址:下载Zabbix 准备2台openEuler-linux虚拟机: linux-1:当服务器端 IP地址:192.168.100.100 修改hosts文件 [rootzbx ~]# vim /etc/hosts 192.168.100.100 zbx.xx.cn linux-2&…...

nginx 简介 第四章

一、Nginx简介 1、Nginx简介 Nginx(特点:占用内存少,并发能力强) Nginx是一个高性能的 HTTP 和反向代理服务器。 Nginx是一款轻量级的 Web 服务器/反向代理服务器及电子邮件 单台物理服务器可支持30 000~50 000个并发…...

c++ float32 与 float16 互转

背景: 最近用到一块推理加速卡时,推理输入的数据是 float16 类型,而我们平常用到的数据是 float 类型,也就是 float32类型,这需要输入数据时float32 转 float16,解析输出数据时 float16 转 float。 参考&…...

Redis问题

一、认识Redis 1. 什么是 Redis? Redis 是一种基于内存的数据库,对数据的读写操作都是在内存中完成,因此读写速度非常快,常用于缓存,消息队列、分布式锁等场景。Redis 提供了多种数据类型来支持不同的业务场景&#…...

[API]ListList方法集合排序Lambda表达式(四)

List接口: 继承自Collection接口,List集合是可重复集合,并且有序,还提供了一套可以通过下标来操作元素的方法 常见的实现类: ArrayList:内部使用数组实现,查询性能更好(直接下标找到物理地址)、…...

【ChatGPT】无需魔法打开即用的 AI 工具集锦

作者:明明如月学长, CSDN 博客专家,蚂蚁集团高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《EffectiveJava》独家解析》专栏作者。 热门文章推荐…...

Choco-slover的使用

一. 相关资料 choco-slover github源代码以及工具下载网址:https://github.com/chocoteam/choco-solverchoco-slover 官网文档:https://choco-solver.org/choco-slover安装eclipse视频:https://www.youtube.com/watch?v=qz6ATkEI_F8视频所采用的资源网址:https://drive.go…...

亚马逊、ebay、temu如何提升产品点击率?测评自养号解析

产品点击率对于店铺销售额的影响至关重要,尤其是在竞争越来越激烈的市场环境中,想要有销量和转化,提高产品listing点击率成为了非常关键的一环。 1. 产品主图 顾客浏览产品时,第一眼看到的就是主图,一张优质的主图更容…...

人工智能的前沿信息获取之使用谷歌学术搜索

谷歌学术是谷歌公司开发的一款专门针对学术搜索的在线搜索引擎[4],谷歌学术的网址为https://scholar.google.com,界面如图 6‑1所示。使用谷歌学术搜索可以检索会议或者期刊论文。只需要在检索框中输入关键字,然后点搜索按钮即可,…...

PHP快速入门06-类型转换

文章目录 前言一、关于类型转换1.1 自动类型转换1.2 显式类型转换 二、15个常用类型转化示例2.1 将字符串转换为整型2.2 将整型转换为字符串2.3 将浮点型转换为整型2.4 将整型转换为浮点型2.5 将布尔型转换为整型2.6 将整型转换为布尔型2.7 将字符串转换为浮点型2.8 将浮点型转…...

Motion Planning学习笔记一:配置空间、图、图搜索、图遍历

学习高飞博士的路径规划课程所总结的学习笔记。 目录 1、配置空间(Configuration Space, C-space) 2、图(Graphs) 3、图搜索(Graph Search Basis) 3.1、总体框架 3.2、两种基本的图遍历算法 3.3、启…...

C语言中如何判断大小端字节序?

大小端(Endian)是指多字节整数在内存中存储的方式。在计算机中,一个多字节整数由多个字节组成,而不同的机器和处理器在存储多字节整数时会有两种不同存储方式,分别为大端字节序和小端字节序。 以一个4字节整数0x12345…...

用spring-boot-starter实现事务的统一配置

一、前言 微服务架构下,多个微服务都需要事务操作,如果在每个微服务下都从头配置事务,将非常繁锁。事务配置具有高度的一致性,可以抽取出来,制作starter,在需要配置事务的服务中引入starter依赖即可。 采用…...

C语言中fopen的详细用法

fopen是C语言中用于打开文件的函数,其原型为: FILE *fopen(const char *filename, const char *mode); 其中,filename是要打开的文件名,mode是打开文件的模式。fopen函数返回一个指向FILE类型的指针,该指针指向打开的…...

AI助手开发实战:从资源索引到生产级系统搭建指南

1. 项目概述:一个为AI助手开发者准备的“藏宝图” 如果你正在开发一个AI助手应用,或者正打算将大语言模型的能力集成到你的产品里,那你大概率会遇到一个经典难题:面对市面上眼花缭乱的模型、API和工具,我到底该怎么选&…...

别再死记硬背了!用这5个真实项目案例,彻底搞懂Python函数参数与返回值

别再死记硬背了!用这5个真实项目案例,彻底搞懂Python函数参数与返回值 函数是Python编程的基石,但很多初学者在学完基础语法后,面对实际项目依然无从下手。本文将通过5个真实开发场景,带你从"会用"到"懂…...

从零到一:在个人PC上部署并集成ChatGLM-6B到Unity应用

1. 环境准备与模型下载 在个人PC上部署ChatGLM-6B需要先搞定三件事:硬件检查、软件环境搭建和模型文件获取。我的老款游戏本(i7-9750H RTX2060 6GB显存)实测可以流畅运行,关键在于正确的量化配置。 硬件检查要点: 显存…...

3倍效率提升:Gofile批量下载工具实战指南

3倍效率提升:Gofile批量下载工具实战指南 【免费下载链接】gofile-downloader Download files from https://gofile.io 项目地址: https://gitcode.com/gh_mirrors/go/gofile-downloader 您是否曾为Gofile平台的文件下载效率低下而烦恼?当面对大文…...

Steam Achievement Manager完整指南:快速解决游戏成就难题的终极工具

Steam Achievement Manager完整指南:快速解决游戏成就难题的终极工具 【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager 核心关键词:S…...

别再只盯着CSI-2了!用示波器实测MIPI D-PHY波形,手把手教你排查Camera不通的硬件问题

别再只盯着CSI-2了!用示波器实测MIPI D-PHY波形,手把手教你排查Camera不通的硬件问题 调试Camera模块时,MIPI信号问题往往是硬件工程师最头疼的挑战之一。当系统出现图像异常、花屏或无法识别时,大多数工程师的第一反应是检查CSI-…...

从开源AI导师项目GURU-Ai拆解:如何构建具备教学能力的智能体

1. 项目概述:一个“AI导师”的诞生与定位最近在GitHub上看到一个挺有意思的项目,叫“Guru322/GURU-Ai”。光看名字,你可能会觉得这又是一个平平无奇的AI工具仓库。但点进去细看,你会发现它的野心不小——它想做的不是又一个聊天机…...

Seraphine终极指南:英雄联盟智能助手如何提升您的游戏胜率

Seraphine终极指南:英雄联盟智能助手如何提升您的游戏胜率 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 在英雄联盟的激烈对局中,错过对局接受、BP阶段犹豫不决、缺乏队友对手信息&a…...

【仅限前200名】Midjourney铂金印相专属Prompt库泄露:含17组经暗房验证的--v 6.2参数矩阵与胶片光谱校准模板

更多请点击: https://intelliparadigm.com 第一章:Midjourney铂金印相的光学本质与历史语境 铂金印相(Platinum Print)并非数字时代的产物,而是一种诞生于1873年的古典摄影工艺——其影像由铂族金属(主要是…...

【仿真学习框架】HoloMotion 从入门到精通:全身人形控制 Foundation Model 完全指南

HoloMotion 从入门到精通:全身人形控制 Foundation Model 完全指南 目标读者:具身智能研究者、人形机器人开发者、RL/机器人学习工程师 目录 第1章 HoloMotion 全景概览 1.1 什么是 HoloMotion 1.2 技术定位:"小脑"基座模型 1.3 4-Any 愿景与路线图 1.4 核心能力矩…...