Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Abstract
该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。
introduction
本文讨论了文档分类,这是机器学习中的一项标准任务,包括电子邮件过滤和新闻文章聚类等应用程序。传统的文本分类过程依赖于监督或半监督方法,这些方法需要标注的数据才能达到足够的准确性。但是,拟议的方法旨在使用每份文档中相关单词之间的文本相似性以及通过人类专业知识和语言模型丰富每个类别的关键字字典进行无监督分类。当需要低成本文本分类时,这种方法提供了另一种解决方案,其在运营风险事件分类中的应用示例就说明了这一点,这些应用来自银行部门管理定期与监管机构共享的描述各种类型的风险(包括内部/外部欺诈、网络安全问题等)的历史数据集。
contributions
本文的主要贡献是提出了一种无监督的方法,使用文本相似度和每个类别的关键字字典将文档分为几类。该方法通过人类专业知识和语言模型丰富了类别标签,为低成本文本分类提供了一种实用的替代方案。此外,对5个标准语料库的实验表明,与仅依赖人类专业知识相比,所提出的方法提高了F1分数,也可以与简单的监督方法相提并论。最后,运营风险事件分类中的一个应用示例说明了这种方法在其最初的灵感领域之外如何在实践中使用。
Literature survey
本文的文献调查侧重于为克服标准文本分类中对大量带注释数据的要求而提出的技术。大多数方法包括半监督方法,这些方法利用一小部分带标签的文档为其余文档导出标签,例如Nigam等人的期望最大化(EM)算法(2000)。重复此过程直到收敛,并且已成功生成无需完全手动注释的带标签示例。
Limitations
本文的局限性包括:
- 所提出的方法依赖于每个类别的关键字字典,该字典可能不够全面或准确,无法涵盖某些领域中文档的全部范围和复杂性。
- 尽管与仅依靠人类专业知识相比,实验显示出令人鼓舞的结果,但其性能仍低于使用带有大型标签数据集的监督方法所达到的效果。因此,当需要高精度分类时,它可能不适合。
- 尽管超出其原始灵感领域的应用示例说明了这种方法如何在实践中更普遍地在不同行业中发挥作用,但用例在被广泛采用之前需要进一步验证。
Practical implications
本文的实际含义是,它提出了一种无监督的方法,使用文本相似度对文档进行分类,并为每个类别提供一个通过人类专业知识和语言模型丰富而丰富的关键字词典。当需要低成本文本分类时,这种方法提供了一种具有成本效益的替代方案,如其最初灵感来自的银行部门管理领域之外的运营风险事件分类中的应用示例所示。所提出的方法可用于需要以合理的精度进行文档分类的不同行业,无需大型带标签的数据集或大量的手动注释工作。
Methods
本文中使用的方法包括:
- 基于每个文档中相关单词之间的文本相似度以及每个类别的关键字字典的无监督文本分类。
- 通过人类专业知识和语言模型(包括通用和特定领域)丰富标签词典。
- 在文档方面执行标准清理步骤,以在处理之前删除不相关的信息。
- 在类别标签方面实施了一系列丰富步骤,以便迭代地扩展标签词典。
dataset
该论文使用了五个标准文本分类语料库进行评估。论文简要描述了这些数据集,包括20NewsGroup2、R8、R52、Ohsumed和Reuters-21578。作者汇总了每个数据集的训练集和测试集,将其用作整个语料库,因为他们采用了无监督方法,不需要在训练测试拆分之间进行标记数据分离。
Results
论文的结果表明,拟议的使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典的表现优于简单的无监督基线,从而使所有语料库的F1分数翻了一番。对五个标准文本分类数据集的实验表明,除了Yahoo-Answers数据集的性能相似的Yahoo-Answers数据集外,仅使用特定领域的嵌入在大多数指标上的性能要优于单独使用通用嵌入的性能。仅如一些实验结果所示,与嵌入相比,组合丰富,可以适度提高性能。总体而言,当需要低成本文本分类时,该方法可以提供替代方案,无需大型带标签的数据集或大量的手动注释工作,同时与某些条件下的监督方法相比,可以实现合理的准确性。
Conclusions
该论文的结论是,与某些条件下的监督方法相比,使用文本相似度对文档进行分类的无监督方法以及通过人类专业知识和语言模型丰富的每个类别的关键字字典可以提供合理的准确性。当需要低成本文本分类时,所提出的方法提供了一种经济实惠的替代方案,无需大型带标签的数据集或大量的手动注释工作,如其在最初启发的银行部门管理领域之外的运营风险事件分类中的应用示例所示。进一步的研究可以探讨诸如ELMO(Peters等人,2018年)和BERT(Devlin等人,2018年)之类的单词嵌入的最新进展能否为这种方法带来更多好处。
Future works
该论文提出了几项可以探索的未来作品,包括:
-研究如何使用诸如ELMO和BERT之类的单词嵌入方面的最新进展,以进一步提高性能。
-探索丰富人类专业知识和语言模型以外的类别标签的不同方法,例如使用外部知识库或本体论。
-针对复杂程度和领域特异性不同的其他文本分类任务评估所提出的方法。
-将这种无监督方法与更复杂的监督方法(例如标记数据可用时的深度学习架构)进行比较。
这些潜在的研究途径可以帮助扩展本文提出的发现,同时还可以为如何在不牺牲准确性的情况下最好地进行低成本文本分类提供新的见解。
相关文章:
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings
Towards Unsupervised Text Classification Leveraging Experts and Word Embeddings Abstract 该论文提出了一种无监督的方法,使用每个文档中相关单词之间的文本相似度以及每个类别的关键字字典将文档分为几类。所提出的方法通过人类专业知识和语言模型丰富了类别…...
linux进程管理
进程管理 进程是启动的可执行程序的一个指令 1、进程简介 (1)进程的组成部分 已分配内存的地址空间安全属性,包括所有权凭据和特权程序代码的一个或多个执行线程进程状态 (2)程序和进程的区别 程序是一个静态的二进制…...
【深度强化学习】(6) PPO 模型解析,附Pytorch完整代码
大家好,今天和各位分享一下深度强化学习中的近端策略优化算法(proximal policy optimization,PPO),并借助 OpenAI 的 gym 环境完成一个小案例,完整代码可以从我的 GitHub 中获得: https://gith…...
【数据结构】第二站:顺序表
目录 一、线性表 二、顺序表 1.顺序表的概念以及结构 2.顺序表的接口实现 3.顺序表完整代码 三、顺序表的经典题目 1.移除元素 2.删除有序数组中的重复项 3.合并两个有序数组 一、线性表 在了解顺序表前,我们得先了解线性表的概念 线性表(linear…...
嵌入式安防监控项目——实现真实数据的上传
目录 一、相关驱动开发 二、A9主框架 三、脚本及数据上传实验 https://www.yuque.com/uh1h8r/dqrma0/tx0fq08mw1ar1sor?singleDoc# 《常见问题》 上个笔记的相关问题 一、相关驱动开发 /* mpu6050六轴传感器 */ i2c138B0000 { /* #address-cells <1>…...
SAP 生成UUID
UUID含义是通用唯一识别码 (Universally Unique Identifier),这 是一个软件建构的标准,也是被开源软件基金会 (Open Software Foundation, OSF) 的组织应用在分布式计算环境 (Distributed Computing Environment, DCE) 领域的一部分。 UUID-Universally…...
DevOPs介绍,这一篇就足够了
一、什么是DevOps? DevOps是一种将软件开发和IT运维进行整合的文化和运动。它的目标是通过加强软件开发、测试和运维之间的协作和沟通,使整个软件开发和交付过程更加高效、快速、安全和可靠。DevOps涵盖了从计划和设计到开发、测试、交付和部署的全生命…...
libcurl库简介
一、libcurl简介libcurl是一个跨平台的网络协议库,支持http, https, ftp, gopher, telnet, dict, file, 和ldap 协议。libcurl同样支持HTTPS证书授权,HTTP POST, HTTP PUT, FTP 上传, HTTP基本表单上传,代理,cookies,和用户认证。…...
Spark SQL支持DataFrame操作的数据源
DataFrame提供统一接口加载和保存数据源中的数据,包括:结构化数据、Parquet文件、JSON文件、Hive表,以及通过JDBC连接外部数据源。一个DataFrame可以作为普通的RDD操作,也可以通过(registerTempTable)注册成…...
Java【归并排序】算法, 大白话式图文解析(附代码)
文章目录前言一、排序相关概念1, 什么是排序2, 什么是排序的稳定性3, 七大排序分类二、归并排序1, 图文解析2, 代码实现三、性能分析四、七大排序算法总体分析前言 各位读者好, 我是小陈, 这是我的个人主页 小陈还在持续努力学习编程, 努力通过博客输出所学知识 如果本篇对你有…...
【springboot】数据库访问
1、SQL 1、数据源的自动配置-HikariDataSource 1、导入JDBC场景 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-jdbc</artifactId></dependency>数据库驱动? 为什么导入JD…...
普通和hive兼容模式下sql的差异
–odps sql –– –author:宋文理 –create time:2023-03-08 15:23:52 –– – 差异分为三块 – 1.运算符的差异 – 2.类型转换的差异 – 3.内建函数的差异 – 以下是运算符的差异: – BITAND(&) – 当输入参数是BIGINT类型的时候&…...
github开源自己代码
接下来,我们需要先下载Git,的网址:https://git-scm.com/downloads,安装时如果没有特殊需求,一直下一步就可以了,安装完成之后,双击打开Git Bash 出现以下界面: 第一步:…...
数据库基础语法
sql(Structured Query Language 结构化查询语言) SQL语法 use DataTableName; 命令用于选择数据库。set names utf8; 命令用于设置使用的字符集。SELECT * FROM Websites; 读取数据表的信息。上面的表包含五条记录(每一条对应一个网站信息&…...
【Java】期末复习知识点总结(4)
适合Java期末的复习~ (Java期末复习知识点总结分为4篇,这里是最后一篇啦)第一篇~https://blog.csdn.net/qq_53869058/article/details/129417537?spm1001.2014.3001.5501第二篇~https://blog.csdn.net/qq_53869058/article/details/1294751…...
IDEA好用插件:MybatisX快速生成接口实体类mapper.xml映射文件
目录 1、在Idea中找到下载插件,Install,重启Idea 2、一个测试java文件,里面有com包 3、在Idea中添加数据库 --------以Oracle数据库为例 4、快速生成entity-service-mapper方法 5、查看生成的代码 6、自动生成(增删查改࿰…...
【JavaEE】初识线程
一、简述进程认识线程之前我们应该去学习一下“进程" 的概念,我们可以把一个运行起来的程序称之为进程,进程的调度,进程的管理是由我们的操作系统来管理的,创建一个进程,操作系统会为每一个进程创建一个 PCB&…...
智慧水务监控系统-智慧水务信息化平台建设
平台概述柳林智慧水务监控系统(智慧水务信息化平台)是以物联感知技术、大数据、智能控制、云计算、人工智能、数字孪生、AI算法、虚拟现实技术为核心,以监测仪表、通讯网络、数据库系统、数据中台、模型软件、前台展示、智慧运维等产品体系为…...
【Linux】进程优先级前后台理解
环境:centos7.6,腾讯云服务器Linux文章都放在了专栏:【Linux】欢迎支持订阅🌹相关文章推荐:【Linux】冯.诺依曼体系结构与操作系统【Linux】进程理解与学习(Ⅰ)浅谈Linux下的shell--BASH【Linux…...
时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元)
时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元) 目录 时序预测 | MATLAB实现基于EMD-GRU时间序列预测(EMD分解结合GRU门控循环单元)效果一览基本描述模型描述程序设计参考资料效果一览...
[特殊字符] 智能合约中的数据是如何在区块链中保持一致的?
🧠 智能合约中的数据是如何在区块链中保持一致的? 为什么所有区块链节点都能得出相同结果?合约调用这么复杂,状态真能保持一致吗?本篇带你从底层视角理解“状态一致性”的真相。 一、智能合约的数据存储在哪里…...
React hook之useRef
React useRef 详解 useRef 是 React 提供的一个 Hook,用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途,下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...
在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能
下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能,包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...
Java如何权衡是使用无序的数组还是有序的数组
在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...
visual studio 2022更改主题为深色
visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中,选择 环境 -> 常规 ,将其中的颜色主题改成深色 点击确定,更改完成...
数据链路层的主要功能是什么
数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...
Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)
引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...
LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf
FTP 客服管理系统 实现kefu123登录,不允许匿名访问,kefu只能访问/data/kefu目录,不能查看其他目录 创建账号密码 useradd kefu echo 123|passwd -stdin kefu [rootcode caozx26420]# echo 123|passwd --stdin kefu 更改用户 kefu 的密码…...
基于SpringBoot在线拍卖系统的设计和实现
摘 要 随着社会的发展,社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线拍卖系统,主要的模块包括管理员;首页、个人中心、用户管理、商品类型管理、拍卖商品管理、历史竞拍管理、竞拍订单…...
Chromium 136 编译指南 Windows篇:depot_tools 配置与源码获取(二)
引言 工欲善其事,必先利其器。在完成了 Visual Studio 2022 和 Windows SDK 的安装后,我们即将接触到 Chromium 开发生态中最核心的工具——depot_tools。这个由 Google 精心打造的工具集,就像是连接开发者与 Chromium 庞大代码库的智能桥梁…...
