自然语言处理的分类
动动发财的小手,点个赞吧!
简介
作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。这篇博文旨在提供 NLP 不同研究领域的结构化概述,并分析该领域的最新趋势。
在本文[1]中,我们研究以下问题:
-
NLP 研究哪些不同的研究领域? -
NLP 研究文献的特点和随时间的发展是什么? -
NLP目前的趋势和未来工作的方向是什么?
尽管 NLP 的大多数研究领域都是众所周知的和明确的,但目前还没有常用的分类法或分类方案试图以一致且易于理解的格式收集和构建这些研究领域。因此,了解整个 NLP 研究领域的概况是很困难的。虽然会议和教科书中列出了 NLP 主题,但它们往往差异很大,而且往往要么太宽泛,要么太专业。因此,我们开发了一个涵盖 NLP 广泛不同研究领域的分类法。尽管该分类法可能不包括所有可能的 NLP 概念,但它涵盖了广泛的最受欢迎的研究领域,因此缺失的研究领域可以被视为所包含研究领域的子主题。在制定分类法时,我们发现某些较低级别的研究领域必须分配给多个较高级别的研究领域,而不仅仅是一个。因此,一些研究领域在 NLP 分类中被多次列出,但被分配到不同的更高级别的研究领域。最终的分类法是与领域专家一起在迭代过程中凭经验开发的。
该分类法作为一种总体分类方案,其中 NLP 出版物可以根据至少一个所包含的研究领域进行分类,即使它们不直接涉及其中一个研究领域,而只是其子主题。为了分析 NLP 的最新发展,我们训练了一个弱监督模型,根据 NLP 分类法对 ACL Anthology 论文进行分类。
NLP的不同研究领域
以下部分对上述 NLP 分类法中包含的研究概念领域进行简短说明。
多模态
多模态是指系统或方法处理不同类型或模态输入的能力。我们区分可以处理自然语言文本以及视觉数据、语音和音频、编程语言或结构化数据(例如表格或图表)的系统。
自然语言接口
自然语言接口可以基于自然语言查询处理数据,通常实现为问答系统或对话系统。
语义文本处理
这一高级研究领域包括试图从自然语言中获取含义并使机器能够从语义上解释文本数据的所有类型的概念。这方面最强大的研究领域之一是尝试学习单词序列的联合概率函数的语言模型。语言模型训练的最新进展使这些模型能够成功执行各种下游 NLP 任务。在表示学习中,语义文本表示通常以嵌入的形式学习,可用于比较语义搜索设置中文本的语义相似度。此外,可以合并知识表示(例如以知识图的形式)来改进各种 NLP 任务。
情绪分析
情感分析试图从文本中识别和提取主观信息。通常,研究的重点是从文本中提取观点、情感或极性。最近,基于方面的情感分析成为一种比一般情感分析提供更详细信息的方法,因为它旨在预测文本中给定方面或实体的情感极性。
句法文本处理
这一高级研究领域旨在分析文本的语法和词汇。这种情况下的代表性任务是句子中单词依赖性的句法分析、将单词标记到各自的词性、将文本分割成连贯的部分,或者纠正语法和拼写方面的错误文本。
语言学与认知 NLP
语言学与认知 NLP 处理自然语言的基础是这样的假设:我们的语言能力牢牢植根于我们的认知能力,意义本质上是概念化,语法是由用法决定的。目前存在许多不同的语言理论,它们普遍认为语言习得受到所有典型发育人类所共有的通用语法规则的控制。心理语言学试图模拟人脑如何获取和产生语言、处理语言、理解语言并提供反馈。认知建模涉及以各种形式,特别是计算或数学形式对人类认知过程进行建模和模拟。
推理
推理使机器能够使用演绎和归纳等技术,根据可用的信息得出逻辑结论并得出新知识。论据挖掘自动识别和提取自然语言文本中表达为论据的推论和推理结构。文本推理通常被建模为蕴涵问题,自动确定是否可以从给定前提推断出自然语言假设。常识推理使用文本中未明确提供的世界知识来连接前提和假设,而数值推理则执行算术运算。机器阅读理解旨在教会机器根据给定的段落确定问题的正确答案。
多语言能力
多语言处理涉及多种自然语言的所有类型的 NLP 任务,并且通常在机器翻译中进行研究。此外,语码转换可以在单个句子内或句子之间自由交换多种语言,而跨语言迁移技术则使用一种语言可用的数据和模型来解决另一种语言的 NLP 任务。
信息检索
信息检索涉及从大型集合中查找满足信息需求的文本。通常,这涉及检索文档或段落。
信息提取与文本挖掘
该研究领域的重点是从非结构化文本中提取结构化知识,并能够分析和识别数据中的模式或相关性。文本分类自动将文本分类为预定义的类别,而主题建模旨在发现文档集合中的潜在主题,通常使用文本聚类技术将语义相似的文本组织到相同的集群中。摘要生成文本摘要,其中在更小的空间中包含输入的关键点,并将重复保持在最低限度。此外,信息提取和文本挖掘领域的研究还包括命名实体识别,处理命名实体的识别和分类,共指解析,旨在识别对同一实体的所有引用话语、术语提取,旨在提取相关术语,例如关键字或关键短语、关系提取,旨在提取实体之间的关系,以及开放信息提取,以促进关系元组的领域独立发现。
文本生成
文本生成方法的目标是生成人类可以理解且与人类创作的文本无法区分的文本。因此,输入通常由文本组成,例如在释义中,以不同的表面形式呈现文本输入,同时保留语义,问题生成旨在根据给定的段落生成流畅且相关的问题和目标答案,或对话响应生成,旨在生成与提示相关的自然外观文本。然而,在许多情况下,文本是作为其他模式输入的结果生成的,例如在数据到文本生成的情况下,基于结构化数据(例如表格或图表)生成文本 、图像或视频的字幕,或将语音波形转录为文本的语音识别。
NLP的特点和发展
考虑到 NLP 方面的文献,我们从研究数量作为研究兴趣的指标开始分析。 50年观察期内的出版物分布如上图所示。虽然第一批出版物出现于 1952 年,但每年出版物的数量增长缓慢,直到 2000 年。相应地,2000 年至 2017 年间,出版物数量大约翻了两番,而在随后的五年中,又翻了一番。因此,我们观察到 NLP 研究的数量呈近指数增长,表明研究界的关注日益增加。
检查上图,揭示了 NLP 文献中最受欢迎的研究领域及其随着时间的推移的最新发展。虽然 NLP 的大多数研究都与机器翻译或语言模型有关,但这两个研究领域的发展却有所不同。机器翻译是一个经过深入研究的领域,已经建立了很长时间,并且在过去 20 年中经历了适度的增长。语言模型也被研究了很长时间。然而,自 2018 年以来,该主题的出版物数量才出现显着增长。在其他热门研究领域也可以观察到类似的差异。表征学习和文本分类虽然得到了广泛的研究,但其发展却部分停滞。相比之下,对话系统和对话代理,尤其是低资源 NLP,研究数量继续呈现高增长率。根据其余研究领域的平均研究数量的发展,我们观察到整体略有正增长。然而,大多数研究领域的研究明显少于最受欢迎的研究领域。
NLP 的最新趋势
上图展示了NLP研究领域的增长份额矩阵。我们用它来通过分析 2018 年至 2022 年间 NLP 各个研究领域相关论文的增长率和总数来考察当前的研究趋势和未来可能的研究方向。矩阵的右上部分由以下研究领域组成:总体上表现出高增长率和大量论文。鉴于本部分的研究领域越来越受欢迎,我们将它们归类为热门明星。右下部分包含非常受欢迎但增长率较低的研究领域。通常,这些是 NLP 所必需的研究领域,但已经相对成熟。因此,我们将它们归类为基础研究领域。矩阵的左上部分包含表现出高增长率但总体上论文很少的研究领域。由于这些研究领域的进展相当有前景,但总体论文数量较少,难以预测其进一步发展,因此我们将其归类为上升问号。矩阵左下角的研究领域由于论文总数低且增长率低而被归类为利基研究领域。
从图中可以看出,目前最受关注的是语言模型。根据该领域的最新发展,这一趋势可能会在不久的将来持续并加速。文本分类、机器翻译和表示学习位列最热门的研究领域之列,但仅显示出边际增长。从长远来看,它们可能会被增长更快的领域取代,成为最受欢迎的研究领域。
一般来说,与句法文本处理相关的研究领域总体上表现出可忽略不计的增长和较低的受欢迎程度。相反,与负责任和值得信赖的NLP相关的研究领域,例如绿色和可持续的NLP、低资源NLP和道德NLP,总体上往往表现出高增长率和高受欢迎程度。这种趋势也可以在 NLP 中的结构化数据、NLP 中的视觉数据以及 NLP 中的语音和音频中观察到,所有这些都与多模态有关。此外,涉及对话系统、对话代理和问答的自然语言界面在研究界变得越来越重要。我们的结论是,除了语言模型之外,负责任且值得信赖的 NLP、多模态和自然语言界面也可能成为不久的将来 NLP 研究领域的特征。
在推理领域,特别是在知识图推理和数字推理以及与文本生成相关的各个研究领域中,可以观察到进一步显着的发展。尽管这些研究领域目前还相对较小,但它们显然吸引了研究界越来越多的兴趣,并表现出明显的积极增长趋势。
总结
为了总结最近的发展并概述 NLP 的前景,我们定义了研究领域的分类并分析了最近的研究进展。
我们的研究结果表明,已经研究了大量的研究领域,包括多模态、负责任和值得信赖的 NLP 以及自然语言界面等趋势领域。我们希望本文能够对当前 NLP 领域提供有用的概述,并可以作为更深入探索该领域的起点。
Reference
Source: https://towardsdatascience.com/a-taxonomy-of-natural-language-processing-dfc790cb4c01
本文由 mdnice 多平台发布
相关文章:
自然语言处理的分类
动动发财的小手,点个赞吧! 简介 作为理解、生成和处理自然语言文本的有效方法,自然语言处理(NLP)的研究近年来呈现出快速传播和广泛采用。鉴于 NLP 的快速发展,获得该领域的概述并对其进行维护是很困难的。…...
Flutter笔记:手写并发布一个人机滑动验证码插件
Flutter笔记 手写一个人机滑块验证码 作者:李俊才 (jcLee95):https://blog.csdn.net/qq_28550263 邮箱 :291148484163.com 本文地址:https://blog.csdn.net/qq_28550263/article/details/133529459 写 Flut…...
RabbitMQ安装与简单使用
安装 下载资源 可以访问官网查看下载信息rabbitmq官网 选择合适的版本,注意:rabbitmq需要下载一个Erlang才能使用 我自己是在一下两个连接中下载的 rabbitmq 3.8.8 erlang 21.3.8.15 需要下载其他版本的同学注意erlang版本是否匹配,可以访…...
不做静态化,当部署到服务器上的项目刷新出现404【已解决】
当线上项目刷新出现404页面解决方法: 在nginx配置里加入这样一段代码 try_files $uri $uri/ /index.html; 它的作用是尝试按照给定的顺序访问文件 变量解释 try_files 固定语法 $uri 指代home文件(ip地址后面的路径,假如是127.0.0.1/index/a.png&…...
SpringBoot结合Redisson实现分布式锁
🧑💻作者名称:DaenCode 🎤作者简介:啥技术都喜欢捣鼓捣鼓,喜欢分享技术、经验、生活。 😎人生感悟:尝尽人生百味,方知世间冷暖。 📖所属专栏:Sp…...
css字体属性
一、CSS字体属性用于设置文本的字体样式。以下是常用的CSS字体属性: font-family:设置文本的字体系列,可以使用多个字体,用逗号分隔。font-size:设置文本的字体大小,可用像素、百分比、em等单位。font-wei…...
云原生微服务治理 第四章 Spring Cloud Netflix 服务注册/发现组件Eureka
系列文章目录 第一章 Java线程池技术应用 第二章 CountDownLatch和Semaphone的应用 第三章 Spring Cloud 简介 第四章 Spring Cloud Netflix 之 Eureka 文章目录 系列文章目录[TOC](文章目录) 前言1、Eureka 两大组件2、Eureka 服务注册与发现3、案例3.1、创建主工程3.1.1、主…...
【白细胞介素6(IL-6)】
## IL-6,至关重要的多功能细胞因子 ## 聊一聊白细胞介素6(IL-6) ## 简述:国内外IL-6 _ IL-6R在研药物一览_药智新闻.2017 ## 研究项目|靶向IL-6药物在研现状 2021...
设计模式之抽象工厂模式--创建一系列相关对象的艺术(简单工厂、工厂方法、到抽象工厂的进化过程,类图NS图)
目录 概述概念适用场景结构类图 衍化过程业务需求基本的数据访问程序工厂方法实现数据访问程序抽象工厂实现数据访问程序简单工厂改进抽象工厂使用反射抽象工厂反射配置文件衍化过程总结 常见问题总结 概述 概念 抽象工厂模式是一种创建型设计模式,它提供了一种将相…...
大数据-玩转数据-Flink SQL编程实战 (热门商品TOP N)
一、需求描述 每隔30min 统计最近 1hour的热门商品 top3, 并把统计的结果写入到mysql中。 二、需求分析 1.统计每个商品的点击量, 开窗2.分组窗口分组3.over窗口 三、需求实现 3.1、创建数据源示例 input/UserBehavior.csv 543462,1715,1464116,pv,1511658000 662867,22…...
python中实现定时任务的几种方案
目录 while True: sleep()Timeloop库threading.Timersched模块schedule模块APScheduler框架Celery框架数据流工具Apache Airflow概述Airflow 核心概念Airflow 的架构 总结以下几种方案实现定时任务,可根据不同需求去使用不同方案。 while True: sleep() 利用whil…...
AcWing算法提高课-5.6.1同余方程
宣传一下 算法提高课整理 CSDN个人主页:更好的阅读体验 原题链接 题目描述 求关于 x x x 的同余方程 a x ≡ 1 ( m o d b ) ax ≡ 1 \pmod b ax≡1(modb) 的最小正整数解。 输入格式 输入只有一行,包含两个正整数 a , b a,b a,b,用一…...
Docker Tutorial
什么是Docker 为每个应用提供完全隔离的运行环境 Dockerfile, Image,Container Image: 相当于虚拟机的快照(snapshot)里面包含了我们需要部署的应用程序以及替它所关联的所有库。通过image,我们可以创建很…...
平面图—简单应用
平面图:若一个图𝐺能画在平面𝑆上,且使𝐺的边仅在端点处相交,则称图𝐺为可嵌入平面𝑆,𝐺称为可平面图,简称为平面图。 欧拉公式:设有…...
安装JDK(Java SE Development Kit)超详细教程
文章时间 : 2023-10-04 1. 下载地址 直接去下载地址:https://www.oracle.com/java/technologies/downloads/ (需要翻墙,不想翻墙或者不想注册oracel账号的,直接去我的阿里云盘) 阿里云盘:http…...
KUKA机器人通过3点法设置工作台基坐标系的具体方法
KUKA机器人通过3点法设置工作台基坐标系的具体方法 具体方法和步骤可参考以下内容: 进入主菜单界面,依次选择“投入运行”—“测量”—基坐标,选择“3点法”, 在系统弹出的基坐标编辑界面,给基座标编号为3,命名为table1,然后单击“继续”按钮,进行下一步操作, 在弹出的…...
以太网的MAC层
以太网的MAC层 一、硬件地址 局域网中,硬件地址又称物理地址或MAC地址(因为用在MAC帧),它是局域网上每一台计算机中固化在适配器的ROM中的地址。 关于地址问题,有这样的定义:“名字指出我们所要寻…...
Hadoop启动后jps发现没有DateNode解决办法
多次使用 Hadoop namenode -format 格式化节点后DateNode丢失 找到hadoop配置文件core-site.xml查找tmp路径 进入该路径,使用rm -rf data删除data文件 再次使用Hadoop namenode -format 格式化后jps后出现DateNode节点...
VUE3照本宣科——应用实例API与setup
VUE3照本宣科——应用实例API与setup 前言一、应用实例API1.createApp()2.app.use()3.app.mount() 二、setup 前言 👨💻👨🌾📝记录学习成果,以便温故而知新 “VUE3照本宣科”是指照着中文官网和菜鸟教…...
json/js对象的key有什么区别?
1.对于JS对象来说 一个js对象如果是这样的 obj {"0": "小明","0name": "小明明", "": 18,"¥": "哈哈"," ": "爱好广泛" }对于js对象来说,有时候key是不…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
idea大量爆红问题解决
问题描述 在学习和工作中,idea是程序员不可缺少的一个工具,但是突然在有些时候就会出现大量爆红的问题,发现无法跳转,无论是关机重启或者是替换root都无法解决 就是如上所展示的问题,但是程序依然可以启动。 问题解决…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...
linux 错误码总结
1,错误码的概念与作用 在Linux系统中,错误码是系统调用或库函数在执行失败时返回的特定数值,用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递,errno由操作系统维护,保存最近一次发生的错误信息。值得注意的是,errno的值在每次系统调用或函数调用失败时…...
【Java_EE】Spring MVC
目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据 编辑RequestBody …...
【开发技术】.Net使用FFmpeg视频特定帧上绘制内容
目录 一、目的 二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结 一、目的 当前市场上有很多目标检测智能识别的相关算法,当前调用一个医疗行业的AI识别算法后返回…...
PAN/FPN
import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...
并发编程 - go版
1.并发编程基础概念 进程和线程 A. 进程是程序在操作系统中的一次执行过程,系统进行资源分配和调度的一个独立单位。B. 线程是进程的一个执行实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。C.一个进程可以创建和撤销多个线程;同一个进程中…...
iview框架主题色的应用
1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...
MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)
macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 🍺 最新版brew安装慢到怀疑人生?别怕,教你轻松起飞! 最近Homebrew更新至最新版,每次执行 brew 命令时都会自动从官方地址 https://formulae.…...
