A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。
知识增强的预训练语言模型综述
- 摘要
- 1 引言
- 2 背景
- 3 KE-PLMs用于NLU
- 4 KE-PLMs用于NLG
- 5 未来的方向
- 5.1 整合来自同质和异质来源的知识
- 5.2 探索多模态知识
- 5.3 提供可解释性证据
- 5.4 持续学习知识
- 5.5 优化将知识整合到大型模型中的效率
- 5.6 增加生成的结果的多样性
- 6 结论
摘要
预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但由于缺乏外部知识,它们仍然存在一些局限性,如推理能力差。研究一直致力于将知识纳入PLM,以解决这些问题。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面的综述,以对这一蓬勃发展的领域提供清晰的见解。我们分别为自然语言理解(NLU)和自然语言生成(NLG)引入了适当的分类法,以突出NLP的这两个主要任务。对于NLU,我们将知识类型分为四类:语言知识、文本知识、知识图谱和规则知识。NLG的KE PLM分为基于KG的方法和基于检索的方法。最后,我们指出了KE PLM的一些有前景的未来方向。
1 引言
2 背景
3 KE-PLMs用于NLU
4 KE-PLMs用于NLG
5 未来的方向
在本节中,我们提出了未来KE PLM的一些可能的研究方向,这些方向可能会解决现有的问题和挑战。
5.1 整合来自同质和异质来源的知识
由于现有的工作大多只利用单一来源的知识,如知识图谱或网络资源,探索如何整合异构来源的知识仍然是未来研究的一个有价值的方向。
正如我们在上一节中所介绍的,一些先前的工作试图结合不同类型的知识来提高问答的性能。例如,UniKQA在知识库中集成了外部知识,包括文本、表和关系三元组。通过将知识库三元组和半结构化表等异构知识源线性化为文本的启发式方法,将知识库中涉及的结构化知识和文本中涉及的非结构化知识统一起来,扩展了外部知识的来源。UDT-QA将知识图谱和表格等结构化知识引入到开放域问答中,并将其转换为线性序列,作为文本生成任务的输入。
在开放域问答领域,提高PLM集成多个知识源的能力可以有效地增加知识覆盖率,使模型能够生成更可靠的答案。
5.2 探索多模态知识
目前的研究大多只关注多模态来源较少的文本知识。事实上,除了文本和列表信息之外,图像、视频和音频也可以成为PLM的知识来源,这可以进一步提高KE PLM的性能。
一些研究探索了整合多模态知识。代表作包括KB-VLP和ERNIE-VIL。KB-VLP基于输入的文本和图像从外部知识库中提取知识信息,并将知识作为额外的输入,以增强模型的语义对齐和知识感知能力。ERNIE-VIL将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,以关注视觉和语言模态之间的详细语义对齐。
由于图像和相关文本包含丰富的语义,注入这些不同的知识模式和对细节语义的关注可以使它们相互补充和增强,这将提高PLM在NLU和NLG任务中的性能。
5.3 提供可解释性证据
尽管许多现有的KE PLM在一系列文本生成任务上取得了巨大成功,但不应忽视的是,如果生成过程需要常识性知识推理,模型的性能将受到影响。
一些工作试图解决这个问题。例如,GRF利用外部知识图谱进行显式常识推理,并结合丰富的结构信息,以便在多个关系路径上执行动态多跳推理。在此过程中获得的推理路径为结果的生成提供了理论基础。这项工作表明,给出一条明确的推理路径将有助于提高模型的可解释性,使预测更加合理。
5.4 持续学习知识
现有工作通常在预训练阶段根据大量静态或未更新的数据进行训练。但模型在面对新任务时可能会忘记以前学到的原始知识,这使它们容易受到一种称为灾难性遗忘问题的现象的影响。随着异质性知识的不断增长,探索使模型在掌握新知识的同时不忘记过去学到的知识的方法,需要不断学习(也称为终身学习)来不断整合各种知识。
ELLE提出了一个维护网络功能的扩展模块,以扩展模型的宽度和深度,使模型能够有效地获取新知识,同时在更大程度上保留旧知识。K-adapter和KB-adapter将适配器添加到PLM中,以存储事实和语言知识,从而不断地将更多的知识融入PLM中。
不断地整合知识是未来研究的一个很有前途的方向。持续和不断增加的预训练的应用将有效地提高PLM的普遍性,并在融入更多知识的同时解决灾难性遗忘问题。
5.5 优化将知识整合到大型模型中的效率
近年来,预训练模型和知识注入的规模越来越大,从而给计算效率和计算资源带来了不可忽视的严峻挑战。尽管现有的大多数工作在各种预训练任务中都取得了良好的效果,但很少有研究提到在此过程中知识融合的成本。
鉴于这一挑战,我们提出以下两个可能的方向,可能值得进一步探索:一是提高知识获取和过滤的效率,二是优化计算负担。
现有的工作,如ZeRO,已经在第二个领域进行了探索。基于传统的数据并行训练模式,ZeRO通过将模型的参数、梯度和优化器状态划分为不同的过程,深度优化冗余空间,消除冗余占用的内存。
5.6 增加生成的结果的多样性
生成替代输出或预测真实情况下的所有可能结果是NLG的一个重要研究方向,这也是生成常识推理任务中输出多样性的目的。现有的工作,如MoKGE,使用常识知识图谱的多样化知识推理来完成NLG的多样化生成。基于对人类注释的观察,将与原始输入相关的概念关联到生成过程中,并使用专家方法的混合生成多样化的合理输出,从而增加生成结果的多样性。
6 结论
在这项调查中,我们从NLU和NLG的角度对KEPLM进行了全面的综述,并分别为NLU和NLG提出了适当的分类法,以突出它们的不同重点。我们还讨论了分类法中的代表作。最后,针对存在的问题和挑战,我们讨论了KE PLMs未来潜在的研究方向,希望能促进这一领域的相关研究。
相关文章:
A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 知识增强的预训练语言模型综述 摘要1 引言2 背景3 KE-PLMs用于NLU4 KE-PLMs用于NLG5 未来的方向5.1 整合来自同质和异质来源的知识5.2 探索多模态知识5.3 提供可…...
动态规划(选择)
链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 作为队伍的核心,forever97很受另外两个队友的尊敬。 Trote_w每天都要请forever97吃外卖,但很不幸的是宇宙中心forever97所在的学校周围只有3家forever97爱吃的外卖。 如果T…...

IIS WebDAV配置,https绑定及asp设置
IIS支持标准CGI,因此可以用程序语言针对STDIN和STDOUT开发。 IIS CGI配置和CGI程序FreeBasic, VB6, VC 简单样例_Mongnewer的博客-CSDN博客 IIS支持脚本解释CGI,因此可以用脚本语言针对STDIN和STDOUT开发。 IIS perl python cbrother php脚本语言配置…...

【计算机视觉项目实战】中文场景识别
✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 👨&…...
Java 中 Map 初始化的几种方法
# 传统方式 Map<String, String> map new HashMap<>(); map.put("k1", "v1"); map.put("k2", "v2");# java8新特性-双括号初始化 Map<String, String> map1 new HashMap<>() {{put("k1", "v…...
【学习方法论】学习的三种境界、三种习惯、三个要点,三个心态
学习的三种境界、三种习惯、三个要点,三个心态 三种学习境界 苦学 古人云:“头悬梁、锥刺股”,勤学苦练是第一境界。处于这种层次的同学,觉得学习枯燥无味,对他们来说学习是一种被迫行为,体会不到学习中的…...

[管理与领导-67]:IT基层管理者 - 辅助技能 - 4- 职业发展规划 - 评估你与公司的八字是否相合
目录 前言: 一、概述 二、八字相合的步骤 2.1 企业文化是否相合 2.2.1 企业文化对职业选择的意义 2.2.2 个人与企业三观不合的结果 2.2.3 什么样的企业文化的公司不能加入 2.2 公司的发展前景 2.3 公司所处行业发展 2.4 创始人的三观 2.5 创始人与上司的…...

【PMO项目管理】深入了解项目管理 | Stakeholder 利益相关者 | 利益相关者之间的立场差异
💭 写在前面:本文将带您深入了解项目管理的核心概念和关键要素。我们将从项目管理的基本理解开始,逐步探讨其领域、复杂性和变化的重点,以及项目管理的具体过程。我们还将研究项目的性质以及成功项目所必备的条件。在此过程中&…...

设计模式-原则篇-01.开闭原则
简介 可以把设计模式理解为一套比较成熟并且成体系的建筑图纸,经过多次编码检验目前看来使用效果还不错的软件设计方案。适用的场景也比较广泛,在使用具体的设计模式之前先要学习软件设计的基础 “软件设计原则”,后面的23个设计模式都是…...

JAVA毕业设计096—基于Java+Springboot+Vue的在线教育系统(源码+数据库+18000字论文)
基于JavaSpringbootVue的在线教育系统(源码数据库18000字论文)096 一、系统介绍 本系统前后端分离 本系统分为管理员、用户两种角色(管理员角色权限可自行分配) 用户功能: 注册、登录、课程预告、在线课程观看、学习资料下载、学习文章预览、个人信息管理、消息…...

windows环境搭建ELK
目录 资源下载(8.9.1) ES安装、注册、使用 Kibana安装、注册、使用 Logstash安装、注册、使用 Filebeat安装、使用(如果只有一个数据流,则不需要使用filebeat,直接上logstash即可) 资源下载࿰…...

langchain介绍之-Prompt
LangChain 是一个基于语言模型开发应用程序的框架。它使得应用程序具备以下特点:1.数据感知:将语言模型与其他数据源连接起来。2.代理性:允许语言模型与其环境进行交互 LangChain 的主要价值在于:组件:用于处理语言模型…...

汇编语言Nasmide编辑软件
用来编写汇编语言源程序,Windows 记事本并不是一个好工具。同时,在命令行编译源程序也令很多人迷糊。毕竟,很多年轻的朋友都是用着 Windows 成长起来的,他们缺少在 DOS和 UNIX 下工作的经历。 我一直想找一个自己中意的汇编语言编…...

用python开发一个炸金花小游戏
众所周知扑克牌可谓是居家旅行、桌面交友的必备道具, 今天我们用 Python 来实现一个类似炸金花的扑克牌小游戏,先来看一下基本的游戏规则。 炸(诈)金花又叫三张牌,是在全国广泛流传的一种民间多人纸牌游戏…...

Uniapp中使用uQRCode二维码跳转小程序页面
下载插件 uQRCode官网地址 引入插件 文件如下 //--------------------------------------------------------------------- // github https://github.com/Sansnn/uQRCode //---------------------------------------------------------------------let uQRCode = {};(functio…...

解决husky在mac下不生效的问题
目录 一、问题 1.1 问题描述 二、解决 2.1 解决 一、问题 1.1 问题描述 本文主要解决的问题是,husky在windows上正常生肖,但放到mac下后不生效的问题! 为了确保团队中提交代码的一致性,因此使用了 husky 作为提交的检测工具…...

如何在自动化测试中使用MitmProxy获取数据返回?
背景介绍 当我们在接口或UI自动化项目中,常常会出现这种现象——明明是正常请求,却无法获取到想要的数据返回。 比如: 场景A:页面是动态数据,第一次进入页面获取到的数据,和下次进入页面获取到的数据完全…...

达之云BI平台助力中国融通集团陕西军民服务社有限公司实现数字化运营
中国融通集团陕西军民服务社是一家大型综合类零售购物中心,公司目前管理系统运行了10年左右,面临系统新零售支持发展严重滞后,行业主流应用落地困难,如线上业务、到家业务、全渠道营销、电子发票、自助收银、扫码购、无感停车、未…...

Private market:借助ZK实现的任意计算的trustless交易
1. 引言 Private market,借助zk-SNARKs和以太坊来 隐私且trustlessly selling: 1)以太坊地址的私钥(ECDSA keypair)2)EdDSA签名3)Groth16 proof:借助递归性来匿名交易Groth16 proo…...

反序列化漏洞复现(typecho)
文章目录 执行phpinfogetshell 执行phpinfo 将下面这段代码复制到一个php文件,命名为typecho_1.0-14.10.10_unserialize_phpinfo.php,代码中定义的类名与typecho中的类相同,是它能识别的类: <?php class Typecho_Feed{const…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...

shell脚本--常见案例
1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件: 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...

Android 之 kotlin 语言学习笔记三(Kotlin-Java 互操作)
参考官方文档:https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java(供 Kotlin 使用) 1、不得使用硬关键字 不要使用 Kotlin 的任何硬关键字作为方法的名称 或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

企业如何增强终端安全?
在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...
在Ubuntu24上采用Wine打开SourceInsight
1. 安装wine sudo apt install wine 2. 安装32位库支持,SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库(解决显示问题) sudo apt install fonts-wqy…...

回溯算法学习
一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

springboot整合VUE之在线教育管理系统简介
可以学习到的技能 学会常用技术栈的使用 独立开发项目 学会前端的开发流程 学会后端的开发流程 学会数据库的设计 学会前后端接口调用方式 学会多模块之间的关联 学会数据的处理 适用人群 在校学生,小白用户,想学习知识的 有点基础,想要通过项…...

TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?
在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...

wpf在image控件上快速显示内存图像
wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像(比如分辨率3000*3000的图像)的办法,尤其是想把内存中的裸数据(只有图像的数据,不包…...