A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。
知识增强的预训练语言模型综述
- 摘要
- 1 引言
- 2 背景
- 3 KE-PLMs用于NLU
- 4 KE-PLMs用于NLG
- 5 未来的方向
- 5.1 整合来自同质和异质来源的知识
- 5.2 探索多模态知识
- 5.3 提供可解释性证据
- 5.4 持续学习知识
- 5.5 优化将知识整合到大型模型中的效率
- 5.6 增加生成的结果的多样性
- 6 结论
摘要
预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但由于缺乏外部知识,它们仍然存在一些局限性,如推理能力差。研究一直致力于将知识纳入PLM,以解决这些问题。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面的综述,以对这一蓬勃发展的领域提供清晰的见解。我们分别为自然语言理解(NLU)和自然语言生成(NLG)引入了适当的分类法,以突出NLP的这两个主要任务。对于NLU,我们将知识类型分为四类:语言知识、文本知识、知识图谱和规则知识。NLG的KE PLM分为基于KG的方法和基于检索的方法。最后,我们指出了KE PLM的一些有前景的未来方向。
1 引言
2 背景
3 KE-PLMs用于NLU
4 KE-PLMs用于NLG
5 未来的方向
在本节中,我们提出了未来KE PLM的一些可能的研究方向,这些方向可能会解决现有的问题和挑战。
5.1 整合来自同质和异质来源的知识
由于现有的工作大多只利用单一来源的知识,如知识图谱或网络资源,探索如何整合异构来源的知识仍然是未来研究的一个有价值的方向。
正如我们在上一节中所介绍的,一些先前的工作试图结合不同类型的知识来提高问答的性能。例如,UniKQA在知识库中集成了外部知识,包括文本、表和关系三元组。通过将知识库三元组和半结构化表等异构知识源线性化为文本的启发式方法,将知识库中涉及的结构化知识和文本中涉及的非结构化知识统一起来,扩展了外部知识的来源。UDT-QA将知识图谱和表格等结构化知识引入到开放域问答中,并将其转换为线性序列,作为文本生成任务的输入。
在开放域问答领域,提高PLM集成多个知识源的能力可以有效地增加知识覆盖率,使模型能够生成更可靠的答案。
5.2 探索多模态知识
目前的研究大多只关注多模态来源较少的文本知识。事实上,除了文本和列表信息之外,图像、视频和音频也可以成为PLM的知识来源,这可以进一步提高KE PLM的性能。
一些研究探索了整合多模态知识。代表作包括KB-VLP和ERNIE-VIL。KB-VLP基于输入的文本和图像从外部知识库中提取知识信息,并将知识作为额外的输入,以增强模型的语义对齐和知识感知能力。ERNIE-VIL将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,以关注视觉和语言模态之间的详细语义对齐。
由于图像和相关文本包含丰富的语义,注入这些不同的知识模式和对细节语义的关注可以使它们相互补充和增强,这将提高PLM在NLU和NLG任务中的性能。
5.3 提供可解释性证据
尽管许多现有的KE PLM在一系列文本生成任务上取得了巨大成功,但不应忽视的是,如果生成过程需要常识性知识推理,模型的性能将受到影响。
一些工作试图解决这个问题。例如,GRF利用外部知识图谱进行显式常识推理,并结合丰富的结构信息,以便在多个关系路径上执行动态多跳推理。在此过程中获得的推理路径为结果的生成提供了理论基础。这项工作表明,给出一条明确的推理路径将有助于提高模型的可解释性,使预测更加合理。
5.4 持续学习知识
现有工作通常在预训练阶段根据大量静态或未更新的数据进行训练。但模型在面对新任务时可能会忘记以前学到的原始知识,这使它们容易受到一种称为灾难性遗忘问题的现象的影响。随着异质性知识的不断增长,探索使模型在掌握新知识的同时不忘记过去学到的知识的方法,需要不断学习(也称为终身学习)来不断整合各种知识。
ELLE提出了一个维护网络功能的扩展模块,以扩展模型的宽度和深度,使模型能够有效地获取新知识,同时在更大程度上保留旧知识。K-adapter和KB-adapter将适配器添加到PLM中,以存储事实和语言知识,从而不断地将更多的知识融入PLM中。
不断地整合知识是未来研究的一个很有前途的方向。持续和不断增加的预训练的应用将有效地提高PLM的普遍性,并在融入更多知识的同时解决灾难性遗忘问题。
5.5 优化将知识整合到大型模型中的效率
近年来,预训练模型和知识注入的规模越来越大,从而给计算效率和计算资源带来了不可忽视的严峻挑战。尽管现有的大多数工作在各种预训练任务中都取得了良好的效果,但很少有研究提到在此过程中知识融合的成本。
鉴于这一挑战,我们提出以下两个可能的方向,可能值得进一步探索:一是提高知识获取和过滤的效率,二是优化计算负担。
现有的工作,如ZeRO,已经在第二个领域进行了探索。基于传统的数据并行训练模式,ZeRO通过将模型的参数、梯度和优化器状态划分为不同的过程,深度优化冗余空间,消除冗余占用的内存。
5.6 增加生成的结果的多样性
生成替代输出或预测真实情况下的所有可能结果是NLG的一个重要研究方向,这也是生成常识推理任务中输出多样性的目的。现有的工作,如MoKGE,使用常识知识图谱的多样化知识推理来完成NLG的多样化生成。基于对人类注释的观察,将与原始输入相关的概念关联到生成过程中,并使用专家方法的混合生成多样化的合理输出,从而增加生成结果的多样性。
6 结论
在这项调查中,我们从NLU和NLG的角度对KEPLM进行了全面的综述,并分别为NLU和NLG提出了适当的分类法,以突出它们的不同重点。我们还讨论了分类法中的代表作。最后,针对存在的问题和挑战,我们讨论了KE PLMs未来潜在的研究方向,希望能促进这一领域的相关研究。
相关文章:
A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 知识增强的预训练语言模型综述 摘要1 引言2 背景3 KE-PLMs用于NLU4 KE-PLMs用于NLG5 未来的方向5.1 整合来自同质和异质来源的知识5.2 探索多模态知识5.3 提供可…...
动态规划(选择)
链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 作为队伍的核心,forever97很受另外两个队友的尊敬。 Trote_w每天都要请forever97吃外卖,但很不幸的是宇宙中心forever97所在的学校周围只有3家forever97爱吃的外卖。 如果T…...
IIS WebDAV配置,https绑定及asp设置
IIS支持标准CGI,因此可以用程序语言针对STDIN和STDOUT开发。 IIS CGI配置和CGI程序FreeBasic, VB6, VC 简单样例_Mongnewer的博客-CSDN博客 IIS支持脚本解释CGI,因此可以用脚本语言针对STDIN和STDOUT开发。 IIS perl python cbrother php脚本语言配置…...
【计算机视觉项目实战】中文场景识别
✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 👨&…...
Java 中 Map 初始化的几种方法
# 传统方式 Map<String, String> map new HashMap<>(); map.put("k1", "v1"); map.put("k2", "v2");# java8新特性-双括号初始化 Map<String, String> map1 new HashMap<>() {{put("k1", "v…...
【学习方法论】学习的三种境界、三种习惯、三个要点,三个心态
学习的三种境界、三种习惯、三个要点,三个心态 三种学习境界 苦学 古人云:“头悬梁、锥刺股”,勤学苦练是第一境界。处于这种层次的同学,觉得学习枯燥无味,对他们来说学习是一种被迫行为,体会不到学习中的…...
[管理与领导-67]:IT基层管理者 - 辅助技能 - 4- 职业发展规划 - 评估你与公司的八字是否相合
目录 前言: 一、概述 二、八字相合的步骤 2.1 企业文化是否相合 2.2.1 企业文化对职业选择的意义 2.2.2 个人与企业三观不合的结果 2.2.3 什么样的企业文化的公司不能加入 2.2 公司的发展前景 2.3 公司所处行业发展 2.4 创始人的三观 2.5 创始人与上司的…...
【PMO项目管理】深入了解项目管理 | Stakeholder 利益相关者 | 利益相关者之间的立场差异
💭 写在前面:本文将带您深入了解项目管理的核心概念和关键要素。我们将从项目管理的基本理解开始,逐步探讨其领域、复杂性和变化的重点,以及项目管理的具体过程。我们还将研究项目的性质以及成功项目所必备的条件。在此过程中&…...
设计模式-原则篇-01.开闭原则
简介 可以把设计模式理解为一套比较成熟并且成体系的建筑图纸,经过多次编码检验目前看来使用效果还不错的软件设计方案。适用的场景也比较广泛,在使用具体的设计模式之前先要学习软件设计的基础 “软件设计原则”,后面的23个设计模式都是…...
JAVA毕业设计096—基于Java+Springboot+Vue的在线教育系统(源码+数据库+18000字论文)
基于JavaSpringbootVue的在线教育系统(源码数据库18000字论文)096 一、系统介绍 本系统前后端分离 本系统分为管理员、用户两种角色(管理员角色权限可自行分配) 用户功能: 注册、登录、课程预告、在线课程观看、学习资料下载、学习文章预览、个人信息管理、消息…...
windows环境搭建ELK
目录 资源下载(8.9.1) ES安装、注册、使用 Kibana安装、注册、使用 Logstash安装、注册、使用 Filebeat安装、使用(如果只有一个数据流,则不需要使用filebeat,直接上logstash即可) 资源下载࿰…...
langchain介绍之-Prompt
LangChain 是一个基于语言模型开发应用程序的框架。它使得应用程序具备以下特点:1.数据感知:将语言模型与其他数据源连接起来。2.代理性:允许语言模型与其环境进行交互 LangChain 的主要价值在于:组件:用于处理语言模型…...
汇编语言Nasmide编辑软件
用来编写汇编语言源程序,Windows 记事本并不是一个好工具。同时,在命令行编译源程序也令很多人迷糊。毕竟,很多年轻的朋友都是用着 Windows 成长起来的,他们缺少在 DOS和 UNIX 下工作的经历。 我一直想找一个自己中意的汇编语言编…...
用python开发一个炸金花小游戏
众所周知扑克牌可谓是居家旅行、桌面交友的必备道具, 今天我们用 Python 来实现一个类似炸金花的扑克牌小游戏,先来看一下基本的游戏规则。 炸(诈)金花又叫三张牌,是在全国广泛流传的一种民间多人纸牌游戏…...
Uniapp中使用uQRCode二维码跳转小程序页面
下载插件 uQRCode官网地址 引入插件 文件如下 //--------------------------------------------------------------------- // github https://github.com/Sansnn/uQRCode //---------------------------------------------------------------------let uQRCode = {};(functio…...
解决husky在mac下不生效的问题
目录 一、问题 1.1 问题描述 二、解决 2.1 解决 一、问题 1.1 问题描述 本文主要解决的问题是,husky在windows上正常生肖,但放到mac下后不生效的问题! 为了确保团队中提交代码的一致性,因此使用了 husky 作为提交的检测工具…...
如何在自动化测试中使用MitmProxy获取数据返回?
背景介绍 当我们在接口或UI自动化项目中,常常会出现这种现象——明明是正常请求,却无法获取到想要的数据返回。 比如: 场景A:页面是动态数据,第一次进入页面获取到的数据,和下次进入页面获取到的数据完全…...
达之云BI平台助力中国融通集团陕西军民服务社有限公司实现数字化运营
中国融通集团陕西军民服务社是一家大型综合类零售购物中心,公司目前管理系统运行了10年左右,面临系统新零售支持发展严重滞后,行业主流应用落地困难,如线上业务、到家业务、全渠道营销、电子发票、自助收银、扫码购、无感停车、未…...
Private market:借助ZK实现的任意计算的trustless交易
1. 引言 Private market,借助zk-SNARKs和以太坊来 隐私且trustlessly selling: 1)以太坊地址的私钥(ECDSA keypair)2)EdDSA签名3)Groth16 proof:借助递归性来匿名交易Groth16 proo…...
反序列化漏洞复现(typecho)
文章目录 执行phpinfogetshell 执行phpinfo 将下面这段代码复制到一个php文件,命名为typecho_1.0-14.10.10_unserialize_phpinfo.php,代码中定义的类名与typecho中的类相同,是它能识别的类: <?php class Typecho_Feed{const…...
接口测试中缓存处理策略
在接口测试中,缓存处理策略是一个关键环节,直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性,避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明: 一、缓存处理的核…...
Chapter03-Authentication vulnerabilities
文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...
Mac下Android Studio扫描根目录卡死问题记录
环境信息 操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象 在项目开发过程中,提示一个依赖外部头文件的cpp源文件需要同步,点…...
GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...
Linux --进程控制
本文从以下五个方面来初步认识进程控制: 目录 进程创建 进程终止 进程等待 进程替换 模拟实现一个微型shell 进程创建 在Linux系统中我们可以在一个进程使用系统调用fork()来创建子进程,创建出来的进程就是子进程,原来的进程为父进程。…...
用机器学习破解新能源领域的“弃风”难题
音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...
Proxmox Mail Gateway安装指南:从零开始配置高效邮件过滤系统
💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「storms…...
深入浅出Diffusion模型:从原理到实践的全方位教程
I. 引言:生成式AI的黎明 – Diffusion模型是什么? 近年来,生成式人工智能(Generative AI)领域取得了爆炸性的进展,模型能够根据简单的文本提示创作出逼真的图像、连贯的文本,乃至更多令人惊叹的…...
