A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。
知识增强的预训练语言模型综述
- 摘要
- 1 引言
- 2 背景
- 3 KE-PLMs用于NLU
- 4 KE-PLMs用于NLG
- 5 未来的方向
- 5.1 整合来自同质和异质来源的知识
- 5.2 探索多模态知识
- 5.3 提供可解释性证据
- 5.4 持续学习知识
- 5.5 优化将知识整合到大型模型中的效率
- 5.6 增加生成的结果的多样性
- 6 结论
摘要
预训练语言模型(PLM)通过自监督学习方法在大文本语料库上进行训练,在自然语言处理(NLP)的各种任务中都取得了良好的性能。然而,尽管具有巨大参数的PLM可以有效地拥有从大量训练文本中学习到的丰富知识,并在微调阶段有利于下游任务,但由于缺乏外部知识,它们仍然存在一些局限性,如推理能力差。研究一直致力于将知识纳入PLM,以解决这些问题。在本文中,我们对知识增强预训练语言模型(KE-PLM)进行了全面的综述,以对这一蓬勃发展的领域提供清晰的见解。我们分别为自然语言理解(NLU)和自然语言生成(NLG)引入了适当的分类法,以突出NLP的这两个主要任务。对于NLU,我们将知识类型分为四类:语言知识、文本知识、知识图谱和规则知识。NLG的KE PLM分为基于KG的方法和基于检索的方法。最后,我们指出了KE PLM的一些有前景的未来方向。
1 引言
2 背景
3 KE-PLMs用于NLU
4 KE-PLMs用于NLG
5 未来的方向
在本节中,我们提出了未来KE PLM的一些可能的研究方向,这些方向可能会解决现有的问题和挑战。
5.1 整合来自同质和异质来源的知识
由于现有的工作大多只利用单一来源的知识,如知识图谱或网络资源,探索如何整合异构来源的知识仍然是未来研究的一个有价值的方向。
正如我们在上一节中所介绍的,一些先前的工作试图结合不同类型的知识来提高问答的性能。例如,UniKQA在知识库中集成了外部知识,包括文本、表和关系三元组。通过将知识库三元组和半结构化表等异构知识源线性化为文本的启发式方法,将知识库中涉及的结构化知识和文本中涉及的非结构化知识统一起来,扩展了外部知识的来源。UDT-QA将知识图谱和表格等结构化知识引入到开放域问答中,并将其转换为线性序列,作为文本生成任务的输入。
在开放域问答领域,提高PLM集成多个知识源的能力可以有效地增加知识覆盖率,使模型能够生成更可靠的答案。
5.2 探索多模态知识
目前的研究大多只关注多模态来源较少的文本知识。事实上,除了文本和列表信息之外,图像、视频和音频也可以成为PLM的知识来源,这可以进一步提高KE PLM的性能。
一些研究探索了整合多模态知识。代表作包括KB-VLP和ERNIE-VIL。KB-VLP基于输入的文本和图像从外部知识库中提取知识信息,并将知识作为额外的输入,以增强模型的语义对齐和知识感知能力。ERNIE-VIL将图像的输入描述文本解析为结构化场景图,并设计跨模态预训练任务,以关注视觉和语言模态之间的详细语义对齐。
由于图像和相关文本包含丰富的语义,注入这些不同的知识模式和对细节语义的关注可以使它们相互补充和增强,这将提高PLM在NLU和NLG任务中的性能。
5.3 提供可解释性证据
尽管许多现有的KE PLM在一系列文本生成任务上取得了巨大成功,但不应忽视的是,如果生成过程需要常识性知识推理,模型的性能将受到影响。
一些工作试图解决这个问题。例如,GRF利用外部知识图谱进行显式常识推理,并结合丰富的结构信息,以便在多个关系路径上执行动态多跳推理。在此过程中获得的推理路径为结果的生成提供了理论基础。这项工作表明,给出一条明确的推理路径将有助于提高模型的可解释性,使预测更加合理。
5.4 持续学习知识
现有工作通常在预训练阶段根据大量静态或未更新的数据进行训练。但模型在面对新任务时可能会忘记以前学到的原始知识,这使它们容易受到一种称为灾难性遗忘问题的现象的影响。随着异质性知识的不断增长,探索使模型在掌握新知识的同时不忘记过去学到的知识的方法,需要不断学习(也称为终身学习)来不断整合各种知识。
ELLE提出了一个维护网络功能的扩展模块,以扩展模型的宽度和深度,使模型能够有效地获取新知识,同时在更大程度上保留旧知识。K-adapter和KB-adapter将适配器添加到PLM中,以存储事实和语言知识,从而不断地将更多的知识融入PLM中。
不断地整合知识是未来研究的一个很有前途的方向。持续和不断增加的预训练的应用将有效地提高PLM的普遍性,并在融入更多知识的同时解决灾难性遗忘问题。
5.5 优化将知识整合到大型模型中的效率
近年来,预训练模型和知识注入的规模越来越大,从而给计算效率和计算资源带来了不可忽视的严峻挑战。尽管现有的大多数工作在各种预训练任务中都取得了良好的效果,但很少有研究提到在此过程中知识融合的成本。
鉴于这一挑战,我们提出以下两个可能的方向,可能值得进一步探索:一是提高知识获取和过滤的效率,二是优化计算负担。
现有的工作,如ZeRO,已经在第二个领域进行了探索。基于传统的数据并行训练模式,ZeRO通过将模型的参数、梯度和优化器状态划分为不同的过程,深度优化冗余空间,消除冗余占用的内存。
5.6 增加生成的结果的多样性
生成替代输出或预测真实情况下的所有可能结果是NLG的一个重要研究方向,这也是生成常识推理任务中输出多样性的目的。现有的工作,如MoKGE,使用常识知识图谱的多样化知识推理来完成NLG的多样化生成。基于对人类注释的观察,将与原始输入相关的概念关联到生成过程中,并使用专家方法的混合生成多样化的合理输出,从而增加生成结果的多样性。
6 结论
在这项调查中,我们从NLU和NLG的角度对KEPLM进行了全面的综述,并分别为NLU和NLG提出了适当的分类法,以突出它们的不同重点。我们还讨论了分类法中的代表作。最后,针对存在的问题和挑战,我们讨论了KE PLMs未来潜在的研究方向,希望能促进这一领域的相关研究。
相关文章:
A Survey of Knowledge-Enhanced Pre-trained Language Models
本文是LLM系列的文章,针对《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻译。 知识增强的预训练语言模型综述 摘要1 引言2 背景3 KE-PLMs用于NLU4 KE-PLMs用于NLG5 未来的方向5.1 整合来自同质和异质来源的知识5.2 探索多模态知识5.3 提供可…...
动态规划(选择)
链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 作为队伍的核心,forever97很受另外两个队友的尊敬。 Trote_w每天都要请forever97吃外卖,但很不幸的是宇宙中心forever97所在的学校周围只有3家forever97爱吃的外卖。 如果T…...

IIS WebDAV配置,https绑定及asp设置
IIS支持标准CGI,因此可以用程序语言针对STDIN和STDOUT开发。 IIS CGI配置和CGI程序FreeBasic, VB6, VC 简单样例_Mongnewer的博客-CSDN博客 IIS支持脚本解释CGI,因此可以用脚本语言针对STDIN和STDOUT开发。 IIS perl python cbrother php脚本语言配置…...

【计算机视觉项目实战】中文场景识别
✨专栏介绍: 经过几个月的精心筹备,本作者推出全新系列《深入浅出OCR》专栏,对标最全OCR教程,具体章节如导图所示,将分别从OCR技术发展、方向、概念、算法、论文、数据集等各种角度展开详细介绍。 👨&…...
Java 中 Map 初始化的几种方法
# 传统方式 Map<String, String> map new HashMap<>(); map.put("k1", "v1"); map.put("k2", "v2");# java8新特性-双括号初始化 Map<String, String> map1 new HashMap<>() {{put("k1", "v…...
【学习方法论】学习的三种境界、三种习惯、三个要点,三个心态
学习的三种境界、三种习惯、三个要点,三个心态 三种学习境界 苦学 古人云:“头悬梁、锥刺股”,勤学苦练是第一境界。处于这种层次的同学,觉得学习枯燥无味,对他们来说学习是一种被迫行为,体会不到学习中的…...

[管理与领导-67]:IT基层管理者 - 辅助技能 - 4- 职业发展规划 - 评估你与公司的八字是否相合
目录 前言: 一、概述 二、八字相合的步骤 2.1 企业文化是否相合 2.2.1 企业文化对职业选择的意义 2.2.2 个人与企业三观不合的结果 2.2.3 什么样的企业文化的公司不能加入 2.2 公司的发展前景 2.3 公司所处行业发展 2.4 创始人的三观 2.5 创始人与上司的…...

【PMO项目管理】深入了解项目管理 | Stakeholder 利益相关者 | 利益相关者之间的立场差异
💭 写在前面:本文将带您深入了解项目管理的核心概念和关键要素。我们将从项目管理的基本理解开始,逐步探讨其领域、复杂性和变化的重点,以及项目管理的具体过程。我们还将研究项目的性质以及成功项目所必备的条件。在此过程中&…...

设计模式-原则篇-01.开闭原则
简介 可以把设计模式理解为一套比较成熟并且成体系的建筑图纸,经过多次编码检验目前看来使用效果还不错的软件设计方案。适用的场景也比较广泛,在使用具体的设计模式之前先要学习软件设计的基础 “软件设计原则”,后面的23个设计模式都是…...

JAVA毕业设计096—基于Java+Springboot+Vue的在线教育系统(源码+数据库+18000字论文)
基于JavaSpringbootVue的在线教育系统(源码数据库18000字论文)096 一、系统介绍 本系统前后端分离 本系统分为管理员、用户两种角色(管理员角色权限可自行分配) 用户功能: 注册、登录、课程预告、在线课程观看、学习资料下载、学习文章预览、个人信息管理、消息…...

windows环境搭建ELK
目录 资源下载(8.9.1) ES安装、注册、使用 Kibana安装、注册、使用 Logstash安装、注册、使用 Filebeat安装、使用(如果只有一个数据流,则不需要使用filebeat,直接上logstash即可) 资源下载࿰…...

langchain介绍之-Prompt
LangChain 是一个基于语言模型开发应用程序的框架。它使得应用程序具备以下特点:1.数据感知:将语言模型与其他数据源连接起来。2.代理性:允许语言模型与其环境进行交互 LangChain 的主要价值在于:组件:用于处理语言模型…...

汇编语言Nasmide编辑软件
用来编写汇编语言源程序,Windows 记事本并不是一个好工具。同时,在命令行编译源程序也令很多人迷糊。毕竟,很多年轻的朋友都是用着 Windows 成长起来的,他们缺少在 DOS和 UNIX 下工作的经历。 我一直想找一个自己中意的汇编语言编…...

用python开发一个炸金花小游戏
众所周知扑克牌可谓是居家旅行、桌面交友的必备道具, 今天我们用 Python 来实现一个类似炸金花的扑克牌小游戏,先来看一下基本的游戏规则。 炸(诈)金花又叫三张牌,是在全国广泛流传的一种民间多人纸牌游戏…...

Uniapp中使用uQRCode二维码跳转小程序页面
下载插件 uQRCode官网地址 引入插件 文件如下 //--------------------------------------------------------------------- // github https://github.com/Sansnn/uQRCode //---------------------------------------------------------------------let uQRCode = {};(functio…...

解决husky在mac下不生效的问题
目录 一、问题 1.1 问题描述 二、解决 2.1 解决 一、问题 1.1 问题描述 本文主要解决的问题是,husky在windows上正常生肖,但放到mac下后不生效的问题! 为了确保团队中提交代码的一致性,因此使用了 husky 作为提交的检测工具…...

如何在自动化测试中使用MitmProxy获取数据返回?
背景介绍 当我们在接口或UI自动化项目中,常常会出现这种现象——明明是正常请求,却无法获取到想要的数据返回。 比如: 场景A:页面是动态数据,第一次进入页面获取到的数据,和下次进入页面获取到的数据完全…...

达之云BI平台助力中国融通集团陕西军民服务社有限公司实现数字化运营
中国融通集团陕西军民服务社是一家大型综合类零售购物中心,公司目前管理系统运行了10年左右,面临系统新零售支持发展严重滞后,行业主流应用落地困难,如线上业务、到家业务、全渠道营销、电子发票、自助收银、扫码购、无感停车、未…...

Private market:借助ZK实现的任意计算的trustless交易
1. 引言 Private market,借助zk-SNARKs和以太坊来 隐私且trustlessly selling: 1)以太坊地址的私钥(ECDSA keypair)2)EdDSA签名3)Groth16 proof:借助递归性来匿名交易Groth16 proo…...

反序列化漏洞复现(typecho)
文章目录 执行phpinfogetshell 执行phpinfo 将下面这段代码复制到一个php文件,命名为typecho_1.0-14.10.10_unserialize_phpinfo.php,代码中定义的类名与typecho中的类相同,是它能识别的类: <?php class Typecho_Feed{const…...

超短脉冲激光自聚焦效应
前言与目录 强激光引起自聚焦效应机理 超短脉冲激光在脆性材料内部加工时引起的自聚焦效应,这是一种非线性光学现象,主要涉及光学克尔效应和材料的非线性光学特性。 自聚焦效应可以产生局部的强光场,对材料产生非线性响应,可能…...
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以?
Golang 面试经典题:map 的 key 可以是什么类型?哪些不可以? 在 Golang 的面试中,map 类型的使用是一个常见的考点,其中对 key 类型的合法性 是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

(二)TensorRT-LLM | 模型导出(v0.20.0rc3)
0. 概述 上一节 对安装和使用有个基本介绍。根据这个 issue 的描述,后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作,其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...
python如何将word的doc另存为docx
将 DOCX 文件另存为 DOCX 格式(Python 实现) 在 Python 中,你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是,.doc 是旧的 Word 格式,而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...

用docker来安装部署freeswitch记录
今天刚才测试一个callcenter的项目,所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台 编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...

Reasoning over Uncertain Text by Generative Large Language Models
https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述 文本中的不确定性在许多语境中传达,从日常对话到特定领域的文档(例如医学文档)(Heritage 2013;Landmark、Gulbrandsen 和 Svenevei…...
为什么要创建 Vue 实例
核心原因:Vue 需要一个「控制中心」来驱动整个应用 你可以把 Vue 实例想象成你应用的**「大脑」或「引擎」。它负责协调模板、数据、逻辑和行为,将它们变成一个活的、可交互的应用**。没有这个实例,你的代码只是一堆静态的 HTML、JavaScript 变量和函数,无法「活」起来。 …...

渗透实战PortSwigger Labs指南:自定义标签XSS和SVG XSS利用
阻止除自定义标签之外的所有标签 先输入一些标签测试,说是全部标签都被禁了 除了自定义的 自定义<my-tag onmouseoveralert(xss)> <my-tag idx onfocusalert(document.cookie) tabindex1> onfocus 当元素获得焦点时(如通过点击或键盘导航&…...