当前位置：首页 > news >正文

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

news 2025/7/7 18:10:48

原文链接：

https://aclanthology.org/2022.findings-acl.124.pdf

ACL 2022

介绍

问题

目前基于span的跨度量学习（metric learning）的方法存在一些问题：

1）由于是通过枚举来生成span，因此在解码的时候需要额外处理重叠的span；

2）non-entites类别的原型通常都是噪声；

3）跨域时，最有用的信息就是当前领域有限的样本，之前的方法只将这些样本用于分类的相似性计算。

IDEA

作者提出分解元学习（decomposed meta-learning）的方法来解决Few-shot ner任务（实体的边界检测和实体的分类）。

将span检测作为序列标注问题，并通过引入MAML（model-agnostic metalearning 不是很懂可以参考这篇文章Model-Agnostic Meta-Learning （MAML）模型介绍及算法详解 - 知乎）训练span detector，从而找到一个能快速适应新实体类别的模型参数进行初始化；对于实体分类，作者提出MAML-ProtoNet来找到一个合适的向量空间对不同类别的span进行分类。

方法

整个方法的整体结构如下所示：

Entity span Detection

span detection模型用于定位输入句子中的实体，该模块是类别无关的，学到的只是实体的边界信息（即领域不变的内部特征，而不是特定的领域信息），因此就能跨域进行实体定位。

Basci Detector

作者使用BIOES标注框架，给定一个有L个token的序列，使用encoder $f_{\theta }$ 来获得所有token的上下文表征，对于每个token 使用一个线性分类层来计算其是否是实体的一部分；

模型的损失如下所示：

使用每个token的交叉熵损失，这里引入最大值是为了缓解损失相对较高的token导致的学习不充分问题。推理阶段，通过Viterbi算法进行解码。

Meta-Learning Procedure

在该阶段，作者对边界检测模型进行训练。

首先，从train数据集中进行随机采样得到，对模型执行inner-update：

其中 $U^{n}$ 表示在学习率为α时n步的梯度更新，来最小化loss（公式3）。

然后在query set中对更新后的模型进行评估，同时通过汇总多个时间来执行meta-update：

上式中的二阶导数，使用其一阶近似值进行估算：

meta-test阶段，首先将在support set上训练好的span detection迁移到新领域，然后对query样本进行相应的预测。

Entity Typing

Basic Model: ProtoNet

给定输入序列L：，用公式1的方法计算word embedding hi，并按以下方式计算span的表征：

对于每个类别yk，使用这个support set中属于该类别的所有span来计算原型ck：

训练过程中，首先使用support set中的训练数据计算所有类别的原型，然后对于query set中的每个span，通过计算其表征与每个类别原型ck的距离来得到属于每个类别的分数：

最小化分类的交叉熵损失来训练原型网络：

推理阶段，首先利用训练好的模型计算所有训练集中所有类别的原型，然后使用边界检测模型得到span，按照公式10为每个span进行分类：

MAML Enhanced ProtoNet

在训练集中进行随机采样，得到。对于inner-update，首先为每个类别计算原型，然后将每个span作为query对模型参数进行更新：

在meta-update阶段，使用 $\gamma {}'$ 重新计算每个类别的原型，即在query set上对r进行验证，同样的使用一阶导数近似值提高计算效率：

训练过程中没有见过的数据，首先利用support中的样本来对meta-learned的模型进行微调，微调好后再计算每个类别的原型，最后基于这些原型进行分类。

实验

对比实验

在Intra和Inter这两种数据设置下进行实验，结果如下图所示：

在Cross-Dataset数据集上进行实验，结果如下所示：

消融实验

对主要模块进行了消融实验，结果如下所示：

其他

对不同类别的span表征进行了可视化：

结论

这篇论文没有很看懂，去看了以下Meta-learning的相关内容也没有很明白，似乎就是meta-learning就是为模型训练出一个更合适的参数，使其能够更快的应用于新领域。上周看的一篇论文感觉跟这篇很像，不过不知道是不是在Few-shot ner中用原型学习的很多，感觉还挺像的。

相关文章：

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

原文链接： https://aclanthology.org/2022.findings-acl.124.pdf ACL 2022 介绍问题目前基于span的跨度量学习（metric learning）的方法存在一些问题： 1）由于是通过枚举来生成span，因此在解码的时候需要额…...

编程日记 2023/10/26 20:42:27

C++经典面试题：内存泄露是什么？如何排查？

1.内存泄露的定义：内存泄漏简单的说就是申请了⼀块内存空间，使⽤完毕后没有释放掉。它的⼀般表现⽅式是程序运⾏时间越⻓，占⽤内存越多，最终⽤尽全部内存，整个系统崩溃。由程序申请的⼀块内存，且没有任何⼀…...

编程日记 2023/10/26 20:41:26

Hadoop+Hive+Spark+Hbase开发环境练习

1.练习一 1.数据准备在hdfs上创建文件夹，上传csv文件 [rootkb129 ~]# hdfs dfs -mkdir -p /app/data/exam 查看csv文件行数 [rootkb129 ~]# hdfs dfs -cat /app/data/exam/meituan_waimai_meishi.csv | wc -l 2.分别使用 RDD和 Spark SQL 完成以下分析&#xf…...

编程日记 2023/10/26 20:40:25

使用Spring Boot限制在一分钟内某个IP只能访问10次

有些时候，为了防止我们上线的网站被攻击，或者被刷取流量，我们会对某一个ip进行限制处理，这篇文章，我们将通过Spring Boot编写一个小案例，来实现在一分钟内同一个IP只能访问10次，当然具体数值&am…...

编程日记 2023/10/26 20:39:24

ES 数据迁移最佳实践

ES 数据迁移最佳实践与讲解数据迁移是 Elasticsearch 运维管理和业务需求中常见的操作之一。以下是不同数据迁移方法的最佳实践和讲解： 一、数据迁移需求梳理二、数据迁移方法梳理三、各方案对比方案优点缺点（限制） 适用场景是否有…...

编程日记 2023/10/26 20:37:17

C++中低级内存操作

C中低级内存操作 C相较于C有一个巨大的优势，那就是你不需要过多地担心内存管理。如果你使用面向对象的编程方式，你只需要确保每个独立的类都能妥善地管理自己的内存。通过构造和析构，编译器会帮助你管理内存，告诉你什么时候需要进…...

编程日记 2023/10/26 20:36:17

Linux硬盘大小查看命令全解析 (linux查看硬盘大小命令)

Linux操作系统是一款广泛应用于服务器和嵌入式设备的操作系统，相比于Windows等其他操作系统，Linux的优点之一就是支持强大的命令行操作。在日常操作中，了解和掌握一些简单但实用的命令可以提高工作效率。比如硬盘大小查看命令，在L…...

编程日记 2023/10/26 20:35:15

什么是供应链金融？

一、供应链金融产生背景供应链金融兴起的起源来自于供应链管理一个产品生产过程分为三个阶段：原材料 - 中间产品 - 成产品。由于技术进步需求升级，生产过程从以前的企业内分工，转变为企业间分工。那么整个过程演变了如今的供应链管理流程&a…...

编程日记 2023/10/26 20:34:14

Qt之实现支持多选的QCombobox

一.效果 1.点击下拉列表的复选框区域 2.点击下拉列表的非复选框区域二.实现 QHCustomComboBox.h #ifndef QHCUSTOMCOMBOBOX_H #define QHCUSTOMCOMBOBOX_H#include <QLineEdit> #include <QListWidget> #include <QCheckBox> #include <QComboBox>…...

编程日记 2023/10/26 20:33:13

【UI设计】Figma_“全面”快捷键

目录 1.快捷键与键位（mac与windows）2.基础快捷键3.操作区快捷键3.1视图3.2文字3.3选项3.4图层3.5组件 4.特殊技巧 Figma 是一个基于浏览器的协作式 UI 设计工具。【https://www.figma.com/】 Figma Sketch（UI 设计） InVision&a…...

编程日记 2023/10/26 20:32:12

计算机网络(谢希仁)第八版课后题答案(第一章)

1.计算机网络可以向用户提供哪些服务连通性:计算机网络使上网用户之间可以交换信息，好像这些用户的计算机都可以彼此直接连通一样。共享:指资源共享。可以是信息、软件，也可以是硬件共享。 2.试简述分组交换的要点采用了存储转发技术。把报文(要发…...

编程日记 2023/10/26 20:31:10

argparse模块介绍

argparse是一个Python模块：命令行选项、参数和子命令解析器。argparse 模块可以让人轻松编写用户友好的命令行接口。程序定义了所需的参数，而 argparse 将找出如何从 sys.argv （命令行）中解析这些参数。argparse 模块还会自动生成…...

编程日记 2023/10/26 20:30:09

分布式、集群、微服务

分布式是以缩短单个任务的执行时间来提升效率的；而集群则是通过提高单位时间内执行的任务数来提升效率。分布式是指将不同的业务分布在不同的地方。集群指的是将几台服务器集中在一起，实现同一业务。分布式中的每一个节点，都可以做集群…...

编程日记 2023/10/26 20:29:08

Android Studio的debug和release模式及签名配置

Android Studio的两种模式及签名配置使用Android Studio 运行我们的app，无非两种模式：debug和release模式。 https://www.cnblogs.com/details-666/p/keystore.html...

编程日记 2023/10/26 20:28:07

【深蓝学院】手写VIO第8章--相机与IMU时间戳同步--笔记

0. 内容 1. 时间戳同步问题及意义时间戳同步的原因：如果不同步，由于IMU频率高，可能由于时间戳不同步而导致在两帧camera之间的时间内用多了或者用少了IMU的数据，且时间不同步会导致我们首尾camera和IMU数据时间不同，…...

编程日记 2023/10/26 20:27:06

【Java集合类面试二十一】、请介绍TreeMap的底层原理

文章底部有个人公众号：热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享？ 踩过的坑没必要让别人在再踩，自己复盘也能加深记忆。利己利人、所谓双赢。面试官：请介绍TreeMap的底层原理…...

编程日记 2023/10/26 20:26:04

Go语言Channel

在本教程中，我们将讨论Channel以及 Goroutines 如何使用Channel进行通信。什么是Channel Channel可以被认为是 Goroutine 用来进行通信的管道。与水在管道中从一端流向另一端的方式类似，可以使用Channel从一端发送数据并从另一端接收数据。声明Chan…...

编程日记 2023/10/26 20:25:01

java 编译引用 jar 包进行编译和执行编译后的class文件

编译java文件 javac -encoding UTF-8 -Djava.ext.dirs./ -d . ./FtpTest.java 执行编译class文件 java -Djava.ext.dirs./ com.util.FtpTest com.util为包路径...

编程日记 2023/10/26 20:22:59

Linux系统之部署Tale个人博客系统

Linux系统之部署Tale个人博客系统一、Tale介绍1.1 Tale简介1.2 Tale特点二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本四、部署Tale个人博客系统4.1 下载Tale源码4.2 查看Tale源码目录4.3 查看安装脚本内…...

编程日记 2023/10/26 20:21:58

【跟小嘉学 Rust 编程】三十三、Rust的Web开发框架之一: Actix-Web的基础

系列文章目录【跟小嘉学 Rust 编程】一、Rust 编程基础【跟小嘉学 Rust 编程】二、Rust 包管理工具使用【跟小嘉学 Rust 编程】三、Rust 的基本程序概念【跟小嘉学 Rust 编程】四、理解 Rust 的所有权概念【跟小嘉学 Rust 编程】五、使用结构体关联结构化数据【跟小嘉学…...

编程日记 2023/10/26 20:20:57

多云管理“拦路虎”：深入解析网络互联、身份同步与成本可视化的技术复杂度

一、引言：多云环境的技术复杂性本质企业采用多云策略已从技术选型升维至生存刚需。当业务系统分散部署在多个云平台时，基础设施的技术债呈现指数级积累。网络连接、身份认证、成本管理这三大核心挑战相互嵌套：跨云网络构建数据…...

编程新知 2025/7/7 10:44:29

地震勘探——干扰波识别、井中地震时距曲线特点

目录干扰波识别反射波地震勘探的干扰波井中地震时距曲线特点干扰波识别有效波：可以用来解决所提出的地质任务的波；干扰波：所有妨碍辨认、追踪有效波的其他波。地震勘探中，有效波和干扰波是相对的。例如，在反射波…...

编程新知 2025/7/1 10:09:55

Linux链表操作全解析

Linux C语言链表深度解析与实战技巧一、链表基础概念与内核链表优势1.1 为什么使用链表？1.2 Linux 内核链表与用户态链表的区别二、内核链表结构与宏解析常用宏/函数三、内核链表的优点四、用户态链表示例五、双向循环链表在内核中的实现优势5.1 插入效率5.2 安全…...

编程新知 2025/6/21 5:31:03

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形总结前言学习内容：参考网站： PID算法控制 PID即：Proportional（比例）、Integral（积分&…...

编程新知 2025/7/7 0:41:18

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2025/7/6 21:03:33

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/7/7 4:15:57

el-switch文字内置

el-switch文字内置效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...

编程新知 2025/7/5 19:21:32

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/7/7 0:36:50

srs linux

下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口默认RTMP接收推流端口是1935，SRS管理页面端口是8080，可…...

编程新知 2025/7/7 0:36:48

C++中string流知识详解和示例

一、概览与类体系 C 提供三种基于内存字符串的流，定义在 <sstream> 中： std::istringstream：输入流，从已有字符串中读取并解析。std::ostringstream：输出流，向内部缓冲区写入内容，最终取…...

编程新知 2025/7/6 21:24:58