数据分析与知识发现 论文阅读【信息抽取】
文章目录
- 基于知识蒸馏的半监督古籍实体抽取
- 数据集
- 模型
- 实验结果
- 基于大语言模型的专利命名实体识别方法研究
- 数据集
- 评估公式
- 实验
- 基于数据增强和多任务学习的突发公共卫生事件谣言识别研究
- 数据集
- 实验结果
- 参考
基于知识蒸馏的半监督古籍实体抽取

数据集
本文在有监督数据集的基础上构建了两个自标注数据集。通过采用不同组合形式的训练数据微调学生模型,并在两个测试数据集上进行评估。词典知识教师模型和生成式知识教师模型获得的数据仅被用于训练阶段微调学生模型。验证集和测试集的构建,则通过从有监督数据中随机抽取样本来完成。

- 中国古代语料库:https://catalog.ldc.upenn.edu/LDC2017T14
- GuNer2023:https://guner2023.pkudh.org/
下述是他们使用大模型标注的数据集:

模型

这个教师模型实质上做的是数据增强的工作。在句子中,把同一类的实体进行替换。
在表述中提到挑选字典长度一致的ekt 进行替换,这里的长度一致,我认为是作者不想花时间去修改label。

他们提到了使用BIO标记,我个人认为实体抽取的BIO标记还没学过的就不用学了,因为现在是大模型生成式的时代。
实验结果

基于大语言模型的专利命名实体识别方法研究

数据集

L.Chen 等[14]收集了专利领域和通用领域具有代表性的七个命名实体标注数据集
数据集构造过程:

给每个实体的类型加入提示词,这一部分的提示词很难写。如果写的不好,反而效果还不如不写这个类型的说明信息。因为人所有理解的类型,与数据集中真实的类型情况可能会有偏差,反而导致加了类型说明的效果会下降。
评估公式
看到评估公式的一种新写法:

实验

看横坐标,第一个是Lora,其后都是不微调的基于示例的上下文学习。
论文原文:
在摘要层级任务上,LoRA 微调后的命名实体效果甚至低于仅使用 1 个示例的上下文学习方法;但在句子层级任务上,LoRA微调效果明显,虽然准确率
依然低于仅使用 1 个示例的上下文学习方法,但在召回率和 F1 值上获得最高得分。这表明微调指令的文本长度越长,大语言模型理解起来就越困难,高效微
调的提升效果就越小。
LoRA的微调效果不如提示学习,我猜测这是因为他们的微调的效果不好。(我感觉问题出在他们的LoRA微调上。根据我以往的LoRA微调经验,LoRA微调的效果要远远超过上下文学习)
现在的大模型,比如 deepseek-r1,由于使用到了强化学习,参杂很多上下文示例反而效果不会很好。基于示例的上下文学习,还有一个问题,会导致大模型混淆示例文本与要完成抽取的文本,我就遇到在ollama 7B的模型中,一些抽取出来的实体来自于前面的示例文本。
上下文示例的数量与样例的筛选,都是前一段时间热衷做的工作。这部分现在不是一个必须学的内容。
题外话:大模型抽取实体,我想起来在 EMNLP会议论文中,有一篇论文是这么做的:开源本地推理先推理一遍,再调用闭源模型再推理一遍。因为开源模型本地推理速度快,闭源模型的实力更强大可以起到最终把关的作用。
基于数据增强和多任务学习的突发公共卫生事件谣言识别研究

主要看看CEDA方法是怎么做数据增强的。


数据集
哈尔滨工业大学社会计算与信息检索研究中心《同义词词林(扩展版)》[1]进行扩展,基于扩展同义词表进行同义词替换。
对CHECKED数据集[2]和腾讯事实核查平台[3]中的1062条突发公共卫生事件谣言文本进行主题、词频和权重分析。
- [1] https://www.ltp-cloud.com/download
- [2] https://github.com/cyang03/CHECKED
- [3] https://vp.fact.qq.com/home

CEDA 数据增强示例:

实验结果
在数据增强的过程中,他们分别对每一种数据增强的方法都做了实验。
图2 探索了不同的文本改变率,对F1值的影响。

表8 基于图2每种方法最佳的文本改变率进行的实验评估。

参考
- 论文下载自 中国知网
相关文章:
数据分析与知识发现 论文阅读【信息抽取】
文章目录 基于知识蒸馏的半监督古籍实体抽取数据集模型实验结果 基于大语言模型的专利命名实体识别方法研究数据集评估公式实验 基于数据增强和多任务学习的突发公共卫生事件谣言识别研究数据集实验结果 参考 基于知识蒸馏的半监督古籍实体抽取 数据集 本文在有监督数据集的基…...
Compose组件转换XML布局
文章目录 学习JetPack Compose资源前言:预览界面的实现Compose组件的布局管理一、Row和Colum组件(LinearLayout)LinearLayout(垂直方向 → Column)LinearLayout(水平方向 → Row) 二、相对布局 …...
Linux开发工具——vim
📝前言: 上篇文章我们讲了Linux开发工具——apt,这篇文章我们来讲讲Linux开发工具——vim 🎬个人简介:努力学习ing 📋个人专栏:Linux 🎀CSDN主页 愚润求学 🌄其他专栏&a…...
Vue3学习二
认识组件的嵌套 还可以将Main中内容再划分 scoped防止组件与组件之间的样式相互污染 组件的通信 父子组件之间通信的方式 父组件传递给子组件 给传过来的内容做限制 type为传的内容的属性类型,required为true表示该内容是必须传的,default为,…...
[ deepseek 指令篇章 ]300个领域和赛道喂饭级deepseek指令
🍬 博主介绍 👨🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…...
2024第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组
记录刷题的过程、感悟、题解。 希望能帮到,那些与我一同前行的,来自远方的朋友😉 大纲: 1、握手问题-(解析)-简单组合问题(别人叫她 鸽巢定理)😇,感觉叫高级了…...
C++ | C++11知识点
前言: 本篇内容讲述了C11中比较重要的内容为:右值引用、可变参数模板、lambda表达式和包装器。 ps:包装器博主在另一篇文章讲述的,本篇文章包装器板块为原文链接。 C11知识点目录 花括号初始化自定义类型的花括号初始化内…...
LeetCode 1123.最深叶节点的最近公共祖先 题解
昨天写了三题,今天目前为止写了一题,玩了会游戏稍微休息了下 先来理解一下今天的题目,今天的题目类型是递归遍历找最深位置,先通过几个样例了解一下 输入:root [3,5,1,6,2,0,8,null,null,7,4] 输出:[2,7,…...
C++设计模式-责任链模式:从基本介绍,内部原理、应用场景、使用方法,常见问题和解决方案进行深度解析
一、责任链模式的基本介绍 1.1 模式定义与核心思想 责任链模式(Chain of Responsibility Pattern)是一种行为型设计模式,其核心思想是将请求的发送者和接收者解耦。通过创建一个由多个处理节点组成的链条,每个节点依次尝试处理请…...
工具介绍 | SafeLLMDeploy教程来了 保护本地LLM安全部署
SafeLLMDeploy:保护本地大语言模型安全部署的“守护者” 在AI技术飞速发展的今天,大语言模型(LLM)如GPT、DeepSeek等正以前所未有的方式改变着我们的工作和生活。然而,本地部署这些强大的AI系统在带来便利的同时&…...
我该怎么设置SVN客户端的认证信息?
设置SVN客户端的认证信息通常取决于您使用的SVN客户端类型(命令行客户端或图形界面客户端)。以下是一些常见SVN客户端的设置方法: 1. 使用命令行SVN客户端 对于命令行SVN客户端,您通常在执行SVN命令时直接输入用户名和密码&…...
机器学习-04-分类算法-03KNN算法案例
实验名称 K近邻算法实现葡萄酒分类 实验目的 通过未知品种的拥有13种成分的葡萄酒,应用KNN分类算法,完成葡萄酒分类; 熟悉K近邻算法应用的一般过程; 通过合理选择K值从而提高分类得到正确率; 实验背景 本例实验…...
AIP-213 通用组件
编号213原文链接AIP-213: Common components状态批准创建日期2018-08-17更新日期2018-08-17 根据AIP-215规定,除使用“通用组件”包之外,API必须是独立的。通用组件包是给多个API使用的。 通用组件包有两种类型: 组织特定的通用组件&#…...
Go语言-初学者日记(七):用 Go 写一个 RESTful API 服务!
👷 实践是最好的学习方式!这一篇我们将用 Go Gin 框架从零开始开发一个用户管理 API 服务。你将学到: 如何初始化项目并引入依赖如何组织目录结构如何用 Gin 实现 RESTful 接口如何通过 curl 测试 API进阶功能拓展建议 🧰 一、项…...
Java 搭建 MC 1.18.2 Forge 开发环境
推荐使用 IDEA 插件 Minecraft Development 进行创建项目 创建完成后即可进行 MOD 开发。 但是关于 1.18.2 的开发教程太少,因此自己研究了一套写法,写法并非是最优的但是是探索开发MOD中的一次笔记和记录 GITHUB: https://github.com/zimoyin/zhenfa…...
计算机网络知识点汇总与复习——(三)数据链路层
Preface 计算机网络是考研408基础综合中的一门课程,它的重要性不言而喻。然而,计算机网络的知识体系庞大且复杂,各类概念、协议和技术相互关联,让人在学习时容易迷失方向。在进行复习时,面对庞杂的的知识点,…...
Verilog HDL 100道面试题及参考答案
目录 Verilog HDL 的四种基本逻辑值是什么? 关键字 reg 和 wire 的主要区别是什么? 解释阻塞赋值(=)与非阻塞赋值(<=)的区别,并举例说明。 如何声明一个双向端口(inout)? 位拼接操作符是什么?举例说明其用法。 拼接信号和常量 拼接常量和信号 重复拼接 以…...
内网(域)渗透测试流程和模拟测试day--5--Windows和Linux的提权
前景: 小知识: 认识一下土豆家族 是指一系列利用 Windows 系统漏洞实现提权的工具或方法,起源于 JuicyPotato。这些工具大多利用 COM 对象和服务中的权限提升漏洞,主要用于在 Windows 环境中从中低权限(如普通用户&…...
主机和虚拟机间的网络通信
参考:Vmware虚拟机三种网络模式详解 - 林加欣 - 博客园 (cnblogs.com) 虚拟机配置 一般额外配置有线和无线网络 桥接模式 虚拟机和主机之间是同一个网络,用一根线连接了虚拟机和物理机的网卡,可以选择桥接的位置,默认情况下是自动桥接&…...
嵌入式Linux开发环境搭建,三种方式:虚拟机、物理机、WSL
目录 总结写前面一、Linux虚拟机1 安装VMware、ubuntu18.042 换源3 改中文4 中文输入法5 永不息屏6 设置 root 密码7 安装 terminator8 安装 htop(升级版top)9 安装 Vim10 静态IP-虚拟机ubuntu11 安装 ssh12 安装 MobaXterm (SSH)…...
说清楚单元测试
在团队中推行单元测试的时候,总是会被成员问一些问题: 这种测试无法测试数据库的SQL(或者是ORM)是否执行正确?这种测试好像没什么作用?关联的对象要怎么处理呢?…借由本篇,来全面看一看单元测试。 单元测试是软件开发中一种重要的测试方法,其核心目的是验证代码的最小…...
如何分析 jstat 统计来定位 GC?
全文目录: 开篇语前言摘要概述jstat 的核心命令与参数详解基本命令格式示例 jstat 输出解读主要字段含义 典型 GC 问题分析案例案例 1:年轻代 GC 过于频繁案例 2:老年代发生频繁 Full GC案例 3:元空间(Metaspace&#…...
电商---part02 项目环境准备
1.虚拟机环境 可以通过VMWare来安装,但是通过VMWare安装大家经常会碰到网络ip连接问题,为了减少额外的环境因素影响,Docker内容会通过VirtualBox结合Vagrant来安装虚拟机。 VirtualBox官网:https://www.virtualbox.org/ Vagran…...
LabVIEW提升程序响应速度
LabVIEW 程序在不同计算机上的响应速度可能存在较大差异,这通常由两方面因素决定:计算机硬件性能和程序本身的优化程度。本文将分别从硬件配置对程序运行的影响以及代码优化方法进行详细分析,帮助提升 LabVIEW 程序的执行效率。 一、计算机硬…...
工业领域网络安全技术发展路径洞察报告发布 | FreeBuf咨询
工业网络安全已成为国家安全、经济稳定和社会运行的重要基石。随着工业互联网、智能制造和关键基础设施的数字化升级,工业系统的复杂性和互联性显著提升,针对工业领域的网络攻击朝着目标多样化、勒索攻击产业化、攻击技术持续升级的方向发展,…...
WPF 登录页面
效果 项目结构 LoginWindow.xaml <Window x:Class"PrismWpfApp.Views.LoginWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.…...
【数学建模】动态规划算法(Dynamic Programming,简称DP)详解与应用
动态规划算法详解与应用 文章目录 动态规划算法详解与应用引言动态规划的基本概念动态规划的设计步骤经典动态规划问题1. 斐波那契数列2. 背包问题3. 最长公共子序列(LCS) 动态规划的优化技巧动态规划的应用领域总结 引言 动态规划(Dynamic Programming,简称DP)是一…...
leetcode-代码随想录-链表-移除链表元素
题目 链接:203. 移除链表元素 - 力扣(LeetCode) 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 输入:head [1,2,6,3,4,5,6], val 6 …...
低成本训练垂直领域文娱大模型的技术路径
标题:低成本训练垂直领域文娱大模型的技术路径 内容:1.摘要 在文娱产业快速发展且对智能化需求日益增长的背景下,为降低垂直领域文娱大模型的训练成本,本研究旨在探索低成本训练的有效技术路径。采用对现有开源模型进行微调、利用轻量化模型架构以及优化…...
Spring Boot 3.4.3 基于 Caffeine 实现本地缓存
在现代企业级应用中,缓存是提升系统性能和响应速度的关键技术。通过减少数据库查询或复杂计算的频率,缓存可以显著优化用户体验。Spring Boot 3.4.3 提供了强大的缓存抽象支持,而 Caffeine 作为一款高性能的本地缓存库,因其优异的吞吐量和灵活的配置,成为许多开发者的首选…...
