当前位置: 首页 > news >正文

论文阅读 - MDFEND: Multi-domain Fake News Detection

https://arxiv.org/pdf/2201.00987

目录

ABSTRACT

INTRODUCTION

2 RELATED WORK

3 WEIBO21: A NEW DATASET FOR MFND

3.1 Data Collection

3.2 Domain Annotation

 4 MDFEND: MULTI-DOMAIN FAKE NEWS DETECTION MODEL

 4.1 Representation Extraction

4.2 Domain Gate

 4.3 Prediction

 5 EXPERIMENT

5.1 Baseline Methods


ABSTRACT

背景:

        假新闻在社交媒体上广泛传播,涉及政治、灾难和金融等多个领域,对现实世界造成威胁。

        现有的大多数方法侧重于单域假新闻检测(SFND),当这些方法应用于多域假新闻检测时,其性能并不令人满意。

        作为一个新兴领域,多域假新闻检测(MFND)越来越受到关注。

gap:

        然而,不同领域的数据分布(如词频和传播模式)各不相同,这就是域偏移。面对严重的域转移挑战,现有的假新闻检测技术在多域场景下表现不佳。

        因此,设计一种专门的 MFND 模型就显得尤为重要。

作者方法介绍:

        在本文中,作者首先为 MFND 设计了一个带有领域标签注释的假新闻基准数据集,即微博 21,其中包括来自 9 个不同领域的 4,488 条假新闻和 4,640 条真新闻

        进一步提出了一种有效的多领域假新闻检测模型(MDFEND),该模型利用领域门来聚合由专家混合提取的多个报告

实验:

        实验表明,MDFEND 能显著提高多领域假新闻检测的性能。我们的数据集和代码见 https://github.com/kennqiang/MDFEND-Weibo21。

INTRODUCTION

背景

        近年来,随着互联网的迅速普及,新浪微博[2]和推特[3]等社交媒体已成为获取新闻的重要来源。然而,它也是假新闻传播的理想平台。根据微博发布的《2020 年辟谣年度报告》[41],全年经权威部门处理的假新闻达 76107 条。由于假新闻会对个人和社会造成破坏性后果,因此假新闻检测是一个亟待解决的重要问题。

前人工作:

        为解决这一问题,人们提出了多种方法,其中大多数方法[ 6, 15 , 18 , 22 , 23]侧重于单领域假新闻检测(SFND),如政治、健康等领域。然而,就某一领域而言,假新闻的数量可能极其有限。因此,基于这些不充分的单领域数据,这些检测模型的性能并不令人满意。在实际场景中,现实世界的新闻平台每天都会发布不同领域的各种新闻[35]。因此,通过利用多个域的数据来解决数据稀疏问题并提高所有域的性能是很有前途的,这就是多域假新闻检测(MFND)。

GAP:

        然而,不同领域的数据分布是不同的,这就是所谓的领域偏移 [28 , 46]。首先,不同领域有不同的用词习惯,例如,军事新闻中最常用的词是 “海军”、“陆军 ”等,而教育新闻中最常用的词是 “学生”、“大学”、“教师 ”等;其次,不同领域的传播模式也有很大差异 [35]。因此,面对严重的领域偏移问题,MFND 可能具有相当大的挑战性。此外,有些领域只包含极少量的标注数据,这一现象进一步增加了 MFND 的难度,而现有方法尚未解决这一问题。          

贡献1:数据集的构建:

      为了研究 MFND,我们建立了一个综合数据集微博 21,其中包含科学、军事、教育、灾难、政治、健康、金融、娱乐和社会等 9 个领域的新闻。每个领域都包含新闻内容、发布时间戳、相应的图片和评论。由于假新闻是为了经济或政治利益而有意制造的,因此往往包含意见性和煽动性语言。利用新闻内容的语言特征来检测假新闻是合理的[ 34 ]。时间戳和评论也包含在新闻中,因为时间戳可用于进行顺序分析[ 23 ]。而评论可以提供辅助信号,尤其是当帖子不包含丰富信息时[ 42 ]。最终,微博 21 包含来自 9 个不同领域的 4,488 条虚假新闻和 4,640 条真实新闻。

实验+ 方法:

        由于缺乏系统的 MFND 工作,我们采用了几种多域学习基线 [ 26 , 31 , 35 , 40 ],并在我们提出的数据集 arXiv:2201.00987v1 [cs.CL] 2022 年 1 月 4 日微博 21 上评估了这些多域方法以及几种流行的单域假新闻检测方法 [16 , 23]。此外,我们还提出了一种简单而有效的多领域假新闻检测模型,即 MDFEND,它利用领域门来聚合由专家混合生成的多种表征。实验证明,与上述基线相比,所提出的 MDFEND 能显著提高效率

        这项工作的主要贡献可归纳为三个方面:(1)我们构建了微博 21(MFND 数据集)。据我们所知,该数据集是第一个从一个平台上收集的 MFND 数据集,并且包含最丰富的领域。(2) 我们为 MFND 提出了一种简单而有效的方法,命名为 MDFEND。(3) 在我们提出的微博 21 数据集上系统地评估了不同方法的 MFND 性能。

2 RELATED WORK

        假新闻检测。

        人们提出了许多方法来应对假新闻检测的挑战。早期的研究使用手工制作的特征[5, 6, 10 , 18]。

        最近的一些研究使用传播模式进行结构建模[11, 23, 24, 36],还有一些研究联合使用文本和视觉特征进行多模态建模[14, 30]。

        Ma 等人[25] 和 Li 等人[20] 将相关任务纳入假新闻检测。

        Wang 等人[ 40 ]采用最小博弈的思想提取事件不变(领域不变)特征,但忽略了特定领域的特征。

        Silver等人[ 35 ]提出了联合保留特定领域知识和跨领域知识来检测来自不同领域的假新闻,但他们并没有明确地充分利用领域信息。

多领域(多任务 多领域(多任务)学习。

        多领域(多任务)学习的思想是联合学习一组领域(任务),这已在许多应用中被证明是有效的 [26, 31 , 43 - 45]。

        这些研究的重点是通过多重表征来捕捉不同任务之间的关系

        每个任务都通过相互联系(包括任务间相关性差异)得到加强

        然而,这些多领域(多任务)框架并不适合假新闻检测。因此,有必要为 MFND 设计一种适当而有效的方法。

数据集。

        目前已经构建了一些用于假新闻检测的数据集,包括 LIAR [ 39 ]、CoAID [ 7 ]、FakeHealth [ 8 ]、Twit- ter16 [ 23 ]和微博 [ 23, 42 ],但它们都不包含多域信息。

        FakeNewsNet [ 33 ] 只包含 Politifact 和 GossipCop 两个域,不足以进行多域假新闻检测。因此,亟需一个合适的多域假新闻数据集

3 WEIBO21: A NEW DATASET FOR MFND

        在本节中,我们将介绍中文多领域假新闻数据集微博 21 的数据收集过程,以及如何确定新闻作品的领域类别。此外,我们还基于新闻内容进行了初步的数据分析,其中最重要的是新闻内容。假新闻检测中的直接线索,以明确显示一些领域的差异。

3.1 Data Collection

        从新浪微博[ 2 ] 收集了从 2014 年 12 月到 2021 年 3 月的虚假新闻和真实新闻。

        初始数据抓取。

        对于虚假数据,收集由微博社区管理中心[4] 官方判定为不实信息的新闻作品。对于真实数据,收集与虚假新闻同期的真实新闻作品,这些作品已经过 NewsVerify [1](一个专注于发现和验证微博上可疑新闻作品的平台)的验证。

        对于每条新闻,收集:      

        (1)最直接的信息,即新闻内容;

        (2)不同的模态,即图片;

        (3)顺序信号,即时间戳;

        (4)社会背景,即评论。

        此外,还收集假新闻的判断信息,这可以为人们提供证据,提高数据集的可信度。

        重复数据删除。原始数据中有大量重复数据,可能会在训练过程中造成数据泄露,因此在一次聚类中进行了重复数据删除。最终得到 4488 条虚假新闻和 4640 条真实新闻。

3.2 Domain Annotation

        数据收集完成后,进行众包分类。

        首先,为了制定分类标准,参考了卓舆网[47]、六间房[21]、一点资讯[13]、锐财经[32]等多家知名事实核查网站的域名列表,以及Vosoughi等人[38]、2017腾讯谣言治理再出发[37]和中国互联网联合辟谣平台[29]等一些研究论文和报告。

        考虑到颗粒度的一致性和适当性,最终确定了九个领域: 科学、军事、教育、灾难、政治、健康、金融、娱乐和社会。

        然后,将所有新闻标注到上述九个领域中。

        为确保标注的公平性,聘请了 10 位专家对新闻进行人工标注。首先,10 位专家对所有新闻进行独立标注,即每条新闻都由 10 位专家进行标注;

        然后,他们相互检查标注情况;

        如果超过 8 位专家选择相同的域标签,则可确定最终的域标签,否则,他们将相互讨论,直至达成一致。收集到的数据集的统计数据如表 1 所示。

 4 MDFEND: MULTI-DOMAIN FAKE NEWS DETECTION MODEL

        在本节中,将为多域假新闻检测提出一个新颖的框架,即 MDFEND。与单域方法相同,将多域假新闻检测视为二元分类问题。整体框架如图 2 所示。

 4.1 Representation Extraction

        对于一条新闻,使用 BertTokenizer [9] 对其内容进行标记。在添加了用于分类(即 [CLS] )和分离(即 [SEP] )的特殊标记符后,得到了一个标记符列表 [[CLS], token_1,...,token_n, , [SEP]] ,其中n是新闻内容中的标记符(词)数。然后将这些标记输入 BERT,得到词嵌入 W = [w_{[CLS]}, w_1,..,w_n, w_{[SEP]}],其中所有的词嵌入都经过掩码-注意力网络处理,得到句子级嵌入e^s

        为了特别处理每个领域,定义了一个可学习的向量,即领域嵌入e^d,以帮助对每个领域进行个性化的表征提取。因此,将为每个域学习一个特定于域的值e^d

        利用 Mixture-of-Expert [12 , 26 , 44] 的优势,采用多个专家(即网络)来提取新闻的各种表征。直观地说,可以使用一个专家来提取多个领域的新闻表征。但是,一个专家只擅长一个领域,因此,单个专家提取的新闻表征可能只包含部分信息,无法完全涵盖新闻内容的特征。因此,为了全面起见,采用了多个专家。

        一个 “专家 ”网络可以用 \Psi _i(W; \theta _i)表示(1 ≤ i≤ T),其中 Ψ 是作为 “专家 ”网络输入的词嵌入集合,W表示要学习的参数,Ψ 是表示专家网络数量的超参数。让r_i表示 “专家 ”网络的输出,即相应专家网络提取的表示。有

         在的设计中,每个 “专家 ”网络都是一个 TextCNN [16]。

4.2 Domain Gate

        要在 MFND 上获得良好的性能,就必须生成高质量的新闻表征,以适当地表征来自不同领域的新闻。直观地说,可以平均所有专家的表述。但是,简单的平均运算会去除特定领域的信息,因此合成的表征对于 MFND 来说可能并不理想。需要注意的是,不同的专家擅长不同的领域,他们擅长处理不同的领域。对于 MFND,希望自适应地选择专家。

        

        根据这一思路,提出了一个领域门,以领域嵌入和句子嵌入作为输入来指导选择过程。选择过程的输出是一个向量a,表示每个专家的权重比。将领域门表示为G(\cdot ;\phi ),并且\phi是领域门中的参数:

         其中,域门G(\cdot ;\phi ) 是一个前馈网络,e^de^s分别是域嵌入和句子嵌入。使用 softmax 函数对G(\cdot )的输出进行归一化处理,a \in R^n 是表示不同专家重要性的权重向量。有了领域门,就得到了新闻的最终特征向量:

 4.3 Prediction

        新闻的最终特征向量被输入分类器,该分类器是一个具有软最大输出层的多层感知(MLP)网络,用于假新闻检测:

        假新闻检测器的目标是识别新闻是否为假新闻。用 y^i表示实际值,用 \hat{y}^i表示预测标签。采用二元交叉熵损失(BCELoss)进行分类:

 5 EXPERIMENT

5.1 Baseline Methods

        我们的实验中有三种基线:

        (1) 单域基线: TextCNN_single [ 16 ]、BiGRU_single [ 23 ] 和 BERT_single [ 9 ];

        (2) 混合域基线: TextCNN_all [ 16 ]、BiGRU_all [ 23 ] 和 BERT_all [ 9 ];

        (3) 多域基线: EANN [ 40 ]、MMOE [ 26 ]、MOSE [ 31 ] 和 EDDFN [ 35 ]。

        在单域基线中,用一个模型对一次单个域(例如,在科学域上训练 TextCNN_single),模型进行实验最后一列的结果是前几列结果的平均值。

        在混合域基线中,每次在所有域上使用一个模型进行实验(例如,在所有域上训练 TextCNN_all),并分别计算每个域的 f1 分数,而最后一列中的结果并不像单域基线那样只是前几列的平均值,而是使用所有域的数据计算得出的。

        多域基线中使用的模型会根据不同域的结构将其数据组合在一起。

相关文章:

论文阅读 - MDFEND: Multi-domain Fake News Detection

https://arxiv.org/pdf/2201.00987 目录 ABSTRACT INTRODUCTION 2 RELATED WORK 3 WEIBO21: A NEW DATASET FOR MFND 3.1 Data Collection 3.2 Domain Annotation 4 MDFEND: MULTI-DOMAIN FAKE NEWS DETECTION MODEL 4.1 Representation Extraction 4.2 Domain Gate 4.…...

LabVIEW软件出现Bug如何解决

在LabVIEW开发中,程序出现bug是不可避免的。无论是小型项目还是复杂系统,调试与修复bug都是开发过程中的重要环节。下文介绍如何有效解决LabVIEW软件中的bug,包括常见错误类型、调试工具、错误处理机制。 1. 常见Bug类型分析 在LabVIEW中&am…...

【数据结构-栈】力扣844. 比较含退格的字符串

给定 s 和 t 两个字符串,当它们分别被输入到空白的文本编辑器后,如果两者相等,返回 true 。# 代表退格字符。 注意:如果对空文本输入退格字符,文本继续为空。 示例 1: 输入:s “ab#c”, t “…...

DataFrame生成excel后为什么多了一行数字

问题描述 python查询数据生成excel文件,生成的excel多了第一行数字索引,1,2,3,4,5...... 代码: df pd.DataFrame(data)df.to_excel(filename, sheet_name用户信息表, indexFalse) 解决: 原理也很简单,就是设置个参…...

linux 内存屏障(barrier)分析

谈起内存屏障,大家感觉这个"玩意儿"很虚,不太实际,但是内核代码中又广泛地可以看到起身影。内存屏障,英文barrier,这个"玩意儿"它还不太好去定义它。barrier,中文翻译为栅栏,栅栏大家都见过,现实生活中就是防止他人或者动物非法闯入而用来进行隔…...

【人工智能】Transformers之Pipeline(十九):文生文(text2text-generation)

目录 一、引言 二、文生文(text2text-generation) 2.1 概述 2.2 Flan-T5: One Model for ALL Tasks 2.3 pipeline参数 2.3.1 pipeline对象实例化参数 2.3.2 pipeline对象使用参数 ​​​​​​​ 2.3.3 pipeline返回参数 ​​​​​​​​​​​…...

如何使用ssm实现基于VUE的儿童教育网站的设计与实现+vue

TOC ssm676基于VUE的儿童教育网站的设计与实现vue 第一章 课题背景及研究内容 1.1 课题背景 信息数据从传统到当代,是一直在变革当中,突如其来的互联网让传统的信息管理看到了革命性的曙光,因为传统信息管理从时效性,还是安全…...

MODBUS TCP 转 CANOpen

产品概述 SG-TCP-COE-210 网关可以实现将 CANOpen 接口设备连接到 MODBUS TCP 网络中。用户不需要了解具体的 CANOpen 和 Modbus TCP 协议即可实现将CANOpen 设备挂载到 MODBUS TCP 接口的 PLC 上,并和 CANOpen 设备进行数据交互。 产品特点 &#xf…...

vue2+elementUI实现handleSelectionChange批量删除-前后端

功能需求&#xff1a;实现选中一个或多个执行批量删除操作 在elementUI官网选择一个表格样式模板&#xff0c;Element - The worlds most popular Vue UI framework 这里采用的是 将代码复制到前端&#xff0c;这里是index.vue <template><el-button type"dang…...

LLMs之OCR:llm_aided_ocr(基于LLM辅助的OCR项目)的简介、安装和使用方法、案例应用之详细攻略

LLMs之OCR&#xff1a;llm_aided_ocr(基于LLM辅助的OCR项目)的简介、安装和使用方法、案例应用之详细攻略 目录 llm_aided_ocr的简介 1、特性 2、详细技术概览 PDF处理和OCR PDF到图像转换 OCR处理 文本处理流程 分块创建 错误校正与格式化 重复内容移除 标题和页码…...

低代码平台后端搭建-阶段完结

前言 最近又要开始为跳槽做准备了&#xff0c;发现还是写博客学的效率高点&#xff0c;在总结其他技术栈之前准备先把这个专题小完结一波。在这一篇中我又试着添加了一些实际项目中可能会用到的功能点&#xff0c;用来验证这个平台的扩展性&#xff0c;以及总结一些学过的知识。…...

暑假考研集训营游记

文章目录 摘要&#xff1a;1.对各大辅导机构考研封闭集训营的一些个人看法&#xff1a;2.对于考研原因一些感想&#xff1a;结语 摘要&#xff1a; Ashy在暑假的时候参加了所在辅导班的为期一个月的考研封闭集训营&#xff0c;有了一些全新的感悟&#xff0c;略作记录。 1.对…...

C#中的报文(Message)

在C#中&#xff0c;报文&#xff08;Message&#xff09;通常是指在网络通信中交换的数据单元。报文可以由多种不同的组成部分构成&#xff0c;具体取决于通信协议和应用场景。 以下是一些常见的报文组成部分&#xff1a; 头部&#xff08;Header&#xff09;&#xff1a;包含…...

Python知识点:如何使用Python与Java进行互操作(Jython)

开篇&#xff0c;先说一个好消息&#xff0c;截止到2025年1月1日前&#xff0c;翻到文末找到我&#xff0c;赠送定制版的开题报告和任务书&#xff0c;先到先得&#xff01;过期不候&#xff01; Jython 是一种完全兼容 Java 的 Python 实现&#xff0c;它将 Python 代码编译成…...

ffmpeg解封装解码

文章目录 封装和解封装封装解封装 相关接口解封装的流程图关于AVPacket的解释如何区分不同的码流&#xff0c;视频流&#xff0c;音频流&#xff1f;第一种方式av_find_best_stream第二种方式 通过遍历流 代码 封装和解封装 封装 是把音频流 &#xff0c;视频流&#xff0c;字…...

golang学习笔记10-循环结构

注&#xff1a;本人已有C&#xff0c;C,Python基础&#xff0c;只写本人认为的重点。 go的循环只有for循环&#xff0c;但有多个语法&#xff0c;可以实现C/C中的while和do while。当然&#xff0c;for循环也有break和continue&#xff0c;这点和C/C相同。 语法1&#xff1a; f…...

Java高级编程——泛型(泛型类、泛型接口、泛型方法,完成详解,并附有案例+代码)

文章目录 泛型21.1 概述21.2 泛型类21.3 泛型方法21.4 泛型接口 泛型 21.1 概述 JDK5中引入的特性&#xff0c;在编译阶段约束操作的数据类型&#xff0c;并进行检查 泛型格式&#xff1a;<数据类型> 泛型只能支持引用数据类型&#xff0c;如果写基本数据类型需要写对…...

GPU硬件如何实现光栅化?

版权声明 本文为“优梦创客”原创文章&#xff0c;您可以自由转载&#xff0c;但必须加入完整的版权声明文章内容不得删减、修改、演绎本文视频版本&#xff1a;见文末 引言 大家好&#xff0c;我是老雷&#xff0c;今天我想从GPU硬件原理出发&#xff0c;给大家分享在图形渲…...

Python写入文件内容:从入门到精通

在日常编程工作中&#xff0c;我们常常会遇到需要将数据保存至磁盘的需求。无论是日志记录、配置文件管理还是数据持久化&#xff0c;掌握如何有效地使用Python来写入文件内容都是必不可少的一项技能。本文将从基础语法开始&#xff0c;逐步深入探讨Python中写入文件内容的各种…...

相亲交易系统源码详解与开发指南

随着互联网技术的发展&#xff0c;越来越多的传统行业开始寻求线上转型&#xff0c;其中就包括婚恋服务。传统的相亲方式已经不能满足现代人快节奏的生活需求&#xff0c;因此&#xff0c;开发一款基于Web的相亲交易系统显得尤为重要开发者h17711347205。本文将详细介绍如何使用…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

19c补丁后oracle属主变化,导致不能识别磁盘组

补丁后服务器重启&#xff0c;数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后&#xff0c;存在与用户组权限相关的问题。具体表现为&#xff0c;Oracle 实例的运行用户&#xff08;oracle&#xff09;和集…...

地震勘探——干扰波识别、井中地震时距曲线特点

目录 干扰波识别反射波地震勘探的干扰波 井中地震时距曲线特点 干扰波识别 有效波&#xff1a;可以用来解决所提出的地质任务的波&#xff1b;干扰波&#xff1a;所有妨碍辨认、追踪有效波的其他波。 地震勘探中&#xff0c;有效波和干扰波是相对的。例如&#xff0c;在反射波…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

Neo4j 集群管理:原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言&#xff1a;为什么 Eureka 依然是存量系统的核心&#xff1f; 尽管 Nacos 等新注册中心崛起&#xff0c;但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制&#xff0c;是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

Python 实现 Web 静态服务器(HTTP 协议)

目录 一、在本地启动 HTTP 服务器1. Windows 下安装 node.js1&#xff09;下载安装包2&#xff09;配置环境变量3&#xff09;安装镜像4&#xff09;node.js 的常用命令 2. 安装 http-server 服务3. 使用 http-server 开启服务1&#xff09;使用 http-server2&#xff09;详解 …...

c++第七天 继承与派生2

这一篇文章主要内容是 派生类构造函数与析构函数 在派生类中重写基类成员 以及多继承 第一部分&#xff1a;派生类构造函数与析构函数 当创建一个派生类对象时&#xff0c;基类成员是如何初始化的&#xff1f; 1.当派生类对象创建的时候&#xff0c;基类成员的初始化顺序 …...

vue3 daterange正则踩坑

<el-form-item label"空置时间" prop"vacantTime"> <el-date-picker v-model"form.vacantTime" type"daterange" start-placeholder"开始日期" end-placeholder"结束日期" clearable :editable"fal…...

java高级——高阶函数、如何定义一个函数式接口类似stream流的filter

java高级——高阶函数、stream流 前情提要文章介绍一、函数伊始1.1 合格的函数1.2 有形的函数2. 函数对象2.1 函数对象——行为参数化2.2 函数对象——延迟执行 二、 函数编程语法1. 函数对象表现形式1.1 Lambda表达式1.2 方法引用&#xff08;Math::max&#xff09; 2 函数接口…...