当前位置: 首页 > news >正文

大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》

摘要

在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。

预训练的大型语言模型(LLMs)在各种自然语言处理(NLP)任务中表现出卓越的能力,这促使人们探索其在新闻真实性验证方面的潜力。然而,传统的 LLM 使用方式通常是非代理化(non-agentic)的,即模型基于直接提示一次性生成响应。

为此,我们提出了一种新的代理化(agentic)方法——FactAgent,用于假新闻检测。FactAgent 使 LLM 能够模拟人类专家在新闻真实性验证中的行为,而无需额外的模型训练。FactAgent 遵循结构化工作流程,将复杂的新闻真实性检查任务拆解为多个子步骤,LLM 利用其内部知识或外部工具来完成简单任务。在工作流程的最终步骤,LLM 汇总整个过程中的所有发现,以确定新闻声明的真实性。

与手动人工验证相比,FactAgent 提供了更高的效率。实验研究表明,FactAgent 在无需训练的情况下能够有效地验证新闻声明。此外,FactAgent 在工作流程的每个阶段以及最终决策时,均提供透明的解释,为最终用户提供有关假新闻检测推理过程的深刻见解。

FactAgent 具有极高的适应性,使得 LLM 可以轻松利用更新的工具,同时也可以使用领域知识对工作流程本身进行调整。这种适应性使 FactAgent 能够广泛应用于不同领域的新闻真实性验证。

1. 引言

在现代数字时代,社交媒体和在线平台的普及加剧了假新闻的传播。假新闻通常以可信新闻的外观呈现,但其实包含虚假或误导性信息。假新闻的泛滥对社会福祉、公众信任和民主进程构成严重威胁,可能引发恐慌、影响公众舆论,并左右关键决策。为了减少假新闻传播的负面影响,尤其是在其广泛传播之前,及时检测假新闻至关重要。

尽管PolitiFactSnopes 等事实核查网站雇佣专业人员进行手动核查,但面对信息爆炸的时代,这种人工核查方式往往耗时且难以扩展。因此,自动化假新闻检测解决方案至关重要。近年来,基于深度神经网络的假新闻检测模型被广泛研究,并已显示出一定的成效。然而,这些模型通常依赖于人工标注的数据进行训练,而这种标注数据可能难以获得,或者在实践中成本较高。

大型语言模型(LLMs) 在各种自然语言处理(NLP)任务中表现出了卓越的能力,这促使我们探索其在假新闻检测中的潜力。专业事实核查人员在核查新闻时,往往需要整合来自多个(有时是相互矛盾的)来源的信息,以形成一致的叙述,这凸显了在发布之前核实细节的重要性。

FactAgent:代理化的假新闻检测方法

在本研究中,我们提出了一种创新的代理化(agentic)方法——FactAgent,专门用于假新闻检测。与传统的非代理化方式(LLMs 仅响应直接提示或在上下文中生成答案)不同,FactAgent 采用结构化工作流程,将复杂的新闻核查任务拆解为可管理的子步骤。LLMs 在此流程中利用其内部知识和外部工具,协同解决整体任务。

主要贡献

我们提出的FactAgent在假新闻检测方面的主要贡献包括:

  • 基于代理的结构化工作流程
    FactAgent 采用结构化的工作流程,使LLMs能够整合内部知识和外部工具以核查新闻声明。FactAgent无需依赖人工标注数据,具备高效性,并能够轻松适应不同新闻领域的核查需求。

  • 早期检测和可解释性
    FactAgent 能够在假新闻传播的早期进行识别,而无需依赖社交媒体传播信息。此外,在核查的每个步骤中,FactAgent 提供透明的解释,增强可解释性,帮助用户理解决策过程。

  • 高效性与适应性
    在三个真实世界数据集上的实验结果表明,FactAgent 在假新闻检测方面表现优异。我们比较了基于专家设计的工作流程与自动化自生成工作流程的效果,结果突显了领域知识在专家工作流程设计中的重要性。


2. 相关工作

2.1 假新闻检测方法

当前的假新闻检测方法可以分为两大类:基于内容的方法基于证据的方法

  1. 基于内容的方法
    关注新闻文本本身的语言模式,例如写作风格和文章立场。这些方法通常利用 NLP 技术(如 LSTM、BERT)来分析文本特征。

  2. 基于证据的方法
    通过检索知识图谱或网页上的信息来验证新闻真实性。例如,Popat等人(2018)提出了 DeClarE 框架,利用双向 LSTM 和注意力机制来建模声明与证据的语义关系。

虽然现有的深度学习方法在假新闻检测方面取得了一定成效,但它们仍依赖于人工标注数据,这限制了其在没有标注数据的环境中的泛化能力。相比之下,FactAgent 不需要任何模型训练,而是结合LLMs的语义理解能力和外部搜索引擎进行证据检索。

2.2 代理化 LLM 研究

近年来,LLMs 的发展催生了多种应用场景,例如虚拟角色模拟、多人辩论等。相比于让 LLM 自主设计问题解决方案,FactAgent 采用结构化的专家工作流程,确保每一步都严格遵循人类专家的核查方式,利用LLMs的内部知识和外部工具来完成假新闻检测。


3. 方法论

FactAgent 通过模拟人类专家的行为,将复杂的新闻核查任务拆解为多个子步骤,并结合LLMs的内部知识和外部工具进行验证。为了实现这一目标,我们将核查工具分为两类:

  1. 基于 LLM 内部知识的工具(如语言工具、常识工具等)
  2. 结合外部知识的工具(如搜索工具、URL工具等)

工作流程示意图(图1)显示,FactAgent 在接收到新闻声明后,首先利用 LLM 判断该新闻是否与政治相关,如果是,则使用所有工具,否则跳过政治相关的工具。在最终步骤,所有证据将被汇总并与专家核查清单进行比对,以确定新闻声明的真实性。


4. 实验与结果

4.1 实验设置

我们在三个英文数据集(Snopes、PolitiFact 和 GossipCop)上评估了 FactAgent 的性能。实验对比了 FactAgent 与多种基线方法,包括:

  • LSTM、TextCNN、BERT 等监督学习方法
  • HiSS 方法(分层提示技术)
  • 零样本(Zero-shot)提示方式

实验采用准确率、F1分数 等指标进行评估。

4.2 假新闻检测性能(RQ1)

实验结果表明,FactAgent 在所有数据集上的表现优于其他基线模型,尤其是在未使用人工标注数据的情况下表现出色。这证明了FactAgent 结合 LLM 内部知识与外部工具的优势。

4.3 领域知识的重要性(RQ2)

实验表明,遵循专家工作流程的 FactAgent 在性能上优于自动化自生成的工作流程。这表明领域知识在核查流程设计中的重要性。

4.4 外部搜索引擎的重要性(RQ3)

排除外部搜索工具的实验结果显示,FactAgent 的性能下降,这表明仅依赖 LLM 内部知识无法有效检测假新闻,外部搜索引擎在验证冲突信息方面起着至关重要的作用。

4.5 决策策略的影响(RQ4)

使用多数投票决策策略的 FactAgent 性能低于基于专家清单的策略,说明让LLM灵活整合各工具信息比简单的投票规则更有效。


5. 结论

本文提出的 FactAgent 框架通过结构化工作流程使 LLM 能够像人类专家一样核查新闻真实性。与监督学习模型不同,FactAgent 无需训练或调整超参数,具有高效性和适应性。实验表明,FactAgent 在各个数据集上均展现了优越的泛化能力和解释能力。未来研究可进一步探索 FactAgent 在社交媒体数据、多模态分析及决策优化方面的潜力。

相关文章:

大模型GUI系列论文阅读 DAY4续:《Large Language Model Agent for Fake News Detection》

摘要 在当前的数字时代,在线平台上虚假信息的迅速传播对社会福祉、公众信任和民主进程构成了重大挑战,并影响着关键决策和公众舆论。为应对这些挑战,自动化假新闻检测机制的需求日益增长。 预训练的大型语言模型(LLMs&#xff0…...

论文阅读(九):通过概率图模型建立连锁不平衡模型和进行关联研究:最新进展访问之旅

1.论文链接:Modeling Linkage Disequilibrium and Performing Association Studies through Probabilistic Graphical Models: a Visiting Tour of Recent Advances 摘要: 本章对概率图模型(PGMs)的最新进展进行了深入的回顾&…...

python小知识-typing注解你的程序

python小知识-typing注解你的程序 1. Typing的简介 typing 是 Python 的一个标准库,它提供了类型注解的支持,但并不会强制类型检查。类型注解在 Python 3.5 中引入,并在后续版本中得到了增强和扩展。typing 库允许开发者为变量、函数参数和…...

git基础使用--1--版本控制的基本概念

git基础使用–1–版本控制的基本概念 1.版本控制的需求背景,即为啥需要版本控制 先说啥叫版本,这个就不多说了吧,我们写代码的时候肯定不可能一蹴而就,肯定是今天写一点,明天写一点,对于项目来讲&#xff…...

“新月智能武器系统”CIWS,开启智能武器的新纪元

新月人物传记:人物传记之新月篇-CSDN博客 相关文章链接:星际战争模拟系统:新月的编程之道-CSDN博客 新月智能护甲系统CMIA--未来战场的守护者-CSDN博客 “新月之智”智能战术头盔系统(CITHS)-CSDN博客 目录 智能武…...

JVM运行时数据区域-附面试题

Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域 有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程的启动而一直存在,有些区域则是 依赖用户线程的启动和结束而建立和销毁。 1. 程序计…...

增删改查(CRUD)操作

文章目录 MySQL系列:1.CRUD简介2.Create(创建)2.1单行数据全列插入2.2 单行数据指定插入2.3 多⾏数据指定列插⼊ 3.Retrieve(读取)3.1 Select查询3.1.1 全列查询3.1.2 指定列查询3.1.3 查询字段为表达式(都是临时表不会对原有表数据产生影响)…...

Vue.js `Suspense` 和异步组件加载

Vue.js Suspense 和异步组件加载 今天我们来聊聊 Vue 3 中的一个强大特性&#xff1a;<Suspense> 组件&#xff0c;以及它如何帮助我们更优雅地处理异步组件加载。如果你曾在 Vue 项目中处理过异步组件加载&#xff0c;那么这篇文章将为你介绍一种更简洁高效的方式。 什…...

HTB:LinkVortex[WriteUP]

目录 连接至HTB服务器并启动靶机 信息收集 使用rustscan对靶机TCP端口进行开放扫描 使用nmap对靶机TCP开放端口进行脚本、服务扫描 使用nmap对靶机TCP开放端口进行漏洞、系统扫描 使用nmap对靶机常用UDP端口进行开放扫描 使用gobuster对靶机进行路径FUZZ 使用ffuf堆靶机…...

Linux命令入门

Linux命令入门 ls命令 ls命令的作用是列出目录下的内容&#xff0c;语法细节如下: 1s[-a -l -h] [Linux路径] -a -l -h是可选的选项 Linux路径是此命令可选的参数 当不使用选项和参数,直接使用ls命令本体,表示:以平铺形式,列出当前工作目录下的内容 ls命令的选项 -a -a选项&a…...

【问题】Chrome安装不受支持的扩展 解决方案

此扩展程序已停用&#xff0c;因为它已不再受支持 Chromium 建议您移除它。详细了解受支持的扩展程序 此扩展程序已停用&#xff0c;因为它已不再受支持 详情移除 解决 1. 解压扩展 2.打开manifest.json 3.修改版本 将 manifest_version 改为3及以上 {"manifest_ver…...

【题解】AtCoder Beginner Contest ABC391 D Gravity

题目大意 原题面链接 在一个 1 0 9 W 10^9\times W 109W 的平面里有 N N N 个方块。我们用 ( x , y ) (x,y) (x,y) 表示第 x x x 列从下往上数的 y y y 个位置。第 i i i 个方块的位置是 ( x i , y i ) (x_i,y_i) (xi​,yi​)。现在执行无数次操作&#xff0c;每一次…...

使用 SpringBoot+Thymeleaf 模板引擎进行 Web 开发

目录 一、什么是 Thymeleaf 模板引擎 二、Thymeleaf 模板引擎的 Maven 坐标 三、配置 Thymeleaf 四、访问页面 五、访问静态资源 六、Thymeleaf 使用示例 七、Thymeleaf 常用属性 前言 在现代 Web 开发中&#xff0c;模板引擎被广泛用于将动态内容渲染到静态页面中。Thy…...

【Java异步编程】CompletableFuture综合实战:泡茶喝水与复杂的异步调用

文章目录 一. 两个异步任务的合并&#xff1a;泡茶喝水二. 复杂的异步调用&#xff1a;结果依赖&#xff0c;以及异步执行调用等 一. 两个异步任务的合并&#xff1a;泡茶喝水 下面的代码中我们实现泡茶喝水。这里分3个任务&#xff1a;任务1负责洗水壶、烧开水&#xff0c;任…...

Nginx知识

nginx 精简的配置文件 worker_processes 1; # 可以理解为一个内核一个worker # 开多了可能性能不好events {worker_connections 1024; } # 一个 worker 可以创建的连接数 # 1024 代表默认一般不用改http {include mime.types;# 代表引入的配置文件# mime.types 在 ngi…...

Unity开发游戏使用XLua的基础

Unity使用Xlua的常用编码方式&#xff0c;做一下记录 1、C#调用lua 1、Lua解析器 private LuaEnv env new LuaEnv();//保持它的唯一性void Start(){env.DoString("print(你好lua)");//env.DoString("require(Main)"); 默认在resources文件夹下面//帮助…...

AI-ISP论文Learning to See in the Dark解读

论文地址&#xff1a;Learning to See in the Dark 图1. 利用卷积网络进行极微光成像。黑暗的室内环境。相机处的照度小于0.1勒克斯。索尼α7S II传感器曝光时间为1/30秒。(a) 相机在ISO 8000下拍摄的图像。(b) 相机在ISO 409600下拍摄的图像。该图像存在噪点和色彩偏差。©…...

OpenCV:开运算

目录 1. 简述 2. 用腐蚀和膨胀实现开运算 2.1 代码示例 2.2 运行结果 3. 开运算接口 3.1 参数详解 3.2 代码示例 3.3 运行结果 4. 开运算应用场景 5. 注意事项 6. 总结 相关阅读 OpenCV&#xff1a;图像的腐蚀与膨胀-CSDN博客 OpenCV&#xff1a;闭运算-CSDN博客 …...

38. RTC实验

一、RTC原理详解 1、6U内部自带到了一个RTC外设&#xff0c;确切的说是SRTC。6U和6ULL的RTC内容在SNVS章节。6U的RTC分为LP和HP。LP叫做SRTC&#xff0c;HP是RTC&#xff0c;但是HP的RTC掉电以后数据就丢失了&#xff0c;即使用了纽扣电池也没用。所以必须要使用LP&#xff0c…...

Flutter 新春第一弹,Dart 宏功能推进暂停,后续专注定制数据处理支持

在去年春节&#xff0c;Flutter 官方发布了宏&#xff08;Macros&#xff09;编程的原型支持&#xff0c; 同年的 5 月份在 Google I/O 发布的 Dart 3.4 宣布了宏的实验性支持&#xff0c;但是对于 Dart 内部来说&#xff0c;从启动宏编程实验开始已经过去了几年&#xff0c;但…...

巴菲特价值投资思想的核心原则

巴菲特价值投资思想的核心原则 关键词&#xff1a;安全边际、长期投资、内在价值、管理团队、经济护城河、简单透明 摘要&#xff1a;本文深入探讨了巴菲特价值投资思想的核心原则&#xff0c;包括安全边际、长期投资、企业内在价值、优秀管理团队、经济护城河和简单透明的业务…...

C 或 C++ 中用于表示常量的后缀:1ULL

1ULL 是一个在 C 或 C 中用于表示常量的后缀&#xff0c;它具体指示编译器将这个数值视为特定类型的整数。让我们详细解释一下&#xff1a; 1ULL 的含义 1: 这是最基本的部分&#xff0c;表示数值 1。U: 表示该数值是无符号&#xff08;Unsigned&#xff09;的。这意味着它只…...

vue3中el-input无法获得焦点的问题

文章目录 现象两次nextTick()加setTimeout()解决结论 现象 el-input被外层div包裹了&#xff0c;设置autofocus不起作用&#xff1a; <el-dialog v-model"visible" :title"title" :append-to-bodytrue width"50%"><el-form v-model&q…...

程序诗篇里的灵动笔触:指针绘就数据的梦幻蓝图<3>

大家好啊&#xff0c;我是小象٩(๑ω๑)۶ 我的博客&#xff1a;Xiao Xiangζั͡ޓއއ 很高兴见到大家&#xff0c;希望能够和大家一起交流学习&#xff0c;共同进步。 今天我们来对上一节做一些小补充&#xff0c;了解学习一下assert断言&#xff0c;指针的使用和传址调用…...

(三)QT——信号与槽机制——计数器程序

目录 前言 信号&#xff08;Signal&#xff09;与槽&#xff08;Slot&#xff09;的定义 一、系统自带的信号和槽 二、自定义信号和槽 三、信号和槽的扩展 四、Lambda 表达式 总结 前言 信号与槽机制是 Qt 中的一种重要的通信机制&#xff0c;用于不同对象之间的事件响…...

Qt 5.14.2 学习记录 —— 이십이 QSS

文章目录 1、概念2、基本语法3、给控件应用QSS设置4、选择器1、子控件选择器2、伪类选择器 5、样式属性box model 6、实例7、登录界面 1、概念 参考了CSS&#xff0c;都是对界面的样式进行设置&#xff0c;不过功能不如CSS强大。 可通过QSS设置样式&#xff0c;也可通过C代码…...

Hot100之哈希

1两数之和 题目 思路解析 解法1--两次循环 解法2--哈希表一次循环 代码 解法1--两次循环 class Solution {public int[] twoSum(int[] nums, int target) {int nums1[] new int[2];int length nums.length;for (int i 0; i < length; i) {for (int j i 1; j < …...

油漆面积——蓝桥杯

1.题目描述 X 星球的一批考古机器人正在一片废墟上考古。 该区域的地面坚硬如石、平整如镜。 管理人员为方便&#xff0c;建立了标准的直角坐标系。 每个机器人都各有特长、身怀绝技。它们感兴趣的内容也不相同。 经过各种测量&#xff0c;每个机器人都会报告一个或多个矩…...

深度解析:网站快速收录与服务器性能的关系

本文转自&#xff1a;百万收录网 原文链接&#xff1a;https://www.baiwanshoulu.com/37.html 网站快速收录与服务器性能之间存在着密切的关系。服务器作为网站运行的基础设施&#xff0c;其性能直接影响到搜索引擎对网站的抓取效率和收录速度。以下是对这一关系的深度解析&am…...

925.长按键入

目录 一、题目二、思路三、解法四、收获 一、题目 你的朋友正在使用键盘输入他的名字 name。偶尔&#xff0c;在键入字符 c 时&#xff0c;按键可能会被长按&#xff0c;而字符可能被输入 1 次或多次。 你将会检查键盘输入的字符 typed。如果它对应的可能是你的朋友的名字&am…...