STEEL ——首个利用 LLM 检测假新闻的框架算法解析
1.概述
近年来,假新闻的泛滥确实对政治、经济和整个社会产生了深远的负面影响。为了解决这一问题,人们开发了各种假新闻检测方法,这些方法试图通过分析新闻内容、来源和传播方式来识别虚假信息。
然而,正如你所提到的,现有的假新闻检测方法存在一些局限性。其中一个主要问题是它们通常依赖于静态资料库,如维基百科,这导致它们在处理新出现的新闻和索赔时存在困难,因为这些资料库可能没有最新的信息。
为了克服这些挑战,研究人员开始探索利用大型语言模型(LLM)的能力。LLMs因其在自然语言处理任务中的卓越表现而受到关注,它们能够理解、推理并生成语言,这为假新闻检测提供了新的可能性。
尽管如此,基于LLM的解决方案也面临着一些挑战,例如信息可能过时,以及在检索低质量信息和处理长上下文时的能力受限。
在这种背景下,你提到的STEEL框架是一个创新的尝试,它利用了LLMs的推理能力来进行自动信息检索,以增强假新闻的检测能力。STEEL框架可能是第一个尝试将LLMs的推理和生成能力与信息检索相结合的系统,以提高假新闻检测的准确性和效率。
论文地址:https://arxiv.org/pdf/2403.09747.pdf
2.STEEL 算法架构
LLM(Large Language Models,大型语言模型)确实在多个领域展现出了卓越的能力,包括自然语言理解、文本生成、翻译、问答系统等。在假新闻检测领域,它们也被证明是有用的工具。
**RAG(Retrieval-Augmented Generation,检索增强生成)**是一种结合了检索和生成的方法,它允许模型从外部知识库中检索相关信息,并将这些信息整合到生成的输出中。这种方法特别适用于假新闻检测,因为它可以提供额外的上下文和证据来帮助评估新闻的真实性。
然而,这种方法也面临一些挑战:
- 依赖有限数据源的局限性:如果检索到的信息不全面或有偏差,可能会影响假新闻检测的准确性。
- 在瞬息万变的新闻环境中进行实时更新的困难:新闻内容不断更新,而模型需要能够快速适应这些变化,以提供准确的检测。
针对这些挑战,本文提出的**STEEL(Strategic Extraction and Evaluation of Evidence with Large Language models,用大语言模型增强的战略检索)**框架是一个创新的解决方案。STEEL基于多轮LLM的RAG框架,它通过以下方式解决上述难题:
- 搜索模块:STEEL可能包含一个专门的搜索模块,用于从互联网上检索与新闻相关的最新信息。
- 搜索引擎:通过直接与搜索引擎集成,STEEL能够访问更广泛的信息源,并可能实现实时更新,以适应新闻环境的快速变化。
下图显示了算法架构:
如图所示,STEEL 主要包括两个主要模块,即检索模块和****推理模块,这两个模块被整合成一个综合的再研究机制框架。
检索模块
检索模块通过搜索引擎搜索可确定为假新闻的证据来源,并根据相似性对检索到的文件和输入信息(即 “权利要求”)进行排序。
该源代码实施了基本的过滤机制,并根据现有研究使用 1044 个已知假新闻网站的列表作为过滤器。
推理模块
从网络上检索到的可确定为假新闻的信息源被汇总为提示信息,并提供给 LLM 进行推理。
然后,LLM 会根据给定的信息源进行评估,包括决定是否有必要重新搜索,并输出true(真)、false(假)或 NEI(信息不足 = 信息不够)的结果。
再搜索机制
如果上述 "推理 "模块产生了下图所示的 “NEI”,就会判定没有足够的信息来确定新闻是假的,并重新进行调查。
重新审查首先会合并在初始搜索中收集到的资料来源,并将其添加到名为**"既定证据 “的资料库中以供参考。
接下来,会设置"更新查询**”,目的是检索更多相关信息,并将新信息添加到查询中。
其机制是,通过重复这种方法,模型逐渐建立起判断假新闻的证据体系,并提高模型辨别新闻真伪的能力。
3. 实验
为了评估 STEEL 的性能,我们在三个真实世界的数据集上进行了广泛的实验,其中包括两个英文数据集LIAR 和****PolitiFact,以及一个中文数据集CHEF。(这些数据集分为真实新闻和虚假新闻两类)。
此外,本实验共使用了 11 个模型,包括 7 个基于证据的方法和 4 个基于 LLM 的方法,如下所示。
- 证据基础(G1):七个: DeClarE、HAN、EHIAN、MAC、GET、MUSER****和 ReRead。
- 基于 LLM(G2): GPT-3.5-Turbo**、Vicuna-7B、WEBGLM****和 ProgramFC**。
假新闻检测是一个二元分类问题,以F1****、精确度、召回率、F1 宏****和 F1 微作为评估标准。
实验结果如下表所示。
该表证实,**在所有方法中,STEEL 的得分最高,在三个真实世界数据集中,F1 宏观和 F1 微观得分都提高了 5%**以上。
从这个实验中可以看出,STEEL 在检测假新闻方面非常有效,在推理和准确性方面都有显著优势。
4. 总结
STEEL框架在假新闻检测方面取得了积极的进展,并且通过大规模实验显示出其性能优于现有的假新闻检测方法。这是一个重要的成就,因为它表明利用大型语言模型(LLMs)进行自动信息检索和推理是检测假新闻的有效途径。
然而,文章也指出了STEEL框架目前的一些局限性,特别是它目前仅涉及文本数据。在假新闻的传播中,文本只是众多媒介之一。为了更全面地识别和分析假新闻,需要考虑以下方面:
-
多模态信息的整合:假新闻可能包含图像、视频和音频等多种媒介形式。扩展STEEL框架,使其能够处理和分析这些非文本数据,将有助于提高检测的准确性和全面性。
-
上下文理解:图像、视频和音频中的视觉和听觉线索可以提供额外的上下文信息,有助于理解新闻内容的真实性。
-
跨模态分析:通过跨模态分析,可以更好地理解文本内容与图像、视频和音频之间的关系,从而提高假新闻检测的准确性。
-
实时更新和适应性:随着技术的不断进步,STEEL框架需要能够适应新的媒介形式和传播方式,以保持其有效性。
-
用户交互和反馈:用户反馈可以作为评估新闻真实性的一个额外维度,帮助模型学习和改进。
通过解决这些挑战,STEEL框架不仅能够提高假新闻检测的准确性,还能够增强新闻的整体可靠性。这将有助于构建一个更加健康和可信的信息生态系统,减少假新闻对社会的负面影响。未来的工作可能会集中在如何将STEEL框架扩展到多模态数据的处理,以及如何通过用户交互和反馈来进一步优化模型的性能。
相关文章:

STEEL ——首个利用 LLM 检测假新闻的框架算法解析
1.概述 近年来,假新闻的泛滥确实对政治、经济和整个社会产生了深远的负面影响。为了解决这一问题,人们开发了各种假新闻检测方法,这些方法试图通过分析新闻内容、来源和传播方式来识别虚假信息。 然而,正如你所提到的࿰…...

【AREngine BUG 解决方法】无法获取有效的相机图像尺寸
近期拿了一台 华为mate20 Pro的手机,在运行AR示例的过程中出现了黑屏。 问题排查 SDK版本:com.huawei.hms:arenginesdk:3.7.0.3 定位 经排查,发现(ARCamera对象的相机内参) getImageDimensions()返回的图像尺寸的width和height都为0。 这…...

植物大战僵尸杂交版2.0.88最新版+防闪退工具V2+修改工具+高清工具
植物大战僵尸杂交版,不仅继承原作的经典玩法,而且引入了全新的植物融合玩法,将各式各样的植物进行巧妙的杂交,孕育出前所未有、功能各异的全新植物。 创新的杂交合成系统 游戏引入了创新的杂交合成系统,让玩家可以将不…...
面试题:说说你对 JS 中 this 指向的了解
面试题:说说你对 JS 中 this 指向的了解 JS 的代码执行环境分为严格模式和非严格模式,可以通过 use strict 打开严格模式,此时 JS 在语法检查上会更加严格。要讨论 JS 中的 this 指向问题,也要分为严格模式和非严格模式进行讨论。…...
分享一个实用的MySQL一键巡检脚本
今日分享一个实用的MySQL一键巡检脚本,脚本内容还不是很完善,后续会继续进行优化。大家可以先在测试环境执行,确认执行没问题后可以在生产环境进行操作,问题的可以私信我。 MySQL一键巡检脚本的作用主要是帮助数据库管理员快速且…...

【动手学深度学习】卷积神经网络CNN的研究详情
目录 🌊1. 研究目的 🌊2. 研究准备 🌊3. 研究内容 🌍3.1 卷积神经网络 🌍3.2 练习 🌊4. 研究体会 🌊1. 研究目的 特征提取和模式识别:CNN 在计算机视觉领域被广泛用于提取图像…...

2024年数字化经济与智慧金融国际会议(ICDESF 2024)
2024 International Conference on Digital Economy and Smart Finance 【1】大会信息 大会时间:2024-07-22 大会地点:中国成都 截稿时间:2024-07-10(以官网为准) 审稿通知:投稿后2-3日内通知 会议官网:h…...

kafka-消费者服务搭建配置简单消费(SpringBoot整合Kafka)
文章目录 1、使用efak 创建 主题 my_topic1 并建立6个分区并给每个分区建立3个副本2、创建生产者发送消息3、application.yml配置4、创建消费者监听器5、创建SpringBoot启动类6、屏蔽 kafka debug 日志 logback.xml7、引入spring-kafka依赖 1、使用efak 创建 主题 my_topic1 并…...
C++STL---list常见用法
C STL中的list list是C标准模板库(STL)中的一个序列容器,它实现了一个双向链表。与vector和deque相比,list支持快速的任意位置插入和删除操作,但不支持快速随机访问。 基本操作 创建和初始化 #include <list> …...

MQTT.FX的使用
背景 在如今物联网的时代下,诞生了许多的物联网产品,这些产品通过BLE、WIFI、4G等各种各样的通信方式讲数据传输到各种各样的平台。 除了各个公司私有的云平台外,更多的初学者会接触到腾讯云、阿里云之类的平台。设备接入方式也有着多种多样…...
SRS、ZLMediakit音视频流媒体服务器
SRS、ZLMediakit都是做为webrtc的SFU(selective forward unit) WebRTC 开发实践:为什么你需要 SFU 服务器 https://mp.weixin.qq.com/s?__bizMzAxNTc1MjM0Mw&mid2652213442&idx1&sn33f0393a2dbc2b6a39c613bb238ec145&chksm…...

大模型Prompt-Tuning技术进阶
LLM的Prompt-Tuning主流方法 面向超大规模模型的Prompt-Tuning 近两年来,随之Prompt-Tuning技术的发展,有诸多工作发现,对于超过10亿参数量的模型来说,Prompt-Tuning所带来的增益远远高于标准的Fine-tuning,小样本甚至…...

统一响应,自定义校验器,自定义异常,统一异常处理器
文章目录 1.基本准备(构建一个SpringBoot模块)1.在A_universal_solution模块下创建新的子模块unified-processing2.pom.xml引入基本依赖3.编写springboot启动类4.启动测试 2.统一响应处理1.首先定义一个响应枚举类 RespBeanEnum.java 每个枚举对象都有co…...
完整状态码面试背
{"100": "继续","101": "切换协议","102": "处理中","103": "早期提示","200": "成功","201": "已创建","202": "已接受",&qu…...

QT+FFmpeg+Windows开发环境搭建(加薪点)
01、Windows 环境搭建 FFMPEG官网:http://ffmpeg.org/ 02、下载4.2.1版本源码 源码:https://ffmpeg.org/releases/ffmpeg-4.2.1.tar.bz2 03、下载4.2.1编译好的文件 下载已经编译好的FFMPEG)(迅雷下载很快) 网址:https://ffmpeg.zeranoe.com/builds/ 32位下载地址:(迅雷…...
Linux 主机一键安全整改策略
为防止linux主机被恶意攻击,和受到攻击后能更快定位到源头,需要对linux主机做一些参数配置。 比如禁用root的远程登录、用户多次密码验证失败后被锁、禁止系统账号交互式登录等等。 下面是linux主机安全整改的一些简单介绍,最后会通过脚本一…...
Hot100——二叉树
树的定义: public static class TreeNode{int val;TreeNode left;TreeNode right;TreeNode(){};TreeNode(int val){ this.val val; };TreeNode(int val, TreeNode left, TreeNode right){this.val val;this.left left;this.right right;}} 深度优先遍历&#x…...
C++ static_cast、dynamic_cast、const_cast 和 reinterpret_cast 用处和区别
在 C 中,static_cast、dynamic_cast、const_cast 和 reinterpret_cast 是四种类型转换运算符,它们各自有不同的用途和行为: static_cast 用于编译时已知类型的转换,如基本数据类型转换、派生类到基类的转换、指针和引用的转换等…...

三十七、openlayers官网示例Earthquakes Heatmap解析——在地图上加载热力图
官网demo地址: Earthquakes Heatmap 这篇主要介绍了热力图HeatmapLayer HeatmapLayer 是一个用于在地图上显示热力图的图层类型,通常用于表示地理数据中的密度或强度。例如,它可以用来显示地震、人口密度或其他空间数据的热点区域。在这个示…...

curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL
source ~/.bash_profile flutter clean Command exited with code 128: git fetch --tags Standard error: 错误:RPC 失败。curl 92 HTTP/2 stream 5 was not closed cleanly: CANCEL (err 8) 错误:预期仍然需要 2737 个字节的正文 fetch-pack: unexpec…...
Python爬虫实战:研究MechanicalSoup库相关技术
一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

MPNet:旋转机械轻量化故障诊断模型详解python代码复现
目录 一、问题背景与挑战 二、MPNet核心架构 2.1 多分支特征融合模块(MBFM) 2.2 残差注意力金字塔模块(RAPM) 2.2.1 空间金字塔注意力(SPA) 2.2.2 金字塔残差块(PRBlock) 2.3 分类器设计 三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径
目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

Xshell远程连接Kali(默认 | 私钥)Note版
前言:xshell远程连接,私钥连接和常规默认连接 任务一 开启ssh服务 service ssh status //查看ssh服务状态 service ssh start //开启ssh服务 update-rc.d ssh enable //开启自启动ssh服务 任务二 修改配置文件 vi /etc/ssh/ssh_config //第一…...

Appium+python自动化(十六)- ADB命令
简介 Android 调试桥(adb)是多种用途的工具,该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具,其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利,如安装和调试…...

React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...
《Playwright:微软的自动化测试工具详解》
Playwright 简介:声明内容来自网络,将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具,支持 Chrome、Firefox、Safari 等主流浏览器,提供多语言 API(Python、JavaScript、Java、.NET)。它的特点包括&a…...
1688商品列表API与其他数据源的对接思路
将1688商品列表API与其他数据源对接时,需结合业务场景设计数据流转链路,重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点: 一、核心对接场景与目标 商品数据同步 场景:将1688商品信息…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...