【论文速读】| MoRSE:利用检索增强生成技术填补网络安全专业知识的空白

本次分享论文:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation
基本信息
原文作者:Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti
作者单位:意大利比萨国家研究委员会信息学与电信研究所,圣安娜高等大学TeCIP研究所,意大利帕多瓦大学和荷兰代尔夫特理工大学
关键词:MoRSE, 网络安全, 检索增强生成, 人工智能聊天机器人
原文链接:https://arxiv.org/pdf/2407.15748
开源代码:
https://github.com/Mixture-of-RAGs-Security-Experts/MoRSE
论文要点
论文简介:本文介绍了MoRSE(Mixture of RAGs Security Experts),这是首个专为网络安全设计的AI聊天机器人。MoRSE利用两个并行工作的RAG(检索增强生成)系统,从多维网络安全背景中检索并组织信息。
与依赖固定知识库的传统大语言模型不同,MoRSE实时从非固定知识库中检索文档并生成准确的答案,同时不断更新其知识库。评估结果显示,MoRSE在600个网络安全问题上的回答相关性和正确性比GPT-4和Mixtral 7x8等现有模型高出10%以上,显著提升了网络安全领域的知识覆盖和回答准确性。
研究贡献:
本文的主要贡献可以总结如下:
1. 研究者引入了 MoRSE 这一开源框架,它是首个尝试集成两个 RAG 系统以处理多维网络安全上下文的架构。该架构达成了不同数据源的独特综合,提升了安全见解的深度与相关性。
2. 研究者引入了一个由三部分组成的评估测试套件,用于衡量 RAG 系统与 LLM 相结合在相关性、相似性和正确性方面的表现。此外,研究者还基于LLM作为评判者的方法,使用另外两个测试套件进一步验证了这些结果。据研究者所知,这是首次作出这样的贡献。
3. 研究者展示了 MoRSE 是如何凭借其独特的实时网络安全关键字检测能力,将响应的正确性提高 10%,从而满足及时且准确的安全分析这一关键需求。
4. MoRSE 有别于传统的 RAG,其通过运用并行检索器来检索不同格式和结构的语义相关信息。这在网络安全领域极为重要,因为针对特定威胁,通常存在不同的数据类型(例如漏洞利用代码、TTP 描述、CVE 和白皮书),然而这些数据极少相互关联。MoRSE 借助这些并行检索器和 LLM 来整合相关信息,并提供全面的查询答案。
引言
随着网络威胁的频率和复杂性不断增加,网络安全已成为各行业的关键优先事项。尽管近年来与网络安全相关的信息量激增,为应对这些威胁提供了重要资源,但这种信息的快速增长也导致了数据的杂乱和无结构化,使专业人员难以获得可操作的见解。
大语言模型(LLM)虽然在合成大量信息方面取得了显著进展,但在处理技术话题时存在可靠性问题,尤其是在面对快速演变的网络威胁时。LLM生成错误或不可靠回答的情况并不少见,特别是在代码生成任务中。为了应对这些挑战,MoRSE通过集成两个RAG系统,实现了实时更新知识库的能力,提供了更加准确和全面的网络安全解决方案。
研究背景
MoRSE的开发是为了应对现有大语言模型在网络安全领域的不足。随着网络威胁的不断增加和复杂化,及时、准确和全面地理解漏洞、利用和防御策略变得至关重要。虽然LLM在合成大量信息方面取得了重大进展,但其在处理技术话题时的可靠性差异较大,尤其是在网络威胁快速演变的情况下。MoRSE通过引入检索增强生成技术,将传统RAG系统与实时更新的知识库相结合,有效解决了这一问题。
相关工作
现有研究在网络安全领域中探索了大语言模型(LLMs)和检索增强生成(RAG)系统的应用。传统LLMs如GPT-4在处理技术话题时存在可靠性问题,尤其在动态网络威胁环境中表现不佳。
为解决这些问题,研究者们开发了各种增强模型,如GEMINI、MIXTRAL和HACKERGPT,这些模型在特定任务中显示出一定优势。然而,这些模型仍然面临知识库更新不及时、信息检索效率低等挑战。
MoRSE通过集成双RAG系统和实时更新机制,实现了知识的动态扩展和多维数据的综合检索,显著提升了答案的准确性和覆盖范围,为网络安全问答提供了更为全面和可靠的解决方案。
MORSE架构
MoRSE架构由两个主要组件组成:结构化RAG和非结构化RAG。结构化RAG从预处理的结构化数据中快速检索信息,如MITRE、CVE库、Metasploit和ExploitDB等。这个模块通过将文本转换为结构化格式,使检索过程更加高效和准确。非结构化RAG用于处理结构化RAG无法解决的查询,主要从未处理的原始文本中检索信息。它包含多个缓冲区,每个缓冲区专门处理不同类型的数据(如文本、代码、学术论文等)。
当用户提交查询时,系统首先通过结构化RAG进行检索,如果未找到相关信息,则调用非结构化RAG。MoRSE还集成了实时更新机制,允许知识库在无需重新训练的情况下动态扩展。
此外,MoRSE的并行检索器能够同步检索多种格式和结构的信息,确保提供全面且准确的答案。这种双重RAG架构使MoRSE能够有效应对复杂的网络安全查询,显著提升回答的准确性和覆盖范围。

实验与评估
研究者通过600个网络安全特定问题对MoRSE的性能进行了全面评估,并与现有的先进大语言模型(如GPT-4、GEMINI、MIXTRAL和HACKERGPT)进行了比较。这些问题包括150个普通网络安全问题、150个多跳问题和300个CVE问题。
评估结果显示,MoRSE在答案的相关性和正确性方面表现优异,普通问题的相关性和正确性提高了15%以上,多跳问题和CVE问题的正确性提高了10%以上。特别是在处理CVE问题时,MoRSE的回答准确性比GPT-4高出50%。
此外,通过基于LLM的裁判方法,MoRSE在对手模型中的Elo评分也显著领先。这些结果验证了MoRSE在网络安全领域提供高质量回答的能力,表明其在应对复杂和多变的网络安全挑战方面具有显著优势。

论文结论
本文介绍了MoRSE,这是一个创新的网络安全问答框架,通过集成两个RAG系统,MoRSE能够从多维数据源中检索并生成高质量的答案。实验结果表明,MoRSE在处理普通网络安全问题、多跳问题和CVE问题时,表现均优于现有的先进模型,如GPT-4和MIXTRAL,尤其在准确性和相关性方面提升显著。
MoRSE的实时更新机制和并行检索能力确保其在动态变化的网络安全环境中保持领先地位。这一研究展示了RAG系统在提升网络安全问答质量和覆盖范围方面的巨大潜力。
原作者:论文解读智能体
校对:小椰风

相关文章:
【论文速读】| MoRSE:利用检索增强生成技术填补网络安全专业知识的空白
本次分享论文:MoRSE: Bridging the Gap in Cybersecurity Expertise with Retrieval Augmented Generation 基本信息 原文作者:Marco Simoni, Andrea Saracino, Vinod Puthuvath, Maurco Conti 作者单位:意大利比萨国家研究委员会信息学与…...
pip install albumentations安装下载超级细水管
albumentations 是一个用于图像增强的 Python 库,它提供了丰富的图像变换功能,可以用于数据增强,从而提高深度学习模型的泛化能力。 直接安装命令: pip install albumentations但是如果半夜遇到这种19kB/s的下载速度 为头发着想&…...
驱动开发系列07 - 驱动程序如何分配内存
一:概述 Linux 内核提供了丰富的内存分配函数、在本文中,我们将介绍在设备驱动程序中分配和使用内存的方法,以及如何优化系统的内存资源。由于内核为驱动程序提供了统一的内存管理接口。所以我们不会去讨论不同架构是如何管理内存的,文本不涉及分段、分页等问题,此外在本文…...
【Jackson】注解及其使用
Jackson库提供了多种注解(annotations),可以用来控制JSON序列化和反序列化的行为。这些注解允许你灵活地映射Java对象与JSON数据之间的关系。下面将详细介绍一些常用的Jackson注解及其用法。 1. JsonProperty 作用: 用于指定JSON属性与Java…...
LeetCode24 两两交换链表中的节点
前言 题目: 24. 两两交换链表中的节点 文档: 代码随想录——两两交换链表中的节点 编程语言: C 解题状态: 没画图,被绕进去了… 思路 思路还是挺清晰的,就是简单的模拟,但是一定要搞清楚交换的…...
AI OS
一,概念 AI OS, 或AI for OS,也就是近一年来伴随着人工智能的热度而衍生出的一个新的概念 - 人工智能操作系统。 为什么提出AI OS的概念? 这是因为人工智能技术的发展势头太过迅猛,尤其在深度学习、大模型等AI技术的突破后&…...
Dubbo 黑白名单机制详解
在微服务架构中,服务间的安全和流量控制是非常重要的。在众多 Java 微服务框架中,Apache Dubbo 作为一款高性能的 RPC 框架,提供了丰富的功能来管理服务调用。在 Dubbo 中,黑白名单机制是保障服务安全性和可控性的一个重要手段。本…...
配电房智能巡检机器人怎么选?
智能巡检机器人行业发展现状 2022年中国智能巡检机器人市场规模达到了15.66亿元。其中:电力智能巡检机器人规模14.88亿元,其他智能巡检机器人规模为0.78亿元。2023年中国智能巡检机器人市场规模约为19.71亿元。其中:电力智能巡检机器人规模…...
husky引发git commit报错的解决方案
在git commit的时候,有可能会遇到这样的报错,husky - pre-commit hook exited with code 1 (error) 出现这个问题的原因主要是,假如项目中采用 husky和lint-staged结合进行代码校验,那么,只要项目代码中有不规范的地方…...
韩顺平0基础学Java——第37天
p736-758 MySQL三层结构 1.所谓安装Mysql数据库,就是在主机安装一个数据库管理系统(DBMS),这个管理程序可以管理多个数据库。DBMS(database manage system) 2.一个数据库中可以创建多个表,以保存数据(信息)。 3.数据库管理系统(DBMS)、数据库和表的关系…...
Layer2区块链扩容方案(1)——总述
写在前面 这篇文章作为一个简单介绍,很多技术只是大致提及或者引用,之后会在详细学习后逐项解释。 补充知识 在了解扩容方案之前,我们最好了解一些相关的知识概念 EVM “EVM” 是“Ethereum Virtual Machine”(以太坊虚拟机&…...
AWS监控工具,监控性能指标
执行AWS监视是为了跟踪在AWS环境中主动运行的应用程序工作负载和资源,AWS监视器跟踪各种AWS云指标,以帮助提高在其上运行的应用程序的整体性能。 借助阈值突破警报系统,AWS应用程序监控在识别性能瓶颈来源方面起着至关重要的作用,…...
义务外贸wordpress独立站主题
健身器材wordpress网站模板 跑步机、椭圆机、划船机、动感单车、健身车、深蹲架、龙门架、健身器材wordpress网站模板。 https://www.jianzhanpress.com/?p4251 农业机械wordpress网站模板 植保机械、畜牧养殖机械、农机配件、土壤耕整机械、农业机械wordpress网站模板。 …...
初等数论精解【4】
文章目录 算术基本定理基础理论整数运算规则1. 加法性质2. 减法性质3. 乘法性质4. 除法性质5. 其他性质 整数运算的性质整数构成域吗 参考文献 算术基本定理 基础 任何一个大于1的整数可以被分解为素因数的连乘积。 a p 1 p 2 . . . . p n ≥ 1 ap_1\times p_2....\times…...
MongoDB教程(二十二):MongoDB固定集合
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、固定集…...
20240724----idea的Java环境卸载与安装
1.删除旧有的jdk https://blog.csdn.net/weixin_42168713/article/details/112162099 (补充:我把用户变量和java有关的都删了) 2.下载新的jdk百度网盘链接 链接:https://pan.baidu.com/s/1gkuLoxBuRAtIB1IzUTmfyQ 提取码…...
C语言 ——— 函数指针数组的讲解及其用法
目录 前言 函数指针数组的定义 函数指针数组的使用 前言 数组是存放一组相同类型数据的存储空间 关于指针数组的知识请见:C语言 ——— 指针数组 & 指针数组模拟二维整型数组-CSDN博客 那么要将多个函数的地址存储到数组中,这个数组该如何定义…...
鸿蒙仓颉语言【cryptocj 库】(介绍与SHA、MD5、HMAC摘要算法)
cryptocj 库 介绍 cryptocj 是一个安全的密码库,包括常用的密码算法、常用的密钥生成和签名验证。 该库是对 C 语言的 openSSL 封装的仓颉加密算法 1 提供SHA、MD5、HMAC摘要算法。 前置条件:NA 场景: OHOS, Linuxÿ…...
设计App的后端接口分类以及环境依赖包详情
目录 App的后端接口分类 1. 用户登录与注册 2. 设备初始化 3. 广告与推广 4. 应用配置与功能 5. 支付系统 6. 内容分发 7. 资源下载 8. 视频内容 9. 用户行为分析 10. 安全与合规 设计建议 基于Easyswoole,可以在系统中引入需要的一些常见依赖包&#…...
接入百度文心一言API教程
然后,编辑文章。点击AI识别摘要,然后保存即可 COREAIPOWER设置 暂时只支持经典编辑器.古腾堡编辑器等几个版本后支持.在比期间,你可以自己写点摘要 摘要内容 AL识别摘要 清空 若有收获,就点个赞吧 接入文心一言 现在百度文心一言&…...
three-tile: 一个为Three.js应用注入真实地形的开源LOD模型库
1. three-tile究竟是什么? 第一次看到three-tile这个名字,很多人会误以为它又是一个WebGIS框架。但实际使用后你会发现,这个开源库的定位非常独特——它本质上是一个专为Three.js设计的LOD地形模型库。所谓LOD(Level of Detail&am…...
如何一键完成飞书文档格式转换:3种高效迁移方法指南
如何一键完成飞书文档格式转换:3种高效迁移方法指南 【免费下载链接】feishu2md 一键命令下载飞书文档为 Markdown 项目地址: https://gitcode.com/gh_mirrors/fe/feishu2md 想要将飞书文档快速转换为Markdown格式吗?feishu2md项目为您提供了一键…...
如何用League-Toolkit提升你的英雄联盟游戏体验
如何用League-Toolkit提升你的英雄联盟游戏体验 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否曾经在英雄联盟游戏中感到效…...
SEO_避开这些常见SEO误区,你的排名才能快速上升
<h2>SEO误区:为什么你的网站排名不上升</h2> <p>在当前竞争激烈的互联网环境中,搜索引擎优化(SEO)是提升网站排名的关键。很多人在进行SEO优化时却常常犯下一些常见的SEO误区。这些误区不仅会让你的排名停滞不前…...
MangoHud与Vulkan视频编码协议:AV1监控完全指南
MangoHud与Vulkan视频编码协议:AV1监控完全指南 【免费下载链接】MangoHud A Vulkan and OpenGL overlay for monitoring FPS, temperatures, CPU/GPU load and more. Discord: https://discordapp.com/invite/Gj5YmBb 项目地址: https://gitcode.com/gh_mirrors/…...
深入浅出ESP32蓝牙HID协议:从报文解析到游戏手柄开发
深入浅出ESP32蓝牙HID协议:从报文解析到游戏手柄开发 在物联网设备与人机交互技术深度融合的今天,蓝牙HID协议已成为连接智能硬件与终端设备的重要桥梁。ESP32作为一款集成Wi-Fi和蓝牙双模通信的微控制器,凭借其出色的性价比和丰富的开发资源…...
HUNYUAN-MT模型安全加固:防止API滥用与恶意攻击
HUNYUAN-MT模型安全加固:防止API滥用与恶意攻击 最近在帮一个朋友的公司部署他们自研的HUNYUAN-MT翻译模型API,准备对外开放给合作伙伴使用。本来以为就是搭个服务、配个密钥的事儿,结果聊下来才发现,他们最担心的不是模型翻译得…...
Llama-3.2V-11B-cot在智能教育中的应用:数学题配图逻辑漏洞识别实战
Llama-3.2V-11B-cot在智能教育中的应用:数学题配图逻辑漏洞识别实战 1. 引言:当AI遇见数学教育 数学教材和习题集中的配图错误是一个长期困扰教育行业的难题。据统计,约15%的数学教材配图存在不同程度的逻辑漏洞或表达偏差,这些…...
Vue3最新版二维码生成避坑指南:从基础配置到企业级定制(附GitHub源码)
Vue3企业级二维码生成实战:从核心原理到性能优化 二维码作为连接物理世界与数字世界的桥梁,在现代Web应用中扮演着重要角色。本文将带您深入Vue3的二维码生成技术栈,不仅涵盖基础实现,更聚焦企业级应用中的高阶技巧与性能优化方案…...
TMS320F28P550SJ9实战解析:Sysconfig高效配置SCI多处理器通信模式
1. TMS320F28P550SJ9的SCI通信基础认知 第一次接触TMS320F28P550SJ9的SCI模块时,我花了整整三天才搞明白它的全双工特性。这个看似简单的串行通信接口,实际上藏着不少工程师容易忽略的细节。SCI(Serial Communication Interface)作…...
