当前位置：首页 > news >正文

【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估

news 2026/2/10 7:58:08

本次分享论文为：An Empirical Evaluation of LLMs for Solving Offensive Security Challenges

基本信息

原文作者：Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique

作者单位：纽约大学、纽约大学阿布扎比分校

关键词：大语言模型，网络安全，攻击性挑战，CTF竞赛

原文链接：

https://arxiv.org/pdf/2402.11814v1.pdf

开源代码：

https://github.com/NickNameInvalid/LLM_CTF

论文要点

论文简介：随着大语言模型（LLMs）技术的日益兴起，它们在理解和解决CTF（Capture The Flag）挑战方面的应用也逐渐增多。然而，尚未有研究对LLMs在完全自动化流程中解决CTF挑战的有效性进行全面评估。为此，本研究旨在探索LLMs在该领域的应用潜力，并设计了两种CTF解题流程：人机交互式（HITL）和完全自动化。这两种流程的目的是评估LLMs在处理一系列特定CTF挑战时的性能，这些挑战通过提供相关问题信息来激发模型的解题过程。通过与人类参赛者在相同挑战上的表现进行对比，研究者观察到LLMs的解题成功率已超过普通人类参赛者。本研究全面评价了LLMs在解决现实世界中的CTF挑战能力，并覆盖了从实际竞赛到完全自动化流程的各个阶段。研究成果不仅支持了LLMs在网络安全教育中的应用，同时也为系统性评估LLMs在网络安全攻击能力方面的潜力提供了新的研究路径。

研究背景：CTF挑战赛是网络安全领域一种广受欢迎的竞赛形式，涉及密码学、逆向工程、网络利用等多个领域。随着LLMs的出现和进步，研究人员开始探索并解决在此类挑战中的潜力。

研究贡献：

1.评估了六种不同LLMs在解决26个多样化CTF问题上的熟练程度。

2.构建了使用LLMs解决CTF问题的两种工作流程，并展示了它们的成功率。

3.对LLMs在处理CTF挑战时遇到的典型短板进行了全面分析，揭示了完全依赖LLMs而不进行人类干预的局限性。

引言

近年来，大语言模型（LLMs），已在自然语言处理、编程任务和对话生成等多个领域展现出卓越的性能。本研究旨在探索LLMs在网络安全领域，特别是在解决CTF（Capture The Flag）挑战方面的应用潜力。为此，研究团队在纽约大学举办的CSAW竞赛中特别引入了LLM攻击挑战。在此过程中，团队收集了参与者利用LLMs提供的“提示”来解决一系列CTF挑战的相关数据，并在此基础上进行了详尽的分析。通过这项研究，研究者期望能够更深入地理解LLMs在网络安全实战中的应用价值和效果。

背景知识

CTF挑战赛是一种模拟真实世界中的安全漏洞和攻击场景的竞赛。在这类竞赛中，参与者需运用其网络安全知识和技能来识别漏洞、编写利用代码，并最终实现“夺旗”目标。随着大语言模型（LLMs）技术的兴起，研究团队着手研究这些模型是否具备理解和解决这些高度专业化挑战的能力。通过这一探索，旨在评估LLMs在网络安全领域的实际应用潜力。

论文方法

理论背景：在探究不同大语言模型（LLMs）在解决CTF挑战方面的潜力时，研究者选用了包括GPT-3.5、GPT-4、Claude、Bard、DeepSeek Coder和Mixtral在内的六种模型。特别地，在涉及人类参与者的研究中，ChatGPT因其卓越的性能而成为最受青睐的选择。研究成果主要体现在三个方面：首先，通过定量和定性分析，评估了这些模型解决26个不同CTF问题的能力，发现ChatGPT的表现与一般人类CTF团队持平；其次，开发并测试了两种基于LLMs的CTF问题解决流程，并报告了它们的成功比率；最后，深入分析了LLMs在应对CTF挑战时的常见局限，强调了在没有人类干预的情况下，单纯依赖LLMs的潜在风险。

方法实现：通过详细地设计实验流程，研究团队对LLMs进行了全面的测试。在HITL流程中，参与者需要根据LLM生成的输出，提供反馈和指导，以帮助模型更准确地解决问题。而在完全自动化的流程中，LLM需要独立完成从理解挑战到生成解决方案的整个过程。

实验

实验设置：选择了GPT-3.5、GPT-4、Claude等六种LLMs进行实验，覆盖了多种CTF问题类型，包括密码学、逆向工程、Web利用等。

实验结果：在解决CTF挑战的过程中，ChatGPT展现出了卓越的性能，能够有效应对多种类型的挑战。相较于人类参与者的平均水平，LLMs在某些情况下能够带来更高的成功率。尽管如此，研究也揭示了LLMs在理解某些特定挑战方面的限制。

论文结论

研究结果表明，LLMs尤其是ChatGPT，能够在无需人类干预的情况下，自动解决CTF挑战，其解题能力与一般水平的人类CTF团队相当。通过对比不同LLMs在解决多种CTF挑战的表现，本研究突显了LLMs在网络安全应用中的潜力，并同时指出了过分依赖LLMs可能带来的局限。

此外，本研究通过深入分析LLMs在处理CTF挑战时的常见不足，例如在复杂逻辑处理和代码生成准确性方面的短板，为未来LLMs在网络安全教育和攻击性能力评估中的应用提供了重要参考。尽管LLMs已证明其在解决CTF挑战方面的潜力，但要实现完全自动化且无需人类干预的水平，仍需对LLMs的训练方法和应用策略进行进一步的优化。

原作者：论文解读智能体

润色：Fancy

校对：小椰风

相关文章：

【论文速读】| 对大语言模型解决攻击性安全挑战的实证评估

本次分享论文为：An Empirical Evaluation of LLMs for Solving Offensive Security Challenges 基本信息原文作者：Minghao Shao, Boyuan Chen, Sofija Jancheska, Brendan Dolan-Gavitt, Siddharth Garg, Ramesh Karri, Muhammad Shafique 作者单位&a…...

编程日记 2024/3/27 11:40:38

小迪安全48WEB 攻防-通用漏洞Py 反序列化链构造自动审计 bandit魔术方法

#知识点： 1、Python-反序列化函数使用 2、Python-反序列化魔术方法 3、Python-反序列化 POP 链构造（payload构造） 4、Python-自动化审计 bandit 使用 #前置知识： 函数使用： pickle.dump(obj, file) : 将对…...

编程日记 2024/3/27 11:39:36

微服务：解放软件开发的神器，引领企业级应用的未来（二）

本系列文章简介： 本系列文章将深入剖析微服务架构的原理、设计和实践，向大家介绍微服务的核心概念和关键技术，以及在实际项目中的应用和实践经验。我们将通过具体的案例和实例，帮助大家理解微服务架构的优势和挑战，掌握…...

编程日记 2024/3/27 11:31:28

easyexcel与vue配合下载excel

后端设置响应 // 设置响应头 response.setContentType("application/octet-stream;charsetUTF-8"); String returnName null; try {returnName URLEncoder.encode(fileName, "UTF-8"); } catch (UnsupportedEncodingException e) {throw new RuntimeExc…...

编程日记 2024/3/27 11:27:22

Vue.js 模板语法

Vue.js 使用了基于 HTML 的模板语法，允许开发者声明式地将 DOM 绑定至底层 Vue 实例的数据。 Vue.js 的核心是一个允许你采用简洁的模板语法来声明式的将数据渲染进 DOM 的系统。结合响应系统，在应用状态改变时， Vue 能够智能地计算出重新…...

编程日记 2024/3/27 11:24:19

信号处理--基于DEAP数据集的情绪分类的典型深度学习模型构建

关于本实验采用DEAP情绪数据集进行数据分类任务。使用了三种典型的深度学习网络：2D 卷积神经网络；1D卷积神经网络GRU； LSTM网络。工具数据集 DEAP数据图片来源： DEAP: A Dataset for Emotion Analysis using Physiological…...

编程日记 2024/3/27 11:20:14

Spring设计模式-实战篇之模板方法模式

什么是模板方法模式？ 模板方法模式用于定义一个算法的框架，并允许子类在不改变该算法结构的情况下重新定义算法中的某些步骤。这种模式提供了一种将算法的通用部分封装在一个模板方法中，而将具体步骤的实现延迟到子类中的方式。模板方法模式…...

编程日记 2024/3/27 11:19:13

PTA天梯赛习题 L2-006 树的遍历

先序遍历：根-左-右 > 序列的第一个数就是根中序遍历：左-根-右 > 知道中间某一个数为根，则这个数的左边就是左子树，右边则是右子树后序遍历：左-右-根 > 序列的最后一个数就是根题目给定一棵…...

编程日记 2024/3/27 11:14:08

js相关的dom方法

查找元素 //获取元素id为box的元素 document.getElementById(box) //获取元素类名为box的元素 document.getElementsByClassName(box) //获取标签名为div的元素 document.getElementsByTagName(div)改变元素 //设置id为box的元素内容 document.getElementById("box"…...

编程日记 2024/3/27 11:10:03

Django——Ajax请求

Django——Ajax请求一、响应 Json 数据 path(str/ , views.str_view), path(json/ , views.json_view), path(jsonresponse/ , views.jsonresponse_view), path(ls/ , views.ls),from django.shortcuts import render , HttpResponse from django.http import JsonResponse …...

编程日记 2024/3/27 11:09:02

基于java多角色学生管理系统论文

摘要现代经济快节奏发展以及不断完善升级的信息化技术，让传统数据信息的管理升级为软件存储，归纳，集中处理数据信息的管理方式。本学生管理系统就是在这样的大环境下诞生，其可以帮助管理者在短时间内处理完毕庞大的数据信息&am…...

编程日记 2024/3/27 11:06:59

python（django）之单一接口管理功能后台开发

1、创建数据模型在apitest/models.py下加入以下代码 class Apis(models.Model):Product models.ForeignKey(product.Product, on_deletemodels.CASCADE, nullTrue)# 关联产品IDapiname models.CharField(接口名称, max_length100)apiurl models.CharField(接口地址, max_…...

编程日记 2024/3/27 11:05:58

教程1_图像视频入门

一、图像入门 1、cv2.imread()函数 cv2.imread() 是 OpenCV 库中的一个函数，用于读取图像文件。下面是 cv2.imread() 函数的基本介绍和使用方法： 函数定义 cv2.imread(filename, flagscv2.IMREAD_COLOR) 参数 filename：要读取的图像的路…...

编程日记 2024/3/27 11:03:56

MQTT.fx和MQTTX 链接ONENET物联网提示账户或者密码错误

参考MQTT.fx和MQTTX 链接ONENET物联网开发平台避坑细节干货。_mqttx和mqttfx-CSDN博客在输入password和username后还是提示错误，是因为在使用token的时候，key填写错误，将设备的密钥填入key中...

编程日记 2024/3/27 11:01:53

Svn添加用户、添加用户组、配置项目权限等自动化配置脚本

实现在工作中自动化配置svn用户、用户组、和项目权限的脚本，在使用过程中如果有什么问题，可以联系我。移步到gitee: svn account permission management: Svn账号、组、权限管理脚本 (gitee.com)...

编程日记 2024/3/27 10:57:49

Spring事务-两种开启事务管理的方式：基于注解的声明式事务管理、基于编程式的事务管理

Spring事务-两种开启事务管理的方式 1、前期准备2、基于注解的声明式事务管理3、基于编程式的事务管理4、声明式事务失效的情况例子：假设有一个银行转账的业务，其中涉及到从一个账户转钱到另一个账户。在这个业务中，我们需要保证要么两个账户…...

编程日记 2024/3/27 10:55:47

OC 技术苹果内购

一直觉得自己写的不是技术，而是情怀，一个个的教程是自己这一路走来的痕迹。靠专业技能的成功是最具可复制性的，希望我的这条路能让你们少走弯路，希望我能帮你们抹去知识的蒙尘，希望我能帮你们理清知识的脉络&#xff0…...

编程日记 2024/3/27 10:50:41

云原生周刊：Kubernetes v1.30 一瞥｜ 2024.3.25

开源项目推荐 Retina Retina 是一个与云无关的开源 Kubernetes 网络可观测平台，它提供了一个用于监控应用程序运行状况、网络运行状况和安全性的集中中心。它为集群网络管理员、集群安全管理员和 DevOps 工程师提供可操作的见解，帮助他们了解 DevOps、…...

编程日记 2024/3/27 10:44:34

2016年认证杯SPSSPRO杯数学建模D题(第一阶段)NBA是否有必要设立四分线解题全过程文档及程序

2016年认证杯SPSSPRO杯数学建模 D题 NBA是否有必要设立四分线原题再现 NBA 联盟从 1946 年成立到今天，一路上经历过无数次规则上的变迁。有顺应民意、皆大欢喜的，比如 1973 年在技术统计中增加了抢断和盖帽数据；有应运而生、力挽狂澜的&am…...

编程日记 2024/3/27 10:41:30

EdgeGallery开发指南

API接口简介 EdgeGallery支持第三方业务系统通过北向接口网关调用EdgeGallery的业务接口。调用流程如下图所示（融合前端edgegallery-fe包含融合前端界面以及北向接口网关功能，通过浏览器访问时打开的是融合前端的界面，通过IP:Port/urlPref…...

编程日记 2024/3/27 10:40:29

CMake基础：构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

编程新知 2026/2/2 7:39:34

（二）原型模式

原型的功能是将一个已经存在的对象作为源目标，其余对象都是通过这个源目标创建。发挥复制的作用就是原型模式的核心思想。一、源型模式的定义原型模式是指第二次创建对象可以通过复制已经存在的原型对象来实现，忽略对象创建过程中的其它细节。 📌 核心特点：避免重复初…...

编程新知 2026/2/7 10:59:04

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

网络编程（UDP编程）

思维导图 UDP基础编程（单播） 1.流程图服务器：短信的接收方创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

编程新知 2026/2/4 17:31:44

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

Redis无法正确连接在运行jar包时出现了这样的错误查询得知问题核心在于Redis连接失败，具体原因是客户端发送了密码认证请求，但Redis服务器未设置密码 1.为Redis设置密码（匹配客户端配置） 步骤： 1）.修…...

编程新知 2026/2/8 14:19:47

python报错No module named ‘tensorflow.keras‘

是由于不同版本的tensorflow下的keras所在的路径不同，结合所安装的tensorflow的目录结构修改from语句即可。原语句： from tensorflow.keras.layers import Conv1D, MaxPooling1D, LSTM, Dense 修改后： from tensorflow.python.keras.lay…...

编程新知 2025/9/24 7:39:50

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2026/2/6 15:01:23

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama（有网络的电脑）2.2.3 安装Ollama（无网络的电脑）2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

编程新知 2026/2/6 16:59:24

快刀集(1): 一刀斩断视频片头广告

一刀流：用一个简单脚本，秒杀视频片头广告，还你清爽观影体验。 1. 引子作为一个爱生活、爱学习、爱收藏高清资源的老码农，平时写代码之余看看电影、补补片，是再正常不过的事。电影嘛，要沉浸，…...

编程新知 2026/1/8 0:40:27

计算机基础知识解析：从应用到架构的全面拆解

目录前言 1、计算机的应用领域：无处不在的数字助手 2、计算机的进化史：从算盘到量子计算 3、计算机的分类：不止 “台式机和笔记本” 4、计算机的组件：硬件与软件的协同 4.1 硬件：五大核心部件 4.2 软件&#…...

编程新知 2026/1/31 9:44:27