第59期|GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. 解释型恶意软件中的战术、技术和程序 (TTPs):基于大语言模型的零样本生成
简介:本文提出了将MITRE ATT&CK的战术、技术和程序(TTPs)引入解释型恶意软件分析,以表征攻击生命周期的不同阶段。研究者开发了GENTTP,一种零样本生成方法,通过大语言模型(LLMs)从恶意软件包中自动提取TTPs,输出欺骗性战术和攻击向量的执行战术。实验验证了GENTTP的高效性和准确性。基于3,700多个PyPI恶意软件的TTPs,研究者构建了一个基于LLM的聊天机器人,并对大规模恶意软件TTPs进行了定量分析。主要发现包括:许多OSS恶意包共享相对稳定的TTP,TTP反映了攻击特征,且攻击者的意图与TTP相关。
链接:
https://arxiv.org/abs/2407.08532
2. eyeballvul:一个面向未来的野外漏洞检测基准
简介:最近的大语言模型(LLM)长上下文能力开启了一种新用例:要求模型在整个代码库中查找安全漏洞。为了评估模型在此任务中的表现,研究者引入了eyeballvul:一个旨在大规模测试语言模型漏洞检测能力的基准,该基准每周从开源代码库中发布的漏洞流中获取并更新。基准包含不同代码库中的修订列表,每个修订都关联了已知漏洞列表。研究者使用基于LLM的评分器将模型返回的可能漏洞列表与每个修订的已知漏洞列表进行比较。截至2024年7月,eyeballvul包含超过24,000个漏洞,跨越6,000多个修订和5,000多个代码库,总大小约为55GB。
链接:
https://arxiv.org/abs/2407.08708
3. 使用大语言模型(LLM)反汇编混淆可执行文件
简介:反汇编混淆可执行文件是一项挑战,特别是当这些文件包含垃圾字节,旨在引发反汇编错误时。现有解决方案依赖启发式方法或机器学习技术,但效果有限。大语言模型(LLMs)的出现使得深入理解二进制可执行文件的语义成为可能。本文介绍了DisasLLM,一种新型的基于LLM的反汇编器,专为分析混淆可执行文件设计。DisasLLM包含两个主要组件:一个基于LLM的分类器,用于判断汇编代码片段中的指令是否正确解码,以及一种利用该模型的端到端反汇编策略。研究者在一组高度混淆的可执行文件上对DisasLLM进行了评估,结果显示其显著优于其他最先进的反汇编解决方案。
链接:
https://arxiv.org/abs/2407.08924
4. 关于LLM应用商店的(不)安全性
简介:LLM应用商店的快速增长引发了安全问题。在本研究中,研究者提出了一个三层框架来识别LLM应用的潜在安全风险,包括具有滥用潜力、恶意意图和可利用漏洞的应用。研究者在五个月内从六大应用商店(GPT Store、FlowGPT、Poe、Coze、Cici和一个HTTP URL)收集了786,036个LLM应用。通过静态和动态分析,开发了包含31,783个条目的有害词典(ToxicDict),并使用自动监控工具识别和缓解威胁。研究发现,15,146个应用存在误导性描述,1,366个应用违规收集敏感信息,15,996个应用生成仇恨言论、自残和极端主义等有害内容。此外,有616个应用可用于生成恶意软件和网络钓鱼。研究结果强调了制定强有力监管框架和增强执行机制的紧迫性。
链接:
https://arxiv.org/abs/2407.08422
5. TDML -- 一个值得信赖的分布式机器学习框架
简介:近年来,深度学习研究迅速发展,推出了如OpenAI的SORA和GPT、Meta AI的LLAMA系列以及Google的FLAN、BART和Gemini等大型模型。然而,这些模型的发展加剧了对计算资源,特别是GPU的需求,而供应链延误和大公司垄断进一步加剧了这一问题。分布式机器学习(DML)方法如联邦学习(FL)通过将数据和模型分布到多个服务器上来缓解这些挑战,但实现复杂的优化仍然困难。区块链技术作为有前景的解决方案,可以确保数据完整性、可扩展性和可信度,但缺乏实际指导。本文提出了一个值得信赖的分布式机器学习(TDML)框架,利用区块链协调远程训练者并验证工作负载,实现隐私、透明和高效的模型训练。实验结果显示,TDML在性能提升和恶意节点检测方面表现优异,是可扩展、安全的分布式机器学习解决方案。
链接:
https://arxiv.org/abs/2407.07339
6. 安全代码生成的提示技术:一项系统性研究
简介:大语言模型(LLMs)在软件开发中越来越受欢迎,通过提示驱动编程使开发者能够从自然语言(NL)指令中生成代码。然而,研究质疑其生成安全代码的能力,影响了提示生成的软件质量。各种提示技术已经出现,以优化LLMs的响应,但这些策略与安全代码生成之间的关系仍未得到充分探索。本研究旨在探讨不同提示技术对LLMs生成代码安全性的影响。研究者首先进行系统文献综述,确定现有的提示技术,然后在GPT-3、GPT-3.5和GPT-4模型上评估部分技术的安全代码生成效果。使用包含150个与安全相关的代码生成提示的数据集,结果显示,特别是“递归批评和改进”(RCI)技术能显著减少安全弱点,为LLM生成代码的安全性提供了宝贵见解。
链接:
https://arxiv.org/abs/2407.07064
7. PEER:通过多智能体框架和调整方法实现领域特定任务的专家化
简介:在特定领域应用中,尽管GPT-4通过精确提示或检索增强生成(RAG)展现出潜力,但面临性能、成本和数据隐私的三难困境。高性能需要复杂处理技术,而管理多个智能体的复杂流程往往昂贵且具挑战性。研究者引入了PEER(计划、执行、表达、评审)多智能体框架,通过精确问题分解、信息检索、综合总结和自我评估来系统化领域特定任务。企业为平衡成本、安全和性能,正在从GPT-4转向自定义模型。研究者开发了利用在线数据和用户反馈的高效模型调整方法。本研究为领域特定问题解决中的多智能体系统应用及有效调整策略提供了指南。实证研究表明,特别是在金融问答领域,研究者的方法在管理成本和确保数据隐私的同时,达到了GPT-4性能的95.0%。
链接:
https://arxiv.org/abs/2407.06985
相关文章:
第59期|GPTSecurity周报
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找…...
算法2--贪心算法
1.老鼠和猫的交易 小老鼠准备了M磅的猫粮,准备去和看守仓库的猫做交易,因为仓库里有小老鼠喜欢吃的五香豆。 仓库有N个房间; 第i个房间有 J[i] 磅的五香豆,并且需要用 F[i] 磅的猫粮去交换; 老鼠不必交换该房间所有的五…...
本地部署 EVE: Unveiling Encoder-Free Vision-Language Models
本地部署 EVE: Unveiling Encoder-Free Vision-Language Models 0. 引言1. 快速开始2. 运行 Demo 0. 引言 EVE (Encoder-free Vision-language model) 是一种创新的多模态 AI 模型,主要特点是去除了传统视觉语言模型中的视觉编码器。 核心创新 架构创新ÿ…...
阿里云CDN- https(设计支付宝春节开奖业务)
HTTP相关概念 1. HTTP概述 http是最广泛的网络协议,是客户端与服务器之间的请求与应答的标准(TCP),用于www服务器传输超文本到本地浏览器的传输协议,使浏览器更加高效,网络传输减少。 2.HTTPS概述 http…...
为何众多卖家选择加入亚马逊VC平台?他们的决策依据是什么?
众多卖家选择加入亚马逊VC平台,其背后蕴含着深思熟虑的决策逻辑。亚马逊VC平台作为一个专门为品牌供应商打造的销售平台,具有一系列独特且引人注目的优势。 首先,VC平台为卖家提供了品牌控制力的增强。在这个平台上,卖家能够更直接…...
Windows与Linux双机热备软件推荐
网络数据安全在如今信息化的时代越来越变得举足轻重,因此服务器维护和管理也成为企业健康稳定运营的一项重要工作。但实际情况是很多公司并没有配备专业的运维人员,一般都会通过一些管理软件维护或者主机托管给服务商。整理6款服务器的Windows与Linux双机…...
Mysql基础与安装
一、数据库的概念和相关的语法和规范 1、数据库的概念 数据库:组织,存储,管理数据的仓库。 数据库的管理系统(DBMS):实现对数据有效组织,管理和存取的系统软件。 数据库的种类: m…...
线程的死锁和并发安全
在多线程编程中,线程的死锁和并发安全是两个重要的概念。理解这两个概念并正确地管理它们,对于编写高效且可靠的并发程序至关重要。 线程的死锁 死锁(Deadlock) 是指两个或多个线程相互等待对方释放已经持有的资源,导…...
docker 启动提示can not create sys fs cgroup cpuset....问题处理
docker 启动失败 报错 大概报错内容为 cgroup :no such file can not create /sys/fs/cgroup/cpuset … 问题是因为 /sys/fs/cgroup/ 没有被正确挂载 cgroup 是实现资源限制的工具 docker 能够进行限制cpu 内存 大小 依赖cgroup ll /sys/fs/cgroup/ 发现一个都系也没有 m…...
[C/C++入门][ifelse]19、制作一个简单计算器
简单的方法 我们将假设用户输入两个数字和一个运算符(、-、*、/),然后根据所选的运算符执行相应的操作。 #include <iostream> using namespace std;int main() {double num1, num2;char op;cout << "输入 (,-,*,/): &quo…...
API取数实战:企业微信API取数教程
在数字化时代,企业微信不仅是一个通讯工具,更是企业数字化转型的重要平台。通过企业微信,企业能够高效连接员工、客户与合作伙伴,实现内部流程的自动化和智能化。本文将介绍企业微信API的应用场景和应用难点,并提供企业…...
AI算法18-最小角回归算法Least Angle Regression | LARS
最小角回归算法简介 最小角回归(Least Angle Regression, LAR)是一种用于回归分析的统计方法,它在某些方面类似于最小二乘回归,但提供了一些额外的优点。最小角回归由Bradley Efron等人提出,主要用于处理具有…...
wordpress 调用另外一个网站的内容 按指定关键词调用
要在WordPress中调用另一个网站的内容并根据指定关键词进行筛选,你可以使用以下代码。这段代码使用了WordPress内置的wp_remote_get函数来获取远程网站的内容,然后使用PHP的DOMDocument和DOMXPath类来解析HTML并筛选出包含指定关键词的内容。 首先&…...
kotlin数据类型
人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 Kotlin基本数值类型 基本数据类型包括 Byte、Short、Int、Long、Float、Double 整数类型 类型位宽最小值最大…...
[GWCTF 2019]babyvm
第一次接触VM逆向 先粘一下对我很有帮助的两篇佬的博客 系统学习vm虚拟机逆向_vmp 虚拟机代码逆向-CSDN博客 这篇去学习vm逆向到底是什么 我的浅显理解啊,就是和汇编的定义差不多,规定一个函数,用什么其他的名字 然后这道题 [GWCTF 2019]babyvm 详解 (vm逆向 …...
PyTorch论文
2019-12 PyTorch: An Imperative Style, High-Performance Deep Learning Library 设计迎合4大趋势: 1. array-based (Tensor) 2. GPU加速 3. 自动求导 (Auto Differentiation) 4. 拥抱Python生态 4大设计原则: 1. 使用算法和数据开发者熟悉的Python做编…...
【Python实战因果推断】37_双重差分8
目录 Diff-in-Diff with Covariates Diff-in-Diff with Covariates 您需要学习的 DID 的另一个变量是如何在模型中包含干预前协变量。这在您怀疑平行趋势不成立,但条件平行趋势成立的情况下非常有用: 考虑这种情况:您拥有与之前相同的营销数…...
【python学习】第三方库之matplotlib的定义、功能、使用场景和代码示例(线图、直方图、散点图)
引言 Matplotlib 是一个 Python 的 2D 绘图库,它可以在各种平台上以各种硬拷贝格式和交互环境生成具有出版品质的图形。通过 Matplotlib,开发者可以仅需要几行代码,便可以生成绘图、直方图、功率谱、条形图、错误图、散点图等 Matplotlib 是 …...
MySQL(3)表的操作
目录 1. 表的操作; 2. 数据类型; 1. 表的操作: 1.1 创建表: 语法: create table 表名( 属性 类型 [comment ], 属性 类型 [comment ], 属性 类型 ) character set 字符集 collate 校验集 engine 存储引擎; 前面博客提到: MyISAM和InoDB这两个比较重要. 1.2 查看表…...
SQL GROUPING运算符详解
在大数据开发中,我们经常需要对数据进行分组和汇总分析。 目录 1. GROUPING运算符概念2. 语法和用法3. 实际应用示例4. GROUPING运算符的优势5. 高级应用场景5.1 与CASE语句结合使用5.2 多维数据分析 6. 性能考虑和优化技巧7. GROUPING运算符的局限性8. 最佳实践9. GROUPING与其…...
网络编程(Modbus进阶)
思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...
【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型
摘要 拍照搜题系统采用“三层管道(多模态 OCR → 语义检索 → 答案渲染)、两级检索(倒排 BM25 向量 HNSW)并以大语言模型兜底”的整体框架: 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后,分别用…...
三维GIS开发cesium智慧地铁教程(5)Cesium相机控制
一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点: 路径验证:确保相对路径.…...
Linux简单的操作
ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...
数据链路层的主要功能是什么
数据链路层(OSI模型第2层)的核心功能是在相邻网络节点(如交换机、主机)间提供可靠的数据帧传输服务,主要职责包括: 🔑 核心功能详解: 帧封装与解封装 封装: 将网络层下发…...
JDK 17 新特性
#JDK 17 新特性 /**************** 文本块 *****************/ python/scala中早就支持,不稀奇 String json “”" { “name”: “Java”, “version”: 17 } “”"; /**************** Switch 语句 -> 表达式 *****************/ 挺好的ÿ…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统
目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...
ZYNQ学习记录FPGA(一)ZYNQ简介
一、知识准备 1.一些术语,缩写和概念: 1)ZYNQ全称:ZYNQ7000 All Pgrammable SoC 2)SoC:system on chips(片上系统),对比集成电路的SoB(system on board) 3)ARM:处理器…...
Linux安全加固:从攻防视角构建系统免疫
Linux安全加固:从攻防视角构建系统免疫 构建坚不可摧的数字堡垒 引言:攻防对抗的新纪元 在日益复杂的网络威胁环境中,Linux系统安全已从被动防御转向主动免疫。2023年全球网络安全报告显示,高级持续性威胁(APT)攻击同比增长65%,平均入侵停留时间缩短至48小时。本章将从…...
