第34期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. Constitutional AI: Harmlessness from AI Feedback
简介:随着人工智能系统能力的增强,研究者希望能够借助其力量来监督其他AI。为了实现这一目标,研究者采用了一种自我改进的方法,试图训练一种无害的AI助手。该过程包括两个阶段:监督学习和强化学习。在监督学习阶段,研究者从初始模型中采样,然后生成自我批评和修订。根据修订后的回复,对原始模型进行微调。在强化学习阶段,研究者从微调后的模型中采样,使用一个模型来评估哪两个样本更好。然后,从AI偏好数据集中训练偏好模型。这些方法使更精确地控制AI行为和减少人类标签成为可能。通过这种训练方法,研究者能够提高AI助手的准确性和效率,同时避免潜在的有害行为。这种方法对于监督和规范AI的发展具有重要意义,有助于确保AI系统的安全性和可靠性。
链接:
https://arxiv.org/abs/2212.08073.pdf
2. Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models
简介:随着大型语言模型(LLMs)在各种下游任务中的快速发展和显著成功,人们对其潜力和能力赞叹不已。然而,这种开放性的技术也带来了新的安全和隐私问题。由于LLMs具有强大的模仿和生成能力,它们可能被用于抄袭或模仿写作,进而侵犯原创内容的版权,或基于某个源文本制造滥用的虚假信息。更为严重的是,LLMs还能分析网络文本,从而推断出个人隐私。面对这一新形势,以往的文本保护措施显得力不从心。为了应对这一挑战,研究者提出了一种名为“沉默守护者”(SG)的文本保护机制。该机制专门针对LLMs设计,旨在从源头上防止恶意使用文本。当LLMs接收到受保护的文本时,“沉默守护者”会发挥作用,使模型拒绝生成响应。这样一来,就能有效地遏制利用LLMs进行的恶意行为,保护原创内容和个人隐私的安全。
链接:
https://arxiv.org/abs/2312.09669.pdf
3. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
简介:随着大型语言模型(LLMs)的快速发展,它们展现出了新的、难以预测的能力,其中一些可能带来潜在风险。为了确保LLMs的安全和负责任部署,开发人员需要评估这些“危险能力”并识别相关风险。在这项研究中,研究者首次收集了一个开源数据集,旨在评估LLMs中的保护措施,并促进更安全的开源LLMs的低成本部署。他们选择了六种流行的LLMs,并对这些模型对于特定指示的响应进行了标注和评估。基于这些标注数据,研究者进一步训练了几个BERT式分类器。令人惊喜的是,这些小型分类器在自动安全评估方面表现出了与GPT-4相当的性能。这一发现为低成本、高效地评估LLMs的安全性提供了新的可能。
链接:
https://arxiv.org/abs/2308.13387.pdf
4. Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models
简介:在这项研究中,研究者提出了一种名为ProAttack的新型高效方法,用于执行基于提示的干净标签后门攻击。这种方法利用提示本身作为触发器,无需外部触发器,确保中毒样本的正确标记,从而提高了后门攻击的隐蔽性。为了验证ProAttack在文本后门攻击中的性能,研究者进行了广泛的实验,涵盖了资源丰富和少样本文本分类任务。实验结果表明,ProAttack在文本后门攻击中展现出竞争力,尤其是在资源丰富的设置中。在无需外部触发器的干净标签后门攻击基准测试中,ProAttack实现了最先进的攻击成功率。
链接:
https://arxiv.org/abs/2305.01219.pdf
5. Detecting Language Model Attacks with Perplexity
简介:一种针对大型语言模型(LLMs)的新型黑客攻击技术已经出现。这种攻击利用对抗后缀来欺骗模型,生成具有潜在危险性的响应。攻击者可以利用这种技术诱导LLMs向恶意用户提供复杂的指示,用于制造炸药、策划银行抢劫或协助创建攻击性内容。为了评估这种对抗后缀的威胁,研究者利用开源LLM(GPT-2)来分析具有对抗后缀的查询的困惑度。结果显示,这些具有对抗后缀的查询的困惑度值非常高,这表明它们对于模型具有很大的迷惑性。在研究过程中,研究者还探索了各种常规(非对抗性)提示类型,并发现这些提示类型在纯困惑度过滤中存在假阳性的问题。这意味着使用困惑度作为唯一过滤条件的做法可能会导致误判。为了解决假阳性问题并更准确地检测对抗攻击,研究者采用基于困惑度和令牌长度的Light-GBM训练方法。在测试集中,这种方法能够有效地解决假阳性问题,并正确检测大多数对抗攻击。
链接:
https://arxiv.org/abs/2308.14132v3.pdf
相关文章:
第34期 | GPTSecurity周报
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…...
2023新版edge浏览器页面加载不出来的解决办法
2023新版edge浏览器页面加载不出来的原因有很多,以下是一些可能的解决方法: - 检查网络连接:确保你的设备连接到稳定的网络,尝试重新启动路由器或调制解调器。 - 清除浏览器缓存:打开edge浏览器,点击右上…...
算法基础之二分与前缀和 day 6
文章目录 二分第一类第二类 前缀和原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 二分 二分法是我们在高中数学就学习过的一种思想,他也是一种效率较高的查找算法,在编写代码的过程中࿰…...
github短视频去除水印项目Douyin_TikTok_Download_API介绍
当下正值短视频盛行的时代。在我们浏览短视频的同时,经常能发现一些精美的图片、引人入胜的文案以及吸引眼球的视频,想要将它们保存到本地。然而,保存下来的图片或视频通常伴随着不太愉悦的水印,这显著降低了使用体验。因此&#…...
FindMy技术用于键盘
键盘是我们生活中不可或缺的输入工具,是人与计算机之间沟通的桥梁,无论是编写文档、浏览网页、玩游戏、或是进行复杂的数据分析,键盘都在其中发挥着关键的作用。此外,键盘还是各种软件的快捷键操作的关键。通过熟练地运用快捷键&a…...
认识jmeter接口测试工具!
jmeter简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 下载 下载地址:Apache JMeter - Download Apache JMeter 安装 由于Jmeter…...
强大的按钮类CButtonST
转自:哈哈 强大的CButtonST_cbuttonst demo-CSDN博客 这里给大家介绍强大的按钮类CButtonST,可以使您的程序锦上添花。 CButtonST类主要包括BtnST.h、BtnST.cpp、BCMenu.h和BCMenu.cpp四个文件。先将上述4个文件复制到自己的工程,然后在VC开…...
学习ing
记录 1.光圈的大小由一个称为“F值”的数字表示,这个数字越小,光圈就越大,光线也就越多。一般来说,使用较小的F值可以拍摄出更亮的照片,而使用较大的F值可以拍摄出更暗的照片。 2.光圈可以控制相机的曝光时间&#x…...
linux下数据库定时备份
1.编写shell脚本 #!/bin/bash USER"root" PASSWORD"Root.36#336" DATABASE"backup_test" HOSTNAME"127.0.0.1" DATEdate %Y%m%d_%H%M%S #日期格式(作为文件名) BACKUP_DIR/home/mysql/DB_backup/ #备份文件存…...
Qt/QML编程学习之心得:QSocketNotifier(二十一)
QSocketNotifier在Qt中怎么使用? QSocketNotifier使Qt的事件循环与其他基于文件描述符的事件循环集成成为可能。在Qt的主事件循环(QCoreApplication::exec())中检测到文件描述符操作。 使用低级(通常是特定于平台的)API打开设备后,可以创建一个套接字通知程序来监视文…...
【linux】lsblk和df -h显示的磁盘信息不同
【问题分析】 lsblk 查看的是block device,也就是逻辑磁盘大小。 df查看的是file system, 也就是文件系统层的磁盘大小。 这种情况应该是block device容量变大,单还没有反映到file system中。 【问题解决】 如果是ext{2,3,4}文件系统的话,可以用res…...
如何开发属于自己的小程序?
随着移动互联网的快速发展,小程序已成为一种不可忽视的力量。对于许多企业和个人而言,拥有一个属于自己的小程序不仅能提高品牌曝光度,还能带来实实在在的收益。那么,如何开发属于自己的小程序呢?本文将为你揭秘这一过…...
湖仓架构的演进
1.数据仓库架构的历史演进 起初,业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到Data Warehouse中,再在前端接入一些报表或者BI的工具去展示。 数据仓库概念是 Inmon 于 1990 年提出并给出了完…...
【头歌实训】Spark MLlib ( Python 版 )
文章目录 第1关:基本统计编程要求测试说明答案代码 第2关:回归编程要求测试说明参考资料答案代码 第3关:分类编程要求测试说明参考资料答案代码 第4关:协同过滤编程要求测试说明参考资料答案代码 第5关:聚类编程要求测…...
Java基础进阶(学习笔记)
注:本篇的代码和PPT图片来源于黑马程序员,本篇仅为学习笔记 static static 是静态的意思,可以修饰成员变量,也可以修饰成员方法 修饰成员的特点: 被其修饰的成员, 被该类的所有对象所共享 多了一种调用方式, 可以通过…...
uView NoticeBar 滚动通知
该组件用于滚动通告场景,有多种模式可供选择 #平台差异说明 App(vue)App(nvue)H5小程序√√√√ #基本使用 通过text参数设置需要滚动的内容 <template><view><u-notice-bar :text"text1&quo…...
外包干了3个多月,技术退步明显。。。。。
先说一下自己的情况,本科生生,19年通过校招进入广州某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...
JSON的一些资源
以下是一些推荐的学习资源: 1. **官方网站**: - JSON.org: 这是一个很好的起点,它提供了JSON的基本介绍和语法规则。 2. **在线教程和课程**: - CSDN全方面学习各种资源。 - W3Schools (w3schools.com): 提供了一个关于JSON的教程,涵…...
最优化理论期末复习笔记 Part 1
数学基础线性代数 从行的角度从列的角度行列式的几何解释向量范数和矩阵范数 向量范数矩阵范数的更强的性质的意义 几种向量范数诱导的矩阵范数 1 范数诱导的矩阵范数无穷范数诱导的矩阵范数2 范数诱导的矩阵范数 各种范数之间的等价性向量与矩阵序列的收敛性 函数的可微性与展…...
鸿蒙应用中的通知
目录 1、通知流程 2、发布通知 2.1、发布基础类型通知 2.1.1、接口说明 2.1.2、普通文本类型通知 2.1.3、长文本类型通知 2.1.4、多行文本类型通知 2.1.5、图片类型通知 2.2、发布进度条类型通知 2.2.1、接口说明 2.2.2、示例 2.3、为通知添加行为意图 2.3.1、接…...
docker详细操作--未完待续
docker介绍 docker官网: Docker:加速容器应用程序开发 harbor官网:Harbor - Harbor 中文 使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像 是什么 Docker 是一种开源的容器化平台,用于将应用程序及其依赖项(如库、运行时环…...
VB.net复制Ntag213卡写入UID
本示例使用的发卡器:https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...
【SQL学习笔记1】增删改查+多表连接全解析(内附SQL免费在线练习工具)
可以使用Sqliteviz这个网站免费编写sql语句,它能够让用户直接在浏览器内练习SQL的语法,不需要安装任何软件。 链接如下: sqliteviz 注意: 在转写SQL语法时,关键字之间有一个特定的顺序,这个顺序会影响到…...
第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...
【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)
升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求ÿ…...
3403. 从盒子中找出字典序最大的字符串 I
3403. 从盒子中找出字典序最大的字符串 I 题目链接:3403. 从盒子中找出字典序最大的字符串 I 代码如下: class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...
Springboot社区养老保险系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,社区养老保险系统小程序被用户普遍使用,为方…...
Unsafe Fileupload篇补充-木马的详细教程与木马分享(中国蚁剑方式)
在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件 本期内容是为了更好的为大家解释木马(服务器方面的)的原理,连接,以及各种木马及连接工具的分享 文件木马:https://w…...
站群服务器的应用场景都有哪些?
站群服务器主要是为了多个网站的托管和管理所设计的,可以通过集中管理和高效资源的分配,来支持多个独立的网站同时运行,让每一个网站都可以分配到独立的IP地址,避免出现IP关联的风险,用户还可以通过控制面板进行管理功…...
