第34期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. Constitutional AI: Harmlessness from AI Feedback
简介:随着人工智能系统能力的增强,研究者希望能够借助其力量来监督其他AI。为了实现这一目标,研究者采用了一种自我改进的方法,试图训练一种无害的AI助手。该过程包括两个阶段:监督学习和强化学习。在监督学习阶段,研究者从初始模型中采样,然后生成自我批评和修订。根据修订后的回复,对原始模型进行微调。在强化学习阶段,研究者从微调后的模型中采样,使用一个模型来评估哪两个样本更好。然后,从AI偏好数据集中训练偏好模型。这些方法使更精确地控制AI行为和减少人类标签成为可能。通过这种训练方法,研究者能够提高AI助手的准确性和效率,同时避免潜在的有害行为。这种方法对于监督和规范AI的发展具有重要意义,有助于确保AI系统的安全性和可靠性。
链接:
https://arxiv.org/abs/2212.08073.pdf
2. Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models
简介:随着大型语言模型(LLMs)在各种下游任务中的快速发展和显著成功,人们对其潜力和能力赞叹不已。然而,这种开放性的技术也带来了新的安全和隐私问题。由于LLMs具有强大的模仿和生成能力,它们可能被用于抄袭或模仿写作,进而侵犯原创内容的版权,或基于某个源文本制造滥用的虚假信息。更为严重的是,LLMs还能分析网络文本,从而推断出个人隐私。面对这一新形势,以往的文本保护措施显得力不从心。为了应对这一挑战,研究者提出了一种名为“沉默守护者”(SG)的文本保护机制。该机制专门针对LLMs设计,旨在从源头上防止恶意使用文本。当LLMs接收到受保护的文本时,“沉默守护者”会发挥作用,使模型拒绝生成响应。这样一来,就能有效地遏制利用LLMs进行的恶意行为,保护原创内容和个人隐私的安全。
链接:
https://arxiv.org/abs/2312.09669.pdf
3. Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs
简介:随着大型语言模型(LLMs)的快速发展,它们展现出了新的、难以预测的能力,其中一些可能带来潜在风险。为了确保LLMs的安全和负责任部署,开发人员需要评估这些“危险能力”并识别相关风险。在这项研究中,研究者首次收集了一个开源数据集,旨在评估LLMs中的保护措施,并促进更安全的开源LLMs的低成本部署。他们选择了六种流行的LLMs,并对这些模型对于特定指示的响应进行了标注和评估。基于这些标注数据,研究者进一步训练了几个BERT式分类器。令人惊喜的是,这些小型分类器在自动安全评估方面表现出了与GPT-4相当的性能。这一发现为低成本、高效地评估LLMs的安全性提供了新的可能。
链接:
https://arxiv.org/abs/2308.13387.pdf
4. Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models
简介:在这项研究中,研究者提出了一种名为ProAttack的新型高效方法,用于执行基于提示的干净标签后门攻击。这种方法利用提示本身作为触发器,无需外部触发器,确保中毒样本的正确标记,从而提高了后门攻击的隐蔽性。为了验证ProAttack在文本后门攻击中的性能,研究者进行了广泛的实验,涵盖了资源丰富和少样本文本分类任务。实验结果表明,ProAttack在文本后门攻击中展现出竞争力,尤其是在资源丰富的设置中。在无需外部触发器的干净标签后门攻击基准测试中,ProAttack实现了最先进的攻击成功率。
链接:
https://arxiv.org/abs/2305.01219.pdf
5. Detecting Language Model Attacks with Perplexity
简介:一种针对大型语言模型(LLMs)的新型黑客攻击技术已经出现。这种攻击利用对抗后缀来欺骗模型,生成具有潜在危险性的响应。攻击者可以利用这种技术诱导LLMs向恶意用户提供复杂的指示,用于制造炸药、策划银行抢劫或协助创建攻击性内容。为了评估这种对抗后缀的威胁,研究者利用开源LLM(GPT-2)来分析具有对抗后缀的查询的困惑度。结果显示,这些具有对抗后缀的查询的困惑度值非常高,这表明它们对于模型具有很大的迷惑性。在研究过程中,研究者还探索了各种常规(非对抗性)提示类型,并发现这些提示类型在纯困惑度过滤中存在假阳性的问题。这意味着使用困惑度作为唯一过滤条件的做法可能会导致误判。为了解决假阳性问题并更准确地检测对抗攻击,研究者采用基于困惑度和令牌长度的Light-GBM训练方法。在测试集中,这种方法能够有效地解决假阳性问题,并正确检测大多数对抗攻击。
链接:
https://arxiv.org/abs/2308.14132v3.pdf
相关文章:
第34期 | GPTSecurity周报
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大型语言模型(LLM)等安全领域应用的知识。在这里,您可以…...
2023新版edge浏览器页面加载不出来的解决办法
2023新版edge浏览器页面加载不出来的原因有很多,以下是一些可能的解决方法: - 检查网络连接:确保你的设备连接到稳定的网络,尝试重新启动路由器或调制解调器。 - 清除浏览器缓存:打开edge浏览器,点击右上…...
算法基础之二分与前缀和 day 6
文章目录 二分第一类第二类 前缀和原题链接题目描述输入格式输出格式数据范围输入样例:输出样例: 题目分析示例代码 二分 二分法是我们在高中数学就学习过的一种思想,他也是一种效率较高的查找算法,在编写代码的过程中࿰…...
github短视频去除水印项目Douyin_TikTok_Download_API介绍
当下正值短视频盛行的时代。在我们浏览短视频的同时,经常能发现一些精美的图片、引人入胜的文案以及吸引眼球的视频,想要将它们保存到本地。然而,保存下来的图片或视频通常伴随着不太愉悦的水印,这显著降低了使用体验。因此&#…...
FindMy技术用于键盘
键盘是我们生活中不可或缺的输入工具,是人与计算机之间沟通的桥梁,无论是编写文档、浏览网页、玩游戏、或是进行复杂的数据分析,键盘都在其中发挥着关键的作用。此外,键盘还是各种软件的快捷键操作的关键。通过熟练地运用快捷键&a…...
认识jmeter接口测试工具!
jmeter简介 Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 下载 下载地址:Apache JMeter - Download Apache JMeter 安装 由于Jmeter…...
强大的按钮类CButtonST
转自:哈哈 强大的CButtonST_cbuttonst demo-CSDN博客 这里给大家介绍强大的按钮类CButtonST,可以使您的程序锦上添花。 CButtonST类主要包括BtnST.h、BtnST.cpp、BCMenu.h和BCMenu.cpp四个文件。先将上述4个文件复制到自己的工程,然后在VC开…...
学习ing
记录 1.光圈的大小由一个称为“F值”的数字表示,这个数字越小,光圈就越大,光线也就越多。一般来说,使用较小的F值可以拍摄出更亮的照片,而使用较大的F值可以拍摄出更暗的照片。 2.光圈可以控制相机的曝光时间&#x…...
linux下数据库定时备份
1.编写shell脚本 #!/bin/bash USER"root" PASSWORD"Root.36#336" DATABASE"backup_test" HOSTNAME"127.0.0.1" DATEdate %Y%m%d_%H%M%S #日期格式(作为文件名) BACKUP_DIR/home/mysql/DB_backup/ #备份文件存…...
Qt/QML编程学习之心得:QSocketNotifier(二十一)
QSocketNotifier在Qt中怎么使用? QSocketNotifier使Qt的事件循环与其他基于文件描述符的事件循环集成成为可能。在Qt的主事件循环(QCoreApplication::exec())中检测到文件描述符操作。 使用低级(通常是特定于平台的)API打开设备后,可以创建一个套接字通知程序来监视文…...
【linux】lsblk和df -h显示的磁盘信息不同
【问题分析】 lsblk 查看的是block device,也就是逻辑磁盘大小。 df查看的是file system, 也就是文件系统层的磁盘大小。 这种情况应该是block device容量变大,单还没有反映到file system中。 【问题解决】 如果是ext{2,3,4}文件系统的话,可以用res…...
如何开发属于自己的小程序?
随着移动互联网的快速发展,小程序已成为一种不可忽视的力量。对于许多企业和个人而言,拥有一个属于自己的小程序不仅能提高品牌曝光度,还能带来实实在在的收益。那么,如何开发属于自己的小程序呢?本文将为你揭秘这一过…...
湖仓架构的演进
1.数据仓库架构的历史演进 起初,业界数据处理首选方式是数仓架构。通常数据处理的流程是把一些业务数据库,通过ETL的方式加载到Data Warehouse中,再在前端接入一些报表或者BI的工具去展示。 数据仓库概念是 Inmon 于 1990 年提出并给出了完…...
【头歌实训】Spark MLlib ( Python 版 )
文章目录 第1关:基本统计编程要求测试说明答案代码 第2关:回归编程要求测试说明参考资料答案代码 第3关:分类编程要求测试说明参考资料答案代码 第4关:协同过滤编程要求测试说明参考资料答案代码 第5关:聚类编程要求测…...
Java基础进阶(学习笔记)
注:本篇的代码和PPT图片来源于黑马程序员,本篇仅为学习笔记 static static 是静态的意思,可以修饰成员变量,也可以修饰成员方法 修饰成员的特点: 被其修饰的成员, 被该类的所有对象所共享 多了一种调用方式, 可以通过…...
uView NoticeBar 滚动通知
该组件用于滚动通告场景,有多种模式可供选择 #平台差异说明 App(vue)App(nvue)H5小程序√√√√ #基本使用 通过text参数设置需要滚动的内容 <template><view><u-notice-bar :text"text1&quo…...
外包干了3个多月,技术退步明显。。。。。
先说一下自己的情况,本科生生,19年通过校招进入广州某软件公司,干了接近4年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测…...
JSON的一些资源
以下是一些推荐的学习资源: 1. **官方网站**: - JSON.org: 这是一个很好的起点,它提供了JSON的基本介绍和语法规则。 2. **在线教程和课程**: - CSDN全方面学习各种资源。 - W3Schools (w3schools.com): 提供了一个关于JSON的教程,涵…...
最优化理论期末复习笔记 Part 1
数学基础线性代数 从行的角度从列的角度行列式的几何解释向量范数和矩阵范数 向量范数矩阵范数的更强的性质的意义 几种向量范数诱导的矩阵范数 1 范数诱导的矩阵范数无穷范数诱导的矩阵范数2 范数诱导的矩阵范数 各种范数之间的等价性向量与矩阵序列的收敛性 函数的可微性与展…...
鸿蒙应用中的通知
目录 1、通知流程 2、发布通知 2.1、发布基础类型通知 2.1.1、接口说明 2.1.2、普通文本类型通知 2.1.3、长文本类型通知 2.1.4、多行文本类型通知 2.1.5、图片类型通知 2.2、发布进度条类型通知 2.2.1、接口说明 2.2.2、示例 2.3、为通知添加行为意图 2.3.1、接…...
告别手动维护!用DataX-Web搞定MySQL到ClickHouse的增量同步(含时间戳配置)
高效构建MySQL到ClickHouse的增量同步管道:DataX-Web实战指南 在数据驱动的商业环境中,企业每天都会产生海量的业务数据。这些数据通常存储在OLTP系统如MySQL中,但为了进行分析和报表生成,我们需要将这些数据同步到OLTP系统如Clic…...
XMind快捷键背不会?试试我这套‘肌肉记忆’训练法,用这5个高频组合搞定80%的绘图
XMind快捷键肌肉记忆训练法:5个高频组合提升80%绘图效率 刚接触XMind时,我总在菜单栏里来回翻找功能按钮,每次画完一张思维导图手腕都隐隐发酸。直到发现产品总监小王能在十分钟内完成我半小时的工作量——他的双手几乎没离开过键盘ÿ…...
纹理识别必备!5个高质量数据集下载与使用指南(附避坑技巧)
纹理识别实战指南:五大高价值数据集深度解析与应用技巧 纹理识别作为计算机视觉领域的重要分支,在工业质检、自动驾驶、医疗影像等场景中发挥着关键作用。但许多开发者在数据集获取和预处理阶段就会遇到各种"暗坑"——从下载链接失效到标注格式…...
暗黑破坏神2存档编辑器的创意实验:开启你的游戏世界无限可能
暗黑破坏神2存档编辑器的创意实验:开启你的游戏世界无限可能 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾想过在暗黑破坏神2的世界里创造属于自己的传奇?当传统的游戏进程无法满足你的创意需求…...
硬件调试新纪元:85%效率提升的AMD Ryzen系统优化方案
硬件调试新纪元:85%效率提升的AMD Ryzen系统优化方案 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://git…...
Python爬虫赋能丹青识画:自动化构建艺术图像数据集
Python爬虫赋能丹青识画:自动化构建艺术图像数据集 每次看到那些能精准识别画作风格、作者甚至创作年代的AI应用,你是不是也好奇它们是怎么“学”出来的?答案很简单:喂给它海量的、高质量的“教材”——也就是艺术图像数据集。但…...
YOLOFuse效果实测:低光、烟雾环境下,多模态检测精度提升明显
YOLOFuse效果实测:低光、烟雾环境下,多模态检测精度提升明显 1. 引言 在计算机视觉领域,目标检测技术已经取得了显著进展,但在低光照、烟雾等复杂环境下,传统基于RGB图像的单模态检测方法仍然面临巨大挑战。这些环境…...
RStudio Server部署与运维实战:从零搭建到高效管理
1. 环境准备:搭建RStudio Server的基石 在开始部署RStudio Server之前,我们需要确保服务器环境已经准备就绪。就像盖房子需要打地基一样,这一步决定了后续所有工作的稳定性。我遇到过不少因为环境问题导致的安装失败案例,大多数都…...
MAD与标准差:鲁棒统计中的抗噪利器
1. 为什么我们需要抗噪统计量? 在日常数据分析中,我们经常会遇到一些"不听话"的数据点。比如分析员工薪资时突然冒出几个高管的天价年薪,或者测量温度时混入几个明显错误的极端值。这时候如果直接用传统的标准差来计算离散程度&…...
深度学习模型的绿色优化:Torch-Pruning减少能源消耗的终极指南
深度学习模型的绿色优化:Torch-Pruning减少能源消耗的终极指南 【免费下载链接】Torch-Pruning [CVPR 2023] Towards Any Structural Pruning; LLMs / Diffusion / Transformers / YOLOv8 / CNNs 项目地址: https://gitcode.com/gh_mirrors/to/Torch-Pruning …...
