当前位置: 首页 > news >正文

大模型安全相关论文

LLM对于安全的优势

“Generating secure hardware using chatgpt resistant to cwes,” Cryptology ePrint Archive, Paper 2023/212, 2023评估了ChatGPT平台上代码生成过程的安全性,特别是在硬件领域。探索了设计者可以采用的策略,使ChatGPT能够提供安全的硬件代码生成

“Fixing hardware security bugs with large language models,” arXiv preprint arXiv:2302.01215, 2023. 将关注点转移到硬件安全上。研究了LLMs,特别是OpenAI的Codex,在自动识别和修复硬件设计中与安全相关的bug方面的使用。

“Novel approach to cryptography implementation using chatgpt,” 使用ChatGPT实现密码学,最终保护数据机密性。尽管缺乏广泛的编码技巧或编程知识,但作者能够通过ChatGPT成功地实现密码算法。这凸显了个体利用ChatGPT进行密码学任务的潜力。

“Agentsca: Advanced physical side channel analysis agent with llms.” 2023.探索了应用LLM技术来开发侧信道分析方法。该研究包括3种不同的方法:提示工程、微调LLM和基于人类反馈强化学习的微调LLM

LLM的隐私保护

通过最先进的隐私增强技术(例如,零知识证明 ,差分隐私[ 233,175,159 ]和联邦学习[ 140,117,77 ] )来增强LLM

  • “Privacy and data protection in chatgpt and other ai chatbots: Strategies for securing user information,”
  • “Differentially private decoding in large language models,”
  • “Privacy-preserving prompt tuning for large language model services,”
  • “Federatedscope-llm: A comprehensive package for fine-tuning large language models in federated learning,”
  • “Chatgpt passing usmle shines a spotlight on the flaws of medical education,”
  • “Fate-llm: A industrial grade federated learning framework for large language models,”

对LLM的攻击

侧信道攻击

“Privacy side channels in machine learning systems,”引入了隐私侧信道攻击,这是一种利用系统级组件(例如,数据过滤、输出监控等)以远高于单机模型所能实现的速度提取隐私信息的攻击。提出了覆盖整个ML生命周期的4类侧信道,实现了增强型成员推断攻击和新型威胁(例如,提取用户的测试查询)

数据中毒攻击

  • “Universal jailbreak backdoors from poisoned human feedback,”
  • “On the exploitability of instruction tuning,”
  • “Promptspecific poisoning attacks on text-to-image generative models,”
  • “Poisoning language models during instruction tuning,”

后门攻击

  • “Chatgpt as an attack tool: Stealthy textual backdoor attack via blackbox generative model trigger,”
  • “Large language models are better adversaries: Exploring generative clean-label backdoor attacks against text classifiers,”
  • “Poisonprompt: Backdoor attack on prompt-based large language models,”

属性推断攻击

  • “Beyond memorization: Violating privacy via inference with large language models,”首次全面考察了预训练的LLMs从文本中推断个人信息的能力

提取训练数据

  • “Ethicist: Targeted training data extraction through loss smoothed soft prompting and calibrated confidence estimation,”
  • “Canary extraction in natural language understanding models,”
  • “What do code models memorize? an empirical study on large language models of code,”
  • “Are large pre-trained language models leaking your personal information?”
  • “Text revealer: Private text reconstruction via model inversion attacks against transformers,”

提取模型

  • “Data-free model extraction,”

对LLM的防御

模型架构防御

  • “Large language models can be strong differentially private learners,”具有较大参数规模的语言模型可以更有效地以差分隐私的方式进行训练。
  • “Promptbench: Towards evaluating the robustness of large language models on adversarial prompts,”
  • “Evaluating the instructionfollowing robustness of large language models to prompt injection,”更广泛的参数规模的LLMs,通常表现出对对抗攻击更高的鲁棒性。
  • “Revisiting out-of-distribution robustness in nlp: Benchmark, analysis, and llms evaluations,”在Out - of - distribution ( OOD )鲁棒性场景中也验证了这一点
  • “Synergistic integration of large language models and cognitive architectures for robust ai: An exploratory analysis,”通过将多种认知架构融入LLM来提高人工智能的鲁棒性。
  • “Building trust in conversational ai: A comprehensive review and solution architecture for explainable, privacy-aware systems using llms and knowledge graph,”与外部模块(知识图谱)相结合来提高LLM的安全性

LLM训练的防御:对抗训练

  • “Adversarial training for large neural language models,”
  • “Improving neural language modeling via adversarial training,”
  • “Freelb: Enhanced adversarial training for natural language understanding,”
  • “Towards improving adversarial training of nlp models,”
  • “Token-aware virtual adversarial training in natural language understanding,”
  • “Towards deep learning models resistant to adversarial attacks,”
  • “Achieving model robustness through discrete adversarial training,”
  • “Towards improving adversarial training of nlp models,”
  • “Improving neural language modeling via adversarial training,”
  • “Adversarial training for large neural language models,”
  • “Freelb: Enhanced adversarial training for natural language understanding,”
  • “Token-aware virtual adversarial training in natural language understanding,”

LLM训练的防御:鲁棒微调

  • “How should pretrained language models be fine-tuned towards adversarial robustness?”
  • “Smart: Robust and efficient fine-tuning for pre-trained natural language models through principled regularized optimization,”
  • “Safety-tuned llamas: Lessons from improving the safety of large language models that follow instructions,”

LLM推理的防御:指令预处理

  • “Baseline defenses for adversarial attacks against aligned language models,”评估了多种针对越狱攻击的基线预处理方法,包括重令牌化和复述。
  • “On the reliability of watermarks for large language models,”评估了多种针对越狱攻击的基线预处理方法,包括重令牌化和复述
  • “Text adversarial purification as defense against adversarial attacks,”通过先对输入令牌进行掩码,然后与其他LLMs一起预测被掩码的令牌来净化指令。
  • “Jailbreak and guard aligned language models with only few in-context demonstrations,”证明了在指令中插入预定义的防御性证明可以有效地防御LLMs的越狱攻击。
  • “Testtime backdoor mitigation for black-box large language models with defensive demonstrations,”证明了在指令中插入预定义的防御性证明可以有效地防御LLMs的越狱攻击。

LLM推理的防御:恶意检测

提供了对LLM中间结果的深度检查,如神经元激活

  • “Defending against backdoor attacks in natural language generation,”提出用后向概率检测后门指令。
  • “A survey on evaluation of large language models,”从掩蔽敏感性的角度区分了正常指令和中毒指令。
  • “Bddr: An effective defense against textual backdoor attacks,”根据可疑词的文本相关性来识别可疑词。
  • “Rmlm: A flexible defense framework for proactively mitigating word-level adversarial attacks,”根据多代之间的语义一致性来检测对抗样本
  • “Shifting attention to relevance: Towards the uncertainty estimation of large language models,”在LLMs的不确定性量化中对此进行了探索
  • “Onion: A simple and effective defense against textual backdoor attacks,”利用了语言统计特性,例如检测孤立词。

LLM推理的防御:生成后处理

  • “Jailbreaker in jail: Moving target defense for large language models,”通过与多个模型候选物比较来减轻生成的毒性。
  • “Llm self defense: By self examination, llms know they are being tricked,”

相关文章:

大模型安全相关论文

LLM对于安全的优势 “Generating secure hardware using chatgpt resistant to cwes,” Cryptology ePrint Archive, Paper 2023/212, 2023评估了ChatGPT平台上代码生成过程的安全性,特别是在硬件领域。探索了设计者可以采用的策略,使ChatGPT能够提供安…...

回归预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测

回归预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测 目录 回归预测 | Matlab实现PSO-BiLSTM-Attention粒子群算法优化双向长短期记忆神经网络融合注意力机制多变量回归预测预测效果基本描述程序设计参考资料 预测效果…...

[算法沉淀记录] 排序算法 —— 堆排序

排序算法 —— 堆排序 算法基础介绍 堆排序(Heap Sort)是一种基于比较的排序算法,它利用堆这种数据结构来实现排序。堆是一种特殊的完全二叉树,其中每个节点的值都必须大于或等于(最大堆)或小于或等于&am…...

C++ //练习 9.33 在本节最后一个例子中,如果不将insert的结果赋予begin,将会发生什么?编写程序,去掉此赋值语句,验证你的答案。

C Primer(第5版) 练习 9.33 练习 9.33 在本节最后一个例子中,如果不将insert的结果赋予begin,将会发生什么?编写程序,去掉此赋值语句,验证你的答案。 环境:Linux Ubuntu&#xff0…...

[corCTF 2022] CoRJail: From Null Byte Overflow To Docker Escape

前言 题目来源:竞赛官网 – 建议这里下载,文件系统/带符号的 vmlinux 给了 参考 [corCTF 2022] CoRJail: From Null Byte Overflow To Docker Escape Exploiting poll_list Objects In The Linux Kernel – 原作者文章,poll_list 利用方式…...

thinkphp6定时任务

这里主要是教没有用过定时任务没有头绪的朋友, 定时任务可以处理一些定时备份数据库等一系列操作, 具体根据自己的业务逻辑进行更改 直接上代码 首先, 是先在 tp 中的 command 方法中声明, 如果没有就自己新建一个, 代码如下 然后就是写你的业务逻辑 执行定时任务 方法写好了…...

支持国密ssl的curl编译和测试验证(上)

目录 1. 编译铜锁ssl库2. 编译nghttp2库3. 编译curl4. 验证4.1 查看版本信息4.2 验证国密ssl握手功能4.3 验证http2协议功能 以下以ubuntu 22.04环境为例进行编译 本次编译采用铜锁sslnghttp2curl,使得编译出来的curl可以支持国密ssl,并且可以支持http2…...

包装类详解

概述 Java提供了两个类型系统,基本类型与引用类型,使用基本类型在于效率,然而很多情况,会创建对象使用,因为对象可以做更多的功能,如果想要我们的基本类型像对象一样操作,就可以使用基本类型对…...

vue3与vue2的区别

Vue 3和Vue 2在以下几个方面有一些区别: 性能提升:Vue 3对渲染性能和内存占用进行了优化,使用了Proxy代理对象,比Vue 2的Object.defineProperty更高效。此外,Vue 3还引入了静态树提升(Static Tree Hoisting…...

SSL OV证书和DV、EV证书的区别

在网站搭建的过程中和小程序开发过程中,很难免会有需要用到SSL证书的地方,但是目前数字证书种类繁多,该选择什么类型的证书成为了一个令人纠结的问题。 目前在市场上较为常见的证书分为三种:DV域名验证型证书;OV组织验…...

一款.NET下 WPF UI框架介绍

WPF开源的UI框架有很多,如HandyControl、MahApps.Metro、Xceed Extended WPF Toolkit™、Modern UI for WPF (MUI)、Layui-WPF、MaterialDesignInXamlToolkit、等等,今天小编带大家认识一款比较常用的kaiyuanUI---WPF UI,这款ui框架美观现代化,用起来也超级方便, 界面展示…...

东莞IBM服务器维修之IBM x3630 M4阵列恢复

记录东莞某抖音电商公司送修一台IBM SYSTEM X3630 M4文档服务器RAID6故障导致数据丢失的恢复案例 时间:2024年02月20日, 服务器品牌:IBM System x3630 M4,阵列卡用的是DELL PERC H730P 服务器用途和用户位置:某抖音电…...

Flask基础学习4

19-【实战】问答平台项目结构搭建_剪_哔哩哔哩_bilibili 参考如上大佬的视频教程&#xff0c;本博客仅当学习笔记&#xff0c;侵权请联系删除 问答发布的web前端页面实现 register.html {% extends base.html %}{% block head %}<link rel"stylesheet" href&q…...

mac安装zookeeper

下载地址&#xff1a; http://archive.apache.org/dist/zookeeper/ 注意&#xff1a;由于Zookeeper从3.5.5版本开始&#xff0c;带有bin名称的包才是我们想要的下载可以直接使用的里面有编译后的二进制的包&#xff0c;而之前的普通的tar.gz的包里面是只是源码的包无法直接使…...

IT资讯——全速推进“AI+鸿蒙”战略布局!

文章目录 每日一句正能量前言坚持长期研发投入全速推进“AI鸿蒙”战略 人才战略新章落地持续加码核心技术生态建设 后记 每日一句正能量 人总要咽下一些委屈&#xff0c;然后一字不提的擦干眼泪往前走&#xff0c;没有人能像白纸一样没有故事&#xff0c;成长的代价就是失去原来…...

数据结构知识点总结-线性表(3)-双向链表定义、循环单链表、、循环双向链表、静态链表、顺序表与链表的比较

双向链表定义 单链表结点中只有一个指向其后继的指针&#xff0c;这使得单链表只能从头结点依次顺序地向后遍历。若要访问某个结点的前驱结点&#xff08;插入、删除操作时&#xff09;&#xff0c;只能从头开始遍历&#xff0c;访问后继结点的时间复杂度为 O(1) &#xff0c; …...

JAVA学习-控制执行流程.for

在Java中&#xff0c;for循环是一种常用的控制执行流程的循环语句。它允许我们重复执行一段代码&#xff0c;直到满足指定的循环条件。 一、for循环的基本语法如下&#xff1a; for (初始化语句; 循环条件; 循环后操作) {// 循环体&#xff0c;要执行的代码} 其中&#xff0c…...

面试总结之JVM入门

文章目录 &#x1f412;个人主页&#x1f3c5;JavaEE系列专栏&#x1f4d6;前言&#xff1a;&#x1f380;你为什么要学习JVM&#xff1f;&#x1f380;JVM的作用 &#x1f380;JVM的构成&#xff08;5大类&#xff09;&#x1f3e8;1.类加载系统&#x1f415;类什么时候会被加…...

适配器模式(Adapter Pattern) C++

上一节&#xff1a;原型模式&#xff08;Prototype Pattern&#xff09; C 文章目录 0.理论1.组件2.类型3.什么时候使用 1.实践1.基础接口和类2.类适配器实现3.对象适配器实现 0.理论 适配器模式&#xff08;Adapter Pattern&#xff09;是一种结构型设计模式&#xff0c;它允…...

【程序员英语】【美语从头学】初级篇(入门)(笔记)Lesson 16 At the Shoe Store 在鞋店

《美语从头学初级入门篇》 注意&#xff1a;被 删除线 划掉的不一定不正确&#xff0c;只是不是标准答案。 文章目录 Lesson 16 At the Shoe Store 在鞋店对话A对话B笔记会话A会话B替换 Lesson 16 At the Shoe Store 在鞋店 对话A A: Do you have these shoes in size 8? B:…...

3步构建工业级语音数据集:从混乱录音到AI训练素材的蜕变之路

3步构建工业级语音数据集&#xff1a;从混乱录音到AI训练素材的蜕变之路 你是否还在为语音识别模型效果不佳而烦恼&#xff1f;是否采集了大量语音却不知如何转化为训练数据&#xff1f;本文将带你通过FunASR框架提供的标准化工具链&#xff0c;3步完成工业级语音数据集的构建…...

League-Toolkit:英雄联盟智能工具集如何解决游戏决策与操作痛点并提升玩家体验

League-Toolkit&#xff1a;英雄联盟智能工具集如何解决游戏决策与操作痛点并提升玩家体验 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Tool…...

OpenClaw+GLM-4.7-Flash:3个提升开发效率的自动化脚本

OpenClawGLM-4.7-Flash&#xff1a;3个提升开发效率的自动化脚本 1. 为什么选择这个技术组合&#xff1f; 作为一名长期在终端里摸爬滚打的开发者&#xff0c;我一直在寻找能够真正融入日常工作的AI助手方案。直到遇到OpenClawGLM-4.7-Flash这个组合&#xff0c;才找到了理想…...

5G NR物理层实战:如何利用TS 38.211优化无线资源管理

5G NR物理层实战&#xff1a;TS 38.211无线资源管理优化指南 在5G网络部署的深水区&#xff0c;无线资源管理&#xff08;RRM&#xff09;的精细化程度直接决定了网络性能天花板。作为3GPP物理层协议集的核心文档&#xff0c;TS 38.211规范中隐藏着诸多未被充分挖掘的优化密钥—…...

机器视觉中的坐标系转换:从像素到世界的无缝衔接

1. 机器视觉中的坐标系基础概念 第一次接触机器视觉时&#xff0c;最让我困惑的就是各种坐标系之间的关系。记得当时调试工业相机时&#xff0c;明明在图像上看到了目标物体&#xff0c;但机械臂就是抓不准位置。后来才发现&#xff0c;问题出在没有正确理解像素坐标系和世界坐…...

别再只用LSTM了!用XGBoost做电力负荷预测,从特征工程到模型部署的完整实战(附Python代码)

电力负荷预测实战&#xff1a;XGBoost如何超越LSTM的五大技术突破 在能源管理领域&#xff0c;准确预测电力负荷一直是行业痛点。当大多数团队还在使用LSTM等深度学习模型时&#xff0c;一个令人惊讶的事实正在发生&#xff1a;经过精心调优的XGBoost模型在多个工业场景中表现优…...

STM32WU55蓝牙开发避坑指南:从官方例程到8通道肌电信号传输实战

STM32WU55蓝牙开发避坑指南&#xff1a;从官方例程到8通道肌电信号传输实战 当肌电信号采集遇上低功耗蓝牙&#xff0c;工程师们往往面临一个尴尬的平衡&#xff1a;既要满足医疗级数据精度&#xff0c;又要兼顾穿戴设备的续航需求。STM32WU55系列以其双核架构和集成射频模块&a…...

ncmdumpGUI:实现NCM格式自由转换的音频解决方案

ncmdumpGUI&#xff1a;实现NCM格式自由转换的音频解决方案 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换&#xff0c;Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 痛点剖析&#xff1a;NCM格式的技术民主化阻碍 格…...

Zrlog面试问答及问题解决方案

面试问答 结合 ZrLog 部署&#xff08;Maven 构建 环境配置 服务部署&#xff09;的全流程&#xff0c;整理排查 / 运维 / 开发三类高频问题&#xff0c;覆盖场景、原因、解答思路&#xff0c;可直接用于沟通或故障定位&#xff1a; 一、环境准备阶段高频问题 1. 执行 jav…...

NaViL-9B开源模型生态:HuggingFace模型卡+GitHub训练代码指引

NaViL-9B开源模型生态&#xff1a;HuggingFace模型卡GitHub训练代码指引 1. 平台简介 NaViL-9B是上海人工智能实验室发布的一款原生多模态大语言模型&#xff0c;支持纯文本问答和图片理解双重能力。作为开源社区的重要贡献&#xff0c;该模型已在HuggingFace平台发布模型卡&…...