当前位置: 首页 > article >正文

论文阅读:ICLR 2026 A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Res

总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id887vde4ZAWhttps://openreview.net/pdf?id887vde4ZAWA Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-SpaceICLR 2026 | 安全微调新范式 论文背景与基本信息《A GUARDRAIL FOR SAFETY PRESERVATION: WHEN SAFETY-SENSITIVE SUBSPACE MEETS HARMFUL-RESISTANT NULL-SPACE》由吉林大学、KAUST、牛津大学等机构的 Bingjie Zhang、Yibo Yang 等学者完成。该论文发现大语言模型在微调即使是 benign 数据或 LoRA时预训练阶段的安全对齐极易退化导致模型对恶意提示产生有害回复。 例子想象一位训练有素的保安预训练模型。他原本能熟练识别并阻止危险人物恶意提示。现在要让他学习新技能比如整理文件下游任务。传统方法要么直接扔给他新任务结果他忘了老本行要么把他关进小黑屋不让学新东西。该论文的做法是先给保安做一次“能力扫描”找出哪些肌肉群是用来防危险的安全敏感子空间。这部分永久冻结不参与学习。剩下的肌肉群用来学习新技能同时给他戴上一副“有害过滤眼镜”有害抵抗零空间。无论他怎么活动眼镜都能保证当危险人物出现时他的反应和原来一模一样。最终保安既学会了整理文件又没丢掉防暴能力。 实验发现基于文档事实在 Llama-2-7B-Chat 上微调 SST‑2、AGNEWS、GSM8K、Dialog Summary 四个任务GuardSpace 的平均有害分数HS降至 2.70%显著优于 SOTA 方法 AsFT 的 8.10%同时平均任务准确率FA提升至 64.36%AsFT 为 62.78%。跨模型验证Qwen‑2‑7B、Gemma‑2‑9B、Mistral‑7B在 GSM8K 上GuardSpace 平均 HS 仅 7.60%而 LoRA 高达 53.50%平均 FA 达 64.60%为所有方法最高。即使微调数据中混入 20% 有害样本GuardSpace 的 HS 仍能维持在 11.2% 以下而 LoRA 已飙升至 58.4%。 启示该论文通过显式拆分安全相关与安全无关的权重并利用零空间投影约束有害输入的输出不变为 LLM 的“安全-性能”权衡提供了一种可工程化、无额外推理开销的普适解法。它证明安全不是脆弱的枷锁而是可以被结构化保留的固有属性。

相关文章:

论文阅读:ICLR 2026 A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Res

总目录 大模型安全研究论文整理 2026年版:https://blog.csdn.net/WhiffeYF/article/details/159047894 https://openreview.net/forum?id887vde4ZAW https://openreview.net/pdf?id887vde4ZAW A Guardrail for Safety Preservation: When Safety-Sensitive Sub…...

Microchip PIC64GX:64位RISC-V多核微处理器解析与应用

1. Microchip PIC64GX:首款64位RISC-V多核微处理器深度解析当Microchip宣布推出PIC64GX系列时,整个嵌入式行业都为之一振。作为Microchip首款64位RISC-V架构的微处理器,PIC64GX不仅填补了该公司在高性能RISC-V处理器领域的空白,更…...

终极指南:如何在Windows上轻松玩转经典Flash游戏与存档管理

终极指南:如何在Windows上轻松玩转经典Flash游戏与存档管理 【免费下载链接】CefFlashBrowser Flash浏览器 / Flash Browser 项目地址: https://gitcode.com/gh_mirrors/ce/CefFlashBrowser 你是否怀念那些曾经风靡一时的Flash游戏?当现代浏览器纷…...

LeetCode 接雨水:python 题解

1. 智能软件工程的范式转移:从库集成到原生框架演进 在生成式人工智能(Generative AI)从单纯的文本生成向具备自主规划与执行能力的“代理化(Agentic)”系统跨越的过程中,.NET 生态系统正在经历一场自该平台…...

XUnity.AutoTranslator完整教程:3步实现Unity游戏实时翻译

XUnity.AutoTranslator完整教程:3步实现Unity游戏实时翻译 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾因为语言障碍而无法畅玩心仪的日系RPG或欧美独立游戏?XUnity.Au…...

从‘孔径不够’到‘合成来凑’:聊聊SAR模型背后的工程智慧与那些年我们踩过的坑

从‘孔径不够’到‘合成来凑’:SAR模型背后的工程智慧与实战陷阱 雷达技术的发展史就是一部人类突破物理限制的史诗。上世纪50年代,当工程师们面对"要获得3米分辨率需要数十公里天线孔径"这一不可能任务时,合成孔径雷达&#xff08…...

Code The Hidden Language of Computer Hardware and Software 学习:CPU 控制信号电路详解

概述 这8张图描述了一个简单8位CPU的控制逻辑电路,负责在不同机器周期(取指、PC自增、执行)中,按正确时序产生各种控制信号,驱动寄存器、RAM、ALU等部件协同工作。 一、机器周期的基本结构 CPU每执行一条指令&#xff…...

99.26%降AI达标率+9平台覆盖:嘎嘎降AI 4.8元单价怎么做到的?

挑降 AI 工具的时候很多同学最关心的是"达标率"——但市面上号称"高达标率"的工具不少,真正公开具体数据并能解释数据来源的不多。 嘎嘎降AI 公开的 99.26% 达标率是这次推荐的核心数据之一。这个数字不是营销话术——是基于超过十亿字符真实处…...

知网AIGC算法升级让你的降AI工具失效?嘎嘎降AI 7天免费再处理!

很多同学买完降 AI 工具就以为万事大吉了,但 2026 年毕业季有一个被忽略的真实风险——算法升级带来的"昨天 OK 今天突然超标"。 嘎嘎降AI 的售后保障里有一条很少有工具提供的政策——7 天内 AIGC 检测平台算法升级导致 AI 率变化也能免费再处理。这条政…...

赌不起场景买降AI率工具看什么?比话降AI 3+1保障实际损失为零!

赌不起场景是降 AI 工具市场上最特殊的需求——你的论文不能延毕、不能错过答辩、不能学位审核翻车。这种场景下选工具的逻辑跟普通场景完全不同。 普通场景看单价、效果、口碑就够了。赌不起场景看的是翻车场景下的真实损失——万一工具不达标你能承受多大的成本?…...

从气象预测到金融风控:交叉小波相干性分析在Matlab中的跨界应用实战

从气象预测到金融风控:交叉小波相干性分析在Matlab中的跨界应用实战 当环境科学家试图理解厄尔尼诺现象如何影响区域降雨模式,或是金融分析师需要预测不同资产类别的联动周期时,他们面临的共同挑战是:传统统计方法难以捕捉随时间变…...

手把手教你用Python调参:让LSTM和ARIMA在时间序列预测里“各司其职”(基于PyTorch和pmdarima)

时间序列预测实战:LSTM与ARIMA融合调参全流程解析 时间序列预测一直是数据分析领域的核心挑战之一。无论是金融市场的波动预测、能源消耗的趋势分析,还是电商平台的销售预估,精准的时间序列模型都能为决策提供关键支持。传统统计方法如ARIMA擅…...

DLSS Swapper完全指南:3分钟免费提升游戏画质与性能的终极方案

DLSS Swapper完全指南:3分钟免费提升游戏画质与性能的终极方案 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 你是否曾在4K分辨率下游戏时,明明显卡性能足够,画面却依然模糊卡顿&am…...

目标检测YOLOv5前,别忘了用OpenCV给图像做个‘光照SPA’:预处理实战

目标检测YOLOv5前,别忘了用OpenCV给图像做个‘光照SPA’:预处理实战 在计算机视觉的实际工程中,我们常常过于关注模型架构的优化,却忽略了输入数据质量对最终性能的决定性影响。想象一下,即便是最先进的YOLOv5模型&…...

告别JSON臃肿:用Apache Avro为你的Kafka或Hudi数据瘦身(附实战代码)

告别JSON臃肿:用Apache Avro为你的Kafka或Hudi数据瘦身(附实战代码) 最近在优化数据管道时,发现JSON格式的数据体积膨胀得厉害——每条记录都要重复字段名,网络传输和磁盘存储的成本高得吓人。更糟的是,序列…...

基于Netty与WebSocket构建高性能物联网推送服务:从原理到实践

1. 项目概述与核心价值最近在折腾一个物联网项目,需要从一堆传感器节点里高效地收集数据。传统的轮询方式在节点数量上去之后,延迟和服务器压力都成了大问题。就在我琢磨着怎么优化架构时,偶然发现了 GitHub 上一个名为 “Caryyon/antenna” …...

Go语言WebSocket实时聊天后端架构设计与实现指南

1. 项目概述:一个轻量级的实时聊天应用后端 最近在折腾一个需要实时通信功能的小项目,不想用那些大而全的解决方案,感觉太重了,维护成本也高。于是就在开源社区里翻找,发现了 donapart/klatsch 这个项目。光看名字 “…...

终极碧蓝航线自动化脚本:Alas如何24小时解放你的双手 [特殊字符]

终极碧蓝航线自动化脚本:Alas如何24小时解放你的双手 🚢 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript …...

如何快速获取百度网盘提取码:baidupankey终极使用指南

如何快速获取百度网盘提取码:baidupankey终极使用指南 【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘提取码而反复搜索浪费时间吗?baidupankey作为一款专业的百度网盘提取码智能获取工具…...

技术访问者的操作扩展与元素分离

技术访问者的操作扩展与元素分离:提升交互效率的新思路 在当今数字化时代,技术访问者(如自动化脚本、爬虫或API调用者)与网页元素的交互方式直接影响效率与稳定性。传统方法往往依赖固定的DOM结构,一旦页面布局变动&a…...

NVMe 2.3协议学习

文章目录1 Controller Properties1.1 如何访问1.2 Controller 初始化流程1.3 CAP - Controller Capabilities (Offset 00h, 64-bit)X 面试场景问题1 为什么Properties Host必须通过BAR访问,不能通过DMA?2 如果Host按dword访问qword的CAP会怎样&#xff1…...

深度学习篇---匈牙利算法与OC-SORT

匈牙利算法与OC-SORT,一个是解决“最优匹配”的经典运筹学方法,另一个是赋予其动态场景“感知”能力的现代多目标跟踪框架。两者结合,解决了一个核心问题:如何跨时间,将不同的“点”最合理地关联起来。🤝 匈…...

如何永久备份微信聊天记录?WeChatMsg让你的珍贵对话永不丢失

如何永久备份微信聊天记录?WeChatMsg让你的珍贵对话永不丢失 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/we…...

c语言的练习—二维数组的练习(对称矩阵的判定)

对于此道题,所谓对称矩阵,意思就是关于左对角线对称的数字对应相等。那么我们不妨使用我上一次发表的文章的方法来进行规律的寻找。我们不妨使用题目中的第一个例子来举例接下来我以图片的方式呈现出来显然的,我们能够发现这两个三的位置和两…...

智慧树刷课插件终极指南:3分钟实现学习自动化,效率提升300% ⚡

智慧树刷课插件终极指南:3分钟实现学习自动化,效率提升300% ⚡ 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频学习…...

3分钟掌握ncmdump:网易云音乐NCM文件终极转换指南

3分钟掌握ncmdump:网易云音乐NCM文件终极转换指南 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM格式文件无法在其他设备播放而烦恼吗?ncmdump是一款简单实用的NCM文件转换工具&am…...

【2026最新收藏版】AI Agent详解:从入门到实战,小白程序员必看的大模型智能体学习指南

本文专为2026年想要入门大模型、深耕AI Agent的小白和程序员打造,深入浅出拆解AI智能体的核心概念,清晰区分其与传统软件的本质差异,详解智能体四大关键特征(自主性、反应性、主动性、社交能力),拆解智能体…...

超越基础教程:用VPI+Matlab实现高阶QAM相干光通信系统的DSP算法实战

超越基础教程:用VPIMatlab实现高阶QAM相干光通信系统的DSP算法实战 在光通信领域,高阶QAM(正交幅度调制)技术因其高频谱效率而备受关注。然而,随着调制阶数的提升,系统对信号处理算法的要求也呈指数级增长。…...

GitHub中文界面终极汉化指南:3分钟告别英文困扰,提升30%开发效率

GitHub中文界面终极汉化指南:3分钟告别英文困扰,提升30%开发效率 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese …...

AzurLaneAutoScript:解放双手的碧蓝航线智能管家

AzurLaneAutoScript:解放双手的碧蓝航线智能管家 【免费下载链接】AzurLaneAutoScript Azur Lane bot (CN/EN/JP/TW) 碧蓝航线脚本 | 无缝委托科研,全自动大世界 项目地址: https://gitcode.com/gh_mirrors/az/AzurLaneAutoScript 还在为碧蓝航线…...