当前位置：首页 > article >正文

论文阅读：2023 arxiv Safe RLHF: Safe Reinforcement Learning from Human Feedback

article 2026/2/8 4:53:57

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

Safe RLHF: Safe Reinforcement Learning from Human Feedback

https://arxiv.org/pdf/2310.12773

https://github.com/PKU-Alignment/safe-rlhf

速览

研究动机：大语言模型发展中，平衡性能与安全至关重要，现有方法在平衡有用和无害性上存在挑战。
研究问题：如何设计算法平衡大语言模型有用性和无害性，使其兼具帮助性、安全性与回应意愿？
研究方法：提出Safe RLHF算法，解耦人类偏好，构建奖励和成本模型，利用拉格朗日法在微调时平衡两个目标。
研究结论：实验表明Safe RLHF能有效提升大语言模型的帮助性和无害性，优于静态平衡算法。
不足：无法获取预训练数据，SFT数据质量和规模不足，缺乏前后检查策略且成本高。

这篇论文叫《SAFE RLHF: SAFE REINFORCEMENT LEARNING FROM HUMAN FEEDBACK》，主要是说随着大语言模型（LLMs）发展，要平衡模型性能和安全性，提出了Safe RLHF算法来解决相关问题。下面从背景、方法、实验等方面，用通俗的话来讲讲具体内容。

研究背景：大语言模型在很多方面表现出色，但它生成的内容不能有害，像歧视、错误信息等都不行。强化学习从人类反馈（RLHF）是让大语言模型符合人类偏好的好方法，不过追求有用性和无害性这两个目标在实际中会相互矛盾。比如模型拒绝回答问题，虽然安全但没什么用。所以，研究的目标就是要开发出既有用、又安全还愿意回答问题的大语言模型。
研究方法：提出Safe RLHF算法，核心是在数据标注时把人类对有用性和无害性的偏好分开，设立两个优化目标。在数据标注阶段，采用两阶段标注策略，标注员根据14个预定义的伤害类别给问答对标注安全性，再分别对回答的有用性和无害性进行排序。然后，训练两个独立的偏好模型，即奖励模型和成本模型。奖励模型根据有用性数据集训练，为强化学习阶段提供有用性的奖励信号；成本模型根据无害性数据集训练，能体现人类对大语言模型回答安全性的看法。在强化学习阶段，用奖励模型评估有用性，成本模型评估无害性，通过拉格朗日方法动态调整两者的平衡。
实验：用Safe RLHF算法对Alpaca - 7B模型进行了三轮微调实验。实验结果表明，Safe RLHF能同时提高大语言模型的有用性和无害性。和传统的单维标注和训练相比，Safe RLHF标注时标注员之间的一致性更高，和研究人员的一致性也更高，而且在训练阶段能主观调整平衡有用性和无害性。和采用静态平衡的奖励塑造方法相比，Safe RLHF能更好地平衡有用性和无害性这两个目标。另外，对比实验还证明了成本模型设计的重要性，它能同时拟合人类偏好和安全标签，对实现Safe RLHF的成功很关键。
研究局限和未来工作：研究存在一些局限，比如无法获取预训练数据，没有大量高质量的监督微调数据，虽然通过模型微调实现了安全对齐，但还需要加入预检查和后检查策略，而且研究成本高。未来打算扩展框架，纳入更多偏好类别，将模型应用到多轮对话场景，还考虑用Llama - 2作为基础预训练模型来提升性能。
研究贡献：这篇论文提出的Safe RLHF算法是首次将安全强化学习和RLHF框架结合，在大语言模型微调时有效平衡了有用性和无害性这两个常常冲突的目标，对基于大语言模型的人工智能系统安全性有重要意义。

论文阅读：2023 arxiv Safe RLHF: Safe Reinforcement Learning from Human Feedback

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328 Safe RLHF: Safe Reinforcement Learning from Human Feedback https://arxiv.org/pdf/2310.12773 https://github.com/PKU-Alignment/safe-rlhf 速览研究动机&#xff…...

编程日记 2025/12/15 7:47:29

C++11中的std::condition_variable

一、什么是条件变量？ std::condition_variable 是C11标准库中提供的线程同步工具，用于在多线程环境中实现“等待-通知”机制。它的核心作用是让线程能够高效地等待某个条件成立，避免“忙等待”对CPU资源的浪费。条件变量必须与std::mutex配…...

编程日记 2026/2/5 23:49:54

6.8.最小生成树

一.复习： 1.生成树： 对于一个连通的无向图，假设图中有n个顶点，如果能找到一个符合以下要求的子图： 子图中包含图中所有的顶点，同时各个顶点保持连通， 而且子图的边的数量只有n-1条&#xff0…...

编程日记 2026/2/6 20:18:50

QT中栅格模式探索

1、Qt中选择了栅格模式，如下图所示： 2、在进行整个大的UI界面布局时，需了解每个控件所需要选择的属性sizePolicy。 sizePolicy包含如下几种选择： 3、举个例子：此时整个UI界面，我采用了栅格模式&#xf…...

编程日记 2026/2/6 20:04:43

SLAM ｜激光SLAM中的退化问题

在激光SLAM中，判断退化环境的核心是通过数学建模分析环境特征对位姿估计的约束能力。除了LOAM中提出的退化因子D外，还存在多种基于表达式和阈值设定的方法。以下是几种典型方法及其实现原理： 1. 协方差矩阵特征值分析原理：通过分析点云协方差矩阵的特征值分布，判断环境中…...

编程日记 2026/2/1 7:56:40

C++入门基础：命名空间，缺省参数，函数重载，输入输出

命名空间： C语言是基于C语言的，融入了面向对象编程思想，有了很多有用的库，所以接下来我们将学习C如何优化C语言的不足的。在C/C语言实践中，在全局作用域中变量，函数，类会有很多，这…...

编程日记 2026/2/6 21:05:00

tomcat 的安装与启动

文章目录 tomcat 服务器安装启动本地Tomcat服务器 tomcat 服务器安装 https://tomcat.apache.org/下载 Tomcat 10.0.X 启动本地Tomcat服务器进入 Tomcat 的 bin...

编程日记 2026/2/6 16:54:45

C 语言中经典的数据结构

在 C 语言中，经典的数据结构通常包括以下几种，每种都有其特定的应用场景和实现方式： 1. 数组（Array） 定义：连续内存空间存储相同类型的数据。特点：随机访问快（O(1)）&am…...

编程日记 2025/12/5 15:57:46

算法-堆+单调栈

堆首先堆在我们的Java中我们的是一个优先队列类 PriorityQueue 然后我们要弄最大堆和最小堆最大堆： PriorityQueue<Integer> pq new PriorityQueue<Integer>((a, b) -> b - a); 最小堆： PriorityQueue<Integer> pq new P…...

编程日记 2026/2/6 20:50:24

物联网平台管理系统

物联网平台管理系统概述物联网平台管理系统是物联网架构中的核心枢纽，承担着承上启下的关键作用。它向下连接各类物联网设备，实现设备的接入、管理与控制；向上为应用开发提供统一的数据接口和共性模块工具，支撑起各种丰富多彩的…...

编程日记 2026/2/4 16:11:48

STM32CubeMX-H7-15-SPI通信协议读写W25Q64

前言 SPI（Serial Peripheral Interface）通信协议是一种高速、全双工、同步的串行通信协议本篇文章就使用W25Q64模块来学习SPI,包括软件SPI代码的编写，硬件SPI，中断SPI和DMASPI SPI的应用场景和模块 ！这里是抄AI的&a…...

编程日记 2026/1/27 23:06:48

【软考】论devops在企业信息系统开发中的应用

摘要： 随着互联网的不断发展，各行各业都在建设自己的企业信息系统，而随着业务的不断升级和复杂化，系统的更新迭代速度越来越快，系统也越来越复杂。对于信息系统开发者，架构师，管理者&#xff0c…...

编程日记 2026/2/5 4:40:29

生物化学笔记：医学免疫学原理22 肿瘤及肿瘤治疗

肿瘤及肿瘤治疗免疫疗法 CAR-T细胞介绍...

编程日记 2026/1/28 19:28:08

JVM考古现场（二十二）：降维打击·用二向箔优化内存模型

"警报！三维堆内存正在经历二维化坍缩！" 我腰间的玄铁令突然震动，在蜀山剑派的量子剑阵中投射出诡异的曼德博分形——这是三体文明发动降维打击的铁证！ 楔子：二向箔奇点降临昆仑镜监控日志： // …...

编程日记 2026/1/28 20:12:16

第三阶段面试题

Nginx nginx常用模块以及其功能 proxy模块，进行代理功能 ssl模块，进行HTTPS协议的使用 gzip模块，进行传输数据的压缩 upstream模块，进行反向代理时使用 static模块，静态资源进行访问的模块 cache模块&#xff0…...

编程日记 2026/2/3 20:01:44

操作系统-PV

🧠 背景：为什么会有 PV？ 类比：内存（生产者） 和 CPU（消费者） 内存 / IO / 磁盘 / 网络下载 → 不断“生产数据” 例如：读取文件、下载视频、从数据库加载信息 CPU → 负…...

编程日记 2026/2/4 16:10:05

nuxt3路由切换页面出不来，刷新可以

nuxt3遇到一个奇怪的现象： 不管是router.push()跳转还是navigateTo()跳转，浏览器url变了，但是页面是空白的，没加载出来，刷新之后页面正常。解决方案： <template>下的所有内容必须套在一个div里面...

编程日记 2026/2/5 20:06:39

Spring Boot配置文件优先级全解析：如何优雅覆盖默认配置？

📚 一、为什么需要了解配置文件优先级？ 想象一下，你正在玩一个游戏🎮，游戏里有默认设置，但你可以通过不同的方式修改这些设置： 游戏内置的默认设置（就像Spring Boot的默认配置&…...

编程日记 2026/2/5 21:54:28

医院数据中心智能化数据上报与调数机制设计

针对医院数据中心的智能化数据上报与调数机制设计，需兼顾数据安全性、效率性、合规性及智能化能力。以下为系统性设计方案，分为核心模块、技术架构和关键流程三部分：一、核心模块设计 1. 数据上报模块子模块功能描述多源接入层对接HIS/LIS/PACS/EMR等异构系统，支持API/E…...

编程日记 2026/2/4 16:09:40

Linux之基础命令

Linux作为开源操作系统的代表，以其高效、灵活和强大的命令行工具闻名。无论是系统管理、开发调试还是日常使用，掌握基础命令都是与Linux系统交互的必备技能。本文整理了20个最常用的Linux基础命令，帮助新手快速入门。目录目录与文件导航文…...

编程日记 2026/1/1 22:40:21

【MATLAB代码例程】AOA与TOA结合的高精度平面地位，适用于四个基站的情况，附完整的代码

本代码实现了一种基于到达角（AOA）和到达时间（TOA）的混合定位算法，适用于二维平面内移动或静止目标的定位。通过4个基站的协同测量，结合最小二乘法和几何解算，能够有效估计目标位置，并支持噪声模拟、误差分析和可视化输出。适用于室内定位、无人机导航、工业监测等场景…...

编程日记 2026/2/4 16:23:56

PC主板及CPU ID 信息、笔记本电脑唯一 MAC地址获取

🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域干货最多的博主之一，❤️ 不负光阴不负卿 ❤️ 文章目录 PC主板及CPU ID 信息物理 MAC地址获取win11 新电脑 wmic 安装❤️ 欢迎一起学AI…...

编程日记 2026/2/7 11:00:21

RK3568笔记八十二：利用AI生成的简单数据转发服务程序

若该文为原创文章，转载请注明原文出处。测试AI编写代码能力，做了个简单的数据转发功能，后期想部署到服务器功能相对简单，大概功能如下： 1、打开TCP服务端，等待客户端连接 2、客户端连接后发送ID:1234格式，服务端收到，解析出ID：1234并记录 3、相同的ID数据之间互…...

编程日记 2025/5/12 14:22:21

C++17 信号量模拟实现

C17 信号量模拟实现一、实现原理 C17 标准库没有原生信号量(C20才有)，但可以通过 std::mutex std::condition_variable 模拟实现。以下是核心逻辑： #include <mutex> #include <condition_variable>class CountingSemaphore { private:…...

编程日记 2026/2/6 0:57:14

web后端语言中篇

#作者：允砸儿 #日期：乙巳青蛇年三月十八笔者本来打算隔一天给它更完的，但是事情有点多这几天，实在是抱歉。废话不多说直接进入正题。 PHP流程控制语句什么是流控:流程控制语句用于决定代码的执行顺序。 #注意流程控制语句…...

编程日记 2026/1/20 14:58:06

Spine-Leaf 与传统三层架构：全面对比与解析

本文将详细介绍Spine-Leaf架构，深入对比传统三层架构（Core、Aggre、Access），并探讨其与Full-mesh网络和软件定义网络（SDN）的关联。通过通俗易懂的示例和数据中心网络分析，我将帮助您理解Spine-L…...

编程日记 2026/2/6 0:56:01

Vmware esxi 查看硬盘健康状况

起因硬盘掉盘 - - 使用自带的命令esxcli 列出所有硬盘 esxcli storage core device list[rootlocalhost:~] esxcli storage core device list t10.NVMe____INTEL_MEMPEK1W016GAL____________________PHBT83660BYP016D____00000001Display Name: Local NVMe Disk (t10.NVMe…...

编程日记 2026/2/6 1:07:56

React 事件处理基础

React 中最常见的两个需求，一个是列表渲染，另一个就是绑定点击事件。这一篇就是从最基础的按钮点击开始，分四个阶段，逐步理解 React 中事件的写法和参数传递方式。 📍阶段一：最简单的点击事件 function A…...

编程日记 2025/12/1 12:45:09

pandas库详解

CONTENT 基本数据结构SeriesDataFrame 数据读取与写入读取 CSV 文件写入 CSV 文件数据清洗处理缺失值数据类型转换数据操作索引与切片数据合并数据分组与聚合数据可视化基本数据结构 Series Series 属于一维标记数组，由一组数据和对应的索引构成。 import pa…...

编程日记 2026/2/5 5:53:20

焊接机器人的设计

一、引言随着制造业的发展，焊接工艺在各个领域得到广泛应用。焊接机器人具有焊接质量高、效率高、劳动强度低等优点，能够满足现代制造业对焊接生产的要求。设计一款性能优良的焊接机器人，对于提高焊接生产的自动化水平和产品质量具有重要意…...

编程日记 2025/12/1 13:29:37

速览

相关文章：