一分钟秒懂人工智能对齐

文章目录
- 1.什么是人工智能对齐
- 2.为什么要研究人工智能对齐
- 3.人工智能对齐的常见方法
1.什么是人工智能对齐
人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。
人工智能系统可能会出现“不对齐”(misalign)的问题。以ChatGPT这样的问答系统为例,ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主义核心价值观的言论,也可能会出现阿谀奉承、威逼利诱、信口雌黄等干预用户达到预定目标的情况。消除人工智能系统不对齐的过程就称为人工智能对齐。

图 ChatGPT的不对齐行为
2.为什么要研究人工智能对齐
根据人工智能对齐的定义,所有的人工智能问题(包括AI伦理、AI治理、可解释性AI,甚至是最基本的回归和分类问题)都可以算是人工智能对齐问题。那么为什么学术界还要发明“人工智能对齐”这个新概念?研究“人工智能对齐”这个新概念有什么价值呢?
事实上,人工智能对齐这一概念和ChatGPT这样的通用大模型的诞生密不可分。对于通用大模型而言,一个模型可以同时完成多种任务,而且不同的任务有着不同的期望:有的任务希望能够更有想象力,有的任务希望能够更尊重事实;有的任务希望能够理性客观,有的任务希望能有细腻丰富的情感。任务的多样性导致了需要对大模型进行全方面的对齐,而不仅仅是就某些方面进行对齐。传统的研究往往针对某个方面进行对齐,对于ChatGPT这样的通用模型会导致“按下葫芦浮起瓢”,无法面面俱到。
随着机器学习模型规模的不断变大以及神经网络的大量应用,人类已经无法完全理解和解释人工智能的某些行为。例如,用于围棋AlphaGo下的某些棋迄今也不能被人类所完全理解。在未来,有可能会出现全方面碾压人类的人工智能(比如《流浪地球》里的MOSS)。传统的对齐方法显然不能满足对这样的人工智能的对齐需求。
3.人工智能对齐的常见方法
人工智能对齐离不开人的接入。人对人工智能系统进行评估和反馈,可以确认人工智能中不对齐的情况,并指导其进行改进。
人工智能对齐的方法包括模仿学习和人类反馈强化学习。ChatGPT就采用了这些对齐方法。

ChatGPT训练步骤 图片来源
上图是ChatGPT的训练步骤图
步骤一利用收集到的数据进行监督学习,这一部分就是在用模仿学习进行人工智能对齐。不过,ChatGPT的训练团队认为,仅仅用模仿学习并不能完全达到要求。
模仿学习不能完全满足对齐需求的原因可能如下:模仿学习使用的数据集能覆盖到的数据范围是有限的,不可能包括所有的情况。用这样数据集训练出来的人工智能难免有些边脚情形的表现不对齐。另外,虽然训练后能够让训练目标基本上达到最优,但是在训练目标最优情况下还是会出现在某些样本点上表现不好的情况。而这些样本点也许还挺重要,这些不好的样本点可能会涉及到重大的法律或是舆论风险。
为此,ChatGPT的训练过程进一步地使用了人类反馈强化学习。步骤图中的第二步和第三步就用到了人类反馈强化学习。
第二步通过人类的反馈构建奖励模型。
在这一步中,提供反馈的人可以就其认为需要重点关注的问题进行着重考察,来确保在哪些重要的问题上奖励模型是正确的。并且在后续的测试中如果发现了之前没有预料到的新问题,还可以通过提供更多反馈样本来为奖励模型打上补丁。这样,通过人工干预、不断迭代反馈,奖励模型就趋于完善。这样,就让奖励模型的人类的期望对齐。
在利用反馈进行奖励模型对齐的训练过程中,对于每个样本,先由语言模型输出几个备选的回答,然后再由人类对这些回答进行排序。这样的做法与直接让用户提供参考答案相比,更能够激发语言模型本身的创造力,也能使得反馈更快更省钱。
第三步利用奖励模型进行强化学习。
步骤中提到的PPO算法就是一种强化学习算法。
通过使用强化学习算法,使得系统的行为和奖励模型对齐。
基于反馈的强化学习在ChatGPT等大模型上的成功应用使得该算法称为最受关注的大模型对齐算法。目前绝大多数的大模型都采用了这个技术进行对齐。
延伸阅读

《强化学习:原理与Python实战》
肖智清 著
解密ChatGPT关键技术PPO和RLHF
- 理论完备:涵盖强化学习主干理论和常见算法,带你参透ChatGPT技术要点;
- 实战性强:每章都有编程案例,深度强化学习算法提供TenorFlow和PyTorch对照实现;
- 配套丰富:逐章提供知识点总结,章后习题形式丰富多样。还有Gym源码解读、开发环境搭建指南、习题答案等在线资源助力自学。
相关文章:
一分钟秒懂人工智能对齐
文章目录 1.什么是人工智能对齐2.为什么要研究人工智能对齐3.人工智能对齐的常见方法 1.什么是人工智能对齐 人工智能对齐(AI Alignment)指让人工智能的行为符合人的意图和价值观。 人工智能系统可能会出现“不对齐”(misalign)的…...
Postman常见报错与解决方法,持续更新~
postman中文文档 基本操作:从控制台查看请求报错 如果 Postman 无法发送你的请求,或者如果它没有收到你发送请求的 API 的响应,你将收到一条错误消息。此消息将包含问题概述和指向控制台的链接,你可以在其中访问有关请求的详细信…...
出电子书了!
熟悉小灰的小伙伴们都知道,小灰曾经创作了三本算法有关的图书,分别是《漫画算法》、《漫画算法Python篇》、《漫画算法2》。 如今,这三本书在全网的销量超过10W册,可以说是IT领域最畅销的图书之一。 小灰的这三本算法书࿰…...
LeetCode 260. 只出现一次的数字 III 中等
题目 - 点击直达 1. 260. 只出现一次的数字 III 中等1. 题目详情1. 原题链接2. 题目要求3. 基础框架 2. 解题思路1. 思路分析2. 时间复杂度3. 代码实现 1. 260. 只出现一次的数字 III 中等 1. 题目详情 1. 原题链接 LeetCode 260. 只出现一次的数字 III 中等 2. 题目要求 …...
数据结构之红黑树
红黑树的概念 红黑树(Red-Black Tree)同AVL树一样, 也是一种自平衡的二叉搜索树, 但在每个结点上增加一个存储位表示结点的颜色, 可以是Red或Black, 通过对任何一条从根到叶子的路径上各个结点着色方式的限制, 红黑树确保没有一条路径会比其他路径长出俩…...
【chat】4: ubuntu20.04:数据库创建:mysql8 导入5.7表
【chat】3: ubutnu 安装mysql-8 并支持远程访问 已经支持 8.0的SQLyog 远程访问:大神2021年的文章:sql是5.7的版本,我使用的ubuntu20.04,8.0版本:chat数据库设计 C++搭建集群聊天室(七):MySQL数据库配置 及项目工程目录配置 User表,以id 唯一标识 Friend 表,自己的id…...
合并二叉树(Java)
题目描述 给你两棵二叉树: root1 和 root2 。 想象一下,当你将其中一棵覆盖到另一棵之上时,两棵树上的一些节点将会重叠(而另一些不会)。你需要将这两棵树合并成一棵新二叉树。合并的规则是:如果两个节点重…...
C语言 exit函数
c语言exit函数的详解_笔记大全_设计学院 (python100.com) “需要注意的是,在程序中使用exit函数会立即强制结束程序,程序内部未处理的任何资源都将不能释放,也就可能导致内存泄漏。因此,在使用exit函数之前,需要先释放…...
基于VPLC711的曲面外观检测XYR运动控制解决方案
市场应用背景 随着消费升级,产品形态正在朝着多样性和精细化方向迅速发展。这导致了对于复杂曲面轨迹加工的需求,包括外观检测、打磨抛光和点胶工艺控制,要求更高的精密度。企业必须主动满足市场需求,不断改进工艺,以…...
【LeetCode刷题-二分查找】--162.寻找峰值
162.寻找峰值 方法一:寻找最大值 题目保证了nums[i]≠nums[i1],所以数组nums中最大值两侧的元素一定严格小于最大值本身,因此最大值所在的位置就是一个可行的峰值位置 class Solution {public int findPeakElement(int[] nums) {int idx 0…...
vscode调试react 最初的源码
如果直接在react项目中打点调试, 调试的是 react-dom.development.js, 而源码里这些逻辑是分散在不同的包里的,如何才能够调试 React 最初的源码呢? JS 代码经过编译,会产生目标代码,但同时也会产生 sourcemap。sourcemap 的作用就是映射目…...
Netty网络通信模型
传统IO模型: 传统IO模型就是阻塞IO,即处理业务逻辑的线程去进行IO,当然IO操作很耗时,然后线程就得阻塞,当然CPU会回收该线程的时间片,把该线程挂起,切换到其他线程去执行,在并发量大…...
.NET快速对接极光消息推送
什么是消息推送? 很多手机APP会不定时的给用户推送消息,例如一些新闻APP会给用户推送用户可能感兴趣的新闻,或者APP有更新了,会给用户推送是否选择更新的消息等等,这就是所谓的“消息推送”。 常见的一些APP消息推送…...
Doris:多源数据目录(Multi-Catalog)
目录 1.基本概念 2.基本操作 2.1 查看 Catalog 2.2 新增 Catalog 2.3 切换 Catalog 2.4 删除 Catalog 3.元数据更新 3.1手动刷新 3.2定时刷新 3.3自动刷新 4.JDBC Catalog 4.1 上传mysql驱动包 4.2 创建mysql catalog 4.3. 读取mysql数据 1.基本概念 …...
建行驻江门市分行纪检组以政治谈话压责任促发展
开展政治谈话,是加强“一把手”和领导班子监督、严肃党内政治生活、加强对党员领导干部日常教育管理的有效手段。 为督促“一把手”和领导班子成员依法依规履行职责、行使权力,推动党中央重大决策部署以及建设银行总行、广东省分行党委的决策部署在本单…...
如何从存档服务器上完全删除PDM用户
当创建新用户时使用“PDM 登录”类型(如下图),PDM用户名和密码会存储于存档服务器的注册表中。 存档服务器的注册表位置如下: HKEY_LOCAL_MACHINE\SOFTWARE\SolidWorks\Applications\PDMWorks Enterprise\ArchiveServer\ConisioU…...
导师对学生学术论文的指导包括哪些方面,请详细展开说明
导师在指导学生学术论文时涉及多个方面,这些方面旨在帮助学生培养独立研究和学术写作的能力。以下是一些导师可能涉及的主要方面: 1.选题和课题确定: 导师会与学生讨论潜在的研究兴趣和方向,帮助学生选择一个既有研究价值又符合其…...
嵌入式软件开发是个啥职业?
在硬件行业中,有一类工作岗位是更偏向软件的,或者说是软硬结合非常紧密的工作,那就是嵌入式开发工程师。 说起嵌入式,可能很多没有接触过电子类的人没有听说这些东西。 其实简单来说,嵌入式开发就是写程序去控制硬件电…...
03【远程协作开发、TortoiseGit、IDEA绑定Git插件的使用】
上一篇:02【Git分支的使用、Git回退、还原】 下一篇:【已完结】 目录:【Git系列教程-目录大纲】 文章目录 一、远程协作开发1.1 远程仓库简介1.1.1 Github1.1.2 Gitee1.1.3 其他托管平台 1.2 发布远程仓库1.2.1 创建项目1) 新…...
Linux:centos7通过yum安装mysql的方法
1. 检查mysql是否安装 yum list installed | grep mysql如果有的话,就全部卸载 yum -y remove 数据库名称2. MySQL依赖libaio,所以先要安装libaio yum search libaio # 检索相关信息 yum install libaio # 安装依赖包3. 下载MySQL Yum Repository 如…...
BOTW-Save-Editor-GUI:让《塞尔达传说:旷野之息》存档编辑变得简单直观
BOTW-Save-Editor-GUI:让《塞尔达传说:旷野之息》存档编辑变得简单直观 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI 对于《塞尔达传说&a…...
树莓派与PC间无线视频流传输:基于Python和OpenCV的实时图像处理方案
1. 项目背景与需求分析 当你用树莓派做自动驾驶小车或者远程监控项目时,最头疼的问题之一就是实时视频传输。传统SSH方式虽然能显示图像,但就像用老旧水管输水——流量一大就卡顿,连带机电控制也受影响。我去年做智能巡检机器人时就踩过这个坑…...
higress 这个中登才是AI时代的心头好搪
核心摘要:这篇文章能帮你 ?? 1. 彻底搞懂条件分支与循环的适用场景,告别选择困难。 ?? 2. 掌握遍历DOM集合修改属性的标准姿势与性能窍门。 ?? 3. 识别流程控制中的常见“坑”,并学会如何优雅地绕过去。 ?? 主要内容脉络 ?? 一、痛…...
FastAPI项目架构:从模块化设计到生产就绪的目录规划
1. 为什么需要模块化的FastAPI项目架构 第一次用FastAPI写项目时,我把所有代码都堆在main.py里。路由、数据库操作、业务逻辑全挤在一起,结果两周后连自己都看不懂代码了。这种经历让我深刻理解到:好的目录结构不是摆设,而是项目可…...
QNX系统资源监控实战:高效查看CPU与内存使用情况
1. QNX系统资源监控入门指南 在嵌入式开发领域,QNX作为一款实时操作系统(RTOS)被广泛应用于汽车电子、工业控制等对系统稳定性要求极高的场景。记得我第一次接触QNX系统时,面对黑漆漆的命令行界面,完全不知道如何查看系统资源使用情况。后来…...
推荐四款Windows电脑神器,全是小而专软件!
聊一聊对于电脑更深层次的设置,我们也不会。也希望设置软件的人,不要设计的太复杂。主要是复杂的我们也搞不懂。我们需要的就是能简单点击几次。就能达到想要的效果。今天给大家分享几款实用的小工具。只要点几下,就能达到软件描述的效果。软…...
Phi-3-mini-128k-instruct部署案例:在线教育平台用该模型实现个性化习题讲解
Phi-3-mini-128k-instruct部署案例:在线教育平台用该模型实现个性化习题讲解 1. 项目背景与模型介绍 在线教育平台面临一个共同挑战:如何为海量学生提供个性化的学习辅导。传统人工答疑方式成本高、响应慢,而通用AI模型往往缺乏教育领域的专…...
从零到一:ArduPilot无人船(车)核心参数实战调优指南
1. 从零认识ArduPilot参数体系 第一次打开Mission Planner地面站时,看到密密麻麻的参数列表确实容易懵。我刚开始玩ArduPilot无人船时,光是找某个参数就得花半小时。后来发现这些参数其实像乐高积木——看似杂乱,但按功能模块拆解后就清晰了…...
如何在 Divi 主题中禁用锚点链接的平滑滚动动画
本文介绍一种无需修改 Divi 核心文件的安全方式,通过重写 et_pb_smooth_scroll 全局函数,将锚点跳转强制设为瞬时定位(0ms 动画),彻底禁用默认的平滑滚动效果。 本文介绍一种无需修改 divi 核心文件的安全方式&am…...
别再搞错架构了!保姆级教程:CentOS 7 换源(阿里/清华/网易)区分x86_64与aarch64
别再搞错架构了!保姆级教程:CentOS 7 换源(阿里/清华/网易)区分x86_64与aarch64 上周深夜,一位朋友突然发来紧急求助——他在MacBook Pro M1上通过UTM虚拟机安装的CentOS 7系统,连续尝试了五六个换源教程都…...
