Aligning Large Language Models with Human: A Survey
本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。
对齐人类与大语言模型:综述
- 摘要
- 1 引言
- 2 对齐数据收集
- 2.1 来自人类的指令
- 2.1.1 NLP基准
- 2.1.2 人工构造指令
- 2.2 来自强大LLM的指令
- 2.2.1 自指令
- 2.2.2 多轮指令
- 2.2.3 多语言指令
- 2.3 指令数据管理
- 3 对齐训练
- 3.1 在线人类偏好训练
- 3.2 离线人类偏好训练
- 3.2.1 基于排序的方法
- 3.2.2 基于语言的方法
- 3.3 参数有效训练
- 4 对齐评估
- 4.1 评估基准
- 4.1.1 封闭式基准
- 4.1.2 开放式基准
- 4.2 评价范式
- 4.2.1 基于人类的评估
- 4.2.2 基于LLM的评估
- 5 挑战与未来方向
- 6 结论
摘要
在大量文本语料库上训练的大型语言模型(LLM)已成为一系列自然语言处理(NLP)任务的领先解决方案。尽管这些模型具有显著的性能,但它们容易受到某些限制,如误解人类指令、生成潜在的偏见内容或事实上不正确(产生幻觉)的信息。因此,将LLM与人类期望相结合已成为研究界关注的一个活跃领域。本调查全面概述了这些对齐技术,包括以下方面。(1) 数据收集:有效收集LLM对齐的高质量指令的方法,包括使用NLP基准、人工注释和利用强大的LLM。(2) 训练方法:详细审查LLM调整所采用的主流训练方法。我们的探索包括监督微调,在线和离线人类偏好训练,以及参数有效的训练机制。(3) 模型评估:评估这些与人类一致的LLM有效性的方法,为其评估提供了多方面的方法。最后,我们整理和提炼了我们的发现,为该领域未来的几个有前景的研究途径提供了线索。因此,对于任何致力于理解和推进LLM调整以更好地适应以人为本的任务和期望的人来说,这项调查都是一项宝贵的资源。收集最新论文的相关GitHub链接可在https://github.com/GaryYufei/AlignLLMHhumanSurvey。
1 引言

2 对齐数据收集
2.1 来自人类的指令
2.1.1 NLP基准
2.1.2 人工构造指令
2.2 来自强大LLM的指令
2.2.1 自指令
2.2.2 多轮指令
2.2.3 多语言指令
2.3 指令数据管理
3 对齐训练
3.1 在线人类偏好训练
3.2 离线人类偏好训练
3.2.1 基于排序的方法
3.2.2 基于语言的方法
3.3 参数有效训练
4 对齐评估
4.1 评估基准
4.1.1 封闭式基准
4.1.2 开放式基准
4.2 评价范式
4.2.1 基于人类的评估
4.2.2 基于LLM的评估
5 挑战与未来方向
LLM对齐的发展仍处于初级阶段,因此还有很大的改进空间。在本节中,我们在表1中总结了将LLM与人类相结合的现有重要研究工作。下面,我们将讨论其中的一些挑战以及相应的未来研究方向。

6 结论
本次综述对LLM对齐技术的最新进展进行了最新综述。我们将这些研究工作总结为对齐指令收集、对齐训练和对齐评估。最后,我们指出了LLM对齐的几个有前景的未来方向。我们希望这项调查能够提供有见地的视角,并激励进一步研究如何改善LLM的一致性。
相关文章:
Aligning Large Language Models with Human: A Survey
本文也是LLM相关的综述文章,针对《Aligning Large Language Models with Human: A Survey》的翻译。 对齐人类与大语言模型:综述 摘要1 引言2 对齐数据收集2.1 来自人类的指令2.1.1 NLP基准2.1.2 人工构造指令 2.2 来自强大LLM的指令2.2.1 自指令2.2.2 …...
windows图标白了,刷新图标
1.进入C盘,user(用户文件夹),进入当前用户文件夹,再进入隐藏文件夹(AppDada),最后进入Local 2.删除Local文件夹里的IconCache.db文件 3.重启资源管理器 -------------------------------------------- 或者创建bat文件…...
C++ 左值和右值
C 左值和右值 左值、右值左值引用、右值引用std::move()std::move()的实现引用折叠 完美转发forward()的实现函数返回值是左值还是右值如何判断一个值是左值还是右值 左值、右值 在C11中所有的值必属于左值、右值两者之一,右值又可以细分为纯右值、将亡值。在C11中…...
c++学习(智能指针)[29]
RALL RALL(Resource Acquisition Is Initialization)是一种 C 的编程技术,用于管理资源的获取和释放。它的基本思想是在对象的构造函数中获取资源,在对象的析构函数中释放资源,从而确保资源的正确获取和释放。 RALL 的…...
B站高播放又涨粉的带货UP主怎么做?
飞瓜数据(B站版)上线新功能【带货达人榜】,由榜单显示,B站7月带货达人中,平均播放量最高的是UP主下个月一定中100万。 带货视频仅1支,播放量已经高达679万,值得一提的是,6月他也是带…...
AD21 PCB设计的高级应用(四)FPGA的管脚交换功能
(四)FPGA的管脚交换功能 高速 PCB 设计过程中,涉及的 FPGA等可编程器件管脚繁多,也因此导致布线的烦琐与困难,Altium Designer 可实现 PCB 中 FPGA 的管脚交换,方便走线。 1.FPGA管脚交换的要求 (1)一般情况下,相同电压的 Bank之…...
超低功耗LCD段码屏驱动显示芯片VK1621原厂芯片
型 号:VK1621 / 品 牌:VINKA/永嘉微电 最新年份 VK1621 是一个324的LCD驱动器,可软体程式控制使其适用于多样化的LCD应用线路,仅用到3至4条信号线便可控制LCD驱动器,除此之外也可介由指令使其進入省电模式 M1855 …...
【深入探索Docker】:开启容器化时代的技术奇迹
深入探索Docker 深入探索Docker:开启容器化时代的技术奇迹前言1. 容器化:实现快速部署和可移植性2. 虚拟化:提高安全性和可靠性3. 映像:打包应用及依赖项的模板4. 网络管理:连接容器和主机5. 持久化数据:保…...
【Ajax】笔记-JQuery发送jsonp请求
前端 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>jQuery-jsonp</title><style>#re…...
docker更换数据存储路径
1. 先停掉docker服务 sudo systemctl stop docker 可能会出现的问题: 这样会导致docker关闭失败,解决办法:systemctl stop docker.socket 确保docker关闭: 2.备份现在的 Docker 数据存储目录 /var/lib/docker(默认路径) mv /var/lib/docker /var/lib/…...
GPT告诉你如何延长周末体验
对于常常感到疲劳的打工人和学生党,过周末需要找到一种平衡,既能够休息放松,又能够提升身心能量。以下是一些建议,希望对你有所帮助: 制定休息计划:在周末前,制定一个休息计划,明确…...
一百四十一、Kettle——kettle8.2在Windows本地开启carte服务以及配置子服务器
一、目的 在kettle建好共享资源库后,为了给在服务器上部署kettle的carte服务躺雷,先在Windows本地测试一下怎么玩carte服务 二、Kettle版本以及在Windows本地安装路径 kettle版本是8.2 pdi-ce-8.2.0.0-342 kettle本地安装路径是D:\j…...
你知道充电桩控制主板的结构吗?
你知道充电桩控制主板的结构吗? 你是否曾经遇到过电动车行驶途中突然没电的情况?不用担心,解决这个问题的方法之一就是使用充电桩。那么,控制主板是如何控制充电桩的呢?让我们一起来探究一下。 充电桩控制主板由多种元件组成,包括主控芯片…...
LeetCode 25题:K个一组翻转链表
题目: 给你链表的头节点 head ,每 k 个节点一组进行翻转,请你返回修改后的链表。 k 是一个正整数,它的值小于或等于链表的长度。如果节点总数不是 k 的整数倍,那么请将最后剩余的节点保持原有顺序。 你不能只是单纯…...
Day 19 C++ 文件操作
C 文件操作 文件为什么要使用文件文件类型文本文件 - 文件以文本的ASCII码形式存储在计算机中二进制文件 - 文件以文本的二进制形式存储在计算机中 操作类型ofstream:写操作ifstream: 读操作fstream : 读写操作 文本文件写文件引入头文件 \&l…...
Nginx源码安装
文章目录 Nginx源码安装注安装pcre库安装openssl库创建用户及用户组安装编译环境解压文件检测环境重要目录检查配置服务启动脚本查看效果: Nginx源码安装 注 本实验基于RHEL73.10.0-327.el7.x86_64,尽量使用RHEL7或CentOS7。 安装pcre库 安装 pere 库…...
【数据结构和算法】--N叉树返回根节点到目标节点的路径
目录 一、前言二、Java代码实现 一、前言 项目中接触一个问题:在大量有父子关系的列表中,需要筛选出特定约束的数据【要求某个目标节点延续到根节点的数据】。这个问题抽象为数据结构,就是:N叉树返回根节点到目标节点的路径 二、…...
Flutter环境搭建踩坑集锦
Flutter 背景准备工作先检查一下自己的电脑,看一下是不是满足配置要求下载安装配置环境下载安装JDK下载安装Android studio下载Flutterflutter doctor故障Android license status unknownNetwork resources 故障 后记 背景 发现一个不错的框架Flutter,听…...
WPF上位机7——MySql
MySql DML语句 db操作、表操作 字段的数据类型 修改表 表的数据操作 DQL语句 数据查询和去重查询 条件查询 模糊查询 聚合查询 分组查询 排序查询 分页查询 DCL语句 函数 字符串处理函数 数值函数 日期函数 流程函数 约束 外键约束 多表查询 内连接 外连接 自连接 子查询 列…...
Linux的基本指令(2)
指令1:man 作用:可以查询linux指令语法内容。 格式: man 指令 安装man指令: yum install -y man-pages 例如: 查询 指令 ls 的语法内容。 man ls 查询 fork 指令的语法内容。 man fork 在man中存在9个手册&…...
基于深度学习CNN的智慧电力电缆状态巡检 电力线路覆冰状态 电力线路覆冰检测数据集 电力巡检系统实现覆冰风险自动识别第10413期 (1)
电力线路覆冰检测数据集 README一、数据集核心信息表项目详情类别数量及名称3 类(线、带冰的线、无冰的线路)数据总量110 张数据集格式YOLO 格式核心应用价值1. 支撑电力线路覆冰状态智能检测模型的训练与优化;2. 助力电力巡检系统实现覆冰风…...
CoPaw赋能低代码平台:自然语言生成业务逻辑与工作流
CoPaw赋能低代码平台:自然语言生成业务逻辑与工作流 1. 当自然语言遇见低代码 "能不能用简单的几句话,就让系统自动搭建出一个完整的业务流程?"这曾经是低代码平台用户的终极幻想。如今,随着CoPaw与低代码平台的深度整…...
HunyuanVideo-Foley私有部署教程:Ubuntu20.04安装与一键GPU环境配置
HunyuanVideo-Foley私有部署教程:Ubuntu20.04安装与一键GPU环境配置 1. 引言 最近在音视频生成领域,HunyuanVideo-Foley模型凭借其出色的音画同步能力和高质量的音频生成效果,受到了开发者社区的广泛关注。但对于很多刚接触这个领域的朋友来…...
解锁数字记忆:WeChatExporter如何成为你的微信时光胶囊
解锁数字记忆:WeChatExporter如何成为你的微信时光胶囊 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 在数字时代的洪流中,我们的记忆正悄然从大…...
直播内容自动化采集系统:如何实现40+平台无人值守录制
直播内容自动化采集系统:如何实现40平台无人值守录制 【免费下载链接】DouyinLiveRecorder 可循环值守和多人录制的直播录制软件,支持抖音、TikTok、Youtube、快手、虎牙、斗鱼、B站、小红书、pandatv、sooplive、flextv、popkontv、twitcasting、winktv…...
ELi_MdM_4_00电机驱动库:工业嵌入式多模式PWM控制框架
1. ELi_MdM_4_00 电机驱动库深度解析:面向工业级嵌入式控制的多模式驱动框架ELi_MdM_4_00 是 E-LAGORi 公司推出的第四代电机驱动模块专用固件库,专为嵌入式系统对多类型执行机构的精确、可靠、低开销控制而设计。该库并非通用型电机控制抽象层ÿ…...
如何快速将设计稿转换为动画:AEUX终极动效制作指南
如何快速将设计稿转换为动画:AEUX终极动效制作指南 【免费下载链接】AEUX Editable After Effects layers from Sketch artboards 项目地址: https://gitcode.com/gh_mirrors/ae/AEUX 还在为Figma到After Effects的转换烦恼吗?AEUX设计稿转换插件…...
AWPortrait-Z WebUI快捷操作指南:Enter/F5/命令行高效工作流
AWPortrait-Z WebUI快捷操作指南:Enter/F5/命令行高效工作流 1. 快速上手:三秒启动人像美化神器 AWPortrait-Z是一个基于Z-Image精心构建的人像美化工具,通过LoRA技术实现高质量的图像生成。这个WebUI界面由科哥二次开发,让普通…...
gh_mirrors/code/code事件处理机制:10个关键事件类型及其应用场景
gh_mirrors/code/code事件处理机制:10个关键事件类型及其应用场景 【免费下载链接】code Example application code for the python architecture book 项目地址: https://gitcode.com/gh_mirrors/code/code gh_mirrors/code/code是一个基于Python架构的示例…...
CLIP-GmP-ViT-L-14模型服务化:使用SpringBoot构建高可用API网关
CLIP-GmP-ViT-L-14模型服务化:使用SpringBoot构建高可用API网关 想象一下这个场景:你的团队开发了一个基于CLIP-GmP-ViT-L-14的智能图像理解服务,效果非常出色。刚开始,几个同事通过命令行调用,一切顺利。但随着业务发…...
