不用训练,集成多个大模型产生更优秀的输出
论文标题
Collab: Controlled Decoding using Mixture of Agents for LLM Alignment
论文地址
https://arxiv.org/pdf/2503.21720
作者背景
JP摩根,马里兰大学帕克分校,普林斯顿大学
动机
大模型对齐(alignment)的主要目的是让模型输出更符合人类偏好或者业务需要,当前实现对齐的主流方案是RLHF,但不管是何种具体的实现都需要准备充足的训练数据,来训练调整模型参数,计算成本较大;
在高度专业化或者需要快速定制化的场景中,一般需要更轻量级的方法来实现业务对齐。此时不需要修改模型的受控解码便成为了更有前景的替代方案,它直接在推理阶段对模型的解码行为进行控制,以实现与目标偏好的对齐 。
相关研究表明,受控解码可以显著提高LLM满足特定需求的能力,甚至在某些场景下超过PPO/DPO(https://arxiv.org/pdf/2402.01694)
然而,现有受控解码方法大都针对于单一智能体,这在面对当下越来越多样化、可能有冲突的对齐需求时显得力不从心。例如,一方面我们可能希望模型叙事更严谨,另一方面又希望模型具有丰富的创造性;
尽管有些工作探索了集成多个智能体来应对上述挑战,但现有方法都依赖于弱监督或固定的公式来混合模型输出,缺乏灵活性并且可能需要额外的训练。
于是本文希望在不进行重新训练的情况下,设计一种推理时的动态解码机制,集成多个预训练好的LLMs,以实现最优的对齐效果
本文方法
作者提出Collab(基于混合agent的受控解码,Controlled decoding via mixture of agents),可以在token级别上动态选择最适合当前上下文的智能体来生成下一个词,这里的“智能体”指的就是已经预训练好,并且在特定任务或偏好上做了对齐的LLMs,如下图所示:

在token级别上选择合适的智能体,是一种奖励信号后置任务,可以使用Q-Learning等强化学习算法来解。为了实现上述“不重新训练”便恰当集成多个智能体的目标,作者从带KL正则项的强化学习(就是一般的RLHF)目标出发,尝试寻找出一个能够利用已知信息来近似Q函数的方法;
先说结论,作者找到的近似方法为:

其中,Q(s, a)是在上下文状态为s的情况下,候选智能体π_j输出a的奖励期望;π_ref是参考模型,集成的结果不会过于偏离它。也就是说,Collab把【每个候选模型本身的输出概率分布,与参考模型分布的对数差】作为价值估计。更通俗地讲:相比于标准答案,每个“专家”提出的意见便是我们去咨询这个专家所获得的收益
获取到Q函数的估计结果后,便可以通过以下流程实现多LLMs的集成式解码:
- 在每个时间步,从每个模型中采样出top_p个token,使用预估的Q函数计算其奖励预期,
- 选择Q值最高的token作为当前解码结果,加入到上下文中,作为下一步解码的环境状态
- 重复上述过程,知道生成完整的响应
推导过程
一、近似Q函数推导
本节展示上述Q函数的估计过程,以及作者对其误差的估计。首先把问题建模为带KL正则项的强化学习:

其中参考模型使用的是Zephyr-7B-α、Starling-7B-α 等已经在通用文本任务上进行监督微调或RLHF的开源模型;
然后基于概率归一化条件(ΣΠ(a|s)=1),构造拉格朗日函数:

对策略概率Π(a|s)求偏导并令其为0,达到极值条件:

整理得到:

两边取指数:

上面等式在Π(s, a)到达极小值时成立,即最优的策略模型,记为Π*;再把与a无关的项看成常数C,则可以解出最优Q函数:

于是我们就找到了策略模型Π与价值函数Q的对应关系。但此时最优策略模型Π*是未知的,作者直接使用当前智能体Πj来代替Π*

二、误差估计
使用当前候选智能体模型的分布Πj代替最优分布Π*带来了误差,具体可表示为:

带入之前推导出来的Q与Π对应关系:

根据pinsker不等式与KL散度的定义,可推出:

其中C’为某个有限的常数。也就是说,本文的Q函数估计方法,误差是有界的。如果Π*与Πj的差距不大,则估计的Q与最优的Q也很相近。
也就是说,如果我们的候选智能体本身都比较优秀、都经过了充分的训练与对齐,与目标策略差距不大(本文的动机确实也只是想结合不同的模型避免产生冲突),使用上述对数差来估计路由智能体的奖励是可靠的
实验结果
作者使用了市面上各种开源的,已经完成对齐训练的模型作为实验对象,在多轮对话与道德对齐数据集上进行测试,具体的实验设置如下:

- Berkeley Nectar:多轮对话和问答数据集
- HH-RLHF:数据集对齐数据集
使用GPT-4作为裁判,本文提出的CoLLAB方法相较于对照组(参考上表)以及BoN采样的胜率:

各对照组(参考上表)与实验组,在测试任务上的奖励分数对比:

多样性与连贯性对比:

集成的智能体多样性越强效果越好:

相关文章:
不用训练,集成多个大模型产生更优秀的输出
论文标题 Collab: Controlled Decoding using Mixture of Agents for LLM Alignment 论文地址 https://arxiv.org/pdf/2503.21720 作者背景 JP摩根,马里兰大学帕克分校,普林斯顿大学 动机 大模型对齐(alignment)的主要目的…...
随笔1 认识编译命令
1.认识编译命令 1.1 解释gcc编译命令: gcc test1.cpp -o test1 pkg-config --cflags --libs opencv 命令解析: gcc:GNU C/C 编译器,用于编译C/C代码。 test1.cpp:源代码文件。 -o test1:指定输出的可执行文件名为t…...
【数据结构】并查集应用
修改数组 题目:检查ai是否出现过,出现过就不断1,使成为第一个没有出现过的。这样得到一个不重复数组。 祖先是该数字能使用的最小数字,当使用完后,祖先把这个格子占了,下次再来,就得使用后一个…...
python基础-16-处理csv文件和json数据
文章目录 【README】【16】处理csv文件和json数据【16.1】csv模块【16.1.1】reader对象【16.1.2】在for循环中, 从reader对象读取数据【16.1.3】writer对象【16.1.5】DictReader与DictWriter对象 【16.4】json模块【16.4.1】使用loads()函数读取json字符串并转为jso…...
MySQL Explain 分析 SQL 执行计划
MySQL Explain 分析 SQL 执行计划 在优化 SQL 查询性能时,了解查询的执行计划至关重要。MySQL 提供的 EXPLAIN 工具能够帮助我们深入了解查询语句的执行过程、索引使用情况以及潜在的性能瓶颈。本文将详细介绍如何使用 EXPLAIN 分析 SQL 执行计划,并探讨…...
Hyperlane 框架路由功能详解:静态与动态路由全掌握
Hyperlane 框架路由功能详解:静态与动态路由全掌握 Hyperlane 框架提供了强大而灵活的路由功能,支持静态路由和动态路由两种模式,让开发者能够轻松构建各种复杂的 Web 应用。本文将详细介绍这两种路由的使用方法。 静态路由:简单…...
理解进程和线程的概念
在操作系统中,进程和线程都是执行的基本单位,但它们在性质和管理方面有所不同 进程 定义: 进程是一个正在运行的程序的实例,是操作系统资源分配的基本单位。特点: 独立性:每个进程有其独立的内存空间、数据栈和其他辅助数据。重…...
铰链损失函数 Hinge Loss和Keras 实现
一、说明 在为了了解 Keras 深度学习框架的来龙去脉,本文介绍铰链损失函数,然后使用 Keras 实现它们以进行练习并了解它们的行为方式。在这篇博客中,您将首先找到两个损失函数的简要介绍,以确保您在我们继续实现它们之前直观地理解…...
瑞数信息发布《BOTS自动化威胁报告》,揭示AI时代网络安全新挑战
近日,瑞数信息正式发布《BOTS自动化威胁报告》,力求通过全景式观察和安全威胁的深度分析,为企业在AI时代下抵御自动化攻击提供安全防护策略,从而降低网络安全事件带来的影响,进一步增强业务韧性和可持续性。 威胁一&am…...
树莓派llama.cpp部署DeepSeek-R1-Distill-Qwen-1.5B
树莓派的性能太低了,我们需要对模型进行量化才能使用,所以现在的方案是,在windows上将模型格式和量化处理好,然后再将模型文件传输到树莓派上。而完成上面的操作就需要部署llama.cpp。 三、环境的准备 这里要求大家准备…...
小菜Go:Ubuntu下Go语言开发环境搭建
前置要求Ubuntu环境搭建 文章推荐 此处推荐一个比较好的文章,基本按部就班就欧克~ 安装虚拟机(VMware)保姆级教程(附安装包)_vmware虚拟机-CSDN博客 安装可能遇到的问题 虚拟机安装遇到的问题如:Exception…...
FLV格式:流媒体视频的经典选择
FLV格式:流媒体视频的经典选择 FLV(Flash Video)格式曾经是流媒体视频的主力军,在互联网视频的早期时代广泛应用于视频网站和多媒体平台。凭借其高效的压缩和较小的文件体积,FLV成为了许多视频内容创作者和平台的首选…...
需求分析-用例图绘制、流程图绘制
第一,引论 需求分析是开发的第一步,也是我个人认为最重要的一步。 技术难题的克服,甚至在我心里,还要排在需求分析后面。 如果需求分析做好了,数据库就更容易建立,数据库建好了,业务逻辑写起…...
Windows安装 PHP 8 和mysql9,win下使用phpcustom安装php8.4.5和mysql9
百度搜索官网并下载phpcustom,然后启动环境,点击网站管理 里面就有php8最新版,可以点mysql设置切mysql9最新版,如果你用最新版无法使用,说明你的php程序不支持最新版的mysql MySQL 9.0 引入了一些新的 SQL 模式和语法变…...
http://noi.openjudge.cn/_2.5基本算法之搜索_1804:小游戏
文章目录 题目深搜代码宽搜代码深搜数据演示图总结 题目 1804:小游戏 总时间限制: 1000ms 内存限制: 65536kB 描述 一天早上,你起床的时候想:“我编程序这么牛,为什么不能靠这个赚点小钱呢?”因此你决定编写一个小游戏。 游戏在一…...
手写JSX实现虚拟DOM
🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…...
Spring Boot 中的 Bean
2025/4/6 向全栈工程师迈进! 一、Bean的扫描 在之前,对于Bean的扫描,我们可以在XML文件中书写标签,来指定要扫描的包路径,如下所示,可以实通过如下标签的方式: <context:component-scan base-package&…...
C++17更新内容汇总
C17 是 C14 的进一步改进版本,它引入了许多增强特性,优化了语法,并提升了编译期计算能力。以下是 C17 的主要更新内容: 1. 结构化绑定(Structured Bindings) 允许同时解构多个变量,从 std::tup…...
ST 芯片架构全景速览:MCU、无线 SoC、BLE 模块、MPU 差异详解
在嵌入式开发中,ST 是一个非常常见的芯片厂商,其产品线覆盖了 MCU、无线芯片、BLE 模块以及运行 Linux 的 MPU 等多个领域。很多开发者初次接触 ST 时会对这些产品之间的关系感到困惑。 本文从分类视角出发,带你快速了解 ST 芯片家族的核心架构和主要用途。 🧭 ST 芯片四…...
AtCoder Beginner Contest 400(ABCDE)
A - ABC400 Party 翻译: 在 ABC400 的纪念仪式上,我们想把 400 人排成 A 行 B 列的长方形,且不留任何空隙。 给你一个正整数 A,请打印可以这样排列的正整数 B 的值。如果没有这样的正整数 B,则打印-1。 思路ÿ…...
Flask+Vue构建图书管理系统及Echarts组件的使用
教程视频链接从零开始FlaskVue前后端分离图书管理系统 后端 项目下载地址 其中venv为该项目的虚拟环境,已安装所有依赖 使用方法: 在pycharm终端中flask create一下(因为写了一个自定义命令的代码),初始化books数据…...
【项目管理】第2章 信息技术发展 --知识点整理
Oracle相关文档,希望互相学习,共同进步 风123456789~-CSDN博客 (一)知识总览 对应:第1章-第5章 (二)知识笔记 二、信息技术的发展 1. 信息技术及其发展 1)计算机软硬件 计算机硬件由电子机械、光电元件等组成的物理装置,提供物质基础给计算机软件运行。软件包括程…...
Spring 中有哪些设计模式?
🧠 一、Spring 中常见的设计模式 设计模式类型Spring 中的应用场景单例模式创建型默认 Bean 是单例的工厂模式创建型BeanFactory、FactoryBean抽象工厂模式创建型ApplicationContext 提供多个工厂接口代理模式结构型AOP 动态代理(JDK/CGLIB)…...
4-c语言中的数据类型
一.C 语⾔中的常量 1.生活中的数据 整数: 100,200,300,400,500 小数: 11.11 22.22 33.33 字母: a,b,c,d A,B,C,D 在 C 语⾔中我们把字⺟叫做字符. 字符⽤单引号引⽤。例如A’ 单词…...
LORA+llama模型微调全流程
LORAllama.cpp模型微调全流程 准备阶段 1.下载基础大模型 新建一个download.py脚本 from modelscope import snapshot_download#模型存放路径 model_path /root/autodl-tmp #模型名字 name itpossible/Chinese-Mistral-7B-Instruct-v0.1 model_dir snapshot_download(na…...
02_使用Docker在服务器上部署Jekins实现项目的自动化部署
02_使用Docker在服务器上部署jenkins实现项目的自动化部署 一、使用docker拉取阿里云容器私有镜像仓库内的jenkins镜像 登录阿里云Docker Registry $ sudo docker login --usernamewxxxo1xxx registry.cn-shanghai.aliyuncs.com用于登录的用户名为阿里云账号全名,…...
Spring 执行流程(源码)
我们对SpringApplication中的run()方法内部进行一些简单的分析 1. //记录一下程序启动开始的事件,用于之后的统计耗时 long startTime System.nanoTime(); //通过调用SpringApplication的**createBootstrapContext()**方法,创建**bootstrapContext**…...
Python学习之numpy
Python学习之numpy 数组是Numpy库的核心数据结构。 NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。 Numeric,即 NumPy 的前身,是由 Jim Hugunin 开发的。 也开发了另一个包 Numarr…...
安装完 miniconda3 ,cmd无法执行 conda 命令
提示:安装 miniconda3 文章目录 前言一、安装二、安装完,cmd 无法执行 conda 前言 提示:版本 系统:win10 codna: miniconda3 安装完 miniconda3 ,cmd无法执行 conda 命令 提示:以下是本篇文章正文内容&am…...
PyTorch 实现图像版多头注意力(Multi-Head Attention)和自注意力(Self-Attention)
本文提供一个适用于图像输入的多头注意力机制(Multi-Head Attention)PyTorch 实现,适用于 ViT、MAE 等视觉 Transformer 中的注意力计算。 模块说明 输入支持图像格式 (B, C, H, W)内部转换为序列 (B, N, C),其中 N H * W多头注…...
