当前位置：首页 > news >正文

大模型压缩：基于贝叶斯优化的自适应低秩分解

news 2026/2/9 13:44:14

1.方法

1.1 基于特征的高维空间低秩分解

PCA已经是老朋友了，每次一说主成分都会出现PCA。这篇文章¹利用预训练数据的子集作为校准数据集 $\mathcal{D}_{cal}=\{x_{i}\}_{i=1}^{n}$ ，首先用校准数据集的样本协方差矩阵（SCM）估计整个特征空间分布的Y的协方差矩阵
$Cov_S(\boldsymbol{Y})=\frac{1}{n-1}\sum_{i=1}^n(\boldsymbol{y}_i-\bar{\boldsymbol{y}})^T(\boldsymbol{y}_i-\bar{\boldsymbol{y}})\tag{1}$
式中 $\boldsymbol{y}_i$ 表示 $\boldsymbol{x}_i$ 的特征， $\bar{\boldsymbol{y}}$ 是校准数据集的特征值平均值。但文章指出，计算高维的协方差矩阵并不简单，他们提出了合并协方差矩阵（PCM），把校准数据集分成 $m$ 组，对每一组分别计算协方差矩阵最后求平均得PCM
$Cov_P(\boldsymbol{Y})=\frac{1}{m}\sum_{k=1}^mCov_S(\boldsymbol{Y}_k)\tag{2}$

1.2 基于贝叶斯优化得低秩分配

对于每一层，甚至每一层的不同矩阵对低秩分解得敏感度不同，对于一个模型 $f(\cdot;\theta)$ ，引入一组压缩率 $\lambda=\{\lambda_{i}\}_{i=1}^{k}$ ，引入一个任务模糊数据集D来评价压缩大模型 $f(\cdot;\boldsymbol{\theta},\lambda)$ 的性能，例如预训练数据集的子集。因此目标函数表示为
$\begin{aligned}\min_{\lambda\in\mathcal{V}}H(\boldsymbol{\lambda})&=\mathbb{E}_{(x,y)\sim\mathcal{D}}h(f(x;\boldsymbol{\theta},\boldsymbol{\lambda}),y)\\&s.t.\Sigma\boldsymbol{\lambda}\leq\rho\end{aligned}\tag{3}$
式中， $\rho$ 是模型的整体压缩比， $h(\cdot,\cdot)$ 是评价指标，但事实上，评价指标和低秩分配都是非常耗时耗算力的，所以这篇论文提出样本高效贝叶斯优化（BO）来优化公式3。这里引入一个替代模型（例如高斯模型 $\mathcal{N}(\mu(\cdot),\sigma^2(\cdot))$ ），BO通过替代模型来估计目标函数 $H(\boldsymbol{\lambda})$ ，并且基于每一步的结果，更新后面一步的目标函数 $H(\boldsymbol{\lambda})$ 。比如给出前t-1步 $\{\boldsymbol{\lambda}_{1},\cdots,\boldsymbol{\lambda}_{t-1}\}$ 的目标函数值分别为 $H_{t-1}=[H(\boldsymbol{\lambda}_{1}),\cdots,H(\boldsymbol{\lambda}_{t-1})]$ ，替代模型更新为 $\mu(\boldsymbol{\lambda})=\boldsymbol{k}(\boldsymbol{K}+\eta^{2}\boldsymbol{I})^{-1}H_{t-1}\\\sigma^{2}(\boldsymbol{\lambda})=k(\boldsymbol{\lambda},\boldsymbol{\lambda})-\boldsymbol{k}^{T}(\boldsymbol{K}+\eta^{2}\boldsymbol{I})^{-1}\boldsymbol{k}\tag{4}$
式中 $k(\cdot,\cdot)$ 是一个核函数， $(\boldsymbol{k}=k(\boldsymbol{\lambda},\boldsymbol{\lambda}_{i}))_{i\in[t-1]}$ ， $(k(\boldsymbol{\lambda}_{i},\boldsymbol{\lambda}_{j}))_{i,j\in[t-1]}$ ， $\eta^{2}I$ 是用来模拟噪声的白核函数，得到后验估计 $H(\boldsymbol{\lambda})$ （例如 $H(\boldsymbol{\lambda})\sim{\mathcal{N}}(\mu(\boldsymbol{\lambda}),\sigma^{2}(\boldsymbol{\lambda}))$ ）之后，BO通过采集函数确定下一次的比率分布，对于采集函数，可以用EI
$\begin{aligned}\alpha(\boldsymbol{\lambda})&=\mathbb{E}_{H(\boldsymbol{\lambda})}\left[\max\left\{0,H'-H(\boldsymbol{\lambda})\right\}\right]\\\boldsymbol{\lambda}_{t}&=\mathop{\mathrm{argmax}}_{\boldsymbol{\lambda}}\alpha(\boldsymbol{\lambda}),\end{aligned}\tag{5}$
式中， $H^{\prime}=\operatorname*{min}_{i\in[t-1]}H(\boldsymbol{\lambda}_{i})$ 是指迄今为止观察到的最小值，然后BO选择了最好的EI的方向去搜索。在得到最优比 $\lambda^{*}$ 之后，可以确定分配 $r_{i}=(1-\lambda_{i})d_{1}d_{2}/(d_{1}+d_{2})$ 。

1.3 后训练

为了不使模型参数量反弹，文章使用压缩模型的子空间对模型微调。
$Y=(BA+\Lambda_bB_{r'}\Lambda_dA_{r'})X\tag{6}$
式中， $B_{r^{\prime}}\in\mathbb{R}^{d_2\times r^{\prime}}$ ， $A_{r^{\prime}}\in\mathbb{R}^{r^{\prime}\times d_1}$ 是修正后的 $B$ 和 $A$ 矩阵， $\boldsymbol{\Lambda}_{b}$ 和 $\boldsymbol{\Lambda}_{d}$ 是对角阵。

基于贝叶斯优化的自适应低秩分解 ↩︎

大模型压缩：基于贝叶斯优化的自适应低秩分解

1.方法

1.1 基于特征的高维空间低秩分解

1.2 基于贝叶斯优化得低秩分配

1.3 后训练

相关文章：

大模型压缩：基于贝叶斯优化的自适应低秩分解

【Python函数编程实战】：从基础到进阶，打造代码复用利器

ZooKeeper 应用场景深度解析

动手学深度学习（Pytorch版）代码实践 -计算机视觉-41目标检测数据集

2.2章节python的变量和常量

豆包文科成绩超了一本线，为什么理科不行？

Java多线程编程实践中的常见问题与解决方案

WebStorm配置路径别名(jsconfig.json）

[吃瓜教程]南瓜书第4章决策树

Redis 面试题完整指南：深度解析基础、进阶与高级功能

spring 枚举、策略模式、InitializingBean初使化组合使用示例

嵌入式学习——硬件（IIC、ADC）——day56

vCenter VXR01405C ALARM Certificate is about to expire

安装和微调大模型（基于LLaMA-Factory）

使用docker搭建squid和ss5

大数据面试题之Flink(1)

策略模式、工厂模式和模板模式的应用

在postman中调试supabase的API接口

微信小程序毕业设计-英语互助系统项目开发实战(附源码+论文)

【WEB前端2024】3D智体编程：乔布斯3D纪念馆-第49课-机器人自动跳舞

浅谈 React Hooks

C++：std::is_convertible

Python爬虫实战：研究feedparser库相关技术

【2025年】解决Burpsuite抓不到https包的问题

NFT模式：数字资产确权与链游经济系统构建

实现弹窗随键盘上移居中

docker 部署发现spring.profiles.active 问题

【分享】推荐一些办公小工具

【JVM面试篇】高频八股汇总——类加载和类加载器

解决：Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist