当前位置：首页 > news >正文

机器学习笔记之最优化理论与方法(十)无约束优化问题——共轭梯度法背景介绍

news 2026/2/9 19:48:57

机器学习笔记之最优化理论与方法——共轭梯度法背景介绍

引言
- 背景：共轭梯度法
- 线性共轭梯度法
- - 共轭方向
  - 共轭VS正交
  - 共轭方向法
  - 共轭方向法的几何解释

引言

本节将介绍共轭梯度法，并重点介绍共轭方向法的逻辑与几何意义。

背景：共轭梯度法

关于最小化二次目标函数： $\begin{aligned}\min f(x) = \min \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x\end{aligned}$ ，其中 $\mathcal Q \in \mathbb R^{n \times n};\mathcal Q \succ 0$ ，且 $\mathcal C \in \mathbb R^n$ 。很明显：由于 $\mathcal Q$ 是正定矩阵，那么该函数是凸二次函数。

关于该函数的最优解：令 $\nabla f(x) \triangleq 0$ ，有：
凸函数的局部最优解(极值点)也是它的全局最优解。
$\nabla f(x) = \mathcal Q x + \mathcal C \triangleq 0$
可以看出： $\mathcal Q x + \mathcal C = 0$ 是一个包含 $n$ 个方程的线性方程组。

如果 $n$ 的规模较小时，关于解方程组，可以使用其他工具进行解决。例如：高斯消去法；
相反，当 $n$ 的规模较大时，对应的增广矩阵规模同样很大，使用高斯消去法解方程组的成本较高。

而共轭梯度法初始就是针对方程组的一种迭代求解方法。随着最优化问题的推广，关于目标函数 $f (x)$ 也不仅仅局限在二次函数。对于这类 $\min f(x)$ 的方法也被称作非线性共轭梯度法。
对于上述方程组问题的迭代求解方法也被称作线性共轭梯度法。

线性共轭梯度法

关于上述优化问题： $\begin{aligned}\min f(x) = \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x;\mathcal Q \succ 0\end{aligned}$

假设正定矩阵 $\mathcal Q$ 是一个对角矩阵 $\mathcal B = \begin{pmatrix} b_1 & \quad & \quad & \quad \\ \quad & b_2 & \quad & \quad\\ \quad & \quad & \ddots & \quad \\ \quad & \quad & \quad & b_n \end{pmatrix}_{n \times n}$ ，那么此时可以发现： $\begin{aligned}f(x) = \frac{1}{2}x^T \mathcal B x + \mathcal C^T x \end{aligned}$ 中的二次项部分仅包含 $x$ 内各分量的平方项，而不包含各分量的交叉项；
以 $n = 2$ 为例，对应目标函数图像以及在 $x_1,x_2$ 方向上的投影(等值线)示例如下。

很明显，可以看出：描述等值线的椭圆，其长轴与短轴分别与坐标轴平行。如果通过迭代的方式进行求解，可以根据无约束优化问题——常用求解方法(上)中介绍的坐标轴交替下降法进行求解。图像表示如下：
由于更新方向被确定——与坐标轴方向平行。因此仅需要计算各维度达到最小步长即可。因而仅需要 $2$ 步就可以找到最优解。

同理，如果是 $\in \mathbb R^n$ ，需要将所有的轴均迭代一遍即可找到最优解。
如果 $\mathcal Q$ 是一个一般形式的正定矩阵： $\mathcal Q = \begin{pmatrix} q_{11} & q_{12} & \cdots & q_{1n} \\ q_{21} & q_{22} & \cdots & q_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ q_{n1} & q_{n2} & \cdots & q_{nn} \end{pmatrix}_{n \times n};\mathcal Q \succ 0$ 。这里依然以 $n = 2$ 为例，对应的目标函数 $f (x)$ 在决策变量 $x$ 各分量的等值线示例如下：
由于交叉项 $q_{mn}(m \neq n)$ 的存在，对应椭圆图像的长轴与短轴不再与坐标轴平行。

针对这种一般情况的二次型函数 $\begin{aligned}\min f(x) = \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x\end{aligned}$ ，可以通过二次型的线性替换，从而将函数转化为标准型函数：
其中 $\mathcal D$ 是由 $\mathcal Q$ 特征值组成的对角阵;而 $\mathcal P$ 则表示由特征值对应特征向量组成的正交阵。
$\mathcal Q = \mathcal P^T \mathcal D \mathcal P \quad \mathcal D = \begin{pmatrix} \lambda_1 & \quad & \quad & \\ \quad & \lambda_2 &\quad & \\ \quad & \quad & \ddots & \\ \quad & \quad & \quad & \lambda_n \end{pmatrix}_{n \times n}$
替换后的函数 $f (x)$ 可表示为：
记 $\hat {x} = \mathcal P x$ 反之 $\mathcal P^T \hat x$ 。
$\begin{aligned} f(x) & = \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x \\ & = \frac{1}{2} x^T \mathcal P^T \mathcal D \mathcal P x + \mathcal C^T x \\ & = \frac{1}{2}(\mathcal P x)^T \mathcal D (\mathcal P x) + \mathcal C^T x \\ & = \frac{1}{2} [\hat x]^T \mathcal D \hat {x} +\mathcal C^T (\mathcal P^T \hat x )\\ & = \frac{1}{2} [\hat x]^T \mathcal D \hat {x} + (\mathcal P \mathcal C)^T \hat x \\ & = \hat {f}(\hat x) \end{aligned}$
此时，该公式又变回了第一类标准型。同样可以通过坐标轴交替下降法对新目标函数 $\hat f(\hat x)$ 进行求解。如果找到了关于 $\hat x$ 的最优解，可以通过 $\mathcal P^T \hat x$ 找到 $x$ 的最优解。

而线性共轭梯度法是用来针对线性方程组 $\nabla f(x) = \mathcal Q x + \mathcal C \triangleq 0$ 的求解问题。如果针对上述逻辑，必然需要先将正交矩阵 $\mathcal P$ 求解出来。但相反，由于 $\mathcal P$ 是由特征值对应特征向量组成的正交矩阵，而求解特征向量依然要解方程组 $\mathcal Q x + \mathcal C \triangleq 0$ 。
很明显，这形成了一个闭环:想要通过 $\mathcal P$ 求解方程组，而 $\mathcal P$ 自身也要通过求解方程组来获取。

而共轭梯度法的思路是：想要通过获取一系列的 $n$ 维向量： $d_0,d_1,\cdots,d_{n-1} \in \mathbb R^n$ ，其组成的矩阵 $\mathcal S = (d_0,d_1,\cdots,d_{n-1})_{n \times n}$ ，使其替代上面描述的正交矩阵 $\mathcal P_{n \times n}$ ，从而帮助 $\mathcal Q$ 完成对角化：
$\mathcal Q = \mathcal S^T \mathcal D \mathcal S$
从而通过上述思路，求解最优解： $\mathcal S^T \hat {x}$ 。

关于向量组： $d_0,d_1,\cdots,d_{n-1}$ ，向量之间的关系被定义为共轭关系。

共轭方向

共轭方向的定义表示为：考虑正定矩阵 $\mathcal Q$ 以及非零向量 $d_i,d_j(i \neq j)$ ，若满足：
$(d_i)^T \mathcal Q d_j = 0$
则称向量 $d_i,d_j$ 关于矩阵 $\mathcal Q$ 共轭。如果向量组 $\mathcal D = \{d_0,d_1,\cdots,d_k\}$ 关于矩阵 $\mathcal Q$ 共轭，即向量之间两两共轭：
$\forall d_i,d_j \in \mathcal D;i \neq j \Rightarrow (d_i)^T \mathcal Q d_j = 0$

共轭VS正交

根据上述共轭梯度法的思路，以及共轭方向定义的描述，观察：共轭与正交之间的关系。

如果向量组 $\mathcal D \{d_0,d_1,\cdots,d_k\}$ 关于单位矩阵 $\mathcal I$ 共轭：此时向量 $d_i,d_j \in \mathcal D$ 之间的共轭关系退化为正交关系：
$\forall d_i,d_j \in \mathcal D,i \neq j \quad (d_i)^T \mathcal Id_j = 0 \Rightarrow (d_i)^T d_j = 0$
如果向量组 $\mathcal D \{d_0,d_1,\cdots,d_k\}$ 关于正定矩阵 $\mathcal Q$ 共轭：令 $\mathcal Q = \mathcal M^T \Lambda \mathcal M$ ，并令 $\Lambda = \lambda^2$ ，有：
- 由于 $\mathcal M$ 是正交矩阵: $\mathcal M \mathcal M^T = \mathcal I$ ,因而可以在展开过程中插入一个 $\mathcal M \mathcal M^T$ 。
- 令 $\mathcal P = \mathcal M^T \lambda \mathcal M$
  $\begin{aligned} \mathcal Q & = \mathcal M^T \Lambda \mathcal M \\ & = \mathcal M^T \lambda^2 \mathcal M \\ & = (\mathcal M^T\lambda \mathcal M) (\mathcal M^T \lambda \mathcal M) \\ & = (\mathcal M^T \lambda \mathcal M)^2 \\ & = \mathcal P^2 \end{aligned}$
从而将 $\mathcal Q$ 分解成 $\mathcal P^2$ 的形式。并且 $\mathcal P = \mathcal M^T \lambda \mathcal M$ 也是一个正定矩阵： $\mathcal P^2 = \mathcal P \cdot \mathcal P = \mathcal P^T \mathcal P$ 。
关于向量 $d_i,d_j$ 共轭： $(d_i)^T \mathcal Q d_j = 0$ 可表示为：
$\begin{aligned} (d_i)^T \mathcal Q d_j & = (d_i)^T \mathcal P^2 d_j \\ & = (d_i)^T \mathcal P^T \mathcal P d_j \\ & = (\mathcal P d_i)^T (\mathcal P d_j) = 0 \end{aligned}$
也就是说：向量 $d_i,d_j$ 经过正交矩阵 $\mathcal P$ 的投影结果： $\mathcal Pd_i,\mathcal Pd_j$ 之间是正交关系。
关于向量投影的描述详见主成分分析(最大投影方差)
根据正交的性质，两两正交的向量组，其内部向量必然线性无关；两两共轭的向量组，其内部向量同样线性无关。由于决策变量 $\in \mathbb R^n$ ，因而对应的两两共轭向量组内最多包含 $n$ 个两两共轭的向量。
再多一个，必然出现向量之间不共轭的情况。

共轭方向法

依然针对凸二次函数的优化问题： $\begin{aligned}\min f(x) = \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x,\mathcal Q \succ 0 \end{aligned}$ ，通过迭代的方式求解 $x$ 的最优解：

给定：初始点 $x_0$ 以及一组关于 $\mathcal Q$ 的共轭方向 $d_0,d_1,\cdots,d_{n-1}$ ，令：
与坐标轴交替下降法的思路如出一辙，只不过方向选择由原来两两正交的坐标轴作为方向替换为两两共轭的向量作为方向。
$x_{k+1} = x_k + \alpha_k \cdot d_k$
其中 $\alpha_k$ 满足：
即当前迭代步骤的最优解，之所以选择最优解，因为该函数是凸函数,对应的最优解必然是全局最优解。
$\alpha_k = \mathop{\arg\min}\limits_{\alpha} \phi(\alpha) = \mathop{\arg\min}\limits_{\alpha} f(x_k + \alpha \cdot d_k)$
计算 $\nabla \phi(\alpha_k) \triangleq 0$ ，有：
$\begin{aligned} \nabla \phi(\alpha_k) & = f(x_k + \alpha_k \cdot d_k)^T d_k \\ & = [\mathcal Q(x_k + \alpha_k \cdot d_k) + \mathcal C]^T d_k \\ & = (\mathcal Q x_k + \mathcal C)^T d_k + \alpha_k (x_k)^T \mathcal Q d_k \triangleq 0 \\ \end{aligned}$
最终有：
$\alpha_k = -\frac{(\mathcal Q x_k + \mathcal C)^T d_k}{(d_k)^T \mathcal Q d_k} = -\frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}$

整个的算法过程并不麻烦，但需要一个前提：将共轭方向 $d_0,d_1,\cdots,d_{n-1}$ 提前给出。因而不同共轭方向的选择方式对应其相应的共轭方向法。
与牛顿法的描述相似：针对 $\text{Hessian Matrix}$ 可能不是正定矩阵的一类情况，分为修正法， $\text{SR-1,DFP,BFGS}$ 等等方法;同理，共轭方向法为一类方法，而共轭梯度法只是其中一种方法。

共轭方向法的几何解释

观察关于初始点 $x_0$ 的第一次迭代： $x_0 \Rightarrow x_1$ ：
$x_1 = x_0 + \sum_{i=0}^{n-1} \alpha_i \cdot d_i$
如果将 $n$ 个共轭方向组成矩阵，记作 $\mathcal S = (d_0,d_1,\cdots,d_{n-1})_{n \times n}$ ，由于共轭方向两两线性无关，因而 $\mathcal S$ 必然是可逆矩阵。该矩阵存在如下性质：

关于 $\mathcal S^T \mathcal Q \mathcal S = \begin{bmatrix} (d_0)^T \\ \vdots \\ (d_{n-1})^T \end{bmatrix} \mathcal Q (d_0,\cdots,d_{n-1}) = [(d_i)^T \mathcal Q d_j]_{n \times n}$ ，根据共轭方向的定义，当 $\neq j$ 时，必然有： $(d_i)^T \mathcal Q d_j = 0$ ；相反，当 $i = j$ 时，由于 $\mathcal Q$ 是正定矩阵，因而 $(d_i)^T \mathcal Q d_j >0$ 恒成立。从而 $\mathcal S^T \mathcal Q \mathcal S$ 不仅是一个正定矩阵，甚至是一个对角阵。
从而达到利用 $\mathcal S$ 对 $\mathcal Q$ 进行对角化的目的。
由于 $\mathcal S$ 可逆，根据逆矩阵的性质，必然有： $\mathcal S^{-1} \mathcal S = \mathcal S^{-1}(d_0,d_1,\cdots,d_{n-1}) = \mathcal I$ (单位矩阵)。将该式展开，有：
$\begin{aligned} \mathcal I & = \mathcal S^{-1}(d_0,d_1,\cdots,d_{n-1}) \\ & = (\mathcal S^{-1} d_0,\mathcal S^{-1} d_1 \cdots \mathcal S^{-1} d_{n-1}) \end{aligned}$
其中展开后矩阵中的元素 $\mathcal S^{-1} d_i(i=0,1,2,\cdots,n-1)$ 表示单位坐标向量 $e_{i+1} = (0,0,\cdots,\underbrace{1}_{i+1},\cdots,0)^T$

如果将决策变量 $\mathcal S \cdot \hat {x}$ 或者 $\hat x = \mathcal S^{-1} x$ ，从而原始目标函数 $\begin{aligned}f(x) = \frac{1}{2} x^T \mathcal Q x + \mathcal C^T x\end{aligned}$ 可替换为一个新函数 $\hat f(\hat {x})$ ：
$\hat f(\hat {x}) = \frac{1}{2} [\hat x]^T \underbrace{\mathcal S^T \mathcal Q \mathcal S}_{对角阵} \cdot \hat {x} + (\mathcal S^T \mathcal C)^T \hat {x}$
此时的新函数中仅包含关于 $\hat {x}_i(i=1,2,\cdots,n)$ 的平方项，而没有交叉项。从而新函数 $\hat f(\hat x)$ 在 $\hat x$ 特征空间中的等值线依然是一个椭圆/椭球/超椭球，其长轴与短轴同样与坐标轴平行。

回归第一次迭代： $x_0 + \sum_{i=0}^{n-1} \alpha_i \cdot d_i$ ，这明显是一个在原始特征空间 $x$ 上的操作。如果该操作映射在 $\hat x$ 的特征空间中会变成什么样的效果 $?$
只需要将 $x$ 特征空间中的正交向量乘以 $\mathcal S^{-1}$ 即可得到对应 $\hat x$ 特征空间的正交向量。
$\mathcal S^{-1}x_0 + \alpha_0 \mathcal S^{-1}d_0 + \alpha_1 \mathcal S^{-1} d_1 + \cdots + \alpha_{n-1} \mathcal S^{-1} d_{n-1}$
由于 $e_{i+1} = \mathcal S^{-1} d_i(i=1,2,\cdots,n-1)$ ，整理有：
很明显，在 $\hat x$ 的特征空间中，相当于坐标轴交替下降法,沿着坐标轴进行搜索。
$\mathcal S^{-1}x_0 + \alpha_0 e_1 + \alpha_1 e_2 + \cdots + \alpha_{n-1} e_{n}$

下一节将继续介绍共轭方向法。
$0 : 37 : 14/1 : 26 : 29$

$\text{Reference}$ ：
最优化理论与方法-第七讲-无约束优化问题（三）

机器学习笔记之最优化理论与方法(十)无约束优化问题——共轭梯度法背景介绍

机器学习笔记之最优化理论与方法——共轭梯度法背景介绍

引言

背景：共轭梯度法

线性共轭梯度法

共轭方向

共轭VS正交

共轭方向法

共轭方向法的几何解释

相关文章：

机器学习笔记之最优化理论与方法(十)无约束优化问题——共轭梯度法背景介绍

Mybatis核心对象及工作流程

无swing，高级javaSE毕业之贪吃蛇游戏(含模块构建，多线程监听服务)，已录制视频

Kafka3.0.0版本——消费者（消费者组详细消费流程图解及消费者重要参数）

算法通关村-----位运算在海量元素中查找重复元素的妙用

RabbitMQ: Publish/Subscribe结构

单片机-蜂鸣器

华为云云耀云服务器L实例评测 | 分分钟完成打地鼠小游戏部署

Android——数据存储（二）（二十二）

appium环境搭建

十五、Webpack打包图片-js-Vue、Label命令、resolve模块解析

ARM指令集--数据处理指令

Excel embed into a webpage

uniapp点击事件在小程序中无法传参

ssprompt：一个LLM Prompt分发管理工具

修复 ChatGPT 发生错误的问题

《热题100》字符串、双指针、贪心算法篇

大数据组件Sqoop-安装与验证

运算符重载(个人学习笔记黑马学习)

2023.9.6 Redis 的基本介绍

大数据学习栈记——Neo4j的安装与使用

day52 ResNet18 CBAM

使用分级同态加密防御梯度泄漏

Rust 异步编程

均衡后的SNRSINR

PAN/FPN

FFmpeg：Windows系统小白安装及其使用

【Post-process】【VBA】ETABS VBA FrameObj.GetNameList and write to EXCEL

全面解析数据库：从基础概念到前沿应用

2.3 物理层设备