当前位置：首页 > news >正文

机器学习笔记之最优化理论与算法(十二)无约束优化问题——共轭梯度法

news 2026/2/9 18:56:09

机器学习笔记之最优化理论与方法——共轭梯度法

引言
- 回顾：共轭方向法的重要特征
- 线性共轭梯度法
- - 共轭方向公式的证明过程
- 关于线搜索公式中参数的化简
- - 关于线搜索公式中步长部分的化简
  - 关于线搜索公式中共轭方向系数的化简
  - 参数化简的目的
- 非线性共轭梯度法(FR,PRP方法)
- - 关于非线性共轭梯度法的说明

引言

上一节主要介绍了共轭方向法的重要特征以及相关证明，本节将介绍共轭方向法的代表算法——共轭梯度法。

回顾：共轭方向法的重要特征

关于凸二次函数 $f (x)$ 的优化问题： $\begin{aligned}\min f(x) = \frac{1}{2}x^T \mathcal Qx + \mathcal C^T x \end{aligned}$ ，给定初始点 $x_0$ 以及关于正交矩阵 $\mathcal Q$ 的一系列共轭方向： $\mathcal D = \{d_0,d_1,\cdots,d_{n-1}\}$ ，在迭代过程中的输出位置 $x_k(k=1,2,\cdots,n)$ 表示如下：
$x_k = x_{k-1} + \alpha_{k-1} \cdot d_{k-1} \quad k = 1,2,\cdots,n$

基于上述操作产生的数值解序列 ${x_k\}_{k=1}^n$ 具有如下特征：

目标函数 $f(\cdot)$ 在输出位置 $x_k$ 处的梯度 $\nabla f(x_k)$ 与迭代过程中使用过的共轭方向 $d_i(i=0,1,\cdots,k-1)$ 均相互垂直：
$[\nabla f(x_k)]^T d_i = 0 \quad i=0,1,\cdots,k-1$
如果定义集合 $\mathcal X_k$ 为 $k$ 次迭代过程中 $x_k$ 可选择的位置空间：
$\mathcal X_k = \left\{x_0 + \sum_{i=0}^{k-1} \alpha_i \cdot d_i \mid \alpha_i \in \mathbb R\right\}$
那么如果 $x_k$ 是第 $k$ 次迭代的最优解，等价于：
$x_k = \mathop{\arg\min}\limits_{x} \left\{\frac{1}{2} x^T \mathcal Q x + \mathcal C^T x \mid x \in \mathcal X_k \right\}$
并且当 $k = n$ 时，此时的位置空间 $\mathcal X_n$ 就是由共轭方向 $d_0,d_1,\cdots,d_{n-1}$ 描述的投影空间： $\mathcal X_n \in \mathbb R^n$ ，因而目标函数 $f (x)$ 必然可以通过最多 $n$ 次迭代找到最优解。
- 首先，投影空间与原始特征空间不同，它是将正定矩阵 $\mathcal Q$ 对角化后的特征空间效果;
- 该特征空间是由共轭方向 $d_i(i=0,1,\cdots,n-1)$ 但并不是说它们是正交基：
  $\forall d_i,d_j \in \mathcal D,i \neq j \Rightarrow (d_i)^T \mathcal Q d_j = 0$
  令 $\mathcal Q = \mathcal P^2 = \mathcal P^T \mathcal P$ ，其中 $\mathcal P$ 同样是正定矩阵。有：
  $\begin{aligned} (d_i)^T \mathcal Q d_j & = (d_i)^T \mathcal P^T \mathcal P d_j \\ & = (\mathcal P d_i)^T (\mathcal P d_j) = 0 \end{aligned}$
  可以看出： $\mathcal P d_i(i=0,1,\cdots,n-1)$ 才是投影空间的正交基。当然 $d_i$ 也有成为正交基的情况，即： $\mathcal Q = \mathcal P^2 = \mathcal P \Rightarrow \mathcal P = \mathcal I$ 。其中 $\mathcal I$ 表示单位矩阵。

线性共轭梯度法

显然，上面存在被我们忽视的核心问题：如何通过一种简单方式获取一组共轭方向 $?$

而共轭梯度法构造共轭方向的思想在于：在迭代下降的过程中，借助当前位置 $x_k$ 的梯度信息构造共轭方向。对应算法步骤表示如下：
该操作是在迭代过程的同时构造梯度方向：初始化 $d_0$ ,在构造新的共轭方向 $d_1$ 时，需要保证其与 $d_0$ 共轭；在构造 $d_2$ 时，需要保证其与 $d_0,d_1$ 均相互共轭，以此类推。

初始化操作：

给定初始点 $x_0$ ，记 $d_0 = -\nabla f(x_0)$ ；设置阈值 $\epsilon > 0$ ； $k = 0$

算法过程：

事先判断 $\|\nabla f(x_k)\| \leq \epsilon$ 是否成立 $?$ 是，则算法终止；
计算当前迭代步骤的最优步长 $\alpha_k$ ：
求解过程详见共轭梯度法背景介绍
$\alpha_k = - \frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}$
计算新位置点： $x_{k+1} = x_k + \alpha_k \cdot d_k$ ，并计算共轭方向 $d_{k+1}$ ：
$d_{k+1} = -\nabla f(x_{k+1}) + \beta_k \cdot d_k,\beta_k = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}$
令 $k = k + 1$ ，转步骤 $1$ 重新判断。

共轭方向公式的证明过程

新共轭方向产生时，需要满足一个重要条件：与之前迭代产生的共轭方向均共轭：
$(d_{k+1})^T \mathcal Q d_{i} = 0 \quad i=0,1,2,\cdots,k$
首先，尝试将 $d_{k+1}$ 表示为： $x_{k+1}$ 负梯度方向 $\nabla f(x_{k+1})$ 与 $d_0,d_1,\cdots,d_k$ 线性组合的加法形式：
其中 $\beta_0,\cdots,\beta_k$ 表示对应共轭方向的系数，是一个标量;
$d_{k+1} = - \nabla f(x_{k+1}) + \beta_0 d_0 + \beta_1d_1 \cdots + \beta_k d_k$
将该式代入上面的重要条件，即：
在线性组合中，除去与 $d_i$ 相同的一项外，其余项均为 $0$ 。
$\begin{aligned} (d_{k+1})^T \mathcal Q d_{i} = 0 & \Rightarrow [-\nabla f(x_{k+1}) + \beta_0 d_0 + \beta_1d_1 \cdots + \beta_k d_k]^T \mathcal Q d_i = 0 \\ & \Rightarrow [- \nabla f(x_{k+1})]^T\mathcal Q d_i + \beta_0 \cdot \underbrace{(d_0)^T \mathcal Q d_i}_{=0} + \cdots + \beta_i \cdot (d_i)^T \mathcal Q d_i + \cdots + \beta_k \underbrace{(d_k)^T \mathcal Q d_i}_{=0} = 0 \\ & \Rightarrow [- \nabla f(x_{k+1})]^T\mathcal Q d_i + \beta_i \cdot (d_i)^T \mathcal Q d_i = 0 \end{aligned}$
经过整理，有：
很明显:项 $(d_i)^T \mathcal Q d_i$ 与项 $[\nabla f(x_{k+1})]^T \mathcal Q d_i$ 描述的都是 $\times 1$ 的矩阵，一个值，移项就好啦~
$\beta_i \cdot (d_i)^T \mathcal Q d_i = \nabla f(x_{k+1})^T \mathcal Q d_i \Rightarrow \beta_i = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_i}{(d_i)^T \mathcal Q d_i}$
此时，当 $\beta_i$ 确定后， $d_{k+1}$ 必然与 $d_i$ 共轭。同理，可以对所有的 $\beta_i(i=0,1,\cdots,k)$ 进行求解，当所有的 $\beta$ 值确定后，必然与 $d_0,d_1,\cdots,d_k$ 均共轭。但上面的结论公式中，仅仅描述了 $\beta_k$ 参数。也就是说：在迭代公式中，仅描述了 $d_{k+1}$ 与 $d_k$ 共轭，其余的共轭方向并没有提。

观察除了 $d_k$ 之外的其他项。当 $j=0,1,\cdots,k-1$ 时，观察 $\beta_j$ 的分子部分：
$[\nabla f(x_{k+1})]^T \mathcal Q d_j$
关于共轭方向 $d_j$ ，通过线搜索公式可以将其表示为如下形式：
$x_{j+1} = x_j + \alpha_j \cdot d_j \Rightarrow d_j = \frac{x_{j+1} - x_j}{\alpha_j}$
两边同时左乘正定矩阵 $\mathcal Q$ ，有：
在小括号内两项同时加上系数项 $\mathcal C$ ，符号不发生变化。很明显， $\mathcal Q x_{j+1} + \mathcal C$ 就是 $\nabla f(x_{j+1}),\nabla f(x_j)$ 同理。
$\begin{aligned} \mathcal Q d_j & = \frac{1}{\alpha_j}(\mathcal Q x_{j+1} - \mathcal Q x_j) \\ & = \frac{1}{\alpha_j} \left[(\mathcal Q x_{j+1} + \mathcal C) - (\mathcal Q x_j + \mathcal C) \right] \\ & = \frac{1}{\alpha_j} [\nabla f(x_{j+1}) - \nabla f(x_j)] \end{aligned}$
将 $\mathcal Q d_j$ 的展开结果代入上式，有：
$\begin{aligned} [\nabla f(x_{k+1})]^T \mathcal Q d_j & = \frac{1}{\alpha_j} \cdot [\nabla f(x_{k+1})]^T [\nabla f(x_{j+1}) - \nabla f(x_j)] \\ & = \frac{1}{\alpha_j} \cdot \left\{[\nabla f(x_{k+1})]^T \nabla f(x_{j+1}) - [\nabla f(x_{k+1})]^T\nabla f(x_j)\right\} \end{aligned}$
观察大括号内第一项： $[\nabla f(x_{k+1})]^T \nabla f(x_{j+1})$ ，将 $\nabla f(x_{j+1})$ 使用共轭方向进行表示：
$d_{j+1} = -\nabla f(x_{j+1}) + \beta_0 d_0 + \beta_1 d_1 + \cdots \beta_j d_j \\ \Downarrow \\ \nabla f(x_{j+1}) = -d_{j+1} + \beta_0 d_0 + \beta_1 d_1 + \cdots + \beta_j d_j$
将其代入，有：
根据共轭方向法的第一条重要特征，所有项全部是 $0$ 。
$\begin{aligned} [\nabla f(x_{k+1})]^T \nabla f(x_{j+1}) & = - \underbrace{[\nabla f(x_{k+1})]^Td_{j+1}}_{=0} + \beta_0 \cdot\underbrace{[\nabla f(x_{k+1})]^T d_0}_{=0} + \cdots + \beta_j \cdot \underbrace{[\nabla f(x_{k+1})]^T d_j}_{=0} \\ & = 0 \end{aligned}$
同理，大括号内第二项： $[\nabla f(x_{k+1})]^T\nabla f(x_j) = 0$ 。最终可得：当 $j=0,1,\cdots,k-1$ 时,对应的分子 $\beta_j = 0$ ，最终整理，有：
$d_{k+1} = -\nabla f(x_{k+1}) + \beta_k \cdot d_k,\beta_k = \frac{[\nabla f(x_{k+1})]^T \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}$

关于线搜索公式中参数的化简

关于线搜索公式中步长部分的化简

关于精确搜索条件下步长 $\begin{aligned}\alpha_k = -\frac{[\nabla f(x_k)]^T d_k}{(d_k)^T \mathcal Q d_k}\end{aligned}$ ，可以将其化简为如下形式：
目的是为了将线搜索过程中变量 $\alpha_k,d_k$ 的表达式与目标函数梯度信息建立起直观联系。
$\alpha_k = \frac{[\nabla f(x_k)]^T \nabla f(x_k)}{(d_k)^T \mathcal Q d_k}$

化简描述：观察 $\alpha_k$ 分子部分的描述： $[\nabla f(x_k)]^T d_k$ ，由于共轭方向 $d_k$ 可表示为：
$d_k = - \nabla f(x_{k}) + \beta_{k-1} \cdot d_{k-1}$
对分子进行整理：
依然使用第一条重要特征： $[\nabla f(x_k)]^Td_{k-1} = 0$
$\begin{aligned} [\nabla f(x_k)]^T d_k & = [\nabla f(x_k)]^T [-\nabla f(x_k) + \beta_{k-1} \cdot d_{k-1}] \\ & = -[\nabla f(x_k)]^T \nabla f(x_k) + \beta_{k-1}\cdot \underbrace{[\nabla f(x_k)]^Td_{k-1}}_{0} \\ & = -[\nabla f(x_k)]^T \nabla f(x_k) \end{aligned}$
最终对分子部分进行替换即可。

关于线搜索公式中共轭方向系数的化简

精确搜索条件下关于共轭方向系数 $\begin{aligned}\beta_k = \frac{\nabla f(x_{k+1}) \mathcal Q d_k}{(d_k)^T \mathcal Q d_k}\end{aligned}$ ，可以将其化简为如下形式：
$\beta_k = \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}$

化简描述：观察分子 $[\nabla f(x_{k+1})]^T\mathcal Q d_k$ ，使用 $\begin{aligned}\mathcal Qd_k = \frac{1}{\alpha_k}[\nabla f(x_{k+1}) - \nabla f(x_k)]\end{aligned}$ 进行替换，对于 $\beta_k$ 有如下表达：
$\begin{aligned} \beta_k & = \frac{1}{\alpha_k} \cdot \frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{(d_k)^T \mathcal Q d_k} \\ & = \frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{\alpha_k \cdot (d_k)^T \mathcal Q d_k} \end{aligned}$
根据化简后的 $\alpha_k$ ，有：
$[\nabla f(x_k)]^T \nabla f(x_k) = \alpha_k \cdot (d_k)^T \mathcal Q d_k$
替换 $\beta_k$ 分母，有：
并将 $[\nabla f(x_{k+1})]^T \nabla f(x_k) = 0$ 带入
$\begin{aligned} \beta_k & = \frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{[\nabla f(x_k)]^T \nabla f(x_k)} \\ \quad \\ & = \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)} \end{aligned}$

参数化简的目的

观察参数： $\begin{aligned}\beta_k=\frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}\end{aligned}$ 的化简结果，可以发现：共轭方向 $d_k$ 的迭代结果只与上一迭代步骤的共轭方向 $d_k$ 与 $x_k,x_{k+1}$ 位置的梯度相关。
$d_{k+1} = -\nabla f(x_{k+1}) + \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)} \cdot d_k$
这意味着：关于共轭方向的迭代过程与正定矩阵 $\mathcal Q$ ，描述一次项系数矩阵 $\mathcal C$ 没有关联关系。从而可以将凸二次函数 $f (x)$ 的优化问题映射到其他复杂目标函数的优化问题中。

虽然上述的化简过程全部是取等操作，但这些取等操作是依赖于 $\begin{aligned}f(x) = \frac{1}{2}x^T \mathcal Q x + \mathcal C^Tx\end{aligned}$ 条件的基础上。如果是一般性的复杂目标函数：得到的化简结果 $\beta_k$ 可能只是是一个近似解。因为上述化简过程中可能存在：
当然，不仅仅是下面描述的迭代步骤中存在不相等的情况，在替换 $[\nabla f(x_k)]^T \nabla f(x_k) = \alpha_k \cdot (d_k)^T \mathcal Q d_k$ 时，无论是 $\text{FR}$ 方法还是 $\text{PRP}$ 方法，其得到的 $\beta_k$ 都不是精确解。因为 $\mathcal Q$ 是凸二次函数的特有信息，而一般性目标函数可能不存在该信息，或者说 $\mathcal Q$ 存在，但不作主导作用。
$\frac{[\nabla f(x_{k+1})]^T[\nabla f(x_{k+1}) - \nabla f(x_k)]}{[\nabla f(x_k)]^T \nabla f(x_k)} \neq \frac{[\nabla f(x_{k+1})]^T\nabla f(x_{k+1})}{[\nabla f(x_k)]^T \nabla f(x_k)}$

非线性共轭梯度法(FR,PRP方法)

关于 $\text{FR,PRP}$ 方法的区别在于 $\beta_k$ 的迭代方式。关于非线性共轭梯度法的迭代过程表示如下：