当前位置：首页 > news >正文

机器学习笔记值优化算法(十四)梯度下降法在凸函数上的收敛性

news 2026/2/11 4:07:40

机器学习笔记之优化算法——梯度下降法在凸函数上的收敛性

引言
- 回顾：
- - 收敛速度：次线性收敛
  - 二次上界引理
- 梯度下降法在凸函数上的收敛性
- - 收敛性定理介绍
  - 证明过程

引言

本节将介绍梯度下降法在凸函数上的收敛性。

回顾：

收敛速度：次线性收敛

关于次线性收敛，分为两种判别类型： $\mathcal R$ -次线性收敛与 $\mathcal Q$ -次线性收敛。而次线性收敛的特点是：随着迭代次数的增加，相邻迭代步骤产生的目标函数结果 $f(x_k),f(x_{k+1})$ ，其差异性几乎完全相同：
$\mathop{\lim}\limits_{k \Rightarrow \infty}\frac{||x_{k+1} - x^*||}{||x_k - x^*||} = 1$
例如：如果数值解 $x_k$ 的目标函数结果 $f(x_k)$ 与目标函数最优解 $f^*$ 之间的差异性 $f(x_k) - f^*||$ 与迭代次数 $k$ 存在如下函数关系 $\mathcal G(k)$ ：
$||f(x_k) - f^*|| \leq \mathcal G(k) = \frac{1}{k}$
当 $k$ 充分大时， $f(x_k),f(x_{k+1})$ 与 $f^*$ 之间差异性的比值表示如下：
$\mathop{\lim}\limits_{k \Rightarrow \infty} \frac{||f(x_{k+1}) - f^*||}{||f(x_k) - f^*||} = \mathop{\lim}\limits_{k \Rightarrow \infty} \frac{k}{k+1} = 1$
也就是说：虽然随着 $k$ 的增加， $f(x_k)$ 在减小;但相邻迭代结果 $f(x_k),f(x_{k+1})$ 之间的差异性几乎可以忽略不计。那么称这种收敛速度为次线性收敛。
准确的说，是 $\Rightarrow 0$ 的次线性收敛：
$\mathop{\lim}\limits_{k \Rightarrow \infty} \{f(x_k)\} \Rightarrow \mathop{\lim}\limits_{k \Rightarrow \infty} \mathcal G(k) = 0$

二次上界引理

关于二次上界引理的描述表示如下：如果函数 $f(\cdot)$ 可微，并对应梯度函数 $\nabla f(\cdot)$ 满足利普希兹连续，则函数 $f(\cdot)$ 存在二次上界。即：
$\forall x,y \in \mathbb R^n \Rightarrow f(y) \leq f(x) + [\nabla f(x)]^T (y - x) + \frac{\mathcal L}{2}||y - x||^2$
而二次上界引理的作用是：可以通过该引理，得到最优步长上界的最小值：

假设 $x$ 固定，令 $\begin{aligned}\phi(y) = f(x) + [\nabla f(x)]^T (y - x) + \frac{\mathcal L}{2}||y - x||^2 \end{aligned}$ ，通过选择合适的 $y_{min}$ ，使 $\phi(y)$ 达到最小值：
$y_{min} = \mathop{\arg\min}\limits_{y \in \mathbb R^n} \phi(y)$
令 $\nabla \phi(y) \triangleq 0$ ，有：
$y_{min} = x + \frac{1}{\mathcal L} \cdot [- \nabla f(x)]$
其中 $\nabla f(x)$ 即 $\mathcal P_k$ ，也就是最速下降方向；而 $\begin{aligned}\frac{1}{\mathcal L}\end{aligned}$ 则是最优步长的上确界：
$\leq \phi(y_{min}) = \mathop{\min}\limits_{y \in \mathbb R^n} \phi(y)$
也就是说：
- 在没有二次上界引理的约束下，步长 $\alpha_k$ 的选择在其定义域内没有约束： $+\infty)$ ；
- 经过二次上界引理的约束后，步长 $\alpha_k$ 的选择从原始的 $(0,+\infty)$ 约束至 $\begin{aligned}\left(0,\frac{1}{\mathcal L}\right]\end{aligned}$ 。

延伸：关于区间 $\begin{aligned}\left(0,\frac{1}{\mathcal L}\right]\end{aligned}$ 可以模糊地认为满足 $\text{Armijo}$ 准则。关于步长变量 $\alpha$ 的函数 $\phi(\alpha) = f(x_{k+1})$ 中，当 $\alpha \in \begin{aligned}\left(0,\frac{1}{\mathcal L}\right]\end{aligned}$ 时，等价于：存在一条直线 $\mathcal L(\alpha)$ ，以该直线作为划分边界对应 $\alpha$ 的范围正好是 $\begin{aligned}\left(0,\frac{1}{\mathcal L}\right]\end{aligned}$ ：
吐槽：实际上用这张图是不太合理的，因为下面的图对应的 $f(\cdot)$ 更加复杂，二次上界约束的范围仅仅在下面 $\alpha$ 轴的绿色实线部分，但很明显，在该函数中，存在更优质的 $\alpha$ 结果。
Armijo准则与二次上界

梯度下降法在凸函数上的收敛性

收敛性定理介绍

梯度下降法在凸函数上的收敛性定理表示如下：

条件：
- 函数 $f(\cdot)$ 向下有界，在定义域内可微，并且 $f(\cdot)$ 是凸函数；
- 关于 $f(\cdot)$ 的梯度函数 $\nabla f(\cdot)$ 满足利普希兹连续；
- 梯度下降法迭代过程中步长 $\alpha_k(k=1,2,3,\cdots)$ 有明确的约束范围： $\begin{aligned}\alpha_k \in \left(0,\frac{1}{\mathcal L} \right]\end{aligned}$ ；
结论：数值解序列 $\{x_{k}\}_{k=0}^{\infty}$ 对应的目标函数结果 $\{f(x_k)\}_{k=0}^{\infty}$ 以 $\begin{aligned}\mathcal O \left(\frac{1}{k}\right)\end{aligned}$ 收敛于目标函数最优解 $f^*$ 。
其中 $\begin{aligned}\mathcal O \left(\frac{1}{k}\right)\end{aligned}$ 表示以 $\begin{aligned}\mathcal G(k) = \mathcal C \cdot \frac{1}{k}\end{aligned}$ 的次线性收敛级别的收敛速度( $\mathcal C$ 为常数)。

证明过程

根据二次上界引理，依然将 $x$ 设为上一次迭代的数值解 $x_{i-1}$ ，对应的 $y$ 为当前迭代步骤的数值解 $x_i$ 。由于是梯度下降法，因而在线搜索方法的基础上，将方向 $\mathcal P_i$ 表示为最速下降方向 $\nabla f(x_{i-1})$ 步长依然使用步长变量 $\alpha$ 进行表示：
$x_i - x_{i - 1} = -\nabla f(x_{i-1}) \cdot \alpha$
将二次上界不等式进行相应替换：
将上式代入~
$f(x_i) \leq f(x_{i-1}) + [\nabla f(x_{i-1})]^T [-\nabla f(x_{i-1}) \cdot \alpha] + \frac{\mathcal L}{2} ||-\nabla f(x_{i-1}) \cdot \alpha||^2$
观察不等式右侧，可以继续化简：

将内积写作 $||\cdot||^2$ 的形式。
$\nabla f(x_{i-1}) \cdot \alpha||^2 = ||\nabla f(x_{i-1}) \cdot \alpha||^2$ ,这里消掉一个负号;
由于 $\begin{aligned}\alpha \in \left(0,\frac{1}{\mathcal L}\right]\end{aligned}$ ,是一个标量，直接将其提到范数外侧。
$\mathcal I_{right} = f(x_{i-1}) - \alpha \cdot ||\nabla f(x_{i-1})||^2 + \frac{\mathcal L}{2} \cdot \alpha^2 \cdot ||\nabla f(x_{i-1})||^2$

由 $\begin{aligned}\alpha \leq \frac{1}{\mathcal L}\end{aligned}$ 可知： $\begin{aligned}\mathcal L \leq \frac{1}{\alpha} \end{aligned}$ 。将该式代入到上式中：
消掉分母中的 $\alpha$ ，并于前面的项结合。
$\begin{aligned} \mathcal I_{right} & \leq f(x_{i-1}) - \alpha \cdot ||\nabla f(x_{i-1})||^2 + \frac{1}{2 \alpha} \cdot \alpha^2 \cdot ||\nabla f(x_{i-1})||^2 \\ & = f(x_{i-1}) - \frac{\alpha}{2} \cdot ||\nabla f(x_{i-1})||^2 \end{aligned}$
基于梯度下降法，使用二次上界引理，可以得到 $f(x_{i-1})$ 与 $f(x_i)$ 之间存在如下关联关系：
$f(x_i) \leq f(x_{i-1}) - \frac{\alpha}{2} \cdot ||\nabla f(x_{i-1})||^2\quad i=1,2,3,\cdots$
根据凸函数的性质，必然有：函数 $f(\cdot)$ 任一位置的切线， $f(\cdot)$ 均在该切线上方。见下图：
由于条件: $f(\cdot)$ 向下有界,因此，该函数必然’开口向上‘。

其中红色点 $x^*,f^*)$ 表示最优点，以上一次迭代产生的 $x_{i-1}$ 为切点做一条切线，必然有 $x^*$ 在该切线函数上的函数值 $\leq f^*$ 。 $f^{'}$ 表示如下：
$f(x_{i-1}) - [\nabla f(x_{i-1})]^T (x_{i-1} - x^*) \leq f^*$
移项，从而有：
$f(x_{i-1}) \leq f^* + [\nabla f(x_{i-1})]^T (x_{i-1} - x^*)$
将上式代入，有：
$\mathcal I_{right} \leq \underbrace{f^* + [\nabla f(x_{i-1})]^T (x_{i-1} - x^*)}_{替换f(x_{i-1})}- \frac{\alpha}{2} \cdot ||\nabla f(x_{i-1})||^2$
为了凑平方项，将上式调整至如下形式：
将 $\begin{aligned}-\frac{\alpha}{2}\end{aligned}$ 凑出 $\alpha^2$ ,其他项跟随变化。
$\mathcal I_{right} \leq -\frac{1}{2 \alpha} \left\{\alpha^2 ||\nabla f(x_{i-1})||^2 - 2\alpha \cdot [\nabla f(x_{i-1})]^T(x_{i-1} - x^*)\right\}$
对大括号内的项进行配方：
$\begin{aligned} \mathcal I_{right} & \leq f^* - \frac{1}{2 \alpha} \left\{\underbrace{\alpha^2 ||\nabla f(x_{i-1})||^2 - 2\alpha \cdot [\nabla f(x_{i-1})]^T(x_{i-1} - x^*) + ||x_{i-1} - x^*||^2 }_{平方项}- ||x_{i-1} - x^*||^2\right\} \\ & = f^* - \frac{1}{2\alpha} \left [||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2 - ||x_{i-1} - x^*||^2\right] \end{aligned}$
观察中括号内第一项： $||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2$ ，由于是范数的平方项，因而在范数内部添加一个负号不会影响其值的变化：
$||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2 = ||x_{i-1} - \alpha \cdot \nabla f(x_{i-1}) - x^*||^2$
从迭代角度观察： $x_{i-1} - \alpha \cdot \nabla f(x_{i-1}) = x_{i}$ ，从而上式可继续化简为：
提一个负号，调换一下位置。
$\begin{cases} ||\alpha \cdot \nabla f(x_{i-1}) - (x_{i-1} - x^*)||^2 = ||x_i - x^*||^2 \\ \quad \\ \begin{aligned} \mathcal I_{right} & \leq f^* - \frac{1}{2\alpha} \left[||x_i - x^*||^2 - ||x_{i-1} - x^*||^2\right] \\ & = f^* + \frac{1}{2\alpha} \left[||x_{i-1} - x^*||^2 - ||x_i - x^*||^2\right] \end{aligned} \end{cases}$

至此，可以得到如下不等式结果：
$f(x_i) - f^* \leq \frac{1}{2\alpha}(||x_{i-1} - x^*||^2 - ||x_i - x^*||^2)$
观察：不等式左侧描述的意义是：当前迭代步骤的目标函数结果 $f(x_i)$ 与最优解 $f^*$ 之间的偏差。从初始化数值解 $x_0$ 开始，我们会得到一系列的不等式结果：
$\begin{cases} \begin{aligned} f(x_1) - f^* & \leq \frac{1}{2\alpha} (||x_0 - x^*||^2 - ||x_1 - x^*||^2) \\ f(x_2) - f^* & \leq \frac{1}{2\alpha} (||x_1 - x^*||^2 - ||x_2 - x^*||^2) \\ & \vdots \\ f(x_k) - f^* & \leq \frac{1}{2\alpha} (||x_{k-1} - x^*||^2 - ||x_k - x^*||^2) \end{aligned} \end{cases}$
将这些不等式对应位置相加，有：

等式右侧的中间项都被消掉了~
因为 $||x_k - x^*||^2 \geq 0$ 恒成立，从而消掉含变量的项。
$\sum_{i=1}^k [f(x_i) - f^*] \leq \frac{1}{2\alpha}(|||x_0 - x^*||^2 - ||x_k - x^*||^2) \leq \frac{1}{2 \alpha} ||x_0 - x^*||^2$

关于我们要证的 $f(x_k) - f^*||$ ，可以表示为如下形式：

由于优化问题的收敛性，必然有： $f(x_{k}) \leq f(x_{k-1})\leq \cdots\leq f(x_1)$ ,从而每一项: $||f(x_k) - f^*|| \leq ||f(x_{k-1}) - f^*|| \leq \cdots \leq ||f(x_1) - f^*||$ ,从而有: $\begin{aligned}\sum_{i=1}^k[f(x_k) - f^*] \leq \sum_{i=1}^{k} [f(x_i) - f^*]\end{aligned}$ 。
将上式结果带入~

$f(x_k) - f^* = \frac{1}{k} \sum_{i=1}^{k}[f(x_k) - f^*] \leq \frac{1}{k} \sum_{i=1}^{k}[f(x_i) - f^*] \leq \frac{1}{k} \left[\frac{1}{2\alpha}||x_0 - x^*||^2\right]$

观察： $\begin{aligned}\left[\frac{1}{2\alpha}||x_0 - x^*||^2\right]\end{aligned}$ 中 $\begin{aligned}\alpha \in \left(0,\frac{1}{\mathcal L} \right] \end{aligned}$ ， $x_0,x^*$ 都是确定的常数，因而该项可视作常数 $\mathcal C$ 。最终有：
$f(x_k) - f^* \leq \frac{1}{k} \cdot \mathcal C$
我们可以令 $\begin{aligned}\mathcal G(k) = \frac{1}{k} \cdot \mathcal C\end{aligned}$ ，可以看出：它就是一个级别为 $\begin{aligned}\frac{1}{k}\end{aligned}$ 的次线性收敛。

相关参考：
【优化算法】梯度下降法-凸函数的收敛性

机器学习笔记值优化算法(十四)梯度下降法在凸函数上的收敛性

机器学习笔记之优化算法——梯度下降法在凸函数上的收敛性

引言

回顾：

收敛速度：次线性收敛

二次上界引理

梯度下降法在凸函数上的收敛性

收敛性定理介绍

证明过程

相关文章：

机器学习笔记值优化算法(十四)梯度下降法在凸函数上的收敛性

iphone拷贝照片中间带E自动去重软件，以及java程序如何打包成jar和exe

不同分类器对数据的处理

十面骰子、

IDE的下载和使用

华为OD机试真题【字母组合】

Midjourney Prompt 提示词速查表 v5.2

自动驾驶——驶向未来的革命性技术

PAT (Advanced Level) 甲级 1004 Counting Leaves

最长递增子序列——力扣300

邮递员送信单源最短路+反向建边

git的常用操作

vscode搭建java开发环境

01 qt快速入门

嵌入式开发中常用且杂散的命令

JS导出复杂多级表头的Excel

2023国赛数学建模E题思路分析

【JavaScript 12】二进制位运算符或与非异或左移右移头部补零右移

Kafka 入门到起飞 - Kafka是怎么保证可靠性的呢

数学建模（三）整数规划

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

通过Wrangler CLI在worker中创建数据库和表

React Native在HarmonyOS 5.0阅读类应用开发中的实践

2.Vue编写一个app

工程地质软件市场：发展现状、趋势与策略建议

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

Python如何给视频添加音频和字幕

Redis数据倾斜问题解决

安全突围：重塑内生安全体系：齐向东在2025年BCS大会的演讲

云原生安全实战：API网关Kong的鉴权与限流详解