当前位置：首页 > news >正文

凸优化专题1

news 2026/2/8 17:45:32

多变量函数的求导与求梯度/矩阵求导

1. 导数

定义: 设 $f:Rn→Rm,且x∈intdomf,则f在点x的导数(或称Jacobian)记为矩阵Df(x)∈Rm×nf:\R^n \rightarrow \R^m, 且x\in \mathbf{int}\ \mathbf{dom} f, 则f 在点x的导\\数(或称Jacobian)记为矩阵 Df(x) \in \R^{m\times n}$ , 定义如下
$Df(x)ij=∂fi(x)∂xj,i=1,...,m,j=1,...,n(1)Df(x)_{ij} = \frac{\partial f_i(x)}{\partial x_j},\ i = 1,...,m,\ \ j = 1,...,n \tag{1}$

$Df(x)_{ij}表示矩阵Df(x)的第i行第j列元素$

2. 梯度

定义: 如果 $f$ 是一个实值函数(即 $f:Rn→Rf:\R^n \rightarrow \R$ ), 易知其在点 $x$ 导数 $D f (x)$ 是一个行向量, 定义 $D f (x)$ 的转置为其在点 $x$ 处的梯度, 即

$∇f(x)=Df(x)T(2)\nabla f(x) = Df(x)^T \tag{2}$
易知梯度为一个列向量.

注1: 梯度是针对实值函数的, 且其定义是基于Jacobian的, 也就是说现有导数才有梯度. 梯度的定义可以拓展到 $f:Sn→Rf:S^n \rightarrow \R$ , $S^n$ 指n阶实对称矩阵, 此处不再赘述.

注2:对于一般的 $f:Rn→Rmf:\R^n \rightarrow \R^m$ , $f$ 在点 $x$ 附近的一阶近似记作:
$\in \delta_\epsilon(x) \tag{3}$
这和单变量函数的情形是一致的.
与之相对应, 对于一般的实值函数 $f:Rn→Rf:\R^n \rightarrow \R$ , 用梯度表示其一阶近似, 则有:
$+\nabla f(x)^T(z-x), z \in \delta_\epsilon(x) \tag{4}$

3. 链式法则

考虑 $f:Rn→Rm,且f在x处可微,x∈intdomf,并有g:Rn→Rp在f(x)处可微,f(x)∈intdomg,定义符合复合函数h:Rn→Rp,其中h(z)=g(f(z)),则有h在点x处可微,且其在点x处的导数为f:\R^n \rightarrow \R^m, 且f在x处可微, x\in \mathbf{int}\ \mathbf{dom}\ f, 并有g:\R^n \rightarrow \R^p\\在f(x)处可微, f(x)\in \mathbf{int}\ \mathbf{dom}\ g, 定义符合复合函数h:\R^n \rightarrow \R^p,其\\中h(z) = g(f(z)), 则有h在点x处可微, 且其在点x处的导数为$ :
$\tag{5}$
特别地, 若 $f:Rn→R,g:R→R,则可以考虑h的梯度,只要取转置即可,根据定义有f:\R^n \rightarrow \R, g:\R \rightarrow \R, 则可以考虑h的梯度, 只要取转置\\即可, 根据定义有$ :
$∇h(x)=g′(f(x))∇f(x)(6)\nabla h(x) = g'(f(x))\nabla f(x) \tag{6}$
这是很显然的结果, 只需要略加思索即可知道这是正确答案.

例题: 考虑 $f:Rn→R,domf=Rnf:\R^n \rightarrow \R, \mathbf{dom}\ f = \R^n$ , 且
$\ln\sum_{i=1}^m \exp(a_i^T x+b_i)$
其中 $ai∈Rn,bi∈Ra_i \in \R^n, b_i \in \R$
请求出 $f (x)$ 的梯度.
解:
设 $\sum_{i=1}^m \exp(a_i^T x+b_i)$ , 则根据链式法则, 有
$D\ln z(x) = \frac{1}{z}Dz(x)$
设 $\R^n \rightarrow \R^m, y_i = \exp(a_i^T x+b_i)$ , 则有 $\mathbf{1}^T y, 其中\mathbf{1} \in \R^m, 且\\每个元素均为1$
所以
$y=exp⁡(ATx+b)\begin{split} y = \exp(A^Tx+b) \end{split}$
其中
$AT=[a1Ta2T⋮amT]A^T = \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix}$
所以
$Df(x)=1zDz(x)=1z1TDy(x)\begin{split} Df(x) &= \frac{1}{z}Dz(x) \\ &= \frac{1}{z} \mathbf{1}^T Dy(x) \\ \end{split}$
其中 $Dy (x)$ 为
$\begin{bmatrix} \frac{\partial y_1}{x_1} & \frac{\partial y_1}{x_2} & \cdots & \frac{\partial y_1}{x_n} \\ \frac{\partial y_2}{x_1} & \frac{\partial y_2}{x_2} & \cdots & \frac{\partial y_2}{x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{x_1} & \frac{\partial y_m}{x_2} & \cdots & \frac{\partial y_m}{x_n} \end{bmatrix} \in\R^{m \times n}$
易知
$Dy(x)ij=∂yixj=exp⁡(aiTx+bi)⋅aijDy(x)_{ij} = \frac{\partial y_i}{x_j} = \exp(a_i^T x+b_i) \cdot a_{ij}$
其中 $a_{ij}为a_{i}^T的第j个元素$
$Dy (x)$ 也可写作
$diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix}$
所以
$Df(x)=1z1T⋅diag{y1,y2,⋯,ym}⋅[a1Ta2T⋮amT]=1z1T⋅diag{y1,y2,⋯,ym}⋅AT\begin{split} Df(x) &= \frac{1}{z} \mathbf{1}^T \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix} \\ &= \frac{1}{z} \mathbf{1}^T \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot A^T \end{split}$
所以
$∇f(x)=1zA⋅diag{y1,y2,⋯,ym}⋅1=1zA⋅[exp⁡(a1Tx+b1)exp⁡(a2Tx+b2)⋮exp⁡(amTx+bm)]其中z=∑i=1mexp⁡(aiTx+bi)\begin{split} \nabla f(x) &= \frac{1}{z} A \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \mathbf{1} \\ &=\frac{1}{z} A \cdot \begin{bmatrix} \exp(a_1^T x + b_1) \\ \exp(a_2^T x + b_2) \\ \vdots \\ \exp(a_m^T x + b_m) \\ \end{bmatrix} \\ 其中z &= \sum_{i=1}^m \exp(a_i^T x+b_i) \end{split}$

4. 二阶导数

对于实值函数 $f:Rn→R,且x∈intdomf,则f在点x的二阶导数(或称Hessian]matrix)记为矩阵∇2f(x)∈Rn×n,其中f:\R^n \rightarrow \R, 且x\in \mathbf{int}\ \mathbf{dom} f, 则f 在点x的二阶导\\数(或称Hessian] matrix)记为矩阵 \nabla^2 f(x) \in \R^{n\times n}, 其中$
$∇2f(x)ij=∂2f(x)∂xi∂xj,i,j=1,...,n(7)\nabla^2 f(x)_{ij} = \frac{\partial^2 f(x)}{\partial x_i \partial x_j}, \ i,j = 1,...,n \tag{7}$
易知对于一般的实值函数 $f:Rn→Rf:\R^n \rightarrow \R$ , 用hessian matrix表示其二阶近似, 则有:
$f^(z)=f(x)+∇f(x)T(z−x)+12(z−x)T∇2f(x)(z−x)z∈δϵ(x)\hat{f}(z) = f(x) +\nabla f(x)^T(z-x) + \frac{1}{2}(z-x)^T\nabla^2 f(x)(z-x)\\ z \in \delta_\epsilon(x)$
易知下列关系式成立
$D∇f(x)=∇2f(x)(8)D\nabla f(x) = \nabla ^2f(x) \tag{8}$

凸优化专题1

多变量函数的求导与求梯度/矩阵求导

1. 导数

2. 梯度

3. 链式法则

4. 二阶导数

相关文章：

凸优化专题1

【蓝桥杯每日一题】递推算法

Unity性能优化：性能优化之内存篇

华为OD机试题，用 Java 解【内存资源分配】问题

微服务之Nacos注册与配置

Android 动画详解

Linux -- 程序进程线程概念引入

Android ART dex2oat

「RISC-V Arch」RISC-V 规范结构

【C】线程控制

Maven工程打jar包的N种方式

一文了解GPU并行计算CUDA

全网资料最全Java数据结构与算法（1）

【项目实战】SpringMVC拦截器HandlerInterceptor入门介绍

阿里淘宝新势力造型合伙人P8、年薪百万的欧阳娜娜也躲不过的魔鬼面试，看的我心服口服

深度学习笔记：不同的反向传播迭代方法

ElasticSearch 学习笔记总结(三)

深入理解border以及应用

如何复现论文？什么是论文复现？

22.2.28打卡 Codeforces Round #851 (Div. 2) A~C

突破不可导策略的训练难题：零阶优化与强化学习的深度嵌合

逻辑回归：给不确定性划界的分类大师

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

什么是库存周转？如何用进销存系统提高库存周转率？

Python实现prophet 理论及参数优化

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

GitHub 趋势日报 (2025年06月08日)

【JavaSE】绘图与事件入门学习笔记

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案