凸优化专题1
多变量函数的求导与求梯度/矩阵求导
1. 导数
定义: 设f:Rn→Rm,且x∈intdomf,则f在点x的导数(或称Jacobian)记为矩阵Df(x)∈Rm×nf:\R^n \rightarrow \R^m, 且x\in \mathbf{int}\ \mathbf{dom} f, 则f 在点x的导\\数(或称Jacobian)记为矩阵 Df(x) \in \R^{m\times n}f:Rn→Rm,且x∈int domf,则f在点x的导数(或称Jacobian)记为矩阵Df(x)∈Rm×n, 定义如下
Df(x)ij=∂fi(x)∂xj,i=1,...,m,j=1,...,n(1)Df(x)_{ij} = \frac{\partial f_i(x)}{\partial x_j},\ i = 1,...,m,\ \ j = 1,...,n \tag{1} Df(x)ij=∂xj∂fi(x), i=1,...,m, j=1,...,n(1)
Df(x)ij表示矩阵Df(x)的第i行第j列元素Df(x)_{ij}表示矩阵Df(x)的第i行第j列元素Df(x)ij表示矩阵Df(x)的第i行第j列元素
2. 梯度
定义: 如果fff是一个实值函数(即f:Rn→Rf:\R^n \rightarrow \Rf:Rn→R), 易知其在点xxx导数Df(x)Df(x)Df(x)是一个行向量, 定义Df(x)Df(x)Df(x)的转置为其在点xxx处的梯度, 即
∇f(x)=Df(x)T(2)\nabla f(x) = Df(x)^T \tag{2} ∇f(x)=Df(x)T(2)
易知梯度为一个列向量.
注1: 梯度是针对实值函数的, 且其定义是基于Jacobian的, 也就是说现有导数才有梯度. 梯度的定义可以拓展到f:Sn→Rf:S^n \rightarrow \Rf:Sn→R, SnS^nSn指n阶实对称矩阵, 此处不再赘述.
注2:对于一般的f:Rn→Rmf:\R^n \rightarrow \R^mf:Rn→Rm, fff在点xxx附近的一阶近似记作:
f(x)+Df(x)(z−x),z∈δϵ(x)(3)f(x) + Df(x)(z-x), z \in \delta_\epsilon(x) \tag{3} f(x)+Df(x)(z−x),z∈δϵ(x)(3)
这和单变量函数的情形是一致的.
与之相对应, 对于一般的实值函数f:Rn→Rf:\R^n \rightarrow \Rf:Rn→R, 用梯度表示其一阶近似, 则有:
f(x)+∇f(x)T(z−x),z∈δϵ(x)(4)f(x) +\nabla f(x)^T(z-x), z \in \delta_\epsilon(x) \tag{4} f(x)+∇f(x)T(z−x),z∈δϵ(x)(4)
3. 链式法则
考虑f:Rn→Rm,且f在x处可微,x∈intdomf,并有g:Rn→Rp在f(x)处可微,f(x)∈intdomg,定义符合复合函数h:Rn→Rp,其中h(z)=g(f(z)),则有h在点x处可微,且其在点x处的导数为f:\R^n \rightarrow \R^m, 且f在x处可微, x\in \mathbf{int}\ \mathbf{dom}\ f, 并有g:\R^n \rightarrow \R^p\\在f(x)处可微, f(x)\in \mathbf{int}\ \mathbf{dom}\ g, 定义符合复合函数h:\R^n \rightarrow \R^p,其\\中h(z) = g(f(z)), 则有h在点x处可微, 且其在点x处的导数为f:Rn→Rm,且f在x处可微,x∈int dom f,并有g:Rn→Rp在f(x)处可微,f(x)∈int dom g,定义符合复合函数h:Rn→Rp,其中h(z)=g(f(z)),则有h在点x处可微,且其在点x处的导数为:
Dh(x)=Dg(f(x))Df(x)(5)Dh(x) = Dg(f(x))Df(x) \tag{5} Dh(x)=Dg(f(x))Df(x)(5)
特别地, 若f:Rn→R,g:R→R,则可以考虑h的梯度,只要取转置即可,根据定义有f:\R^n \rightarrow \R, g:\R \rightarrow \R, 则可以考虑h的梯度, 只要取转置\\即可, 根据定义有f:Rn→R,g:R→R,则可以考虑h的梯度,只要取转置即可,根据定义有:
∇h(x)=g′(f(x))∇f(x)(6)\nabla h(x) = g'(f(x))\nabla f(x) \tag{6} ∇h(x)=g′(f(x))∇f(x)(6)
这是很显然的结果, 只需要略加思索即可知道这是正确答案.
例题: 考虑f:Rn→R,domf=Rnf:\R^n \rightarrow \R, \mathbf{dom}\ f = \R^nf:Rn→R,dom f=Rn, 且
f(x)=ln∑i=1mexp(aiTx+bi)f(x) = \ln\sum_{i=1}^m \exp(a_i^T x+b_i) f(x)=lni=1∑mexp(aiTx+bi)
其中ai∈Rn,bi∈Ra_i \in \R^n, b_i \in \Rai∈Rn,bi∈R
请求出f(x)f(x)f(x)的梯度.
解:
设z(x)=∑i=1mexp(aiTx+bi)z(x) = \sum_{i=1}^m \exp(a_i^T x+b_i)z(x)=∑i=1mexp(aiTx+bi), 则根据链式法则, 有
Df(x)=Dlnz(x)=1zDz(x)Df(x) = D\ln z(x) = \frac{1}{z}Dz(x) Df(x)=Dlnz(x)=z1Dz(x)
设y(x):Rn→Rm,yi=exp(aiTx+bi)y(x) : \R^n \rightarrow \R^m, y_i = \exp(a_i^T x+b_i)y(x):Rn→Rm,yi=exp(aiTx+bi), 则有z=1Ty,其中1∈Rm,且每个元素均为1z = \mathbf{1}^T y, 其中\mathbf{1} \in \R^m, 且\\每个元素均为1z=1Ty,其中1∈Rm,且每个元素均为1
所以
y=exp(ATx+b)\begin{split} y = \exp(A^Tx+b) \end{split} y=exp(ATx+b)
其中
AT=[a1Ta2T⋮amT]A^T = \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix} AT=a1Ta2T⋮amT
所以
Df(x)=1zDz(x)=1z1TDy(x)\begin{split} Df(x) &= \frac{1}{z}Dz(x) \\ &= \frac{1}{z} \mathbf{1}^T Dy(x) \\ \end{split} Df(x)=z1Dz(x)=z11TDy(x)
其中Dy(x)Dy(x)Dy(x)为
Dy(x)=[∂y1x1∂y1x2⋯∂y1xn∂y2x1∂y2x2⋯∂y2xn⋮⋮⋱⋮∂ymx1∂ymx2⋯∂ymxn]∈Rm×nDy(x) = \begin{bmatrix} \frac{\partial y_1}{x_1} & \frac{\partial y_1}{x_2} & \cdots & \frac{\partial y_1}{x_n} \\ \frac{\partial y_2}{x_1} & \frac{\partial y_2}{x_2} & \cdots & \frac{\partial y_2}{x_n} \\ \vdots & \vdots & \ddots & \vdots \\ \frac{\partial y_m}{x_1} & \frac{\partial y_m}{x_2} & \cdots & \frac{\partial y_m}{x_n} \end{bmatrix} \in\R^{m \times n} Dy(x)=x1∂y1x1∂y2⋮x1∂ymx2∂y1x2∂y2⋮x2∂ym⋯⋯⋱⋯xn∂y1xn∂y2⋮xn∂ym∈Rm×n
易知
Dy(x)ij=∂yixj=exp(aiTx+bi)⋅aijDy(x)_{ij} = \frac{\partial y_i}{x_j} = \exp(a_i^T x+b_i) \cdot a_{ij} Dy(x)ij=xj∂yi=exp(aiTx+bi)⋅aij
其中aij为aiT的第j个元素a_{ij}为a_{i}^T的第j个元素aij为aiT的第j个元素
Dy(x)Dy(x)Dy(x)也可写作
Dy(x)=diag{y1,y2,⋯,ym}⋅[a1Ta2T⋮amT]Dy(x) = diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix} Dy(x)=diag{y1,y2,⋯,ym}⋅a1Ta2T⋮amT
所以
Df(x)=1z1T⋅diag{y1,y2,⋯,ym}⋅[a1Ta2T⋮amT]=1z1T⋅diag{y1,y2,⋯,ym}⋅AT\begin{split} Df(x) &= \frac{1}{z} \mathbf{1}^T \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \begin{bmatrix} a_{1}^T \\ a_{2}^T \\ \vdots \\ a_{m}^T \\ \end{bmatrix} \\ &= \frac{1}{z} \mathbf{1}^T \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot A^T \end{split} Df(x)=z11T⋅diag{y1,y2,⋯,ym}⋅a1Ta2T⋮amT=z11T⋅diag{y1,y2,⋯,ym}⋅AT
所以
∇f(x)=1zA⋅diag{y1,y2,⋯,ym}⋅1=1zA⋅[exp(a1Tx+b1)exp(a2Tx+b2)⋮exp(amTx+bm)]其中z=∑i=1mexp(aiTx+bi)\begin{split} \nabla f(x) &= \frac{1}{z} A \cdot diag\{ y_{1}, y_{2}, \cdots, y_{m} \} \cdot \mathbf{1} \\ &=\frac{1}{z} A \cdot \begin{bmatrix} \exp(a_1^T x + b_1) \\ \exp(a_2^T x + b_2) \\ \vdots \\ \exp(a_m^T x + b_m) \\ \end{bmatrix} \\ 其中z &= \sum_{i=1}^m \exp(a_i^T x+b_i) \end{split} ∇f(x)其中z=z1A⋅diag{y1,y2,⋯,ym}⋅1=z1A⋅exp(a1Tx+b1)exp(a2Tx+b2)⋮exp(amTx+bm)=i=1∑mexp(aiTx+bi)
4. 二阶导数
对于实值函数f:Rn→R,且x∈intdomf,则f在点x的二阶导数(或称Hessian]matrix)记为矩阵∇2f(x)∈Rn×n,其中f:\R^n \rightarrow \R, 且x\in \mathbf{int}\ \mathbf{dom} f, 则f 在点x的二阶导\\数(或称Hessian] matrix)记为矩阵 \nabla^2 f(x) \in \R^{n\times n}, 其中f:Rn→R,且x∈int domf,则f在点x的二阶导数(或称Hessian]matrix)记为矩阵∇2f(x)∈Rn×n,其中
∇2f(x)ij=∂2f(x)∂xi∂xj,i,j=1,...,n(7)\nabla^2 f(x)_{ij} = \frac{\partial^2 f(x)}{\partial x_i \partial x_j}, \ i,j = 1,...,n \tag{7} ∇2f(x)ij=∂xi∂xj∂2f(x), i,j=1,...,n(7)
易知对于一般的实值函数f:Rn→Rf:\R^n \rightarrow \Rf:Rn→R, 用hessian matrix表示其二阶近似, 则有:
f^(z)=f(x)+∇f(x)T(z−x)+12(z−x)T∇2f(x)(z−x)z∈δϵ(x)\hat{f}(z) = f(x) +\nabla f(x)^T(z-x) + \frac{1}{2}(z-x)^T\nabla^2 f(x)(z-x)\\ z \in \delta_\epsilon(x) f^(z)=f(x)+∇f(x)T(z−x)+21(z−x)T∇2f(x)(z−x)z∈δϵ(x)
易知下列关系式成立
D∇f(x)=∇2f(x)(8)D\nabla f(x) = \nabla ^2f(x) \tag{8} D∇f(x)=∇2f(x)(8)
相关文章:
凸优化专题1
多变量函数的求导与求梯度/矩阵求导 1. 导数 定义: 设f:Rn→Rm,且x∈intdomf,则f在点x的导数(或称Jacobian)记为矩阵Df(x)∈Rmnf:\R^n \rightarrow \R^m, 且x\in \mathbf{int}\ \mathbf{dom} f, 则f 在点x的导\\数(或称Jacobian)记为矩阵 Df(x) \in \R^{m\times n}f:Rn→Rm,且…...

【蓝桥杯每日一题】递推算法
🍎 博客主页:🌙披星戴月的贾维斯 🍎 欢迎关注:👍点赞🍃收藏🔥留言 🍇系列专栏:🌙 蓝桥杯 🌙我与杀戮之中绽放,亦如黎明的花…...

Unity性能优化: 性能优化之内存篇
前言 本文和传统的内存优化不一样,不是讲如何降低内存占用,而是讲编程开发中要注意的内存问题以及一些内存技术的演变与原理。 对惹,这里有一个游戏开发交流小组,希望大家可以点击进来一起交流一下开发经验呀 1: Application进程…...

华为OD机试题,用 Java 解【内存资源分配】问题
最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…...

微服务之Nacos注册与配置
🏠个人主页:阿杰的博客 💪个人简介:大家好,我是阿杰,一个正在努力让自己变得更好的男人👨 目前状况🎉:24届毕业生,奋斗在找实习的路上🌟 …...

Android 动画详解
Android动画的分类与使用学习Android必不可少的就是动画的使用了,在Android版本迭代的过程中,出现了很多动画框架,这里做一个总结。Android动画类型分类逐帧动画【Frame Animation】,即顺序播放事先准备的图片。补间动画【Tween A…...

Linux -- 程序 进程 线程 概念引入
程序与进程 :程序 :什么是程序 ???伪官方 : 二进制文件,文件存储在磁盘中,例如 /usr/bin 目录下 。 是静态。 简单讲 :# 我们都学习了语言,比如下面这串代…...

Android ART dex2oat
一、什么是dex2oat Dex2oat (dalvik excutable file to optimized art file) ,是一个对 dex 文件进行编译优化的程序,在我们的 Android 手机中的位置是 /system/bin/dex2oat,对应的源码路径为 android/art/dex2oat/dex2oat.cc,通…...

「RISC-V Arch」RISC-V 规范结构
日期:20230228 规范分类 根据 RISC-V 设计哲学,其规范文档也是高度模块化的: ISA 规范(2 篇) 非特权规范特权规范 非 ISA 规范(6篇) Trace规范ABI 规范外部调试规范PLIC 规范SBI 规范UEFI 协…...
【C】线程控制
创建线程 #include <pthread.h>int pthread_create(pthread_t * thread,const pthread_attr_t * attr,void *(*start_routine)(void*), void * arg);返回值:成功返回0,失败返回错误号。 thread:成功返回后,新创建的线程的…...

Maven工程打jar包的N种方式
Maven工程打jar包 一、IDEA自带打包插件二、maven插件打包2.1 制作瘦包(直接打包,不打包依赖包)2.2 制作瘦包和依赖包(相互分离)2.3 制作胖包(项目依赖包和项目打为一个包)2.4 制作胖包…...

一文了解GPU并行计算CUDA
了解GPU并行计算CUDA一、CUDA和GPU简介二、GPU工作原理与结构2.1、基础GPU架构2.2、GPU编程模型2.3、软件和硬件的对应关系三、GPU应用领域四、GPUCPU异构计算五、MPI与CUDA的区别一、CUDA和GPU简介 CUDA(Compute Unified Device Architecture)…...

全网资料最全Java数据结构与算法(1)
一、数据结构和算法概述 1.1什么是数据结构? 官方解释: 数据结构是一门研究非数值计算的程序设计问题中的操作对象,以及他们之间的关系和操作等相关问题的学科。 大白话: 数据结构就是把数据元素按照一定的关系组织起来的集合&a…...
【项目实战】SpringMVC拦截器HandlerInterceptor入门介绍
一、拦截器介绍 拦截器是应用程序级框架中常用的拦截用户请求、实施业务流程控制的模式,它可以将一些公共的、重复发生的业务逻辑从业务处理代码中独立出来,使系统的结构更加清晰,程序的复杂度也减小了。 拦截器是一个常见的特性,它可以实现任何自定义功能,而无需调整业…...

阿里淘宝新势力造型合伙人P8、年薪百万的欧阳娜娜也躲不过的魔鬼面试,看的我心服口服
阿里淘宝新势力造型合伙人P8、年薪百万的欧阳娜娜跳槽了,这不是关键。 她参加了网易有道明星语音录音员/代言人的面试,这也不是关键。 关键是她教科书式的面试过程,狠狠地给我们上了一课。 我是无意间刷到的这个视频的时候,就一…...

深度学习笔记:不同的反向传播迭代方法
1 随机梯度下降法SGD 随机梯度下降法每次迭代取梯度下降最大的方向更新。这一方法实现简单,但是在很多函数中,梯度下降的方向不一定指向函数最低点,这使得梯度下降呈现“之”字形,其效率较低 class SGD:"""随机…...

ElasticSearch 学习笔记总结(三)
文章目录一、ES 相关名词 专业介绍二、ES 系统架构三、ES 创建分片副本 和 elasticsearch-head插件四、ES 故障转移五、ES 应对故障六、ES 路由计算 和 分片控制七、ES集群 数据写流程八、ES集群 数据读流程九、ES集群 更新流程 和 批量操作十、ES 相关重要 概念 和 名词十一、…...

深入理解border以及应用
深入border属性以及应用👏👏 border这个属性在开发过程中很常用,常常用它来作为边界的。但是大家真的了解border吗?以及它的形状是什么样子的。 我们先来看这样一段代码:👏 <!--* Author: syk 185901…...
如何复现论文?什么是论文复现?
参考资料: 学习篇—顶会Paper复现方法 - 知乎 如何读论文?复现代码?_复现代码是什么意思 - CSDN 我是如何复现我人生的第一篇论文的 - 知乎 在我看来,论文复现应该有一个大前提和分为两个层次。 大前提是你要清楚地懂得自己要…...
22.2.28打卡 Codeforces Round #851 (Div. 2) A~C
A题 One and Two 题面翻译 题目描述 给你一个数列 a1,a2,…,ana_1, a_2, \ldots, a_na1,a2,…,an . 数列中的每一个数的值要么是 111 要么是 222 . 找到一个最小的正整数 kkk,使之满足: 1≤k≤n−11 \leq k \leq n-11≤k≤n−1 , anda1⋅a2⋅……...

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真
目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销,平衡网络负载,延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

基于ASP.NET+ SQL Server实现(Web)医院信息管理系统
医院信息管理系统 1. 课程设计内容 在 visual studio 2017 平台上,开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的 综合运用 c#.net 知识,在 vs 2017 平台上,进行 ASP.NET 应用程序和简易网站的开发;初步熟悉开发一…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...

CMake基础:构建流程详解
目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...
【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表
1、行为树节点分类 在 Nav2(Navigation2)的行为树框架中,行为树节点插件按照功能分为 Action(动作节点)、Condition(条件节点)、Control(控制节点) 和 Decorator(装饰节点) 四类。 1.1 动作节点 Action 执行具体的机器人操作或任务,直接与硬件、传感器或外部系统…...
sqlserver 根据指定字符 解析拼接字符串
DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...

自然语言处理——Transformer
自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...

IT供电系统绝缘监测及故障定位解决方案
随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...
Go 并发编程基础:通道(Channel)的使用
在 Go 中,Channel 是 Goroutine 之间通信的核心机制。它提供了一个线程安全的通信方式,用于在多个 Goroutine 之间传递数据,从而实现高效的并发编程。 本章将介绍 Channel 的基本概念、用法、缓冲、关闭机制以及 select 的使用。 一、Channel…...
「全栈技术解析」推客小程序系统开发:从架构设计到裂变增长的完整解决方案
在移动互联网营销竞争白热化的当下,推客小程序系统凭借其裂变传播、精准营销等特性,成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径,助力开发者打造具有市场竞争力的营销工具。 一、系统核心功能架构&…...