当前位置：首页 > news >正文

数学学习——最优化问题引入、凸集、凸函数、凸优化、梯度、Jacobi矩阵、Hessian矩阵

news 2026/2/10 22:11:43

文章目录

最优化问题引入
凸集
凸函数
凸优化
梯度
Jacobi矩阵
Hessian矩阵

最优化问题引入

例如：有一根绳子，长度一定的情况下，需要如何围成一个面积最大的图像？这就是一个最优化的问题。就是我们高中数学中最常见的最值问题。

最优化问题的一般形式是：
$\\ x \in C$
其中， $f$ 是目标函数， $A$ 是约束条件， $x$ 是参数值。要求解最优化问题，就是要找到一个可行解 $x^∗$ ，使得对于所有的 $x\in A$ ，都有 $f(x^∗)≤f(x)$ 。

最优化问题的三个基本要素是：

目标函数：用来衡量结果的好坏
参数值：未知的因子，需要通过数据来确定
约束条件：需要满足的限制条件

凸集

定义：集合 $C$ 中任意两点的线 $C$ 中，则称集合 $C$ 为凸集，也即满足 $\forall x,y\in C,0≤0≤1$ 有 $8x+(1-)y\in C$ 的集合称为凸集。

凸集合就是一个集合中的任意两点之间的线段都属于这个集合，而非凸集合就是不满足这个条件的集合。

凸集合：
在这里插入图片描述
非凸集合：

凸函数

定义：凸函数是一种定义在凸集上的实值函数，满足任意两点连成的线段上的函数值不大于两点的函数值的加权平均。也就是说，如果 $f$ 是凸函数，那么对于任意 $x$ 和 $y$ 在定义域内，以及任意 $θ$ 在 $(0, 1)$ 之间，有
$f (θ x + (1 - θ) y) \leq θ f (x) + (1 - θ) f (y)$
这个不等式称为凸函数的凸性条件。如果不等式中的等号只在 $x = y$ 时成立，那么 $f$ 是严格凸的。如果不等式反向成立，那么 $f$ 是凹函数。如果 $f$ 既是凸函数又是凹函数，那么 $f$ 是仿射函数。

二维空间的凸函数：

import numpy as np
import matplotlib.pyplot as plt# 定义凸函数 f(x) = x^2
def f(x):return x**2# 生成x轴的数据
x = np.linspace(-5, 5, 100)# 计算y轴的数据
y = f(x)# 画出函数图像
plt.plot(x, y)# 设置坐标轴标签和标题
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Convex Function')# 显示图像
plt.show()

在这里插入图片描述

三维空间的凸函数：

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np# 定义凸函数 f(x,y) = x^2 + y^2
def f(x, y):return x**2 + y**2# 生成x和y轴的数据
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)# 将x和y轴数据转换为网格矩阵
X, Y = np.meshgrid(x, y)# 计算z轴的数据
Z = f(X, Y)# 创建3D图像对象
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')# 画出函数图像
ax.plot_surface(X, Y, Z)# 设置坐标轴标签和标题
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('f(x,y)')
ax.set_title('Convex Function')# 显示图像
plt.show()

在这里插入图片描述
二维空间的非凹非凸函数：

import numpy as np
import matplotlib.pyplot as plt# 定义非凹非凸函数 f(x) = sin(x) + cos(2x)
def f(x):return np.sin(x) + np.cos(2*x)# 生成x轴的数据
x = np.linspace(-5, 5, 100)# 计算y轴的数据
y = f(x)# 画出函数图像
plt.plot(x, y)# 设置坐标轴标签和标题
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Non-convex Function')# 显示图像
plt.show()

在这里插入图片描述

三维空间的非凹非凸函数：

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
import numpy as np# 定义非凹非凸函数 f(x,y) = sin(x) + cos(2y)
def f(x, y):return np.sin(x) + np.cos(2*y)# 生成x和y轴的数据
x = np.linspace(-5, 5, 100)
y = np.linspace(-5, 5, 100)# 将x和y轴数据转换为网格矩阵
X, Y = np.meshgrid(x, y)# 计算z轴的数据
Z = f(X, Y)# 创建3D图像对象
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')# 画出函数图像
ax.plot_surface(X, Y, Z)# 设置坐标轴标签和标题
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.set_zlabel('f(x,y)')
ax.set_title('Non-convex Function')# 显示图像
plt.show()

在这里插入图片描述

凸优化

凸优化是数学最优化的一个子领域，研究定义在凸集中的凸函数最小化的问题。

凸优化问题可以形式化地写成：
$\begin{align*} min&f(x) \\ s.t. &g_i(x)≤0,i=1,2,\cdots,m\\ &h_j(x)=0,j=1,2,\cdots,n \end{align*}$

其中x为优化变量； $f$ 为凸目标函数； $g_i$ 和 $h_j$ 为约束函数，分别表示不等式约束和等式约束；

这个问题的意思是求解最小化目标函数 $f (x)$ ，使得x满足不等式约束 $g_i(x)≤0$ 和等式约束 $h_j(x)=0$ 。

一个凸优化问题具备如下性质：

凸优化的局部极小点就是全局极小点：
如果目标函数是严格凸函数，则凸优化问题具有唯一的全局极小点：
凸优化的全局极大点必定能在可行域的边界上达到；

梯度

它表示一个多元函数在某一点沿着最大增长方向的变化率，可以用偏导数来表示。梯度是一个向量，它的方向是函数在该点最大增长的方向，它的大小是在该方向上的增长率。梯度可以用向量微分算子（nabla）来表示。

例如：
$\nabla f(x,y) = \frac{\partial f}{\partial x}i+\frac{\partial f}{\partial y}j$

Jacobi矩阵

定义： 雅可比矩阵是一个函数的一阶偏导数以一定方式排列成的矩阵，其行列式称为雅可比行列式。雅可比矩阵反映了一个函数在给定点的最佳线性逼近，类似于单变量函数的导数。如果函数是从 $ℝ_n$ 到 $ℝ_m$ 的映射，那么它的雅可比矩阵是一个 $\times n$ 的矩阵，可以用以下方式定义：
$\begin{bmatrix} \frac{\partial f_1}{\partial x_1} & \cdots & \frac{\partial f_1}{\partial x_n} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_m}{\partial x_1} & \cdots & \frac{\partial f_m}{\partial x_n} \end{bmatrix}$
其中 $f_i$ 是函数的第 $i$ 个分量， $x_j$ 是第 $j$ 个自变量。雅可比矩阵的符号表示为 $J_f$ 或者 $\frac{\partial {(f_1,\cdots, f_m)}}{\partial {(x_1,\cdots, x_m)}}$ 。雅可比矩阵的第 $i$ 行是由函数 $f_i$ 的梯度向量表示的。

举例：

设有函数 $F:ℝ^3 \to ℝ^4$ ，其分量为：
$w = x + y + z x = x y = yz = z$
雅可比矩阵是：
$\begin{vmatrix} \frac{\partial w}{\partial x} & \frac{\partial w}{\partial y} & \frac{\partial w}{\partial z} \\ \frac{\partial x}{\partial x} & \frac{\partial x}{\partial y} & \frac{\partial x}{\partial z} \\ \frac{\partial y}{\partial x} & \frac{\partial y}{\partial y} & \frac{\partial y}{\partial z} \\ \frac{\partial z}{\partial x} & \frac{\partial z}{\partial y} & \frac{\partial z}{\partial z} \end{vmatrix}$
将给定的函数代入上式子，得到：
$\begin{vmatrix} 1 & 1 & 1 \\ y & x & 0 \\ 0 & z & y\\ 0 & 0 & 1 \end{vmatrix}$

Hessian矩阵

$Hess ian$ 矩阵是一个多元函数的二阶偏导数构成的方阵，用于描述函数的局部曲率。如果函数 $f:R^n→R$ 在点 $x$ 处具有连续的二阶偏导数，那么它的 $Hess ian$ 矩阵 $H_f(x)$ 定义为：
$H_f(x) = \begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2}(x) & \cdots & \frac{\partial^2 f}{\partial x_1 \partial x_n}(x) \\ \vdots & \ddots & \vdots \\ \frac{\partial^2 f}{\partial x_n \partial x_1}(x) & \cdots & \frac{\partial^2 f}{\partial x_n^2}(x) \end{bmatrix}$

$Hess ian$ 矩阵和 $J a co bi$ 矩阵之间的关系是， $Hess ian$ 矩阵等于函数的梯度的 $J a co bi$ 矩阵。也就是说，如果 $f : R n \to R$ ，那么
$H_f(x)=J_{\nabla f}(x)$
其中 $\nabla f$ 表示函数f的梯度， $J_{\nabla f}$ 表示梯度 $\nabla f$ 的 $J a co bi$ 矩阵。这个关系可以从 $Hess ian$ 矩阵和 $J a co bi$ 矩阵的定义直接得到。

举例：

有个二元函数是 $f (x, y) = x 2 + y 2$ 。它的梯度是 $\nabla f (x, y) = (2 x, 2 y)$ ，它的 $Hess ian$ 矩阵是
$\begin{vmatrix} \frac{\partial^2 f}{\partial x^2}(x, y) & \frac{\partial^2 f}{\partial x \partial y} (x, y)\\ \frac{\partial^2 f}{\partial y \partial x}(x, y) & \frac{\partial^2 f}{\partial y^2} (x, y) \end{vmatrix} = \begin{vmatrix} 2 & 0 \\ 0 & 2 \end{vmatrix}$

它的梯度的 $J a co bi$ 矩阵是
$\begin{vmatrix} \frac{\partial }{\partial x}(2x) & \frac{\partial }{\partial y}(2x) \\ \frac{\partial }{\partial x}(2y) & \frac{\partial }{\partial y}(2y) \end{vmatrix} = \begin{vmatrix} 2 & 0 \\ 0 & 2 \end{vmatrix}$
可以看出，它们是相等的。

数学学习——最优化问题引入、凸集、凸函数、凸优化、梯度、Jacobi矩阵、Hessian矩阵

文章目录

最优化问题引入

凸集

凸函数

凸优化

梯度

Jacobi矩阵

Hessian矩阵

相关文章：

数学学习——最优化问题引入、凸集、凸函数、凸优化、梯度、Jacobi矩阵、Hessian矩阵

HCIP期中实验

【Git系列】IDEA集成Git

短视频矩阵源码开发搭建分享--多账号授权管理

数据中台系列2：rabbitMQ 安装使用之 window 篇

Windows驱动开发

汽车分析，随时间变化的燃油效率

大数据面试题之Elasticsearch:每日三题(六)

【管理设计篇】聊聊分布式配置中心

远程控制平台简介

韦东山Linux驱动入门实验班（5）LED驱动---驱动分层和分离，平台总线模型

【雕爷学编程】MicroPython动手做（02）——尝试搭建K210开发板的IDE环境

C#——Thread与Task的差异比较及使用环境

刷题 31-35

【mysql】—— 数据类型详解

kafka常用命令

数字图像处理（番外）图像增强

flutter：轮播

高忆管理：股票投资策略是什么？有哪些？

为公网SSH远程Ubuntu配置固定的公网TCP端口地址主图

TDengine 快速体验（Docker 镜像方式）

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

以光量子为例，详解量子获取方式

Linux离线（zip方式）安装docker

Redis：现代应用开发的高效内存数据存储利器

Linux nano命令的基本使用

C# 表达式和运算符(求值顺序)

MFE(微前端) Module Federation：Webpack.config.js文件中每个属性的含义解释

数据结构：递归的种类（Types of Recursion）

【若依】框架项目部署笔记