当前位置：首页 > news >正文

统计学习方法拉格朗日对偶性

news 2026/2/9 17:07:12

文章目录

统计学习方法拉格朗日对偶性
- 原始问题
- 对偶问题
- 原始问题和对偶问题的关系

统计学习方法拉格朗日对偶性

读李航的《统计学习方法》时，关于拉格朗日对偶性的笔记。

在许多统计学习的约束最优化问题中，例如最大熵模型和支持向量机，常常使用拉格朗日对偶性（Lagrange duality）将原始问题转换为对偶问题，通过求解对偶问题而得到原始问题的解。

原始问题

假设 $f (x)$ ， $c_i(x)$ 和 $h_j(x)$ 是定义在 $R^n$ 上的连续可微函数，考虑约束最优化问题（记为 $P$ ）：
$\begin{aligned} \min_{x\in\R^n}&\, f(x) \\ \text{s.t.}&\,\, c_i(x)\leq 0,\quad i=1,2,\cdots,k \\ &\,\, h_j(x)=0, \quad j=1,2,\cdots,l \end{aligned}$
它的 Lagrangian 为：
$L(x,\alpha,\beta)=f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum\limits_{j=1}^l \beta_jh_j(x)$
其中 $\alpha_i \geq 0$ ；以下是一个关于 $x$ 的函数，下标 $P$ 代表原始问题：
$\theta_P(x)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)$
可以得到该函数的性质：
$\theta_P(x)=\left\{ \begin{array}{ll} f(x), & x\text{ 满足原始问题的约束} \\ +\infty, &\text{else} \end{array} \right.$

如果 $x$ 不满足原始问题的约束，即存在某个 $i$ 使得 $c_i(x)\gt 0$ 或者存在某个 $j$ 使得 $h_j(x)\not=0$ ，那么就有：
- 若存在某个 $i$ 使得 $c_i(x)\gt 0$ ：我们令 $\alpha_i\to+\infty$ ，则 $\theta_P(\theta)\to+\infty$ ；
- 若存在某个 $j$ 使得 $h_j(x)\not=0$ ：我们令 $\beta_j$ 取和 $h_j(x)$ 相同的符号，并且令 $|\beta_j|\to+\infty$ ，即 $\beta_jh_j(x)\to+\infty$ ，则 $\theta_P(\theta)\to+\infty$ ；

$\theta_P(x)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\left[f(x)+\sum_{i=1}^{k}\alpha_ic_i(x)+\sum\limits_{j=1}^l \beta_jh_j(x)\right]=+\infty$

若 $x$ 满足原始问题的约束，则 $\sum\limits_{i=1}^{k}\alpha_ic_i(x)\leq 0$ ， $\sum\limits_{j=1}^l \beta_jh_j(x)=0$ ，因此：

$\theta_P(x)=f(x)$

基于 $\theta_P(x)$ 的性质，我们考虑其极小化问题：
$\min_{x}\theta_P(x)=\min_{x}\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)$
它与原始问题 $P$ 是等价的（因为 $x$ 满足约束条件时， $\theta_P(x)$ 和 $f (x)$ 是等价的）。以上这个问题称为广义拉格朗日函数的极小极大问题。我们定义原始问题的最优值：
$p^\ast=\min_x\theta_P(x)$
称为原始问题的值。

对偶问题

以下是一个关于 $\alpha$ 和 $\beta$ 的函数，下标 $D$ 代表对偶问题：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)$
再考虑 $\theta_D(\alpha,\beta)$ 的极大化问题：
$\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\min_xL(x,\alpha,\beta)$
该问题称为广义拉格朗日函数的极大极小问题，其还可以表示为约束最优化问题：
$\begin{aligned} \max\limits_{\alpha,\beta;\,\alpha_i\geq0}&\, \theta_D(\alpha,\beta)=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\min_xL(x,\alpha,\beta) \\ \text{s.t.}&\,\, \alpha_i\geq 0, \quad i=1,2,\cdots,k \end{aligned}$
极大极小问题称为原始问题的对偶问题，定义对偶问题的最优值为：
$d^\ast=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)$
称为对偶问题的值。

原始问题和对偶问题的关系

Th C.1：若原始问题和对偶问题都有最优值，则对偶问题的最优值小于等于原始问题的最优值：
$d^\ast \leq p^\ast$
证明：由前面的定义得，对于任意的 $\alpha$ ， $\beta$ ， $x$ ，有：
$\theta_D(\alpha,\beta)=\min_xL(x,\alpha,\beta)\leq L(x,\alpha,\beta)\leq\max\limits_{\alpha,\beta;\,\alpha_i\geq0}L(x,\alpha,\beta)=\theta_P(x)$
即：
$\theta_D(\alpha,\beta)\leq\theta_P(x)$
即：
$d^\ast=\max\limits_{\alpha,\beta;\,\alpha_i\geq0}\theta_D(\alpha,\beta)\leq\min_x\theta_P(x)=p^\ast$
推论 C.1：设 $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的可行解（即满足约束条件），且 $d^\ast=p^\ast$ ，则 $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的最优解。

Th C.2：对于原始问题和对偶问题，假设：

函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数；
存在 $x$ ，对于任意 $i$ ，满足 $c_i(x)\lt 0$ （即不等式约束 $c_i(x)$ 严格可行）；

则存在 $x^\ast$ ， $\alpha^\ast$ ， $\beta^\ast$ ，使得 $x^\ast$ 是原始问题的解， $\alpha^\ast$ ， $\beta^\ast$ 是对偶问题的解，并且：
$p^\ast=d^\ast=L(x^\ast,\alpha^\ast,\beta^\ast)$
Th C.3：跟 Th C.2 一样的假设下， $x^\ast$ 和 $\alpha^\ast$ ， $\beta^\ast$ 分别是原始问题和最优问题的可行解的充分必要条件是： $x^\ast$ ， $\alpha^\ast$ ， $\beta^\ast$ 满足 KKT 条件：
$\begin{array}{c} \nabla_x L(x^\ast,\alpha^\ast,\beta^\ast)=0 \\ \alpha_i^\ast c_i(x^\ast)=0, \quad i=1,2,\cdots,k \\ c_i(x^\ast)\leq 0, \quad i=1,2,\cdots,k \\ \alpha_i^\ast \geq 0, \quad i=1,2,\cdots,k \\ h_j(x^\ast)=0, \quad j=1,2,\cdots,k \\ \end{array}$
其中 $\alpha_i^\ast c_i(x^\ast)=0, \quad i=1,2,\cdots,k$ 称为 KKT 的对偶互补条件。由此可知，若 $\alpha_i \gt 0$ ，则 $c_i(x^\ast)=0$ ；

统计学习方法拉格朗日对偶性

文章目录

统计学习方法拉格朗日对偶性

原始问题

对偶问题

原始问题和对偶问题的关系

相关文章：

统计学习方法拉格朗日对偶性

.rancher-pipeline.yml

RK3588平台开发系列讲解（显示篇）MIPI DSI协议介绍之分层

前端学成在线项目详细解析三

使用Kali进行实验---主机发现

美团笔试真题2023第一场（4题）

PHP explode (多)分隔符(delimiters) 使用

AI的Prompt是什么

Qt之自定义model读写CSV文件

golang 工程组件：grpc-gateway 环境安装+默认网关测试

IP地址SSL证书 IP证书

MVCC 过程中会加锁吗？

NLP入门——语言结构/语言建模

2023java攻克了抖音视频去水印视频下载

云计算要学习哪些技术？

Spring bean 和 Java Bean的区别

性能测试 —— Jmeter 命令行详细

ChatGPT AIGC 办公自动化拆分Excel工作表

Web前端—Flex布局：标准流、浮动、Flex布局、综合案例（短视频首页解决方案）

【Git LFS】huggingface 断点续传

业务系统对接大模型的基础方案：架构设计与关键步骤

简易版抽奖活动的设计技术方案

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

线程与协程

在Ubuntu中设置开机自动运行（sudo）指令的指南

【配置 YOLOX 用于按目录分类的图片数据集】

python执行测试用例，allure报乱码且未成功生成报告

排序算法总结（C++）

【Elasticsearch】Elasticsearch 在大数据生态圈的地位实践经验

文章目录

统计学习方法 拉格朗日对偶性

原始问题

对偶问题

原始问题和对偶问题的关系

相关文章：

统计学习方法拉格朗日对偶性