当前位置：首页 > news >正文

软间隔支持向量机

news 2026/2/8 20:57:36

软间隔支持向量机

我们先直接给出软间隔支持向量机的形式：
$\min_{\omega,b,\zeta} \frac{1}{2}\Vert \omega \Vert_2^2 - C\sum_{i=1}^m\zeta_i\\ s.t. y_i(\omega x_i+b) \geq 1-\zeta_i,i=1,2,3..m\\ \zeta_i \geq 0,i=1,2,3..m$

线性可分的对立面一定是线性不可分，这个时候无论如何改变超平面与支持向量，数据都无法从线性可分转为线性不可分。但是对于完全杂乱的数据来说，我们往往还会遇到一种情况就是数据中存在一小部分的特异点而导致数据线性不可分，如图所示：

在这种情况下如果直接选择线性不可分的算法反而会让我们的问题更复杂，同时也可能导致过拟合的问题，那么我们不妨放松一定的硬间隔限制，允许错误分类。或者说，允许尽可能少的错误分类，从而获得更好的泛化效果。

对于正分类点的错误分类来说，我们可以划分为三种，如图上Case1，Case2，Case3三个点，分别代表了允许特异点进入超平面与正支持向量之间，允许特异点进入超平面与负支持向量之间，允许特异点进入负分类区间。

针对三种情况我们分别分析，同时引入松弛变量。引入松弛变量的目的就是为了放松硬间隔的区间限制，让原本只能出现在过支持向量与超平面平行的平面正侧的点可以出现在其他地方，为了方便分析我们假设最优超平面如图所示 $\omega X+b=0$ 保持不动，研究如何调整限制条件，以允许线性不可分样本可以存在。

1. Case1

我们将Case1的特征向量代入超平面得到 $\omega X_c+b=P$ ，显然 $0 < P < 1$ ，此时 $0\leq Y_c(\omega X_c+b)<1$

原来我们要求正分类点在正支持向量右上方的时候限制条件为： $Y_c(\omega X_c+b)\geq 1$

将Case1的点纳入限制范围，则限制条件变为 $Y_c(\omega X_c+b) \geq 0$

我们假设松弛变量 $0\leq \zeta \leq 1$ ，那么限制条件就可以转换为： $Y_c(\omega X_c+b) \geq 1-\zeta$

此时我们允许误分类点进入正支持向量平面与超平面之间

2. Case2

我们将Case2的特征向量代入超平面得到 $\omega X_c+b=P$ ，显然 $- 1 < P < 0$ ，此时 $-1\leq Y_c(\omega X_c+b)<0$

原来我们要求正分类点在超平面右上方的时候限制条件为： $Y_c(\omega X_c+b) \geq 0$

将Case2的点纳入限制范围，则限制条件变为 $Y_c(\omega X_c+b) \geq -1$

我们假设松弛变量 $0\leq \zeta \leq 2$ ，那么限制条件就可以转换为： $Y_c(\omega X_c+b) \geq 1-\zeta$

此时我们允许误分类点进入负支持向量平面与超平面之间

3. Case3

我们将Case1的特征向量代入超平面得到 $\omega X_c+b=P$ ，显然 $P < - 1$ ，此时$ Y_c(\omega X_c+b)<-1$

原来我们要求正分类点在负支持向量右上方平面的时候限制条件为： $Y_c(\omega X_c+b) \geq -1$

我们假设松弛变量$0\leq \zeta $，那么限制条件就可以转换为：$ Y_c(\omega X_c+b) \geq 1-\zeta$

此时我们允许误分类点进入负分类区间

4. 限制松弛变量

之前的内容我们是从已经引入松弛变量的角度分析为什么在模型中要求 $\zeta_i \geq 0$ ，现在我们来分析松弛变量是如何引入目标函数的。

显然我们现在对每一个特异点都设置了一个松弛变量 $\zeta_i$ 使得原来的模型能够容纳这些错误的情况，但是如果不对这种放松进行惩罚，在面对线性不可分的数据时，模型可以随意让样本点可以随意靠近或穿过超平面。

样本点随意靠近或穿过超平面，这就忽略了我们不同类别的数据点到这个超平面的最小距离（即间隔）最大这个核心目标。因为不加限制的话，会导致几何间隔 $\frac{2}{\Vert \omega \Vert}$ 不断的变小。

那为什么会导致几何间隔 $\frac{2}{\Vert \omega \Vert}$ 不断的变小呢？

假设我们已经有超平面可以将两类数据大部分分开，则正负支持向量之间的间隔恰好为 $\frac{2}{\Vert \omega \Vert}$ ，当我们不惩罚 $\zeta_i$ ，并且想要把这个数据点也正确分类。为了使 $y_i(\omega x_i+b) \geq 1-\zeta_i \quad \zeta_i \geq 0$ 成立，我们不得不增大 $\zeta_i$ ，同时调整超平面。调整超平面可能就会导致我们的几何间隔变小，这会与我们间隔最大化这个问题相违背。所以必须增加惩罚。我们为每一个松弛变量添加惩罚，同时设置一个参数可以控制惩罚的力度，进而我们就得到了：
$P^* = \max_{} \frac{1}{\Vert \omega \Vert}\Vert + C\sum_{i=1}^N\zeta_i\\ s.t. y_i(\omega x_i+b) \geq 1-\zeta_i,i=1,2,3..N\\ \zeta_i \geq 0,i=1,2,3..N$
我们的问题其实转为了在 $\omega$ 和松弛变量 $\zeta$ 之间寻求一个平衡，而C是来控制这个平衡的程度。最终我们将问题转为我们一开始的最小化问题P。

5. 求解P

根据拉格朗如对偶法构建拉格朗日函数：
$L(\omega,b,\zeta,\alpha,\mu) =\frac{1}{2}\Vert \omega \Vert_2^2 +C\sum_{i=1}^N\zeta_i-\sum_{i=1}^m\alpha_i[y_i(\omega x_i+b) - 1+\zeta_i]-\sum_{i=1}^m \mu_i\zeta_i \\and \\\mu_i \geq0,\zeta_i \geq 0$

则优化的目标函数为： $\min_{\omega,b,\zeta}\max_{\mu_i,\zeta_i} L(\omega,b,\zeta,\alpha,\mu)$

符合Slater条件转为对偶问题： $\max_{\mu_i,\zeta_i}\min_{\omega,b,\zeta} L(\omega,b,\zeta,\alpha,\mu)$

先求最小化问题：
$\frac{\partial L}{\partial w} = 0 \;\Rightarrow w = \sum\limits_{i=1}^{m}\alpha_iy_ix_i \\ \frac{\partial L}{\partial b} = 0 \;\Rightarrow \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \\ \frac{\partial L}{\partial \xi} = 0 \;\Rightarrow C- \alpha_i - \mu_i = 0$
代入消去 $\omega,b$
$L(\omega,b,\zeta,\alpha,\mu) = \sum\limits_{i=1}^{m}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j$
仔细观察这个式子会发现其实与支持向量机最终得到的公式是一样的，但是不同的是约束条件：
$\max _{\alpha} \sum\limits_{i=1}^{m}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_jx_i^Tx_j \\ s.t. \; \sum\limits_{i=1}^{m}\alpha_iy_i = 0 \\ C- \alpha_i - \mu_i = 0 \\\alpha_i \geq 0 \;(i =1,2,...,m) \\\mu_i \geq 0 \;(i =1,2,...,m)$

对于三个约束来说代入消去 $\mu$ 可以得到唯一一个约束也就是： $\leq \alpha_i \leq C$ ，然后我们就可以通过SMO算法来解出最终的 $\alpha 和b$

软间隔支持向量机

软间隔支持向量机

1. Case1

2. Case2

3. Case3

4. 限制松弛变量

5. 求解P

相关文章：

软间隔支持向量机

在C++上实现反射用法

【学术会议介绍，SPIE 出版】第四届计算机图形学、人工智能与数据处理国际学术会议 (ICCAID 2024，12月13-15日)

网络百问百答（一）

【深圳大学】数据结构A+攻略（计软版）

解读《ARM Cortex-M3 与Cortex-M4 权威指南》——第4章架构

探索 Python HTTP 的瑞士军刀：Requests 库

PostgreSQL 页损坏如何修复

Leetcode 75 Sort colors

如何进行数据库连接池的参数优化？

有了miniconda，再也不用担心python、nodejs、go的版本问题了

openresty入门教程：init_by_lua_block

sol机器人pump机器人如何实现盈利的？什么是Pump 扫链机器人？

Spring-boot 后端java配置接口返回jsp页面

LabVIEW车辆侧翻预警系统

亲测有效：Maven3.8.1使用Tomcat8插件启动项目

Find My电子体温计|苹果Find My技术与体温计结合，智能防丢，全球定位

jmeter常用配置元件介绍总结之后置处理器

html5多媒体标签

51c自动驾驶~合集10

Go 语言接口详解

css的定位（position）详解：相对定位绝对定位固定定位

[Java恶补day16] 238.除自身以外数组的乘积

重启Eureka集群中的节点，对已经注册的服务有什么影响

QT3D学习笔记——圆台、圆锥

使用LangGraph和LangSmith构建多智能体人工智能系统

数据库——redis

Python学习(8) ----- Python的类与对象

精益数据分析（98/126）：电商转化率优化与网站性能的底层逻辑

【SSM】SpringMVC学习笔记7：前后端数据传输协议和异常处理