当前位置：首页 > news >正文

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】线性分类模型损失函数对比

news 2026/2/9 6:56:35

本节均以二分类问题为例进行展开，统一定义类别标签 $y\in\{+1,-1\}$ ，则分类正确时 $y f (x; w) > 0$ ，且值越大越正确；错误时 $y f (x; w) < 0$ ，且值越小越错误。不同损失函数间的损失随 $y f (x; w)$ 变化如下图所示：
在这里插入图片描述

平方损失

$\begin{aligned} \mathcal{L} &=(y-f(x;w))^2 \\ &=y^2-2yf(x;w)+f^2(x;w) \\ &=1-2yf(x;w)+y^2f^2(x;w) \\ &=(1-yf(x;w))^2 \end{aligned}$
对于平方损失来说，当 $y f (x; w) < 1$ 时，损失函数单调递减，此时如果用梯度下降进行优化，最终会收敛于点1。但当 $y f (x; w) > 1$ 时，损失函数单调递减，同样在进行优化时还是会收敛于1，但事实上 $y f (x; w)$ 越大说明分类越正确。因此可以说，平方损失不适合做分类任务。

Logistic回归的损失函数（交叉熵损失）

$\begin{aligned} \mathcal{L} &=-I(y=1)\log\sigma(f(x;w))-I(y=-1)\log(1-\sigma(f(x;w)))\\ &=-I(y=1)\log\sigma(f(x;w))-I(y=-1)\log(\sigma(-f(x;w)))\\ &=-\log\sigma(yf(x;w))\\ &=\log\sigma^{-1}(yf(x;w))\\ &=\log(1+\exp(-yf(x;w))) \end{aligned}$
对于函数 $\sigma(x)$ ，可证 $1-\sigma(x)=\sigma(-x)$ ，且 $I$ 是指示函数，
$I(y=1)=\mathbb{1}_{y=1}=\left\{\begin{aligned} &1&y=1\\\\ &0&y=-1 \end{aligned}\right.$
$I(y=-1)=\mathbb{1}_{y=-1}=\left\{\begin{aligned} &1&y=-1\\\\ &0&y=1 \end{aligned}\right.$
由图像可知，随着 $y f (x; w)$ 的增大，函数损失逐渐减小最终趋于0。这样虽然满足了 $y f (x; w)$ 越大分类效果越好的条件，但其实这是没必要的，因为当损失大于0时就可以完成分类任务。因此虽然说交叉熵损失可以满足分类要求，但造成了一些不必要的计算，仍然具有改进空间。

感知器的损失函数

$\mathcal{L}=\max(0,-yf(x;w))$
感知器损失解决了交叉熵损失的问题。感知器损失是专门为分类而设计的损失函数，其结果与真实效果基本一致。

软间隔支持向量机的损失函数（Hinge损失）

$\mathcal{L}=\max(0,1-yf(x;w))$
Hinge损失与感知器损失在几何上的不同仅仅在于Hinge损失在感知器损失的基础上向右平移了一个单位，这就导致了Hinge损失对距离分界面较近的样本（ $y f (x; w)$ 落在0到1之间）造成一定的惩罚。

结论

从模型健壮性角度来讲，选择支持向量机（Hinge损失）来解决一般分类问题的效果更好
各线性分类模型对比如下表所示
在这里插入图片描述

XOR问题

感知器和支持向量机虽然在线性可分问题上表现良好，但其无法解决非线性可分问题，例如XOR（异或）问题。
假设空间中有两个变量 $x_1,x_2)$ ，对两个变量分别取与、或、异或逻辑运算，结果如下图所示。
在这里插入图片描述

对于与运算和或运算产生的结果来说，总能找到一个分界面来把两类分开，也就是说这两个结果产生的数据集是线性可分的；但异或运算的结果无法直接找到一个分界面，也就是说它的结果数据是非线性可分的。XOR这类非线性可分问题是无法通过线性分类器来解决的。
要解决这类问题，可以借助使用”基函数“的广义线性模型，也就是把线性模型过一个基函数，让线性模型变为非线性的，也就是将 $f(x)=w^Tx$ 变成 $f(\phi(x))=w^T\phi(x)$ ，这样就实现了将非线性可分的数据集映射到另一个空间中，映射的数据集在这个空间中是线性可分的。

以下图为例，
在这里插入图片描述

左图表示原来的数据集，可见该数据集是非线性可分的。但它有一个很明显的特征，对于这个数据集来说，可以找到一个中心点，计算样本到中心点的距离，使得中心点某个范围内的为一类，范围外的为另一类，这样就可以构建出一个特征函数，将原本非线性可分的数据集映射到线性可分的数据集上。（上面这个图是按照坐标(-1,-1)附近那个绿色中心点建立的，得到的结果就如右图所示）

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】线性分类模型损失函数对比

平方损失

Logistic回归的损失函数（交叉熵损失）

感知器的损失函数

软间隔支持向量机的损失函数（Hinge损失）

结论

XOR问题

相关文章：

【复旦邱锡鹏教授《神经网络与深度学习公开课》笔记】线性分类模型损失函数对比

数组(C语言)(详细过程！！！)

视频生成模型 Dream Machine 开放试用；微软将停止 Copilot GPTs丨 RTE 开发者日报 Vol.224

Vue30-自定义指令：对象式

2024/06/13--代码随想录算法（贪心）3/6|134.加油站、135.分发糖果、860.柠檬水找零、406.根据身高重建队列

机器学习的分类

【Linux】进程控制3——进程程序替换

PFC旁路二极管、继电器驱动电路以及PFC主功率

CrossOver 2024软件下载-CrossOver 2024详细安装教程

Spark MLlib机器学习

React Native将 ipad 端软件设置为横屏显示后关闭 Modal 弹窗报错

JavaEE大作业之班级通讯录系统(前端HTML+后端JavaEE实现)PS:也可选网络留言板、图书借阅系统、寝室管理系统

代码随想录算法训练营第37天|● 56.合并区间● 738.单调递增的数字

SQL Server中的CTE和临时表优化

CCRC信息安全服务资质认证是什么

第五十一天 | 1143.最长公共子序列

未来的5-10年，哪些行业可能会被AI代替？

据报道，FTC 和 DOJ 对微软、OpenAI 和 Nvidia 展开反垄断调查

人工智能发展历程和工具搭建学习

Dijkstra算法的原理

SpringBoot-17-MyBatis动态SQL标签之常用标签

JavaSec-RCE

vscode里如何用git

日语AI面试高效通关秘籍：专业解读与青柚面试智能助攻

【杂谈】-递归进化：人工智能的自我改进与监管挑战

MODBUS TCP转CANopen 技术赋能高效协同作业

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

AGain DB和倍数增益的关系

AirSim/Cosys-AirSim 游戏开发（四）外部固定位置监控相机