当前位置：首页 > news >正文

逻辑回归梯度推导

news 2026/2/10 11:04:33

逻辑回归是一种广泛使用的分类算法，用于估计一个事件发生的概率。它是线性回归的扩展，通过sigmoid函数将线性回归的输出映射到[0, 1]区间，从而用于分类任务。
在逻辑回归中，我们使用对数似然损失函数（log-likelihood loss function）来衡量模型预测值与真实值之间的差异。我们的目标是最小化这个损失函数，以找到最优的模型参数。
假设我们有以下符号：

$h_{\theta}(x)$ 是模型预测的概率， $h_{\theta}(x) = \frac{1}{1 + e^{-\theta^T x}}$ 。
$m$ 是训练样本的数量。
$y$ 是实际输出标签，取值为0或1。
$\theta$ 是模型参数。
$x$ 是单个训练样本的特征向量。

对数似然损失函数为(也可以说是交叉熵损失，来源于KL散度的后一项)：
$L(\theta) = -\frac{1}{m} \sum_{i=1}^{m} [y^{(i)} \log(h_{\theta}(x^{(i)})) + (1 - y^{(i)}) \log(1 - h_{\theta}(x^{(i)}))]$

为了找到最小化损失函数的参数 $\theta$ ，我们需要计算损失函数关 $\theta $ 的梯度。以下是梯度计算的过程：

对 $ L(\theta) $ 求关于$ \theta_j $ 的偏导数：
$\begin{align*} \frac{\partial}{\partial \theta_j} L(\theta) &= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \frac{\partial}{\partial \theta_j} \log(h_{\theta}(x^{(i)})) + (1 - y^{(i)}) \frac{\partial}{\partial \theta_j} \log(1 - h_{\theta}(x^{(i)})) \right] \\ &= -\frac{1}{m} \sum_{i=1}^{m} \left[ \frac{y^{(i)}}{h_{\theta}(x^{(i)})} \frac{\partial}{\partial \theta_j} h_{\theta}(x^{(i)}) - \frac{1 - y^{(i)}}{1 - h_{\theta}(x^{(i)})} \frac{\partial}{\partial \theta_j} h_{\theta}(x^{(i)}) \right] \\ &= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \frac{1}{h_{\theta}(x^{(i)})} - (1 - y^{(i)}) \frac{1}{1 - h_{\theta}(x^{(i)})} \right] \frac{\partial}{\partial \theta_j} h_{\theta}(x^{(i)}) \end{align*}$

计算 $h_{\theta}(x)$ 关于 $\theta _{j}$ 的偏导数:
$\begin{align*} \frac{\partial}{\partial \theta_j} h_{\theta}(x) &= \frac{\partial}{\partial \theta_j} \left( \frac{1}{1 + e^{-\theta^T x}} \right) \\ &= \frac{e^{-\theta^T x}}{(1 + e^{-\theta^T x})^2} \frac{\partial}{\partial \theta_j} (-\theta^T x) \\ &= \frac{e^{-\theta^T x}}{(1 + e^{-\theta^T x})^2} (-x_j) \\ &= h_{\theta}(x) (1 - h_{\theta}(x)) (-x_j) \\ \end{align*}$
将 ( $\frac{\partial}{\partial \theta_j} h_{\theta}(x)$ ) 的结果代入梯度公式中：
$\begin{align*} \frac{\partial}{\partial \theta_j} L(\theta) &= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} \frac{1}{h_{\theta}(x^{(i)})} - (1 - y^{(i)}) \frac{1}{1 - h_{\theta}(x^{(i)})} \right]h_{\theta}(x) (1 - h_{\theta}(x)) (-x_j) \\ &= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} (1 - h_{\theta}(x^{(i)})) - (1 - y^{(i)}) h_{\theta}(x^{(i)}) \right] (-x_j^{(i)}) \\ &= -\frac{1}{m} \sum_{i=1}^{m} \left[ y^{(i)} - h_{\theta}(x^{(i)}) \right] (-x_j^{(i)}) \end{align*}$
因此，逻辑回归损失函数 $L(\theta)$ 关于参数 $\theta_j$ 的梯度是：
$\frac{\partial}{\partial \theta_j} L(\theta) = -\frac{1}{m} \sum_{i=1}^{m} \left[ h_{\theta}(x^{(i)}) - y^{(i)} \right] x_j^{(i)}$

这个梯度表达式告诉我们，对于每个参数 $\theta_j$ ，我们需要计算模型预测 $h_{\theta}(x^{(i)})$ 和实际标签 $y^{(i)}$ 之间的差异，然后将这个差异乘以特征 $x_j^{(i)}$ ，最后对所有训练样本求和并除以样本数量 $m$ 。这个梯度用于在优化过程中更新参数 $\theta_j$ ，以最小化损失函数。

逻辑回归梯度推导

相关文章：

逻辑回归梯度推导

Python 使用函数输出一个整数的逆序数

【Linux】Wmware Esxi磁盘扩容

树莓派4B_OpenCv学习笔记15：OpenCv定位物体实时坐标

MySQL之如何定位慢查询

Open3D 删除点云中重复的点

填报志愿选专业是兴趣重要还是前景重要？

python开发基础——day9 函数基础与函数参数

STM32——使用TIM输出比较产生PWM波形控制舵机转角

第十五章集合（set）（Python）

面试-javaIO机制

在.NET Core中，config和ConfigureServices的区别和作用

App Inventor 2 如何实现多个定时功能？

技术驱动的音乐变革：AI带来的产业重塑

重生之我要学后端0--HTTP协议和RESTful APIs

深度之眼（二十八）——神经网络基础知识（三）-卷积神经网络

AI Infra简单记录

三英战吕布 | 第5集 | 温酒斩华雄 | 竖子不足与谋 | 三国演义 | 逐鹿群雄

【C语言】自定义类型：结构体

算法金 | 决策树、随机森林、bagging、boosting、Adaboost、GBDT、XGBoost 算法大全

Zustand 状态管理库：极简而强大的解决方案

23-Oracle 23 ai 区块链表（Blockchain Table）

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

Unit 1 深度强化学习简介

10-Oracle 23 ai Vector Search 概述和参数

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

淘宝扭蛋机小程序系统开发：打造互动性强的购物平台

系统掌握PyTorch：图解张量、Autograd、DataLoader、nn.Module与实战模型

十九、【用户管理与权限 - 篇一】后端基础：用户列表与角色模型的初步构建

Java数组Arrays操作全攻略