当前位置：首页 > news >正文

梯度提升决策树树（GBDT）公式推导

news 2026/2/9 23:23:41

### 逻辑回归的损失函数

逻辑回归模型用于分类问题，其输出是一个概率值。对于二分类问题，逻辑回归模型的输出可以表示为：

\[ P(y = 1 | x) = \frac{1}{1 + e^{-F(x)}} \]

其中 \( F(x) \) 是一个线性组合函数，通常表示为：

\[ F(x) = \sum_{m=0}^{M} h_m(x) \]

这里的 \( h_m(x) \) 是学习到的决策树。

### 损失函数的推导

对于单个样本 \((x_i, y_i)\)，逻辑回归的损失函数通常采用对数似然损失（也称为交叉熵损失），定义如下：

\[ \text{loss}(x_i, y_i) = -y_i \log \hat{y}_i - (1 - y_i) \log (1 - \hat{y}_i) \]

其中：
- \( \hat{y}_i \) 是模型预测的概率。
- \( y_i \) 是实际的标签（0 或 1）。

### GBDT 中的损失函数

在 GBDT 中，我们假设第 \( k \) 步迭代之后当前学习器为 \( F(x) \)，则损失函数可以写为：

\[ \text{loss}(x_i, y_i | F(x)) = y_i \log \left(1 + e^{-F(x_i)}\right) + (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right] \]

### 推导步骤

1. **定义预测概率**：
\[ \hat{y}_i = \frac{1}{1 + e^{-F(x_i)}} \]

2. **代入损失函数**：
\[ \text{loss}(x_i, y_i) = -y_i \log \hat{y}_i - (1 - y_i) \log (1 - \hat{y}_i) \]
\[ = -y_i \log \left(\frac{1}{1 + e^{-F(x_i)}}\right) - (1 - y_i) \log \left(1 - \frac{1}{1 + e^{-F(x_i)}}\right) \]

3. **简化表达式**：
\[ \text{loss}(x_i, y_i) = -y_i \log \left(\frac{1}{1 + e^{-F(x_i)}}\right) - (1 - y_i) \log \left(\frac{e^{-F(x_i)}}{1 + e^{-F(x_i)}}\right) \]
\[ = -y_i \log \left(\frac{1}{1 + e^{-F(x_i)}}\right) - (1 - y_i) \left[\log(e^{-F(x_i)}) - \log(1 + e^{-F(x_i)})\right] \]
\[ = -y_i \log \left(\frac{1}{1 + e^{-F(x_i)}}\right) - (1 - y_i) \left[-F(x_i) - \log(1 + e^{-F(x_i)})\right] \]
\[ = y_i \log \left(1 + e^{-F(x_i)}\right) + (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right] \]

求梯度

为了求出给定损失函数的梯度，我们需要对损失函数关于 \( F(x_i) \) 求导。给定的损失函数是：

\[
\text{loss}(x_i, y_i | F(x)) = y_i \log \left(1 + e^{-F(x_i)}\right) + (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right]
\]

我们分两部分来计算梯度：

1. 对于第一部分 \( y_i \log \left(1 + e^{-F(x_i)}\right) \)
2. 对于第二部分 \( (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right] \)

### 第一部分的梯度

对于 \( y_i \log \left(1 + e^{-F(x_i)}\right) \)，我们对其求导：

\[
\frac{\partial}{\partial F(x_i)} \left[ y_i \log \left(1 + e^{-F(x_i)}\right) \right]
\]

使用链式法则：

\[
\frac{\partial}{\partial F(x_i)} \left[ y_i \log \left(1 + e^{-F(x_i)}\right) \right] = y_i \cdot \frac{\partial}{\partial F(x_i)} \left[ \log \left(1 + e^{-F(x_i)}\right) \right]
\]

\[
= y_i \cdot \frac{1}{1 + e^{-F(x_i)}} \cdot (-e^{-F(x_i)})
\]

\[
= y_i \cdot \frac{-e^{-F(x_i)}}{1 + e^{-F(x_i)}}
\]

\[
= -y_i \cdot \frac{e^{-F(x_i)}}{1 + e^{-F(x_i)}}
\]

### 第二部分的梯度

对于 \( (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right] \)，我们对其求导：

\[
\frac{\partial}{\partial F(x_i)} \left[ (1 - y_i) \left(F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right) \right]
\]

\[
= (1 - y_i) \cdot \left[ \frac{\partial}{\partial F(x_i)} F(x_i) + \frac{\partial}{\partial F(x_i)} \log \left(1 + e^{-F(x_i)}\right) \right]
\]

\[
= (1 - y_i) \cdot \left[ 1 + \frac{1}{1 + e^{-F(x_i)}} \cdot (-e^{-F(x_i)}) \right]
\]

\[
= (1 - y_i) \cdot \left[ 1 - \frac{e^{-F(x_i)}}{1 + e^{-F(x_i)}} \right]
\]

\[
= (1 - y_i) \cdot \left[ \frac{1 + e^{-F(x_i)} - e^{-F(x_i)}}{1 + e^{-F(x_i)}} \right]
\]

\[
= (1 - y_i) \cdot \left[ \frac{1}{1 + e^{-F(x_i)}} \right]
\]

### 合并两部分

将两部分合并起来：

\[
\frac{\partial}{\partial F(x_i)} \left[ y_i \log \left(1 + e^{-F(x_i)}\right) + (1 - y_i) \left[F(x_i) + \log \left(1 + e^{-F(x_i)}\right)\right] \right]
\]

\[
= -y_i \cdot \frac{e^{-F(x_i)}}{1 + e^{-F(x_i)}} + (1 - y_i) \cdot \frac{1}{1 + e^{-F(x_i)}}
\]

\[
= -y_i \cdot \frac{e^{-F(x_i)}}{1 + e^{-F(x_i)}} + \frac{1 - y_i}{1 + e^{-F(x_i)}}
\]

\[
= \frac{-y_i e^{-F(x_i)} + 1 - y_i}{1 + e^{-F(x_i)}}
\]

\[
= \frac{1 - y_i - y_i e^{-F(x_i)}}{1 + e^{-F(x_i)}}
\]

最终得到的梯度为：

\[
\frac{\partial \text{loss}}{\partial F(x_i)} = \frac{1 - y_i - y_i e^{-F(x_i)}}{1 + e^{-F(x_i)}}
\]

简化

\[
\frac{\partial \text{loss}}{\partial F(x_i)} = \frac{1}{1 + e^{-F(x_i)}} - y_i
\]

### 总结

通过上述推导，我们可以看到逻辑回归的损失函数如何被应用于 GBDT 中。在每一步迭代中，GBDT 会根据当前模型的预测和实际标签之间的差异来更新新的弱学习器（通常是决策树），从而逐步减少损失函数的值。

这个过程确保了模型能够逐步逼近最优解，同时通过负梯度方向进行参数更新，有效地减少了损失函数的值。

梯度提升决策树树（GBDT）公式推导

相关文章：

梯度提升决策树树（GBDT）公式推导

【MySQL】表的基本操作

项目中使用的是 FastJSON（com.alibaba:fastjson）JSON库

Flutter中PlatformView在鸿蒙中的使用

音频入门（一）：音频基础知识与分类的基本流程

规避路由冲突

SQLmap 自动注入 -02

4.JoranConfigurator解析logbak.xml

React 19 新特性总结

kafka学习笔记6 ACL权限 —— 筑梦之路

【Java】Java抛异常到用户界面公共封装

基于Redis实现短信验证码登录

步入响应式编程篇（二）之Reactor API

Oracle SQL: TRANSLATE 和 REGEXP_LIKE 的知识点详细分析

RabbitMQ 在实际应用时要注意的问题

算法日记8：StarryCoding60（单调栈）

大象机器人发布首款穿戴式数据采集器myController S570，助力具身智能数据收集！

【银河麒麟高级服务器操作系统】业务访问慢网卡丢包现象分析及处理过程

C语言之饭店外卖信息管理系统

记一次 .NET某数字化协同管理系统内存暴涨分析

多云管理“拦路虎”：深入解析网络互联、身份同步与成本可视化的技术复杂度

手游刚开服就被攻击怎么办？如何防御DDoS？

Prompt Tuning、P-Tuning、Prefix Tuning的区别

UDP(Echoserver)

Nuxt.js 中的路由配置详解

Qt Http Server模块功能及架构

（转）什么是DockerCompose?它有什么作用？

AspectJ 在 Android 中的完整使用指南

Maven 概述、安装、配置、仓库、私服详解

Neko虚拟浏览器远程协作方案：Docker+内网穿透技术部署实践