当前位置：首页 > news >正文

梯度提升用于高效的分类与回归

news 2026/2/10 10:57:37

使用 决策树（Decision Tree） 实现 梯度提升（Gradient Boosting） 主要是模拟 GBDT（Gradient Boosting Decision Trees） 的原理，即：

第一棵树拟合原始数据
计算残差（负梯度方向）
用新的树去拟合残差
累加所有树的预测值
重复步骤 2-4，直至达到指定轮数

下面是一个 纯 Python + PyTorch 实现 GBDT（梯度提升决策树） 的代码示例。

1. 纯 Python 实现梯度提升决策树

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split# 生成数据
X, y = make_regression(n_samples=1000, n_features=5, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 参数
n_trees = 50   # 多少棵树
learning_rate = 0.1  # 学习率# 初始化预测值（全部为 0）
y_pred_train = np.zeros_like(y_train)
y_pred_test = np.zeros_like(y_test)# 训练梯度提升决策树
trees = []
for i in range(n_trees):residuals = y_train - y_pred_train  # 计算残差（负梯度方向）tree = DecisionTreeRegressor(max_depth=3)  # 这里使用较浅的树tree.fit(X_train, residuals)  # 让树学习残差trees.append(tree)# 更新预测值（累加弱学习器的结果）y_pred_train += learning_rate * tree.predict(X_train)y_pred_test += learning_rate * tree.predict(X_test)# 计算损失mse = mean_squared_error(y_train, y_pred_train)print(f"Iteration {i+1}: MSE = {mse:.4f}")# 计算最终测试集误差
final_mse = mean_squared_error(y_test, y_pred_test)
print(f"\nFinal Test MSE: {final_mse:.4f}")

代码解析

第一步：构建一个基础决策树 DecisionTreeRegressor(max_depth=3)。
第二步：每棵树学习前面所有树的残差（负梯度方向）。
第三步：训练 n_trees 棵树，每棵树的预测结果乘以 learning_rate 累加到最终预测值。
第四步：每次迭代后更新预测值，减少误差。

2. 用 PyTorch 实现 GBDT

虽然 GBDT 主要基于决策树，但如果你希望用 PyTorch 计算梯度并模拟 GBDT，可以如下操作：

用 PyTorch 计算 损失函数的梯度
用 sklearn.tree.DecisionTreeRegressor 拟合梯度
用 PyTorch 计算最终误差

import torch
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split# 生成数据
X, y = make_regression(n_samples=1000, n_features=5, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 参数
n_trees = 50  # 多少棵树
learning_rate = 0.1  # 学习率# 转换数据为 PyTorch 张量
X_train_torch = torch.tensor(X_train, dtype=torch.float32)
y_train_torch = torch.tensor(y_train, dtype=torch.float32)# 初始化预测值
y_pred_train = torch.zeros_like(y_train_torch)# 训练 GBDT
trees = []
for i in range(n_trees):# 计算梯度（残差）residuals = y_train_torch - y_pred_train# 用决策树拟合梯度tree = DecisionTreeRegressor(max_depth=3)tree.fit(X_train, residuals.numpy())trees.append(tree)# 更新预测值y_pred_train += learning_rate * torch.tensor(tree.predict(X_train), dtype=torch.float32)# 计算损失mse = mean_squared_error(y_train, y_pred_train.numpy())print(f"Iteration {i+1}: MSE = {mse:.4f}")

PyTorch 实现的关键点

y_train_torch - y_pred_train 计算 损失的梯度
DecisionTreeRegressor 作为弱学习器，拟合梯度
预测值 += learning_rate * tree.predict(X_train)

3. 结合 PyTorch 和 XGBoost

如果你要 结合 PyTorch 和 GBDT，可以先用 XGBoost 训练 GBDT，再用 PyTorch 进行深度学习：

import xgboost as xgb
import torch.nn as nn
import torch.optim as optim
import torch
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split# 生成数据
X, y = make_regression(n_samples=1000, n_features=5, noise=0.1, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 训练 XGBoost 作为特征提取器
xgb_model = xgb.XGBRegressor(n_estimators=50, max_depth=3, learning_rate=0.1)
xgb_model.fit(X_train, y_train)# 提取 XGBoost 叶子节点特征
X_train_leaves = xgb_model.apply(X_train)
X_test_leaves = xgb_model.apply(X_test)# 定义 PyTorch 神经网络
class NeuralNet(nn.Module):def __init__(self, input_size):super(NeuralNet, self).__init__()self.fc = nn.Linear(input_size, 1)def forward(self, x):return self.fc(x)# 训练 PyTorch 神经网络
model = NeuralNet(X_train_leaves.shape[1])
optimizer = optim.Adam(model.parameters(), lr=0.01)
loss_fn = nn.MSELoss()X_train_tensor = torch.tensor(X_train_leaves, dtype=torch.float32)
y_train_tensor = torch.tensor(y_train, dtype=torch.float32).view(-1, 1)for epoch in range(100):optimizer.zero_grad()output = model(X_train_tensor)loss = loss_fn(output, y_train_tensor)loss.backward()optimizer.step()print("Training complete!")

结论

方法	适用场景	备注
纯 Python GBDT	适合小规模数据	使用 `sklearn.tree.DecisionTreeRegressor`
PyTorch 计算梯度 + GBDT	适合梯度优化实验	计算梯度后用 `DecisionTreeRegressor` 训练
XGBoost + PyTorch	适合大规模数据	先用 XGBoost 提取特征，再用 PyTorch 训练

如果你的数据是结构化的（如 表格数据），建议 直接使用 XGBoost/LightGBM，再结合 PyTorch 进行特征工程或后处理。

梯度提升用于高效的分类与回归

使用决策树（Decision Tree） 实现梯度提升（Gradient Boosting） 主要是模拟 GBDT（Gradient Boosting Decision Trees） 的原理，即： 第一棵树拟合原始数据计算残差（负梯度…...

编程日记 2025/1/31 9:34:52

GSE218208 1.创建Seurat对象 #untar(“GSE218208_RAW.tar”) rm(list ls()) a data.table::fread("GSM6736629_10x-PBMC-1_ds0.1974_CountMatrix.tsv.gz",data.table F) a[1:4,1:4] library(tidyverse) a$alias:gene str_split(a$alias:gene,":",si…...

编程日记 2025/1/31 9:29:33

设计模式 - 行为模式_Template Method Pattern模板方法模式在数据处理中的应用

文章目录概述1. 核心思想2. 结构3. 示例代码4. 优点5. 缺点6. 适用场景7. 案例：模板方法模式在数据处理中的应用案例背景UML搭建抽象基类 - 数据处理的 “总指挥”子类定制 - 适配不同供应商供应商 A 的数据处理器供应商 B 的数据处理器在业务代码中整合运用 8. 总…...

编程日记 2025/1/31 9:27:29

新春登蛇山：告别岁月，启航未来

大年初一，晨曦透过薄雾，温柔地洒在武汉的大街小巷。2025 年的蛇年春节，带着新春的喜气与希望悄然而至。我站在蛇山脚下，心中涌动着复杂的情感，因为今天，我不仅将与家人一起登山揽胜，更将在这一天…...

编程日记 2025/1/31 9:24:10

hive:基本数据类型,关于表和列语法

基本数据类型 Hive 的数据类型分为基本数据类型和复杂数据类型加粗的是常用数据类型 BOOLEAN出现ture和false外的其他值会变成NULL值没有number,decimal类似number 如果输入的数据不符合数据类型, 映射时会变成NULL, 但是数据本身并没有被修改创建表创建表的本质其实就是在…...

编程日记 2025/1/31 9:23:01

安装最小化的CentOS7后，执行yum命令报错Could not resolve host mirrorlist.centos.org；未知的错误

文章目录安装最小化的CentOS7后，执行yum命令报错"Could not resolve host: mirrorlist.centos.org; 未知的错误"错误解决方案： 安装最小化的CentOS7后，执行yum命令报错"Could not resolve host: mirrorlist.centos.org; 未知…...

编程日记 2025/1/31 9:17:48

图论——spfa判负环

负环图 G G G中存在一个回路，该回路边权之和为负数，称之为负环。 spfa求负环方法1:统计每个点入队次数, 如果某个点入队n次, 说明存在负环。证明：一个点入队n次，即被更新了n次。一个点每次被更新时所对应最短路的边数一定是…...

编程日记 2025/1/31 9:16:32

软件工程概论试题三

一、单选 1.需求确认主要检査五个方面的内容，其中那一项是为了保证文档中的需求不互相冲突(即不应该有相互矛盾的约束或者对同一个系统功能有不同的描述)。 A.现实性 B. 可验证性 C.一致性 D.正确性 E.完整性正答：C 2.下列开发方法中，( )不…...

编程日记 2025/1/31 9:15:30

21.3-启动流程、编码风格(了解) 第21章-FreeRTOS项目实战--基础知识之新建任务、启动流程、编码风格、系统配置文件组成和编码风格(了解)

21.3-启动流程、编码风格(了解) 启动流程第一种启动流程(我们就使用这个): 在main函数中将硬件初始化、RTOS系统初始化，同时创建所有任务，再启动RTOS调度器。第二种启动流程： 在main函数中将硬件初始化、RTOS系统初始化，只…...

编程日记 2025/1/31 9:14:28

未来无线技术的发展方向

未来无线技术的发展趋势呈现出多样化、融合化的特点，涵盖速度、覆盖范围、应用领域、频段利用、安全性等多个方面。这些趋势将深刻改变人们的生活和社会的运行方式。传输速度提升：Wi-Fi 技术迭代加快，如 Wi-Fi7 理论峰值速率达 46Gbps&#…...

编程日记 2025/1/31 9:13:20

Qt5离线安装包无法下载问题解决办法

想在电脑里装一个Qt，但是直接报错。果然还是有解决办法滴。 qt download from your ip is not allowed Qt5安装包下载办法方法一：简单直接，直接科学一下，不过违法行为咱不做，遵纪守法好公民（不过没办法阻…...

编程日记 2025/1/31 9:06:01

qt-C++笔记之QLine、QRect、QPainterPath、和自定义QGraphicsPathItem、QGraphicsRectItem的区别

qt-C笔记之QLine、QRect、QPainterPath、和自定义QGraphicsPathItem、QGraphicsRectItem的区别 code review! 参考笔记 1.qt-C笔记之重写QGraphicsItem的paint方法(自定义QGraphicsItem) 文章目录 qt-C笔记之QLine、QRect、QPainterPath、和自定义QGraphicsPathItem、QGraphic…...

编程日记 2025/1/31 9:04:55

doris：导入时实现数据转换

Doris 在数据导入时提供了强大的数据转换能力，可以简化部分数据处理流程，减少对额外 ETL 工具的依赖。主要支持以下四种转换方式： 列映射：将源数据列映射到目标表的不同列。列变换：使用函数和表达式对源数据进行实时…...

编程日记 2025/1/31 9:02:43

新版231普通阿里滑块自动化和逆向实现分析

声明: 本文章中所有内容仅供学习交流使用，不用于其他任何目的，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！ 逆向过程补环境逆向部分补环境 …...

编程日记 2025/1/31 9:00:31

如何构建树状的思维棱镜认知框架

在思维与知识管理中，“树状思维棱镜”通常指一种层级式、可多维度展开和不断深入（下钻）的认知框架。它不仅仅是普通的树状结构（如传统思维导图），更强调“棱镜”所体现的多视角、多维度切换与综合分析的能力…...

编程日记 2025/1/31 8:57:28

openRv1126 AI算法部署实战之——ONNX模型部署实战

在RV1126开发板上部署ONNX算法，实时目标检测RTSP传输。视频演示地址 rv1126 yolov5 实时目标检测 rtsp传输_哔哩哔哩_bilibili 一、准备工作 1.从官网下载YOLOv5-v7.0工程（YOLOv5的第7个版本） 手动在线下载： Releases ultraly…...

编程日记 2025/1/31 8:56:20

Vue 组件开发：构建高效可复用的前端界面要素

1 引言在现代 Web 开发中，构建高效且可复用的前端界面要素是提升开发效率和用户体验的关键。Vue.js 作为一种轻量级且功能强大的前端框架，提供了丰富的工具和机制，帮助开发者快速构建高质量的应用程序。通过合理设计和封装 Vue 组件，我们可以实现组件的高效复用，提高开发…...

编程日记 2025/1/31 8:54:14

Vue.js组件开发-实现全屏平滑移动、自适应图片全屏滑动切换

使用Vue实现全屏平滑移动、自适应图片全屏滑动切换的功能。使用Vue 3和Vue Router，并结合一些CSS样式来完成这个效果。步骤创建Vue项目：使用Vue CLI创建一个新的Vue项目。准备图片：将需要展示的图片放在项目的public目录下。创建组件&…...

编程日记 2025/1/31 8:53:08

水果实体店品牌数字化：RWA + 智能体落地方案

一、方案背景随着数字化技术的迅猛发展，实体零售行业正面临前所未有的挑战与机遇。传统的零售模式难以满足消费者对个性化、便捷化、智能化的需求，尤其是在水果等生鲜商品领域，如何通过技术手段提升运营效率、增强顾客体验、拓宽盈利模式&a…...

编程日记 2025/1/31 8:50:52

DeepSeek模型：开启人工智能的新篇章

DeepSeek模型：开启人工智能的新篇章在当今快速发展的技术浪潮中，人工智能（AI）已经成为了推动社会进步和创新的核心力量之一。而DeepSeek模型，作为AI领域的一颗璀璨明珠，正以其强大的功能和灵活的用法&…...

编程日记 2025/1/31 8:49:48

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2026/2/8 20:42:43

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/11/28 6:00:25

深入理解JavaScript设计模式之单例模式

目录什么是单例模式为什么需要单例模式常见应用场景包括单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量惰性单例通用的惰性单例结语什么是单例模式单例模式（Singleton Pattern&#…...

编程新知 2026/1/31 17:09:43

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2026/2/6 19:29:20

解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错

出现的问题安装 flash-attn 会一直卡在 build 那一步或者运行报错解决办法是因为你安装的 flash-attn 版本没有对应上，所以报错，到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本，cu、torch、cp 的版本一定要对…...

编程新知 2025/11/3 2:11:24