当前位置：首页 > news >正文

XGboost的整理

news 2026/5/18 21:28:24

XGboost（extreme gradient boosting）:高效实现了GBDT算法并进行了算法和工程上的许多改进。

XGboost的思路：

目标：建立k个回归树，使得树群的预测尽量接近真实值（准确率）而且有尽量大的泛化能力。

目标函数： $L\left ( \phi \right )=\sum_{i}^{}l\left ( \hat{y_{i}}-y_{i} \right )+\sum_{k}^{}\Omega \left ( f_{k} \right )$

i表示第i个样本， $l\left ( \hat{y_{i}}-y_{i} \right )$ 表示第i个样本的预测误差，误差越小越好， $\sum_{k}^{}\Omega \left ( f_{k} \right )$ 表示树的复杂度的函数，越小复杂度越低，泛化能力越强

$\Omega \left ( f_{t} \right )=\gamma T+\frac{1}{2}\lambda \sum_{j=1}^{T}\omega _{j}^{2}$

T：叶子的个数

$\omega _{j}^{2}$ ：w的L2模平方

目标要求预测尽量小，叶子节点尽量少，节点数值尽量不极端，回归树的参数（1）选取哪个特征分裂节点（2）节点的预测值。间接解决这两个参数的方法：贪心策略+最优化（二次最优化）

（1）选取哪个特征分裂节点：最简单的是枚举，选择loss function效果最好的那个

（2）确立节点的w以及最小的loss function，采用二次函数的求最值

步骤：选择一个feature分裂，计算loss function最小值，然后再选一个feature分列，又得到一个loss function最小值，枚举完成后，找一个效果最好的，把树分裂，在分裂的时候，每次节点分裂，loss function被影响的只有这个节点的样本，因而每次分裂，计算分裂的增益只需要关注打算分裂的那个节点的样本。接下来，继续分裂，按照上述方法，形成一棵树，再形成一棵树，每次在上一次的预测基础上取最优进一步分裂/建树。

停止条件：

①当引入的分裂带来的增益小于一个阈值的时候，可以剪掉这个分裂，所以并不是每一次分裂lossfunction整体都会增加的，有点预剪枝的意思，阈值参数为 $\gamma$ 正则项里叶子节点数T的系数。

②当数达到最大深度时则停止建立决策树，设置一个超参数max_depth，树太深很容易出现过拟合。

③当样本权重和小于设定阈值时则停止建树，一个叶子节点样本太少时，终止，避免过拟合。

constant：常数，对于 $f\left ( x \right )$ ，XGboost利用泰勒展开三项，做一个近似， $f\left ( x \right )$ 表示其中一颗回归树。

XGBoost与GBDT有什么不同：

1、GBDT是机器学习算法，XGboost是该算法的工程实现

2、在使用CART作为及分类器时，XGboost显式地加入了正则项来控制模型的复杂度，有利于防止过拟合，从而提高模型的泛化能力

3、GBDT在模型训练时只是用来代价函数的一阶导数信息，XGboost对代价函数进行二阶泰勒展开，可以同时使用一阶和二阶导数

4、传统的GBDT采用CART作为基分类器，XGboost支持多种类型的基分类器，比如线性分类器

5、传统的GBDT在每轮迭代时使用全部的数据，XGboost则采用了与随机森林相似的策略，支持对数据进行采样

6、传统的GBDT没有设计对缺失值的处理，而XGboost能够自动学习出缺失值的处理策略。

使用xgboost库中的XGBRegressor类来创建XGboost模型

import xgboost as xgb
xgb_clf=xgb.XGBRegressor(max_depth=8,learning_rate=0.1,objective="reg:linear",eval_metric='rmse', n_estimators=3115,colsample_bytree=0.6, reg_alpha=3, reg_lambda=2, gamma=0.6,subsample=0.7, silent=1, n_jobs=-1)

XGBRegressor中的参数介绍：

max_depth：树的最大深度，增加这个值可以使模型更加复杂，并提高队训练数据的拟合程度，但可能会导致过拟合。通常需要通过交叉验证来调整这个参数。

learning_rate：学习率，用于控制每次迭代更新权重时的步长。

objective：定义了学习任务和相应的损失函数，“reg:linear” 表示我们正在解决一个线性回归问题。

eval_metric：评估指标，用于在训练过程中对模型的表现进行评估，‘rmse’ 表示均方根误差（Root Mean Squared Error），它是回归问题中常用的性能指标。

n_estimators：森林中树的数量，值越大，模型越复杂，训练时间也会相应增加。通常需要通过交叉验证来调整这个参数。

colsample_bytree：构建每棵树时对特征进行采样的比例。较小的值可以减少过拟合，提高模型的泛化能力。

reg_alpha：L1正则化项的权重，增加这个值同样也可以增加模型的正则化强度。

gamma：树的叶子节点进一步分裂所需的最小损失减少量。较大值会导致模型更保守，可能会导致模型的过拟合。

subsample：用于训练每棵树的样本占整个训练集的比例。

silent：设置为1可以关闭在运行时的日志信息。

n_jobs：并行运行的作业数。

基本模型：

import pandas as pd
import xgboost as xgb
import pandas
import numpy as np# 将pandas数据框加载到DMatrix
data_train = pandas.DataFrame(np.arange(12).reshape((4,3)), columns=['a', 'b', 'c'])
label_train = pandas.DataFrame(np.random.randint(2, size=4))
dtrain = xgb.DMatrix(data_train, label=label_train, missing=np.NaN) # 缺失值可以用构造函数中的默认值替换DMatrixdata_test = pandas.DataFrame(np.arange(12, 24).reshape((4,3)), columns=['a', 'b', 'c'])
label_test = pandas.DataFrame(np.random.randint(2, size=4))
dtest = xgb.DMatrix(data_test, label=label_test, missing=np.NaN) # 缺失值可以用构造函数中的默认值替换DMatrix# # 将CSV文件加载到DMatrix
# # label_column specifies the index of the column containing the true label
# dtrain = xgb.DMatrix('train.csv?format=csv&label_column=0')
# dtest = xgb.DMatrix('test.csv?format=csv&label_column=0')
# # XGBoost 中的解析器功能有限。当使用Python接口时，建议使用pandasread_csv或其他类似的实用程序而不是XGBoost的内置解析器。param = {'max_depth': 2, 'eta': 1, 'objective': 'binary:logistic'}
param['nthread'] = 4
param['eval_metric'] = ['auc', 'ams@0'] # 指定多个评估指标
# 指定验证集以观察性能
evallist = [(dtrain, 'train'), (dtest, 'eval')]# 训练
num_round = 20
bst = xgb.train(param, dtrain, num_round, evallist, early_stopping_rounds=10) # 返回最后一次迭代的模型，而不是最好的模型
# early_stopping_rounds=10作用：如果模型在10轮内没有改善，则训练将提前停止，如果设置多个指标，则最后一个指标将用于提前停止
# 训练完成后，保存模型
bst.save_model('test_xgboost/0001.model')
# 模型转储到文本文件中
bst.dump_model('test_xgboost/dump.raw.txt')
# 加载模型
bst = xgb.Booster({'nthread': 4})  # 初始化模型，将线程数设置为4
bst.load_model('test_xgboost/0001.model')  # 加载模型
# 如果训练期间启动提前停止，可以从最佳迭代中获得预测
ypred = bst.predict(dtest, iteration_range=(0, bst.best_iteration + 1))
ypred = pd.DataFrame(ypred)
ypred.to_csv('test_xgboost/xgb_predict.csv', index=False)

使用scikit-learn的方法

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_splitimport xgboost as xgbX, y = load_breast_cancer(return_X_y=True) # 加载数据
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=94)
# stratify=y：按目标变量分层划分，确保训练集和测试集中目标变量的比例与原始数据集相同
# random_state=94: 设置随机种子，保证每次划分的结果相同# 使用hist来构建树，并启用早期停止
early_stop = xgb.callback.EarlyStopping(rounds=2, metric_name='logloss', data_name='validation_0', save_best=True
)
clf = xgb.XGBClassifier(tree_method="hist", callbacks=[early_stop])
clf.fit(X_train, y_train, eval_set=[(X_test, y_test)])
# 保存模型
clf.save_model("test_xgboost/clf.json")

https://xgboost.readthedocs.io/en/latest/python/index.html

XGBClassifier与XGBRegressor有什么区别：

目标函数：

XGBClassifier使用逻辑回归作为目标函数，用于分类任务；XGBRegressor使用平方误差 作为目标函数，用于回归任务。

评估指标：

XGBClassifier使用准确率和F1 分数 作为评估指标；XGBRegressor使用 均方误差 或 R2 分数 作为评估指标。

其他区别：

XGBClassifier支持多分类，而 XGBRegressor仅支持回归。XGBClassifier 可以使用树或 线性模型 作为基学习器，而 XGBRegressor 仅支持树作为基学习器。

XGboost的整理

相关文章：

XGboost的整理

java入门基础学习导览

网工内推 | 上市公司售前，大专以上即可，最高15K*13薪，补贴多

JAVA开发第一个Springboot WebApi项目

基于springboot+vue的疫情管理系统

Qt 类的前置声明和头文件包含

Qt+FFmpeg+opengl从零制作视频播放器-1.项目介绍

Learn OpenGL 01

Java开发从入门到精通（一）：Java的基础语法进阶

【C++从0到王者】第五十一站：B+树

Spring Cloud 面试题及答案整理，最新面试题

使用Kali搭建钓鱼网站教程

《TCP/IP详解卷一》第15章 TCP数据流与窗口管理

ContentType类型总结

基于脚手架创建vue工程

【Http】OSI 和 TCP/IP，OSI，TCP/IP为什么网络要分层？

STM32(5) GPIO(2）输出

shell脚本一键部署docker

vue2实现拖拽排序效果

数据结构实验：二叉排序树

英雄联盟智能助手Seraphine：如何用3个核心功能提升你的排位胜率

自制AVR ISP批量编程器：从ZIF插座到AVRDUDE一键烧录全攻略

书成紫微动律定凤凰驯：抛开网络臆想歪论正视海棠山铁哥的大道凰标之道

基于Git与Zenn的内容管理方案：打造高效技术写作工作流

语音克隆从入门到商用变现，手把手教你在TikTok/播客/AI助手部署高保真克隆声，今天就能上线

机器人全身控制与SLAM系统核心技术解析

Apex Legends压枪宏终极指南：轻松掌握自动武器检测与后坐力补偿技术

Netscape 浏览器：互联网时代的先驱者

基于OpenClaw与Railway的自动化部署实践：从原理到实战

数字图像处理入门：像素、通道与卷积操作的核心原理与实践