【机器学习基础】机器学习入门核心算法:XGBoost 和 LightGBM
机器学习入门核心算法:XGBoost 和 LightGBM
- 一、算法逻辑
- XGBoost (eXtreme Gradient Boosting)
- LightGBM (Light Gradient Boosting Machine)
- 二、算法原理与数学推导
- 目标函数(二者通用)
- 二阶泰勒展开:
- XGBoost 分裂点增益计算:
- LightGBM 直方图加速:
- 三、模型评估
- 常用评估指标:
- 过拟合控制:
- 四、应用案例
- XGBoost 典型场景:
- LightGBM 典型场景:
- 五、面试题及答案
- 常见问题:
- 六、相关论文
- 七、优缺点对比
- 总结
一、算法逻辑
XGBoost (eXtreme Gradient Boosting)
- 核心思想:
基于梯度提升框架(Gradient Boosting),通过迭代添加弱学习器(CART树)优化损失函数,支持正则化防止过拟合。 - 关键优化:
- 预排序(Pre-sorted):对特征值预先排序并存储为块结构,加速分裂点查找。
- 加权分位数草图(Weighted Quantile Sketch):近似算法高效生成候选分裂点。
LightGBM (Light Gradient Boosting Machine)
- 核心思想:
针对XGBoost计算效率瓶颈改进,核心是 直方图算法(Histogram-based) 和 生长策略优化。 - 关键创新:
- Gradient-based One-Side Sampling (GOSS):保留大梯度样本,随机采样小梯度样本。
- Exclusive Feature Bundling (EFB):互斥特征捆绑,减少特征维度。
- Leaf-wise 生长策略:选择增益最大叶子分裂,提升精度但可能加深树深。
二、算法原理与数学推导
目标函数(二者通用)
第 t t t 次迭代的目标函数:
O b j ( t ) = ∑ i = 1 n L ( y i , y ^ i ( t − 1 ) + f t ( x i ) ) + Ω ( f t ) Obj^{(t)} = \sum_{i=1}^{n} L(y_i, \hat{y}_i^{(t-1)} + f_t(x_i)) + \Omega(f_t) Obj(t)=i=1∑nL(yi,y^i(t−1)+ft(xi))+Ω(ft)
其中正则项 Ω ( f t ) = γ T + 1 2 λ ∥ w ∥ 2 \Omega(f_t) = \gamma T + \frac{1}{2}\lambda \|w\|^2 Ω(ft)=γT+21λ∥w∥2( T T T为叶子数, w w w为叶子权重)。
二阶泰勒展开:
O b j ( t ) ≈ ∑ i = 1 n [ L ( y i , y ^ ( t − 1 ) ) + g i f t ( x i ) + 1 2 h i f t 2 ( x i ) ] + Ω ( f t ) Obj^{(t)} \approx \sum_{i=1}^{n} \left[ L(y_i, \hat{y}^{(t-1)}) + g_i f_t(x_i) + \frac{1}{2} h_i f_t^2(x_i) \right] + \Omega(f_t) Obj(t)≈i=1∑n[L(yi,y^(t−1))+gift(xi)+21hift2(xi)]+Ω(ft)
其中 g i = ∂ y ^ ( t − 1 ) L ( y i , y ^ ( t − 1 ) ) g_i = \partial_{\hat{y}^{(t-1)}} L(y_i, \hat{y}^{(t-1)}) gi=∂y^(t−1)L(yi,y^(t−1)), h i = ∂ y ^ ( t − 1 ) 2 L ( y i , y ^ ( t − 1 ) ) h_i = \partial_{\hat{y}^{(t-1)}}^2 L(y_i, \hat{y}^{(t-1)}) hi=∂y^(t−1)2L(yi,y^(t−1))。
XGBoost 分裂点增益计算:
G a i n = 1 2 [ ( ∑ i ∈ I L g i ) 2 ∑ i ∈ I L h i + λ + ( ∑ i ∈ I R g i ) 2 ∑ i ∈ I R h i + λ − ( ∑ i ∈ I g i ) 2 ∑ i ∈ I h i + λ ] − γ Gain = \frac{1}{2} \left[ \frac{(\sum_{i \in I_L} g_i)^2}{\sum_{i \in I_L} h_i + \lambda} + \frac{(\sum_{i \in I_R} g_i)^2}{\sum_{i \in I_R} h_i + \lambda} - \frac{(\sum_{i \in I} g_i)^2}{\sum_{i \in I} h_i + \lambda} \right] - \gamma Gain=21[∑i∈ILhi+λ(∑i∈ILgi)2+∑i∈IRhi+λ(∑i∈IRgi)2−∑i∈Ihi+λ(∑i∈Igi)2]−γ
I L , I R I_L, I_R IL,IR 为分裂后左右子节点样本集。
LightGBM 直方图加速:
- 将连续特征离散化为 k k k 个桶(默认256),生成直方图。
- 分裂时遍历直方图桶,计算增益:
G a i n = max j ∈ [ 1 , k ] ( ( ∑ i ∈ B l e f t j g i ) 2 ∑ i ∈ B l e f t j h i + λ + ( ∑ i ∈ B r i g h t j g i ) 2 ∑ i ∈ B r i g h t j h i + λ ) Gain = \max_{j \in [1,k]} \left( \frac{(\sum_{i \in B_{left}^j} g_i)^2}{\sum_{i \in B_{left}^j} h_i + \lambda} + \frac{(\sum_{i \in B_{right}^j} g_i)^2}{\sum_{i \in B_{right}^j} h_i + \lambda} \right) Gain=j∈[1,k]max(∑i∈Bleftjhi+λ(∑i∈Bleftjgi)2+∑i∈Brightjhi+λ(∑i∈Brightjgi)2)
其中 B l e f t j B_{left}^j Bleftj 和 B r i g h t j B_{right}^j Brightj 为按桶 j j j 分裂的样本子集。
三、模型评估
常用评估指标:
任务类型 | 指标 |
---|---|
分类 | AUC, F1-Score, 准确率 |
回归 | RMSE, MAE, R-squared |
排序 | NDCG, MAP |
过拟合控制:
- XGBoost:
gamma
(分裂阈值)、lambda
(L2正则)、subsample
(样本采样)。 - LightGBM:
min_data_in_leaf
、feature_fraction
(特征采样)、lambda_l1/l2
。
四、应用案例
XGBoost 典型场景:
- Kaggle竞赛:2015-2016年多数表格数据竞赛冠军方案。
- 金融风控:预测贷款违约概率(如Lending Club数据集)。
LightGBM 典型场景:
- 大规模数据:腾讯广告点击率预测(十亿级样本)。
- 高维特征:推荐系统特征工程(EFB减少特征维度)。
五、面试题及答案
常见问题:
-
Q: XGBoost 为什么用二阶导数?
A: 二阶导提供损失函数的曲率信息,比一阶导更精准定位最优解,加速收敛。 -
Q: LightGBM 的 Leaf-wise 为什么更快但可能过拟合?
A: Leaf-wise 减少不必要的分裂(对比 Level-wise),但树深度可能更大,需通过max_depth
和min_data_in_leaf
约束。 -
Q: 直方图算法的缺点?
A: 离散化引入误差,桶数量少时精度下降(精度与效率权衡)。
六、相关论文
-
XGBoost:
Chen & Guestrin, 2016. “XGBoost: A Scalable Tree Boosting System”
Key: 分布式加权分位数草图、稀疏感知算法。 -
LightGBM:
Ke et al., 2017. “LightGBM: A Highly Efficient Gradient Boosting Decision Tree”
Key: GOSS 样本采样、EFB 特征捆绑、直方图优化。
七、优缺点对比
算法 | 优点 | 缺点 |
---|---|---|
XGBoost | 1. 精度高,正则化强; 2. 支持自定义损失函数; 3. 树结构可解释性好。 | 1. 内存消耗大(预排序); 2. 训练速度较慢。 |
LightGBM | 1. 训练速度快3~5倍; 2. 内存占用低; 3. 支持大规模数据并行。 | 1. 小数据集易过拟合; 2. 离散化可能损失精度。 |
总结
- XGBoost:精度优先,适合中小规模数据、需强正则化的场景。
- LightGBM:效率优先,适合大规模数据、高维特征、实时性要求高的场景。
两者均属于GBDT优化框架,选择需权衡数据规模、特征维度与精度要求。
相关文章:

【机器学习基础】机器学习入门核心算法:XGBoost 和 LightGBM
机器学习入门核心算法:XGBoost 和 LightGBM 一、算法逻辑XGBoost (eXtreme Gradient Boosting)LightGBM (Light Gradient Boosting Machine) 二、算法原理与数学推导目标函数(二者通用)二阶泰勒展开:XGBoost 分裂点增益计算&#…...

Linux | Shell脚本的常用命令
一. 常用字符处理命令 1.1 连续打印字符seq seq打印数字;且只能正向打印,不可反向连续打印 设置打印步长 指定打印格式 1.2 反向打印字符tac cat 正向,tac 反向 1.3 打印字符printf printf "打印的内容"指定格式打印内容 换行…...
跑步的强度等级分类
概述 最大心率简化计算公式是【220-年龄】,具体值建议通过实际测试校准。在跑步训练中,以最大心率(Heart Rate Maximum)为指标对强度分类,常见分类对应的心率区间如下: 强度等级心率区间(% HR…...

【JUC】深入解析 JUC 并发编程:单例模式、懒汉模式、饿汉模式、及懒汉模式线程安全问题解析和使用 volatile 解决内存可见性问题与指令重排序问题
单例模式 单例模式确保某个类在程序中只有一个实例,避免多次创建实例(禁止多次使用new)。 要实现这一点,关键在于将类的所有构造方法声明为private。 这样,在类外部无法直接访问构造方法,new操作会在编译…...

2025年全国青少年信息素养大赛复赛C++算法创意实践挑战赛真题模拟强化训练(试卷3:共计6题带解析)
2025年全国青少年信息素养大赛复赛C++算法创意实践挑战赛真题模拟强化训练(试卷3:共计6题带解析) 第1题:四位数密码 【题目描述】 情报员使用4位数字来传递信息,同时为了防止信息泄露,需要将数字进行加密。数据加密的规则是: 每个数字都进行如下处理:该数字加上5之后除…...

Mongodb | 基于Springboot开发综合社交网络应用的项目案例(中英)
目录 Project background Development time Project questions Create Project create springboot project project framework create folder Create Models user post Comment Like Message Serive tier user login and register Dynamic Publishing and Bro…...

飞腾D2000与FPGA结合的主板
UD VPX-404是基于高速模拟/数字采集回放、FPGA信号实时处理、CPU主控、高速SSD实时存储架构开发的一款高度集成的信号处理组合模块,采用6U VPX架构,模块装上外壳即为独立整机,方便用户二次开发。 UD VPX-404模块的国产率可达到100%࿰…...

百度量子蜘蛛3.0横空出世,搜索引擎迎来“量子跃迁“级革命
一、量子蜘蛛3.0的三大颠覆性升级 1. 动态抓取:让内容实时"量子纠缠" - 智能频率调节:根据网站更新频率自动调整抓取节奏,新闻类站点日抓取量达3-5次,静态页面抓取间隔延长至72小时。某财经媒体通过"热点事件15分钟…...

GitHub开源|AI顶会论文中文翻译PDF合集(gpt-translated-pdf-zh)
项目核心特点 该项目专注于提供计算机科学与人工智能领域的高质量中文翻译资源,以下为关键特性: 主题覆盖广泛:包含算法、数据结构、概率统计等基础内容,以及深度学习、强化学习等前沿研究方向。格式统一便捷:所有文…...
JSR 303(即 Bean Validation)是一个通过注解在 Java Bean 上定义和执行验证规则的规范
🛠️ 一、JSR 303是什么? JSR 303(Java Specification Requests 303)是Java EE 6的子规范,全称Bean Validation。它通过注解方式对JavaBean的属性值进行标准化校验,例如检查非空、长度、格式等规则…...
5G 网络中的双向认证机制解析
一、5G 网络中的双向认证机制解析 在 5G 核心网中,双向认证是指UE(用户设备)与网络互相验证对方身份的过程。这一机制通过多层次的安全协议和密钥交换,确保通信双方的合法性,防止中间人攻击和身份伪造。 1. UE 存储的关键信息 UE 作为用户终端,存储以下核心安全信息:…...
DAY07:Vue Router深度解析与多页面博客系统实战
第一部分:Vue Router核心概念深度剖析 1.1 现代前端路由的本质 在单页应用(SPA)时代,前端路由扮演着至关重要的角色。它突破了传统多页面应用的跳转方式,通过以下机制实现无刷新页面切换: Hash模式&#…...

Drawio编辑器二次开发
Drawio (现更名为 Diagrams.net )是一款完全免费的在线图表绘制工具,由 JGraph公司 开发。它支持创建多种类型的图表,包括流程图、组织结构图、UML图、网络拓扑图、思维导图等,适用于商务演示、软件设计等多种场景…...

1.测试过程之需求分析和测试计划
测试基础 流程 1.分析测试需求 2.编写测试计划 3.设计与编写测试用例 4.执行测试 5.评估与总结 测试目标 根据测试阶段不同可分为四个主要目标:预防错误(早期)、发现错误(开发阶段)、建立信心(验收阶段&a…...
第三十七天打卡
过拟合的判断:测试集和训练集同步打印指标模型的保存和加载 仅保存权重保存权重和模型保存全部信息checkpoint,还包含训练状态 早停策略 过拟合判断 import torch import torch.nn as nn import torch.optim as optim from sklearn.datasets import load…...
Qt 窗口标志(Window Flags)详解:控制窗口样式与行为
在 Qt 中,windowFlags 用于控制窗口的样式和行为,包括标题栏、边框、最大化/最小化按钮等。合理设置 windowFlags 可以自定义窗口的外观和交互方式。本文将详细介绍常用的窗口标志及其组合效果。 1. 基本概念 windowFlags 是一个 Qt::WindowFlags 类型的…...
ABP VNext + CRDT 打造实时协同编辑
🛠️ ABP VNext CRDT 打造实时协同编辑器 🎉 📚 目录 🛠️ ABP VNext CRDT 打造实时协同编辑器 🎉🧠 背景与挑战🔹 系统架构🛣️ 端到端流程 🚦🔒 安全与鉴…...
微信小程序真机调试时如何实现与本地开发环境服务器交互
最近在开发微信小程序项目,真机调试时需要在手机上运行小程序,为了实现本地开发服务器与手机小程序的交互,需要以下步骤 1.将手机连到和本地一样的局域网 2.Visual Studio中将IIS Express服务器的localhost端口地址修改为本机的IP自定义的端口: 1)找到web api项目…...
Linux: network: dpdk, VF, ip link set down 对VF不生效
文章目录 问题另一个测试的结果是从dpdk的文档看怎么设置VF给VM内核的调用需要使用的命令问题 最近遇到一个问题,也可以说是一种常识,至少是之前不知道的常识:如果一个VF分配给了VM用作dpdk的输入。在host做ip link set down 这个PF的接口,对这个VM里的VF的功能没有任何影…...

[春秋云镜] CVE-2023-23752 writeup
首先奉上大佬的wp表示尊敬:(很详细)[ 漏洞复现篇 ] Joomla未授权访问Rest API漏洞(CVE-2023-23752)_joomla未授权访问漏洞(cve-2023-23752)-CSDN博客 知识点 Joomla版本为4.0.0 到 4.2.7 存在未授权访问漏洞 Joomla是一套全球知名的内容管理…...
Java集合操作常见错误与最佳实践
错误69:搜索无关类型的对象 泛型方法的类型安全漏洞 在Java引入参数化类型前,集合元素只能声明为Object类型,导致可以随意将字符串添加到数值列表中。虽然泛型机制对添加元素的方法进行了类型约束,但搜索和删除相关方法仍保留了Object类型的参数设计。这包括以下关键方法…...

CSS专题之水平垂直居中
前言 石匠敲击石头的第 16 次 在日常开发中,经常会遇到水平垂直居中的布局,虽然现在基本上都用 Flex 可以轻松实现,但是在某些无法使用 Flex 的情况下,又应该如何让元素水平垂直居中呢?这也是一道面试的必考题…...
python打卡day41@浙大疏锦行
知识回顾 1. 数据增强 2. 卷积神经网络定义的写法 3. batch归一化:调整一个批次的分布,常用与图像数据 4. 特征图:只有卷积操作输出的才叫特征图 5. 调度器:直接修改基础学习率 卷积操作常见流程如下: 1. …...
vue3 基本语法 父子关系
在Vue 3中,父子组件的关系是通过组件的嵌套实现的。父组件可以传递数据(props)给子组件,同时子组件可以通过事件(emits)与父组件通信。下面是如何在Vue 3中建立和使用父子组件的基本语法: 1. 创…...
算法-js-子集
题:给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集(幂集)。解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 方法一:迭代法 核心逻辑:动态扩展子集, 小规…...

(新)MQ高级-MQ的可靠性
消息到达MQ以后,如果MQ不能及时保存,也会导致消息丢失,所以MQ的可靠性也非常重要。 一、数据持久化 为了提升性能,默认情况下MQ的数据都是在内存存储的临时数据,重启后就会消失。为了保证数据的可靠性,必须…...
Android设置界面层级为最上层实现
Android设置界面层级为最上层实现 文章目录 Android设置界面层级为最上层实现一、前言二、Android设置界面层级为最上层实现1、主要代码2、后遗症 三、其他1、Android设置界面层级为最上层小结2、悬浮框的主要代码悬浮框 注意事项(1)权限限制(…...
云原生微服务架构演进之路:理念、挑战与实践
📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:架构的演进是业务进化的技术反射 在软件行业的发展过程中,架构变迁总是伴随着技术浪潮与业务复杂度的升…...
Go语言使用阿里云模版短信服务
在当今的互联网项目中,短信验证码、通知等功能已成为标配。本文将详细介绍如何使用Go语言集成阿里云短信服务(DYSMSAPI)实现短信发送功能。 一、准备工作 在开始之前,您需要完成以下准备工作: 注册阿里云账号并实名认证开通短信服务(SMS)申…...

Leetcode 3231. 要删除的递增子序列的最小数量
1.题目基本信息 1.1.题目描述 给定一个整数数组 nums,你可以执行任意次下面的操作: 从数组删除一个 严格递增 的 子序列。 您的任务是找到使数组为 空 所需的 最小 操作数。 1.2.题目地址 https://leetcode.cn/problems/minimum-number-of-increas…...