当前位置：首页 > news >正文

模式识别与机器学习（九）：Adaboost

news 2026/5/16 17:02:27

1.原理

AdaBoost是Adaptive Boosting（自适应增强）的缩写，它的自适应在于：被前一个基本分类器误分类的样本的权值会增大，而正确分类的样本的权值会减小，并再次用来训练下一个基本分类器。同时，在每一轮迭代中，加入一个新的弱分类器，直到达到某个预定的足够小的错误率或预先指定的最大迭代次数再确定最后的强分类器。

1.算法步骤

首先，是初始化训练数据的权值分布D1。假设有N个训练样本数据，则每一个训练样本最开始时，都会被赋予相同的权值：w1 = 1/N。
训练弱分类器Ci。具体训练过程：如果某个训练样本点，被弱分类器Ci准确地分类，那么再构造下一个训练集中，它对应的权值要减小；相反，如果某个训练样本点被错误分类，那么它的权值就应该增大。权值的更新过的样本被用于训练下一个弱分类器，整个过程如此迭代下去。

最后，将各个训练得到的弱分类器组合成一个强分类器。各个弱分类器的训练过程结束后，加大分类误差率小的弱分类器的权重，使其在最终的分类函数中起着较大的决定作用，而降低分类误差率大的弱分类器的权重，使其在最终的分类函数中起着较小的决定作用。
换而言之，误差率低的弱分类器在最终分类器中占的权重较大，否则较小。

2.算法过程

(1).首先，初始化训练集的权值分布。每个训练样本最开始都被赋予相同的权值： $w_{i}=\frac{1}{N}$ 这样样本集的权值初始分布为 $D_{1}(i)=(w_{1},w_{2},\cdots w_{N})=\left(\frac{1}{N},\frac{1}{N},\cdots\frac{1}{N}\right)$
(2).进行迭代 $t=1,2,\cdots,T$

(a).选取一个当前误差率最低的分类器h作为第t个基分类器H_t，并计算弱分类器h_t在训练集上的分类误差率： $e_{t}=\sum_{i=1}^{m}w_{t,i}I\big(h_{t}(x_{i})\neq f(x_{i})\big)$
(b).计算该分类器在最终分类器中所占的权重：
$\partial_t=\frac{1}{2}\ln\frac{1-e_t}{e_t}$
©.更新样本的权重分布：
$D_{t+1}=\frac{D_texp(-\partial_tf(x)h_t(x))}{Z_t}$
其中: $Z_t=\sum_{i=1}^mw_{t,i}exp\bigl(-\partial_tf(x_i)h_t(x_i)\bigr)$

(3).最后按照弱分类器权重\partial_t组成各个弱分类器：
$\mathrm{f(x)=\sum_{i=1}^T\partial_iH_i(x)}$
通过符号函数sign最终得到一个强分类器：
$H_{final}=sign\big(\mathrm{f(x)}\big)=sign\bigg(\sum_{\mathrm{i}=1}^{\mathrm{T}}\partial_i\operatorname{H_i(x)}\bigg)$

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建AdaBoost分类器
clf = AdaBoostClassifier(n_estimators=50, learning_rate=1.0)# 训练模型
clf.fit(X_train, y_train)# 预测测试集
y_pred = clf.predict(X_test)# 打印预测结果
print(y_pred)

我们使用了鸢尾花数据集，这是一个常用的多类别分类数据集。我们首先加载数据，然后划分为训练集和测试集。然后，我们创建一个AdaBoost分类器，并使用训练集对其进行训练。最后，我们使用训练好的模型对测试集进行预测，并打印出预测结果。

AdaBoostClassifier的参数n_estimators表示弱学习器的最大数量，learning_rate表示学习率，这两个参数都可以根据需要进行调整。在scikit-learn的AdaBoostClassifier中，默认的弱学习器是一个最大深度为1的决策树桩。你也可以通过base_estimator参数来指定其他类型的弱学习器。

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import AdaBoostClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn import svm# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)# 创建朴素贝叶斯分类器作为弱学习器的AdaBoost分类器
clf_nb = AdaBoostClassifier(base_estimator=GaussianNB(), n_estimators=50, learning_rate=1.0)
clf_nb.fit(X_train, y_train)
y_pred_nb = clf_nb.predict(X_test)
print(y_pred_nb)# 创建SVM作为弱学习器的AdaBoost分类器
clf_svm = AdaBoostClassifier(base_estimator=svm.SVC(probability=True, kernel='linear'), n_estimators=50, learning_rate=1.0)
clf_svm.fit(X_train, y_train)
y_pred_svm = clf_svm.predict(X_test)
print(y_pred_svm)

我们首先创建了一个使用朴素贝叶斯分类器作为弱学习器的AdaBoost分类器，然后创建了一个使用SVM作为弱学习器的AdaBoost分类器。注意，对于SVM，我们需要设置probability=True，因为AdaBoost需要使用类别概率。

模式识别与机器学习（九）：Adaboost

1.原理

相关文章：

模式识别与机器学习（九）：Adaboost

【JAVA】分布式链路追踪技术概论

ZooKeeper 使用介绍和原理详解

模式识别与机器学习（八）：决策树

Pinely Round 3 (Div. 1 + Div. 2)（A~D）（有意思的题）

在Linux下探索MinIO存储服务如何远程上传文件

持续集成交付CICD：Linux 部署 Jira 9.12.1

Linux命令-查看内存、GC情况及jmap 用法

nginx安装letsencrypt证书

docker笔记1-安装与基础命令

VSCode软件与SCL编程

Opencv中的滤波器

＜JavaEE＞基于 TCP 的 Socket 通信模型

[THUPC 2024 初赛] 二进制（树状数组单点删除+单点查询）（双堆模拟set）

机器学习算法（11）——集成技术（Boosting——梯度提升）

使用GBASE南大通用负载均衡连接池

Flink 数据序列化

【并发设计模式】聊聊两阶段终止模式如何优雅终止线程

Java实现非对称加密【详解】

simulinkveristandlabview联合仿真——模型导入搭建人机界面

【力扣100题】48.乘积最大子数组

米尔MYS-8MMX开发板实战：从交叉编译到网络视频监控系统搭建

如何用Xenia Canary模拟器重温Xbox 360经典游戏？终极配置与优化指南

百度网盘秒传链接终极指南：免费在线转存、生成与转换全攻略

如何快速上手CircuitJS1桌面版：离线电路仿真的终极指南

ARMv8浮点运算单元与MVFR寄存器深度解析

基于RAG与本地LLM的智能代码库管理工具部署与优化指南

告别‘鬼影’与模糊：深入解读RangeNet++如何用高效kNN后处理搞定LiDAR语义分割的边界难题

教育大模型EduChat：从部署到应用的全链路实践指南

GitHub个人访问令牌实战：告别密码认证，安全推送代码与创建PR