当前位置：首页 > news >正文

24/8/9算法笔记随机森林

news 2026/6/5 7:52:55

"极限森林"（Extremely Randomized Trees，简称ERT）是一种集成学习方法，它属于决策树的变体，通常被归类为随机森林（Random Forest）的一种。极限森林的核心思想是在构建决策树时引入极端的随机性，以此来提高模型的多样性，减少过拟合的风险，并可能提高模型的泛化能力。

导入包

from sklearn.ensemble import RandomForestClassifierfrom sklearn.tree import DecisionTreeClassifier
from sklearn import tree 
from sklearn import datasets
import graphvizfrom sklearn.model_selection import train_test_split
import numpy as np

X,y =datasets.load_wine(return_X_y=True)
X_train,X_test,y_train,y_test = train_test_split(X,y)

一棵树

score =0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)model = DecisionTreeClassifier()model.fit(X_train,y_train)score += model.score(X_test,y_test)/100print('一棵决策树平均得分',score)

随机森林(多棵树)

score =0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)#分类器clfclf = RandomForestClassifier(n_estimators=100)#表示100棵树组成随机森林clf.fit(X_train,y_train)score += model.score(X_test,y_test)/100print('随机森林平均得分',score)

两种算法比较(准确率)

model.predict_proba(X_test)#一棵树，叶节点，落到哪个叶节点算作哪一类，概率0.1

clf.predict_proba(X_test)#森林

可视化

X_train.shape

#随机森林100棵
#先画第一棵树
dot_data = tree.export_graphviz(clf[0],filled =True,rounded = True)
graphviz.Source(dot_data)

#第50棵树
dot_data = tree.export_graphviz(clf[49],filled =True,rounded = True)
graphviz.Source(dot_data)

#最后一棵树
dot_data = tree.export_graphviz(clf[99],filled =True,rounded = True)
graphviz.Source(dot_data)

#随机森林步骤
#1.随机选择样本(放回抽样)
#2.随机选择特征
#3.构建决策树
#4.随机森林投票

#优点
#1.表现良好
#2.可以处理高纬度数据（维度随机选择）
#3.辅助进行特征选择
#4.得益于Bagging可以进行并行训练

#缺点
#对于噪声过大的数据容易过拟合

极限森林

#从分裂随机中筛选最优分裂条件

#依然使用上面的数据

from sklearn.ensemble import ExtraTreesClassifier

score = 0
for i in range(100):X_train,X_test,y_train,y_test = train_test_split(X,y)#葡萄酒的价格clf2 = ExtraTreesClassifier(max_depth = 3)#深度限制clf2.fit(X_train,y_train)score +=clf2.score(X_test,y_test)/100
print('极限森林平均得分是',score)

#第一棵树
dot_data = tree.export_graphviz(clf2[0],filled=True,rounded=True)
graphviz.Source(dot_data)

#第100棵树
dot_data = tree.export_graphviz(clf2[-1],filled=True,rounded=True)
graphviz.Source(dot_data)

计算gini系数

count = []
for i in range(3):count.append((y_train ==i).sum())
count = np.array(count)
p = count/count.sum()#计算概率
gini = (p*(1-p)).sum()
print('未分裂，gini系数是：',round(gini,3))

Gini系数，全称为Gini不纯度（Gini impurity），是决策树算法中用于选择最佳分裂属性的一个指标。它衡量的是数据集中的不确定性或不纯度。Gini不纯度越低，表示数据集的纯度越高，即数据集中的样本属于同一个类别的可能性越大。

Gini不纯度的计算公式如下：

其中，nn 是数据集中类别的数量，pipi 是选择的属性第 ii 个类别的样本比例。

24/8/9算法笔记随机森林

一棵树

随机森林(多棵树)

两种算法比较(准确率)

可视化

极限森林

计算gini系数

相关文章：

24/8/9算法笔记随机森林

如何在前后端分离项目中，使用Spring Security

c#怎么折叠代码快捷

数据库篇--八股文学习第十七天| 什么是慢查询？原因是什么？可以怎么优化？；undo log、redo log、binlog 有什么用？

插件、cookie存储，json，ajax详解

快速上手Spring Boot

思路超清晰的 LVS-NAT 模式实验部署

Android实时通信：WebSocket与WebRTC的应用与优化

力扣刷题之3131.找出与数组相加的整数I

非线性表之堆的实际应用和二叉树的遍历

os.path库学习之splitext函数

Python知识点：如何使用Sqlmap进行SQL注入测试

Android Gradle开发与应用 (一) : Gradle基础

Linux驱动开发—设备树分析：GPIO，中断，时钟信息，CPU信息

Java全栈解密：从JVM内存管理到Spring框架，揭秘垃圾回收、类加载机制与Web开发精髓的全方位旅程

【探索Linux】P.46（高级IO —— 五种IO模型简介 | IO重要概念）

【MongoDB 】MongoDB 介绍及应用，设计到4个案例

AI浪潮下的程序员生存指南：如何在智能时代锻造不可替代的核心竞争力

Journyx soap_cgi.pyc接口XML外部实体注入漏洞复现 [附POC]

vue 日期控件 100天内的时间禁用不允许选择

酒店门锁V10SDK接口说明-幽冥大陆(一百23)—东方仙盟

App Inventor蓝牙调试避坑指南：从连接失败到数据乱码，一次讲清所有常见问题

为Alchitry Au FPGA开发板外接JTAG接口的完整指南

收藏必看｜2026 版大厂 AI 岗位薪资曝光！普通程序员转型大模型最全指南

照着用就行：2026 最新降AIGC软件测评与推荐

FM3773 低功耗离线式恒流/恒压 PSR 控制器

文件-语言-系统：基础IO-2.0——IO重定向接口，语言层缓冲区，系统级缓冲区。内核级分析！

光轮智能谢晨访谈总结机器人仿真数据产业

Arcmap实操：如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例

具身智能：面向新兴交叉学科建设的思考与建议 2026