当前位置：首页 > news >正文

sklearn中的决策树-分类树：重要参数

news 2025/11/26 18:54:22

分类树

sklearn.tree.DecisionTreeClassifier

sklearn.tree.DecisionTreeClassifier (criterion=’gini’ # 不纯度计算方法, splitter=’best’ # best & random, max_depth=None # 树最大深度, min_samples_split=2 # 当前节点可划分最少样本数, min_samples_leaf=1 # 子节点最少样本数, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

重要参数

criterion

criterion这个参数正是用来决定不纯度的计算方法的。

sklearn提供了两种选择：

输入”entropy“，使用信息熵（Entropy），sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。
输入”gini“，使用基尼系数（Gini Impurity）

$\sum \limits_{i=0}^{c-1} p(i|t)\log{_2}p(i|t)$

$\sum_{i=0}^{c-1}p(i|t)^2$

其中t代表给定的节点，i代表标签的任意分类， $p (i ∣ t)$ 代表标签分类i在节点t上所占的比例。注意，当使用信息熵时，sklearn实际计算的是基于信息熵的信息增益(Information Gain)，即父节点的信息熵和子节点的信息熵之差。比起基尼系数，信息熵对不纯度更加敏感，对不纯度的惩罚最强。但是在实际使用中，信息熵和基尼系数的效果基本相同。信息熵的计算比基尼系数缓慢一些，因为基尼系数的计算不涉及对数。另外，因为信息熵对不纯度更加敏感，所以信息熵作为指标时，决策树的生长会更加“精细”，因此对于高维数据或者噪音很多的数据，信息熵很容易过拟合，基尼系数在这种情况下效果往往比较好。当模型拟合程度不足的时候，即当模型在训练集和测试集上都表现不太好的时候，使用信息熵。当然，这些不是绝对的。

参数	criterion
如何影响模型?	确定不纯度的计算方法，帮忙找出最佳节点和最佳分枝，不纯度越低，决策树对训练集的拟合越好
可能的输入有哪些？	不填默认基尼系数，填写gini使用基尼系数，填写entropy使用信息增益
怎样选取参数？	通常就使用基尼系数数据维度很大，噪音很大时使用基尼系数维度低，数据比较清晰的时候，信息熵和基尼系数没区别当决策树的拟合程度不够的时候，使用信息熵，两个都试试不好就换另一个

# -*- coding: utf-8 -*-"""
**************************************************
@author:   Ying                                      
@software: PyCharm                       
@file: 分类树_criterion.py
@time: 2021-08-20 16:13                          
**************************************************
"""
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd
import graphviz# 加载数据
wine = load_wine()
data = pd.DataFrame(wine.data, columns=wine.feature_names)  # X
target = pd.DataFrame(wine.target)  # y# 划分训练测试集
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3)# 两种criterionfor criterion_ in ['entropy', 'gini']:clf = tree.DecisionTreeClassifier(criterion=criterion_)clf.fit(X_train, y_train)score = clf.score(X_test, y_test)  # 返回预测的准确度print(f'criterion:{criterion_} \t accurancy : {score}')# 保存决策树图feature_name = ['酒精', '苹果酸', '灰', '灰的碱性', '镁', '总酚', '类黄酮', '非黄烷类酚类','花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']dot_data = tree.export_graphviz(clf, feature_names=feature_name, class_names=["琴酒", "雪莉", "贝尔摩德"], filled=True  # 填充颜色, rounded=True  # 圆角)graph = graphviz.Source(dot_data)graph.render(view=True, format="pdf", filename=f"decisiontree_pdf_{criterion_}")# 特征重要性feature_importances = clf.feature_importances_for i in [*zip(feature_name, feature_importances)]:print(i)print()

"""输出如下"""criterion:entropy 	 accurancy : 0.8703703703703703
('酒精', 0.0)
('苹果酸', 0.0)
('灰', 0.0)
('灰的碱性', 0.02494246008989065)
('镁', 0.0)
('总酚', 0.0)
('类黄酮', 0.3296114164674079)
('非黄烷类酚类', 0.0)
('花青素', 0.0)
('颜色强度', 0.14329965511242485)
('色调', 0.0)
('od280/od315稀释葡萄酒', 0.0)
('脯氨酸', 0.5021464683302767)criterion:gini 	 accurancy : 0.8148148148148148
('酒精', 0.0)
('苹果酸', 0.0)
('灰', 0.0)
('灰的碱性', 0.0)
('镁', 0.04779989924874613)
('总酚', 0.06725255711062922)
('类黄酮', 0.3230308396876504)
('非黄烷类酚类', 0.0)
('花青素', 0.0235378291755189)
('颜色强度', 0.0)
('色调', 0.0)
('od280/od315稀释葡萄酒', 0.0878400745934749)
('脯氨酸', 0.45053880018398057)

回到模型步骤，每次运行score会在某个值附近波动，引起每次画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？

无论决策树模型如何进化，在分枝上的本质都还是追求某个不纯度相关的指标的优化，而正如我们提到的，不纯度是基于节点来计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的节点能够保证最优的树吗？集成算法被用来解决这个问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分枝时，不从使用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。这样，每次生成的树也就不同了。

random_state&spliter

random_state用来设置分枝中的随机模式的参数，默认None，在高维度时随机性会表现更明显，低维度的数据（比如鸢尾花数据集），随机性几乎不会显现。输入任意整数，会一直长出同一棵树，让模型稳定下来。

splitter也是用来控制决策树中的随机选项的，有两种输入值:

best
random

输入”best"，决策树在分枝时虽然随机，但是还是会优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_查看）

输入“random"，决策树在分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。当然，树一旦建成，我们依然是使用剪枝参数来防止过拟合。

# -*- coding: utf-8 -*-"""
**************************************************
@author:   Ying                                      
@software: PyCharm                       
@file: 2、分类树_random_state&spliter.py
@time: 2021-08-20 16:58                          
**************************************************
"""from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
import pandas as pd
import graphviz# 加载数据
wine = load_wine()
data = pd.DataFrame(wine.data, columns=wine.feature_names)  # X
target = pd.DataFrame(wine.target)  # y# 划分训练测试集
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.3)clf = tree.DecisionTreeClassifier(criterion='gini', random_state=30, splitter='best')clf.fit(X_train, y_train)
score = clf.score(X_test, y_test)  # 返回预测的准确度# 保存决策树图
feature_name = ['酒精', '苹果酸', '灰', '灰的碱性', '镁', '总酚', '类黄酮', '非黄烷类酚类','花青素', '颜色强度', '色调', 'od280/od315稀释葡萄酒', '脯氨酸']dot_data = tree.export_graphviz(clf, feature_names=feature_name, class_names=["琴酒", "雪莉", "贝尔摩德"], filled=True  # 填充颜色, rounded=True  # 圆角)
graph = graphviz.Source(dot_data)graph.render(view=True, format="pdf", filename="decisiontree_pdf")# 特征重要性
feature_importances = clf.feature_importances_a = pd.DataFrame([*zip(feature_name, feature_importances)])
a.columns = ['feature', 'importance']
a.sort_values('importance', ascending=False, inplace=True)
print(a)

sklearn中的决策树-分类树：重要参数

分类树

重要参数

criterion

random_state&spliter

相关文章：

sklearn中的决策树-分类树：重要参数

25林业研究生复试面试问题汇总林业专业知识问题很全！林业复试全流程攻略林业考研复试真题汇总

DeepSeek最新开源动态：核心技术公布

Electron通过ffi-napi调用dll导出接口

【排序算法】六大比较类排序算法——插入排序、选择排序、冒泡排序、希尔排序、快速排序、归并排序【详解】

计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化民宿爬虫大数据毕业设计(源码+LW文档+PPT+讲解)

【Java学习】抽象类与接口

SpringBoot中实现限流和熔断功能

61.旋转链表--字节跳动

verilog笔记

c++中sleep是什么意思（不是Sleep() )

Uniapp 开发中遇到的坑与注意事项：全面指南

Dify安装教程：Linux系统本地化安装部署Dify详细教程

rtsp rtmp 跟 http 区别

基于YOLO11深度学习的运动鞋品牌检测与识别系统【python源码+Pyqt5界面+数据集+训练代码】

物体识别系统（识别图片中的物体）

数据表的存储过程和函数介绍

【DeepSeek-R1背后的技术】系列九：MLA（Multi-Head Latent Attention，多头潜在注意力）

【JavaWeb12】数据交换与异步请求：JSON与Ajax的绝妙搭配是否塑造了Web的交互革命?

[特殊字符] 蓝桥杯 Java B 组之位运算（异或性质、二进制操作）

铭豹扩展坞 USB转网口突然无法识别解决方法

手游刚开服就被攻击怎么办？如何防御DDoS？

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

R语言AI模型部署方案：精准离线运行详解

STM32+rt-thread判断是否联网

Linux相关概念和易错知识点（42）（TCP的连接管理、可靠性、面临复杂网络的处理）

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

Java数值运算常见陷阱与规避方法

打手机检测算法AI智能分析网关V4守护公共/工业/医疗等多场景安全应用

适应性Java用于现代 API：REST、GraphQL 和事件驱动