当前位置：首页 > news >正文

Lesson 8.1 决策树的核心思想与建模流程

news 2026/5/23 3:14:17

文章目录

一、借助逻辑回归构建决策树
- 1. 决策树实例
- 2. 决策树知识补充
- - 2.1 决策树简单构建
  - 2.2 决策树的分类过程
  - 2.3 决策树模型本质
  - 2.4 决策树的树生长过程
  - 2.5 树模型的基本结构
二、决策树的分类与流派
- 1. ID3(Iterative Dichotomiser 3) 、C4.5、C5.0 决策树
- 2. CART 决策树
- 3. CHAID 树

与此前的聚类算法类似，树模型也同样不是一个模型，而是一类模型的概称。
树模型不仅运算效率高、模型判别能力强、而且原理简单过程清晰、可解释性强，是机器学习领域内为数不多的白箱模型。
并且就树模型本身的功能来说，除了能够同时进行分类和回归预测外，还能够产出包括特征重要性、连续变量分箱指标等重要附加结论，而在集成学习中，最为常用的基础分类器也正是树模型。
正是这些优势，使得树模型成为目前机器学习领域最为重要的模型之一。

一、借助逻辑回归构建决策树

1. 决策树实例

那到底什么是树模型？接下来我们简单介绍树模型建模的基本思想。
尽管树模型作为经典模型，发展至今已是算法数量众多、流派众多，但大多数树模型的基本思想其实是相通的，我们可以用一句话来解释树模型的模型形态和建模目标，那就是：挖掘有效分类规则并以树状形式呈现。
接下来我们就以一个简单实例进行说明，我们借助此前所学的基本建模知识，尝试复现决策树的基本分类思想。
在最开始，我们先导入常用的模块。

# 科学计算模块
import numpy as np
import pandas as pd

# 绘图模块
import matplotlib as mpl
import matplotlib.pyplot as plt

# 自定义模块
from ML_basic_function import *

# Scikit-Learn相关模块
# 评估器类
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import GridSearchCV

# 实用函数
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# 数据准备
from sklearn.datasets import load_iris

在 Lesson 6.5 节中，我们曾围绕鸢尾花数据集构建了多分类逻辑回归模型并且采用网格搜索对其进行最优超参数搜索，其基本过程如下：

# 数据准备
X, y = load_iris(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=24)# 模型训练
# 实例化模型
clf = LogisticRegression(max_iter=int(1e6), solver='saga')
# 构建参数空间
param_grid_simple = {'penalty': ['l1', 'l2'], 'C': [1, 0.5, 0.1, 0.05, 0.01]}
# 构建网格搜索评估器
search = GridSearchCV(estimator=clf, param_grid=param_grid_simple)
# 模型训练
search.fit(X_train, y_train)
#GridSearchCV(estimator=LogisticRegression(max_iter=1000000, solver='saga'),
#             param_grid={'C': [1, 0.5, 0.1, 0.05, 0.01], 'penalty': ['l1', 'l2']})search.best_params_
#{'C': 1, 'penalty': 'l1'}search.best_estimator_.coef_
#array([[ 0.        ,  0.        , -3.47337669,  0.        ],
#       [ 0.        ,  0.        ,  0.        ,  0.        ],
#       [-0.55511761, -0.34237661,  3.03227709,  4.12148646]])search.best_estimator_.intercept_
#array([ 11.85884734,   2.65291107, -14.51175841])

我们发现，在参数组取值为 {‘C’: 1, ‘penalty’: ‘l1’} 的情况下，三个逻辑回归方程中，第一个方程只包含一个系数，也就是说明第一个方程实际上只用到了原数据集的一个特征，第二个方程自变量系数均为 0、基本属于无用方程，而只有第三个方程自变量系数都不是 0、看起来比较正常。
我们知道，对于多分类问题，逻辑回归所构建的模型方程实际上是每个方程对应预测一个类别，而由于总共只有三个类别，因此是允许存在一个类别的预测方程失效的，只要剩下的两个类别能够各自完成对应类别的预测，则剩下的样本就属于第三类。
此处我们需要重点关注的是第一个方程，该方程只有一个非零系数，其背后含义是模型只借助特征矩阵中的第三个特征，就很好的将第一类鸢尾花和其他鸢尾花区分开了。
我们进一步观察数据和第三个特征对于第一个类别的分类结果：

iris = load_iris(as_frame=True)
iris.data
#	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)
#0	5.1	3.5	1.4	0.2
#1	4.9	3.0	1.4	0.2
#2	4.7	3.2	1.3	0.2
#3	4.6	3.1	1.5	0.2
#4	5.0	3.6	1.4	0.2
#...	...	...	...	...
#145	6.7	3.0	5.2	2.3
#146	6.3	2.5	5.0	1.9
#147	6.5	3.0	5.2	2.0
#148	6.2	3.4	5.4	2.3
#149	5.9	3.0	5.1	1.8
#150 rows × 4 columnst = np.array(iris.target)
t[50:]
#array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
#       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
#       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])# 将2、3类划归为一类
t[50:] = 1
t
#array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])# 此处提取第3、4个特征放置二维空间进行观察，用第三个特征和其他特征组合也是类似
d = np.array(iris.data.iloc[:, 2: 4])plt.scatter(d[:, 0], d[:, 1], c=t)
plt.plot(np.array([2.5]*25), np.arange(0, 2.5, 0.1), 'r--')

在这里插入图片描述

我们发现，确实可以通过第三个特征（横坐标）很好的区分第一类（紫色点簇）和其他两类（黄色点簇），也就是说，从分类结果来看，我们能够简单通过一个分类规则来区分第一类鸢尾花和其他两类.
例如从上图可以看出，我们可以以 petal length (cm) <= 2.5 作为分类条件，当分类条件满足时，鸢尾花属于第一类，否则就属于第二、三类。至此我们集完成了对上述数据集的初步分类，基本分类情况可以通过下图来进行表示：

在这里插入图片描述

当然围绕上述未分类的二、三类鸢尾花数据，我们能否进一步找到类似刚才的分类规则对其进行有效分类呢？
当然此处由于我们希望分类规则能够尽可能简洁，我们力求找出根据某一个特征的取值划分就能对数据集进行有效分类的方法，这时我们可以考虑先利用逻辑回归的 $l 1$ 正则化挑选出对二、三类分类最有分类效力的特征（也就是最重要的特征）。
然后根据只有一个特征系数不为 0 的带 $l 1$ 正则化的逻辑回归建模结果、找到决策边界，而该决策边界就是依据该单独特征划分 Iris 二、三类子数据的最佳方法。我们可以通过下述代码实现：

# 提取待分类的子数据集
X = np.array(iris.data)[t == 1]
y = np.array(iris.target)[t == 1]

接下来，我们构建一个包含 $l 1$ 正则化的逻辑回归模型，并通过不断调整 C 的取值、通过观察参数系数变化情况来挑选最重要的特征：

C_l = np.linspace(1, 0.1, 100)coef_l = []

for C in C_l:clf = LogisticRegression(penalty='l1', C=C, max_iter=int(1e6), solver='saga').fit(X, y)coef_l.append(clf.coef_.flatten())ax = plt.gca()
ax.plot(C_l, coef_l)
ax.set_xlim(ax.get_xlim()[::-1])
plt.xlabel('C')
plt.ylabel('weights')
Text(0, 0.5, 'weights')

在这里插入图片描述

coef_l

不难看出，在对鸢尾花数据集的二、三分类的子数据集进行分类时，仍然还是第三个特征会相对重要，因此我们根据上述结果，构建一个正则化项为 $l 1$ 、C 取值为 0.2 的逻辑回归模型进行训练，此时由于其他三个特征的参数都被归零，因此该模型训练过程实际上就相当于带入第三个特征进行建模：

clf = LogisticRegression(penalty='l1', C=0.2, max_iter=int(1e6), solver='saga').fit(X, y)clf.coef_, clf.intercept_
#(array([[0.        , 0.        , 2.84518611, 0.        ]]),
# array([-13.88186328]))clf.score(X, y)
#0.93

此时模型准确率为 93%，同样，如果构建一个只包含第三、四个特征的特征空间，此时上述逻辑回归建模结果的决策边界为 x=b，其中 b 的取值如下：

b = 13.88186328 / 2.84518611
b
#4.87907038179657

我们可以通过可视化的方法观察此时特征空间中样本分布情况，以及 x=b 的决策边界的分类效果：

plt.plot(X[:, 2][y==1], X[:, 3][y==1], 'ro')
plt.plot(X[:, 2][y==2], X[:, 3][y==2], 'bo')
plt.plot(np.array([b]*20), np.arange(0.5, 2.5, 0.1), 'r--')

在这里插入图片描述

当然，我们也可以简单验算下 x=b 的决策边界是否是模型真实的分类边界：

y_pred = clf.predict(X)plt.scatter(X[:, 2], X[:, 3], c=y_pred)
plt.plot(np.array([b]*20), np.arange(0.5, 2.5, 0.1), 'r--')

在这里插入图片描述

注意，在确定第一个分类条件时我们没有直接根据逻辑回归的线性方程计算决策边界的主要原因是彼时逻辑回归方程是在 mvm 分类规则下的三个分类方程，其中每个方程其实都会一定程度上受到其他方程影响，导致决策边界无法直接通过方程系数进行计算。
尽管 x=b 分类边界的准确率不足 100%，但其仍然不失为一个不错的分类规则，即分类条件为 petal length (cm) <= 4.879，当分类条件满足时，鸢尾花属于第二类、不满足时鸢尾花属于第三类。
根据此分类条件进行的分类准确率为 93%。我们可以将围绕鸢尾花子数据集进行二、三类的分类过程进行如下方式表示：

在这里插入图片描述

至此，我们就根据两个简单的分类规则，对鸢尾花数据集进行了有效划分，此时整体准确率为：

1-(y != y_pred).sum() / 150
#0.9533333333333334

2. 决策树知识补充

2.1 决策树简单构建

而上述整个过程，我们是通过带正则化项的逻辑回归模型挖掘出的两个分类规则，并且这两个分类规则呈现递进的关系，也就是一个分类规则是在另一个分类规则的分类结果下继续进行分类，最终这两个分类规则和对应划分出来的数据集呈现出树状，而带有不同层次分类规则的模型，其实就是决策树模型，也就是说通过上面一系列的操作，我们就已经成功构建了一个决策树模型。

2.2 决策树的分类过程

对于上述已经构建好的一个决策树来说，当对新数据进行判别时，任意进来一条数据我们都可以自上而下进行分类，先根据 petal length (cm) <= 2.5 判断是否属于第一类，如果不满足条件则不属于第一类，此时进一步考虑 petal length (cm) <= 4.879 是否满足条件，并据此判断是属于第二类还是第三类。
当然，目前主流的决策树并不是依据逻辑回归来寻找分类规则，但上述构建决策树模型的一般过程和核心思想和目前主流的决策树模型并无二致，因此我们可以围绕上述过程进行进一步总结。

2.3 决策树模型本质

当决策树模型构建好了之后，实际上一个决策树就是一系列分类规则的叠加，换而言之，决策树模型的构建从本质上来看就是在挖掘有效的分类规则，然后以树的形式来进行呈现。

2.4 决策树的树生长过程

在整个树的构建过程中，我们实际上是分层来对数据集进行划分的，每当定下一个分类规则后，我们就可以根据是否满足分类规则来对数据集进行划分，而后续的分类规则的挖掘则进一步根据上一层划分出来的子数据集的情况来定，逐层划分数据集、逐数据集寻找分类规则再划分数据集，实际上就就是树模型的生长过程。
这个过程实际上也是一个迭代计算过程（上一层的数据集决定有效规律的挖掘、而有效规律的挖掘）。而停止生长的条件，我们也可以根据继续迭代对结果没有显著影响这个一般思路来构建。

2.5 树模型的基本结构

当然，在已经构建了决策树之后，我们也能够对一个树模型的内部结构来进行说明。
对上述决策树来说，我们可以将其看成是点（数据集）和线构成的一个图结构（准确来说应该是一种有向无环图），而对于任何一个图结构，我们都能够通过点和线来构建对其的基本认知。
对于决策树来说，我们主要将借助边的方向来定义不同类型点，首先我们知道如果一条边从 A 点引向 B 点，则我们这条边对于 A 点来说是出边、对于 B 点来说是入边，A 节点是 B 节点的父节点，据此我们可以将决策树中所有的点进行如下类别划分：
（1）节点（root node）：没有入边，但有零条或者多条出边的点；
（2）内部点（internal node）：只有一条入边并且有两条或多条出边的点；
（3）叶节点（leaf node）：只有入边但没有出边的点；
因此，我们知道在一次次划分数据集的过程中，原始的完整数据集对应着决策树的根节点，而根结点划分出的子数据集就构成了决策树中的内部节点，同时迭代停止的时候所对应的数据集，其实就是决策树中的叶节点。
并且在上述二叉树（每一层只有两个分支）中，一个父节点对应两个子节点。并且根据上述决策树的建模过程不难理解，其实每个数据集都是由一系列分类规则最终划分出来的，我们也可以理解成每个节点其实都对应着一系列分类规则，例如上述 E 节点实际上就是 petal length (cm) <= 2.5 和 petal length (cm) <= 4.879 同时为 False 时划分出来的数据集。

二、决策树的分类与流派

正如此前所说，树模型并不是一个模型，而是一类模型。需要知道的是，尽管树模型的核心思想都是源于一种名为贪心算法的局部最优求解算法，但时至今日，树模型已经有数十种之多，并且划分为多个流派。目前主流的机器学习算法类别可划分如下：

1. ID3(Iterative Dichotomiser 3) 、C4.5、C5.0 决策树

ID3(Iterative Dichotomiser 3) 、C4.5、C5.0 决策树是最为经典的决策树算法、同时也是真正将树模型发扬光大的一派算法。
最早的 ID3 决策树由 Ross Quinlan 在 1975 年（博士毕业论文中）提出，至此也奠定了现在决策树算法的基本框架——确定分类规则判别指标、寻找能够最快速降低信息熵的方式进行数据集划分（分类规则提取），不断迭代直至收敛。
而 C4.5 则是 ID3 的后继者，C4.5 在 ID3 的基础上补充了一系列基础概念、同时也优化了决策树的算法流程，一方面使得现在的树模型能够处理连续变量（此前的 ID3 只能处理分类变量），同时也能够一定程度提高树模型的生长速度，而 C4.5 也是目前最为通用的决策树模型的一般框架，后续尽管有其他的决策树模型诞生，但大都是在 C4.5 的基本流程上进行略微调整或者指标修改。
此外，由于 C4.5 开源时间较早，这也使得在过去的很长一段时间内，C4.5 都是最通用的决策树算法。当然在此后，Ross Quinlan 又公布了 C5.0 算法，进一步优化了运行效率和预测流程，通过一系列数据结构的调整使得其能够更加高效的利用内存、并提高执行速度。

2. CART 决策树

CART 全称为 Classification and Regression Trees，即分类与回归决策树，同时也被称为 C&RT 算法，在 1984 年由 Breiman、Friedman、Olshen 和 Stone 四人共同提出。
CART 树和 C4.5 决策树的构造过程非常类似，但拓展了回归类问题的计算流程（此前 C4.5 只能解决分类问题），并且允许采用更丰富的评估指标来指导建模流程，并且，最关键的是，CART 算法其实是一个非常典型的机器学习算法，在早期 CART 树的训练过程中，就是通过划分训练集和验证集（或者测试集）来验证模型结果、并进一步据此来调整模型结构。
当然，除此以外，CART 树还能够用一套流程同时处理离散变量和连续变量、能够同时处理分类问题和回归问题。
此处我们也可以参考 sklearn 中对于 ID3、C4.5 和 CART 树的对比描述：

在这里插入图片描述

需要注意的是，sklearn 中也并非实现的是完全的 CART 树，通过相关评估器参数的调整，sklearn 中也能实现 CART 树的建模流程 + C4.5 的决策树生长指标这种混合模型。

3. CHAID 树

CHAID 是 Chi-square automatic interaction detection 的简称，由 Kass 在 1975 年提出，如果说 CART 树是一个典型的机器学习算法，那么 CHAID 树就是一个典型的统计学算法。
从该算法的名字就能看出，整个决策树其实是基于卡方检验（Chi-square）的结果来构建的，并且整个决策树的建模流程（树的生长过程）及控制过拟合的方法（剪枝过程）都和 C4.5、CART 有根本性的区别，例如 CART 都只能构建二叉树，而 CHAID 可以构建多分枝的树（注：C4.5 也可以构建多分枝的树）。
例如 C4.5 和 CART 的剪枝都是自下而上（Bottom-up）进行剪枝，也被称为修剪法（Pruning Technique），而 CHAID 树则是自上而下（Top-Down）进行剪枝，也被称为盆栽法（Bonsai Technique）。

Lesson 8.1 决策树的核心思想与建模流程

文章目录一、借助逻辑回归构建决策树1. 决策树实例2. 决策树知识补充2.1 决策树简单构建2.2 决策树的分类过程2.3 决策树模型本质2.4 决策树的树生长过程2.5 树模型的基本结构二、决策树的分类与流派1. ID3(Iterative Dichotomiser 3) 、C4.5、C5.0 决策树2. CART 决策树3. CHA…...

编程日记 2023/3/25 1:35:44

【算法】FIFO先来先淘汰算法分析和编码实战

背景在设计一个系统的时候，由于数据库的读取速度远小于内存的读取速度为加快读取速度，将一部分数据放到内存中称为缓存，但内存容量是有限的，当要缓存的数据超出容量，就需要删除部分数据这时候需要设计一种淘汰机制…...

编程日记 2023/3/25 1:30:40

二分查找——我欲修仙(功法篇)

个人主页：【😊个人主页】系列专栏：【❤️我欲修仙】学习名言：临渊羡鱼,不如退而结网——《汉书董仲舒传》系列文章目录第一章 ❤️ 二分查找文章目录系列文章目录前言🚗🚗🚗二分查找&…...

编程日记 2023/3/25 1:25:35

Python 多线程

文章目录一、简介1.1 多线程的特性1.2 GIL二、线程1.2 单线程1.3 多线程三、线程池3.1 pool.submit3.2 pool.map四、Lock（线程锁）4.1 无锁导致的线程资源异常4.2 有锁五、Event（事件）5.1 简介5.2 示例六、Queue（队列&a…...

编程日记 2023/3/25 1:20:34

JVM笔记（九）选择合适的垃圾收集器

Epsilon收集器Epsilon收集器由RedHat公司在JEP 318中提出，在此提案里Epsilon被形容成一个无操作的收集器（A No-Op Garbage Collector），而事实上只要Java虚拟机能够工作，垃圾收集器便不可能是真正“无操作”的。原因是“…...

编程日记 2023/4/13 4:22:46

二维图像处理到三维点云处理

一、Opencv和PCL 下面是opencv和pcl的特点、区别和联系的详细对比表格。特点/区别/联系OpenCVPCL英文全称Open Source Computer Vision LibraryPoint Cloud Library语言C、Python、JavaC功能图像处理(图像处理和分析、特征提取和描述、图像识别和分类、目标检测和跟踪等)、计…...

编程日记 2023/4/13 4:26:29

leetcode 删除有序数组中的重复项

题目给你一个升序排列的数组 nums ，请你原地删除重复出现的元素，使每个元素只出现一次 ，返回删除后数组的新长度。元素的相对顺序应该保持一致。由于在某些语言中不能改变数组的长度，所以必须将结果放在数组nums的第一…...

编程日记 2023/3/25 1:05:23

JVM学习.03 类加载机制

1、前言从事Java开发工作的都知道，Java程序提交到JVM运行时，需要编译成Class文件，才能被JVM加载运行。那么这些Class文件进入到虚拟机后会发生什么？以及Class是如何被加载的？这些都是本文要讲解的部分。2、类加载时机所…...

编程日记 2023/3/25 1:00:20

Celery使用：优秀的python异步任务框架

目录Celery 简介介绍安装基本使用Flask使用Celery异步任务定时任务Celery使用Flask上下文进阶使用参考停止Worker后台运行Celery 简介介绍 Celery 是一个简单、灵活且可靠的，处理大量消息的分布式系统，并且提供维护这样一个系统的必需工具。它是一个…...

编程日记 2023/3/25 0:55:19

第十四届蓝桥杯三月真题刷题训练——第 19 天

第 1 题：灌溉_BFS板子题题目描述小蓝负责花园的灌溉工作。花园可以看成一个 n 行 m 列的方格图形。中间有一部分位置上安装有出水管。小蓝可以控制一个按钮同时打开所有的出水管，打开时，有出水管的位置可以被认为已经灌溉好。每经过一分…...

编程日记 2023/3/25 0:50:17

类和对象 - 下

本文已收录至《C语言》专栏！ 作者：ARMCSKGT 目录前言正文初始化列表成员变量的定义与初始化初始化列表的使用变量定义顺序 explicit关键字隐式类型转换自定义类型隐式转换 explicit 限制转换关于static static声明类成员友元友…...

编程日记 2023/3/25 0:45:14

【云原生】Linux基础IO(文件理解与操作)

✨个人主页： Yohifo 🎉所属专栏： Linux学习之旅 🎊每篇一句： 图片来源 🎃操作环境： CentOS 7.6 阿里云远程服务器 Great minds discuss ideas. Average minds discuss events. Small minds disc…...

编程日记 2023/3/25 0:40:11

CentOS 7 安装 mysql 8.0 客户端

只想安装 mysql-client 8.0 ， 结果发现直接 yum install mysql mysql-client 安装的版本是 mysql Ver 15.1 Distrib 5.5.68-MariaDB ，这个版本太低，连接其他服务器上的 mysql 8.0 时总是失败，因为 mysql 8.0 加密方式改变了&#…...

编程日记 2023/3/25 0:35:09

1 安装相关依赖安装opencv前，需要先准备好编译器、相关依赖sudo apt-get install gcc g cmake vim sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev libavformat-dev libjpeg-dev libswscale-dev libtiff5-dev sudo apt-get install libgtk2.0-…...

编程日记 2023/3/25 0:30:07

第七讲贪心

文章目录股票买卖 II货仓选址（贪心:排序中位数）糖果传递（❗贪心：中位数）雷达设备（贪心排序）付账问题（平均值排序❓）乘积最大（排序/双指针）后缀表达…...

编程日记 2023/3/25 0:25:05

数字藏品的未来及发展趋势

随着互联网的普及以及数字文化的日益发展，数字藏品作为一种全新的收藏方式正在逐步兴起。数字藏品可以是数字版权、数字艺术品、数字音乐以及数字视频等形式，这些藏品通过数字化技术保存下来，并在互联网上进行传播和交易。数字藏品的发展趋势…...

编程日记 2023/3/25 0:20:03

值得记忆的STL常用算法，分分钟摆脱容器调用的困境，以vector为例，其余容器写法类似

STL常用算法概述： 算法主要是由头文件<algorithm> <functional> <numeric>组成 <algorithm>是所有STL头文件中最大的一个，范围涉及到比较、交换、查找、遍历操作、复制、修改等等 <nuneric>体积很小，只包括…...

编程日记 2023/3/25 0:15:01

java如何手动导jar包

今天用IDEA，需要导入一个Jar包，因为以前都是用eclipse的，所以对这个idea还不怎么上手，连打个Jar包都是谷歌了一下。但是发现网上谷歌到的做法一般都是去File –> Project Structure中去设置，有没有如同eclipse一样…...

编程日记 2023/3/25 0:09:58

怎么防止SQL注入？

首先SQL注入是一种常见的安全漏洞，黑客可以通过注入恶意代码来攻击数据库和应用程序。以下是一些防止SQL注入的基本措施： 数据库操作层面使用参数化查询：参数化查询可以防止SQL注入，因为参数化查询会对用户输入的数据进行过滤和…...

编程日记 2023/3/25 0:04:56

【千题案例】TypeScript获取两点之间的距离 | 中点 | 补点 | 向量 | 角度

我们在编写一些瞄准、绘制、擦除等功能函数时，经常会遇到计算两点之间的一些参数，那本篇文章就来讲一下两点之间的一系列参数计算。目录 1️⃣ 两点之间的距离 ①实现原理 ②代码实现及结果 2️⃣两点之间的中点 ①实现原理 ②代码实现及结果 3…...

编程日记 2023/4/20 18:41:28

Python运算符：逻辑运算符（and/or/not）的短路特性

Python运算符：逻辑运算符（and/or/not）的短路特性📚 本章学习目标：深入理解逻辑运算符（and/or/not）的短路特性的核心概念与实践方法，掌握关键技术要点，了解实际应用场景与…...

编程新知 2026/5/23 2:27:23

【顶级EI复现】基于去噪概率扩散模型（DDPM）的电动汽车充电行为场景生成研究（ Python + PyTorch实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 &#x1f381…...

编程新知 2026/5/23 0:40:00

AI落地实战指南：场景锚定、能力分层与人机协同五步法

1. 项目概述：这不是一场技术发布会，而是一份从业者手绘的路线图 “AI: The Journey Ahead”——这个标题乍看像某场科技峰会的宣传语，或是某本畅销书的副标题。但在我过去十二年跑遍制造业产线、教育机构机房、中小律所档案室、社区卫生站HIS…...

编程新知 2026/5/22 22:38:08

Unity协程本质：帧调度驱动的状态机原理与陷阱防治

1. 协程不是“多线程”，但比你想象中更难搞懂很多人第一次在Unity里写 StartCoroutine(MyRoutine()) 时，心里想的是：“哦，这不就是个能暂停、能延时的函数嘛？”——然后很快就在实际项目里栽了跟头：UI按…...

编程新知 2026/5/22 21:48:58

丙午年三月三十平镜里

丙午年三月三十平镜里曾几风流里，皆逝日常中。莫名春伤寒，妙在岁月功。儿时不知道，青烟多捉空。老壮老路上，庭院情境通。谓花当此季，寻因那刻虹？ 虚妄浮云聚，耕种顺序隆。斯文源村落&…...

编程新知 2026/5/22 20:58:10

Louvain 算法：让网络自己“报团取暖”的发现者

🧩 Louvain 算法：让网络自己“报团取暖”的发现者为什么你的朋友圈会自然分成老同学、同事和游戏好友？Louvain算法就是网路世界里的“社交侦探”，它能自动帮你看清整个网络中“谁和谁是一伙的”。一、从一个生活场景说起 &#x1…...

编程新知 2026/5/22 20:45:00

赛场制胜参考 CTF 全套 50 个经典解题思路

CTF选手必藏的50个实战解题思路！一篇够用！ CTF竞赛的核心逻辑 • 核心目标：快速拆解问题（Flag导向）、工具链协作、模式化思维。• 关键原则：先广度后深度（优先收集信息）、分治策略&…...

编程新知 2026/5/22 20:27:58

ncmdumpGUI：Windows平台免费NCM文件转换终极指南

ncmdumpGUI：Windows平台免费NCM文件转换终极指南【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换，Windows图形界面版本项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 您是否在网易云音乐下载了喜爱的歌曲，…...

编程新知 2026/5/22 20:25:38

NotebookLM时间线创建全解析，手把手教你用AI自动生成可交互知识图谱

更多请点击： https://intelliparadigm.com 第一章：NotebookLM时间线创建的核心价值与适用场景 NotebookLM 的时间线（Timeline）功能并非简单的时间戳罗列，而是将文档片段、引用来源与用户思考按真实发生顺序动态编织成…...

编程新知 2026/5/22 20:19:04

DeepStream9.0 service-maker

service-maker在前几个版本就推出了，DeepStream9.0做了增强： Added Pyservice maker support for Smart-Recording（就是实时录制码流） 如果你用过 NVIDIA DeepStream，应该很熟悉它的典型开发方式：围绕 G…...

编程新知 2026/5/22 19:50:18

文章目录

一、借助逻辑回归构建决策树

1. 决策树实例

2. 决策树知识补充

2.1 决策树简单构建

2.2 决策树的分类过程

2.3 决策树模型本质

2.4 决策树的树生长过程

2.5 树模型的基本结构

二、决策树的分类与流派

1. ID3(Iterative Dichotomiser 3) 、C4.5、C5.0 决策树

2. CART 决策树

3. CHAID 树

相关文章：