当前位置：首页 > news >正文

机器学习：分类、回归、决策树

news 2026/5/28 12:03:12

分类：具有明确的类别

如：去银行借钱，会有借或者不借的两种类别

回归：不具有明确的类别和数值

如：去银行借钱，预测银行会借给我多少钱，如：1~100000之间的一个数值

不纯度：

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个 “ 最佳 ” 的指标叫做“ 不纯度 ” 。通常来说，不纯度越低，决策树对训练集的拟合越好。

·不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

不存度的概念

        决策树的每个叶子节点中都会包含一组数据，在这组数据中，如果有某一类标签占有较大的比例，我们就说叶子节点“ 纯 ” ，分枝分得好。某一类标签占的比例越大，叶子就越纯，不纯度就越低，分枝就越好。
如果没有哪一类标签的比例很大，各类标签都相对平均，则说叶子节点 ” 不纯 “ ，分枝不好，不纯度高。

过拟合	模型在训练集上表现很好，在测试集上表现很糟糕，学习能力很强但是学得太过精细了
欠拟合	模型在训练集和测试集上都表现糟糕，学习能力不足

机器学习的例子：

y=kx+b

先通过已知：x和y，求出：k和b

再通过y=kx+b（k已知，b已知）和x的测试集

求出y预测=k已知*x测试+b已知

y的预测值和y的测试值相比较，需要使y的预测与y的测试尽量的接近

from sklearn import tree #从sklearn 包里面导入tree类
clf = tree.DecisionTreeClassifier() #实例化一个决策树分类器
clf =clf.fit(X_train,y_train) #用训练集数据训练模型
result=clf.score(X_test,y_test)#导入测试集，从接口中调用需要的信息

建立一棵树

#导入需要的算法库和模块
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split#搜索数据

红酒数据集

#红酒数据集
#导入需要的算法库和模块
from sklearn import tree
from sklearn.datasets import load_wine
from sklearn.model_selection import train_test_split
wine = load_wine() #加载并返回葡萄酒数据集（分类）。
wine.data.shape #看一下这个表格是怎么样的
#输出(178, 13)，代表存在178行，13列
wine.target #查看表格中有几个标签
# array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
#        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
#        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
#        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
#        2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
#        2, 2])
#即数据集中的标签有三种，0，1和2，也就是这些红酒被分成了三类。#如果wine是一张表，应该长这样
# import pandas as pd
# pd.concat([pd.DataFrame(wine.data),pd.DataFrame(
#     .wine.target)],axis=1)
#这里是将红酒属性数据集和标签列进行了横向链接（也叫合并，学过数据库的都知道）# wine.feature_names
#查看红酒的属性名字
# wine.target_names
#查看标签名字，也就是分类的名字Xtrain,Xtest,Ytrain,Ytest=train_test_split(wine.data,wine.target,test_size=0.3)
#将数据集分为训练集和测试集，其中70%为训练集，30%为测试集。
Xtrain.shape
#训练集有124个样本，13个属性
Xtest.shape
#训练集有54个样本，13个属性
Ytrain
#查看训练集的目标属性；有三种，为0，1，2#建立模型
clf = tree.DecisionTreeClassifier(criterion="entropy") #建立决策分类树，判断不纯度的方法是信息熵
clf = clf.fit(Xtrain,Ytrain) #用训练集数据训练模型
score = clf.score(Xtest,Ytest) #返回预测的准确accuracy（分数）
score#查看预测的模型分数#画出这棵树
feature_name = ['酒精','苹果酸','灰','灰的碱性','镁','总酚','类黄酮','非黄烷类酚类','花青素','颜 色强度','色调','od280/od315稀释葡萄酒','脯氨酸']
import graphviz 
dot_data = tree.export_graphviz(clf,out_file = None,feature_names= feature_name,class_names=["琴酒","雪莉","贝尔摩德"],filled=True,rounded=True) 
#以 DOT 格式导出决策树。# decision_tree：决策树分类器；要导出到 GraphViz 的决策树。# out_file：对象或字符串，默认=无；输出文件的句柄或名称。如果 None ，则结果以字符串形式返回。# feature_names：str列表，默认=无；每个函数的名称。如果 None 将使用通用名称(“feature_0”、“feature_1”、...)。# class_names：str 或 bool 的列表，默认 = 无
# 每个目标类别的名称按数字升序排列。仅与分类相关，不支持multi-output。如果 True ，则显示类名的符号表示。# filled：布尔，默认=假
# 当设置为 True 时，绘制节点以指示分类的多数类、回归值的极值或 multi-output 的节点纯度。#rounded：布尔，默认=假；当设置为 True 时，绘制圆角节点框。
graph = graphviz.Source(dot_data) #获取生成的决策树
graph #打印生成的决策树#特征重要性
clf.feature_importances_ 
#打印每个属性的重要性的数值，只有数值，不知道数值对应的属性是什么
[*zip(feature_name,clf.feature_importances_)]
#打印每个属性及其对应的重要性的数值# 建更多的不同的树，然后从中取最好的。
# 在每次分枝时，不从使用全部特征，而是随 机选取一部分特征，从中选取不纯度相关指标最优的作为分枝用的节点。
clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=30)
# random_state 用来设置分枝中的随机模式的参数，默认 None
#random_state是一个随机种子，是在任意带有随机性的类或函数里作为参数来控制随机模式。
#当random_state取某一个值时，也就确定了一种规则。
# 在高维度时随机性会表现更明显，低维度的数据 （比如鸢尾花数据集），随机性几乎不会显现。
#固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。clf = clf.fit(Xtrain, Ytrain)
score = clf.score(Xtest, Ytest) #返回预测的准确度
score
#这里的score会固定在0.925，不论你运行多少遍，它都不会变，因为每次都是选择的最优的树。#使用splitter来降低过拟合的可能性
clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=30 ,splitter="random") 
clf = clf.fit(Xtrain, Ytrain) 
score = clf.score(Xtest, Ytest)
score #输出结果为0.944444
# splitter 也是用来控制决策树中的随机选项的，有两种输入值
# 输入 "best" ：决策树在分枝时虽然随机，但是还是会 优先选择更重要的特征进行分枝（重要性可以通过属性feature_importances_ 查看）
# 输入 "random" ：决策树在 分枝时会更加随机，树会因为含有更多的不必要信息而更深更大，并因这些不必要信息而降低对训练集的拟合。
# 这也是防止过拟合的一种方式。当你预测到你的模型会过拟合，用这两个参数来帮助你降低树建成之后过拟合的可能性。#画出图像
import graphviz 
dot_data = tree.export_graphviz(clf,feature_names= feature_name,class_names=["琴酒","雪莉","贝尔摩德"],filled=True,rounded=True ) 
graph = graphviz.Source(dot_data)
graph#我们的树对训练集的拟合程度如何？
score_train = clf.score(Xtrain, Ytrain) #返回预测的准确分数
score_train  #查看预测的准确分数，此时结果为1.0 过拟合了#剪枝方法降低过拟合的可能性：
#（1）max_depth 限制树的最大深度
#（2）min_samples_split 限定，一个节点必须要包含至少 min_samples_split 个训练样本，这个节点才允许被分枝，否则分枝就不会发生。
#（3）min_samples_leaf 限定，一个节点在分枝后的每个子节点都必须包含至少 min_samples_leaf 个训练样本，否则分枝就不会发生
#     或者，分枝会朝着满足每个子节点都包含min_samples_leaf 个样本的方向去发生#通过限制条件进行剪枝，得到的决策树会更简洁，预测的准确分数也不错
clf=tree.DecisionTreeClassifier(criterion="entropy",random_state=30,splitter="random",max_depth=3,min_samples_leaf=5,min_samples_split=5)
clf = clf.fit(Xtrain, Ytrain)
dot_data = tree.export_graphviz(clf,feature_names= feature_name,class_names=["琴酒","雪莉","贝尔摩德"],filled=True,rounded=True)
graph = graphviz.Source(dot_data)
graph
score = clf.score(Xtest, Ytest)
score #0.9629629629629629# 超参数的学习曲线，是一条以超参数的取值为横坐标，模型的度量指标为纵坐标的曲线，它是用来衡量不同超参数取值下模型的表现的线。
# 在我们建好的决策树里，我们的模型度量指标就是score 。
import matplotlib.pyplot as plt #导入画图库
test = [] #创建一个列表
for i in range(10): #循环10次clf = tree.DecisionTreeClassifier(max_depth=i+1,criterion="entropy",random_state=30,splitter="random")clf = clf.fit(Xtrain, Ytrain) #训练模型score = clf.score(Xtest, Ytest) #预测的准确分数test.append(score) #往列表里面添加预测的分数值
plt.plot(range(1,11),test,color="red",label="max_depth") #画图
#横坐标为max_depth取值，纵坐标为score，图线颜色为red，label为图例的名称
#从图中我们可以看到，当max_depth取3的时候，模型得分最高
plt.legend() #给图像加图例
plt.show() #显示所打开的图形

机器学习：分类、回归、决策树

分类：具有明确的类别如：去银行借钱，会有借或者不借的两种类别回归：不具有明确的类别和数值如：去银行借钱，预测银行会借给我多少钱，如：1~100000之间的一个数值不纯度&#xff1…...

编程日记 2023/5/10 19:40:42

java常见的异常，下一篇写如何正确处理异常

当我们编写Java程序时，经常会遇到各种异常情况。异常是指在程序执行过程中发生的一些错误或意外情况，它会打断程序的正常执行流程，并且需要被适当地处理。在Java中，异常被分为两种类型：可检查异常（Checked …...

编程日记 2023/5/10 19:35:41

C#开发的OpenRA游戏之网络协议打包和解包

C#开发的OpenRA游戏之网络协议打包和解包 OpenRA游戏里，由于这是一个网络游戏，那么与服务器通讯就缺少不了，既然要通讯，那么就需要协议，有协议就需要对数据进行打包和解包，这个过程其实就是序列化与反序列化的过程。游戏里很多命令都需要发送给服务器，以便服务器同…...

编程日记 2023/5/10 19:30:40

K8S通过Ansible安装集群 K8S集群安装可参考https://gitee.com/open-hand/kubeadm-ha.git、https://github.com/easzlab/kubeasz.git 安装高可用集群 git clone https://gitee.com/open-hand/kubeadm-ha.git && cd kubeadm-ha升级内核,非必需，默认不升级&…...

编程日记 2023/5/10 19:25:38

ChatGPT辩证观点：“人才不是一个企业的核心竞争力，对人才的管理能力才是一个企业的核心竞争力”

一、问： “人才不是一个企业的核心竞争力，对人才的管理能力才是一个企业的核心竞争力”这句话的理解和误解，这句话有哪个中心论点转移和变化二、ChatGPT答： 这句话的理解和误解： 理解：这句话的意思是说…...

编程日记 2023/5/10 19:20:37

windows11 永久关闭windows defender的方法

1、按键盘上的windows按键，再点【设置】选项。 2、点击左侧菜单的【隐私和安全性】，再点击列表的【Windows安全中心】选项。 3、点击界面的【病毒和威胁保护】设置项。 4、病毒保护的全部关闭 5、别人的图（正常是都开着的） 6、终极…...

编程日记 2023/5/10 19:15:36

继承的基本知识

概念假设基于A类，创建了B类，那么称A为B的父类，B为A的子类子类会继承父类的成员变量及成员函数，但是不能继承构造、析构、运算符重载假设又基于B创建了C，那么称B为C的直接基类，A为C的间接基类继承按…...

编程日记 2023/5/10 19:10:35

【Frida-实战】EA游戏平台的文件监控（PsExec.exe提权）

▒ 目录 ▒ 🛫 问题描述环境 1️⃣ 代码编写开源代码搜索自己撸代码procexp确定句柄对应的文件名并过滤 2️⃣ PsExec.exe提权定位找不到EABackgroundService.exe的问题 PsExec.exe提权PsExec.exe原理 🛬 结论📖 参考资料 🛫 问题…...

编程日记 2023/5/10 19:05:34

可视化和回归分析星巴克咖啡在中国的定价建议

可视化和回归分析星巴克咖啡在中国的定价建议。星巴克的拿铁大杯Tall 在各国的价格。 Claude AI | 代码自动生成的数据可视化代码选择Claude AI 而非 ChatGPT的理由是前者更懂中文！具体可以参见我前面的两篇文章对比两者的中英文翻译的表现及使用安装等难易程度…...

编程日记 2023/5/10 19:00:28

Python通过SWIG调用C++时出现的ImportError问题解析

摘要 win10系统，编译器为mingw，按照教程封装C的一个类并用python调用，一步步进行直到最后一步运行python代码时，在python代码中import example时报错ImportError: DLL load failed while importing _example: The specified modul…...

编程日记 2023/5/10 18:50:26

3ds Max云渲染有多快，3ds Max云渲染怎么用？

本地渲染效果图和动画3D项目是一个非常耗时的过程，当在场景中使用未优化的几何体或在最终渲染中使用大量多边形模型时，诸如此类的变量最终会增加渲染项目所需的时间和处理器能力。随着提供的渲染服务的云渲染平台出现，越来越多动画师、艺术家…...

编程日记 2023/5/10 18:45:25

Java之线程安全

目录一.上节回顾 1.Thread类常见的属性 2.Thread类中的方法二.多线程带来的风险 1.观察线程不安全的现象三.造成线程不安全现象的原因 1.多个线程修改了同一个共享变量 2.线程是抢占式执行的 3.原子性 4.内存可见性 5.有序性四.解决线程不安全问题 ---synchroni…...

编程日记 2023/5/10 18:40:24

我有一个方法判断你有没有编程天赋

我有一个方法判断你有没有编程天赋一前言基于知识的诅咒的原理做一个敲击者很难。问题在于敲击者已拥有的知识（歌曲题目）让他们想象不到缺乏这种知识会是什么情形。当他们敲击的时候，他们不能想象听众听到的是那些独立的敲击声而不是…...

编程日记 2023/5/30 22:32:35

python 生成chart 并以附件形式发送邮件

import requests import json import pandas as pd import numpy as np import matplotlib.pyplot as plt data np.random.randn(5, 3)#生成chart def generate_line_chart(data):df pd.DataFrame(np.abs(data),index[Mon, Tue, Wen, Thir, Fri],columns[A, B, C])df.plot()…...

编程日记 2023/5/10 18:30:22

leetcode-035-搜索插入位置

题目及测试 package pid035; /*35. 搜索插入位置给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。示例 1:输入: nums …...

编程日记 2023/5/10 18:25:18

读书笔记--数据治理之法

继续延续上一篇文章，对数据治理之法进行学习。数据治理之法是战术层面的方法，是一套涵盖8项举措的数据治理实施方法论，包括梳理现状与确定目标、能力成熟度评估、治理路线图规划、保障体系建设、技术体系建设、治理策略执行与监控、绩效考核与…...

编程日记 2023/5/10 18:20:16

送了老弟一台 Linux 服务器，它又懵了！

大家好，我是鱼皮。前两天我学编程的老弟小阿巴过生日，我问他想要什么礼物。本来以为他会要什么游戏机、Q 币卡、鼠标键盘啥的，结果小阿巴说：我想要一台服务器。鱼皮听了，不禁称赞道：真是个学编程的好苗…...

编程日记 2023/5/10 18:15:15

CentOS 7(2009) 升级 GCC 版本

1. 前言 CentOS 7 默认安装的 gcc 版本为 4.8，但是很多时候都会需要用到更高版本的 gcc 来编译源码，那么本文将会介绍如何在线升级 CentOS 的 gcc 版本。 2. 升级 GCC (1). 安装 centos-release-scl； [imaginemiraclecentos7 ~]$ sudo yum…...

编程日记 2023/5/10 18:10:14

java非静态代码块和静态代码块介绍

代码块 SE.10.0…02.28 非静态普通代码块：定义在方法内部的代码块，不用任何关键字修饰，又名构造代码块、实例代码块静态代码块：用static修饰的代码块非静态代码块 public class Test {public static void main(String[] args…...

编程日记 2023/5/10 18:05:13

D3KeyHelper：暗黑3玩家的智能按键助手，告别重复操作疲劳

D3KeyHelper：暗黑3玩家的智能按键助手，告别重复操作疲劳【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面，可自定义配置的暗黑3鼠标宏工具。项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper 你是否曾在《暗黑破坏…...

编程新知 2026/5/26 2:17:28

FeHelper前端助手：30+开发工具集，让你的浏览器变身效率神器

FeHelper前端助手：30开发工具集，让你的浏览器变身效率神器【免费下载链接】FeHelper 😍FeHelper--Web前端助手（Awesome！Chrome & Firefox & MS-Edge Extension, All in one Toolbox!） 项目地址:…...

编程新知 2026/5/26 0:24:13

Taotoken平台快速获取APIKey并开始你的第一个Python调用示例

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度 Taotoken平台快速获取APIKey并开始你的第一个Python调用示例 1. 准备工作：注册与登录要开始使用Taotoken&#xff0c…...

编程新知 2026/5/26 0:18:08

告别元素变动导致的报错：探索自动化测试脚本的 AI“自愈”能力

前言：一个所有测试人都经历过的噩梦周三晚上十一点，CI/CD流水线再次亮起红灯。你打开日志，满屏的NoSuchElementException扑面而来。仔细一看——前端团队在昨天的版本中重构了登录页面的DOM结构，原本的#login-btn变成了#signin-button-v2，30个测试用例因此全军覆没。 …...

编程新知 2026/5/25 23:08:50

【数据结构与算法】数据结构基础——栈和队列

目录栈和队列1. 栈1.1 栈的概念1.2 栈的实现方式分析1.3 栈的实现1.3.1 栈的初始化与销毁1.3.2 入栈与出栈1.3.3 栈的判空与有效元素个数1.3.4 栈顶元素1.4 栈的扩展1.4.1 两栈共享空间2. 队列2.1 队列的概念2.2 队列的实现方式分析2.3 队列的实现2.3.1 队列的初始化与销毁2.3.…...

编程新知 2026/5/25 21:23:42

基于树莓派打造万能遥控器：从硬件选型到Web控制界面全解析

1. 项目概述：打造一个能“学习”的万能遥控器家里遥控器越来越多，电视、空调、风扇、灯带……每个设备都配一个，找起来麻烦，用起来也乱。市面上所谓的“万能遥控器”其实并不万能，它内置的码库有限，很多小众…...

编程新知 2026/5/25 20:11:56

基于Cynthion逆向USB协议，为DP100电源开发Linux控制软件

1. 项目概述：用Cynthion嗅探USB，为DP100电源打造Linux软件作为一名长期在Linux环境下折腾硬件和嵌入式开发的爱好者，我经常遇到一个头疼的问题：很多不错的桌面小设备，比如电源、示波器、逻辑分析仪，它们的官…...

编程新知 2026/5/25 19:09:14

Sora 2 GIF导出速度提升300%？20年多媒体架构师亲授GPU加速转码链路（CUDA 12.4 + cuVID硬编实测）

更多请点击： https://kaifayun.com 第一章：Sora 2 GIF导出方法概览 Sora 2 并非 OpenAI 官方发布的模型，当前（截至2024年）并无名为“Sora 2”的公开产品。因此，所谓“Sora 2 GIF导出”实为社区对视频生成工…...

编程新知 2026/5/25 17:06:25

3步开启Windows 11安卓应用新体验：WSA完整使用指南

3步开启Windows 11安卓应用新体验：WSA完整使用指南【免费下载链接】WSA Developer-related issues and feature requests for Windows Subsystem for Android 项目地址: https://gitcode.com/gh_mirrors/ws/WSA Windows Subsystem for Android（简…...

编程新知 2026/5/27 4:54:54

DeepSeek-R1代码补全实测报告：37个真实项目、8类编程语言、48小时压测后，我删掉了Copilot

更多请点击： https://intelliparadigm.com 第一章：DeepSeek-R1代码补全实测报告总览 DeepSeek-R1 是深度求索（DeepSeek）推出的开源大语言模型，专为代码理解与生成任务优化。本章聚焦其在主流 IDE 环境中代码补全能力的…...

编程新知 2026/5/27 14:20:52

分类：具有明确的类别

如：去银行借钱，会有借或者不借的两种类别

回归：不具有明确的类别和数值

如：去银行借钱，预测银行会借给我多少钱，如：1~100000之间的一个数值

不纯度：

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个 “ 最佳 ” 的指标 叫做“ 不纯度 ” 。通常来说，不纯度越低，决策树对训练集的拟合越好。

·不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是 说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

不存度的概念

过拟合

模型在训练集上表现很好，在测试集上表现很糟糕，学习能力很强但是学得太过精细了

欠拟合

模型在训练集和测试集上都表现糟糕，学习能力不足

机器学习的例子：

y=kx+b

先通过已知：x和y，求出：k和b

再通过y=kx+b（k已知，b已知）和x的测试集

求出y预测=k已知*x测试+b已知

y的预测值和y的测试值相比较，需要使y的预测与y的测试尽量的接近

建立一棵树

红酒数据集

相关文章：

为了要将表格转化为一棵树，决策树需要找出最佳节点和最佳的分枝方法，对分类树来说，衡量这个 “ 最佳 ” 的指标叫做“ 不纯度 ” 。通常来说，不纯度越低，决策树对训练集的拟合越好。

·不纯度基于节点来计算，树中的每个节点都会有一个不纯度，并且子节点的不纯度一定是低于父节点的，也就是说，在同一棵决策树上，叶子节点的不纯度一定是最低的。

**求出y预测=k已知*x测试+b已知**