当前位置: 首页 > news >正文

机器学习决策树

一、香农公式

熵:

信息增益:

信息增益=信息熵-条件熵

前者是初始信息熵大小,后者是因为条件加入后带来的确定性增加

信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度

信息增益越大说明影响越大

二、代码

"""
决策树对泰坦尼克号进行预测生死
:return: None
"""
# 获取数据
titan = pd.read_csv("./data/titanic.txt")
titan.info() # info()查看数据信息,包括每列的类型,非空值个数,内存占用等
# 处理数据,找出特征值和目标值
x = titan[['pclass', 'age', 'sex']]y = titan['survived']
print(x.info())  # 用来判断是否有空值
x.describe(include='all') # 用来查看数据的描述性统计信息
# 一定要进行缺失值处理,填为均值
mean=x['age'].mean()
print(mean)
x.loc[:,'age']=x.loc[:,'age'].fillna(mean)
# 分割数据集到训练集合测试集
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=4)
print(x_train.head())
x_train.to_dict(orient="records") #把df变为列表套字典,后面方便变成one_hot编码
# 进行处理(特征工程)特征-》类别-》one_hot编码
dict = DictVectorizer(sparse=False) # sparse=False表示不用稀疏矩阵,用numpy数组# 这一步是对字典进行特征抽取,to_dict可以把df变为字典,records代表列名变为键
x_train = dict.fit_transform(x_train.to_dict(orient="records"))
print(type(x_train))
print(dict.get_feature_names_out())
print('-' * 50)
x_test = dict.transform(x_test.to_dict(orient="records"))
print(x_train)
# 用决策树进行预测,修改max_depth试试,修改criterion为entropy
#树过于复杂,就会产生过拟合
dec = DecisionTreeClassifier()#训练
dec.fit(x_train, y_train)# 预测准确率
print("预测的准确率:", dec.score(x_test, y_test))# 导出决策树的结构
export_graphviz(dec, out_file="tree.dot",feature_names=['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'female', 'male'])

相关文章:

机器学习决策树

一、香农公式 熵: 信息增益: 信息增益信息熵-条件熵 前者是初始信息熵大小,后者是因为条件加入后带来的确定性增加 信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度 信息增益越大说明影响越大 二、代码 ""&…...

Spring Boot + MyBatis 实现 RESTful API 的完整流程

后端开发:Spring Boot 快速开发实战 引言 在现代后端开发中,Spring Boot 因其轻量级、快速开发的特性而备受开发者青睐。本文将带你从零开始,使用 Spring Boot MyBatis 实现一个完整的 RESTful API,并深入探讨如何优雅地处理异…...

通过 ANSYS Discovery 进行 CFD 分析,增强工程设计

概括 工程师使用计算流体动力学 (CFD) 分析来研究和优化各种应用中的流体流动和传热分析。ANSYS Discovery 是一个用户友好的软件平台,使工程师能够轻松设置和解决 CFD 模型,并能够通知设计修改 在这篇博文中,我们将重点介绍在 Ansys Disc…...

家用可燃气体探测器——家庭燃气安全的坚实防线

随着社会的发展和变迁,天然气为我们的生活带来了诸多便利,无论是烹饪美食,还是温暖取暖,都离不开它的支持。然而,燃气安全隐患如影随形,一旦发生泄漏,可能引发爆炸、火灾等严重事故,…...

ListControl双击实现可编辑

为Edit Control控件添加丢失输入焦点事件,可见设为false 为List Control控件添加双击事件 控件和成员变量之间交换数据 CListCtrl ListPrint1; //列表输出 CEdit...

ave-form.vue 组件中 如何将产品名称发送给后端 ?

如何将产品名称发送给后端。 在这段代码中&#xff0c;产品名称&#xff08;productName&#xff09;的处理和发送主要发生在 save() 方法中。让我逐步分析&#xff1a; 产品ID的选择&#xff1a; <w-form-selectv-model"form.productId"label"涉及产品&q…...

DeepSeek行业应用实践报告-智灵动力【112页PPT全】

DeepSeek&#xff08;深度搜索&#xff09;近期引发广泛关注并成为众多企业/开发者争相接入的现象&#xff0c;主要源于其在技术突破、市场需求适配性及生态建设等方面的综合优势。以下是关键原因分析&#xff1a; 一、技术核心优势 开源与低成本 DeepSeek基于开源架构&#xf…...

【Markdown 语法简洁讲解】

Markdown 语法简洁语法讲解 什么是 Markdown1. 标题2. 列表3.文本样式4. 链接与图片5. 代码6. 表格7. 分割线8. 流程图9. 数学公式10. 快捷键11. 字体、字号与颜色 什么是 Markdown Markdown 是一种轻量级标记语言&#xff0c;通过简单的符号实现排版格式化&#xff0c;专注于…...

250301-OpenWebUI配置DeepSeek-火山方舟+硅基流动+联网搜索+推理显示

A. 最终效果 B. 火山方舟配置&#xff08;一定要点击添加&#xff09; C. 硅基流动配置&#xff08;最好要点击添加&#xff0c;否则会自动弹出所有模型&#xff09; D. 联网搜索配置 E. 推理过程显示 默认是没有下面的推理过程的显示的 设置步骤&#xff1a; 在Functions函…...

【3天快速入门WPF】12-MVVM

目录 1. 什么是MVVM2. 实现简单MVVM2.1. Part 12.2. Part 21. 什么是MVVM MVVM 是 Model-View-ViewModel 的缩写,是一种用于构建用户界面的设计模式,是一种简化用户界面的事件驱动编程方式。 MVVM 的目标是实现用户界面和业务逻辑之间的彻底分离,以便更好地管理和维护应用…...

查找Excel包含关键字的行(の几种简单快速方法)

需求&#xff1a;数据在后缀为xlsx的Excel的sheet1中且量比较大&#xff0c;比如几十万行几百列&#xff1b;想查找一个关键字所在的行,比如"全网首发"&#xff1b; 情况①知道关键字在哪一列 情况②不确定在哪一列&#xff0c;很多列相似又不同&#xff0c;本文演…...

性能测试分析和调优

步骤 性能调优的步骤 性能调优的步骤&#xff1a; 1.确定问题&#xff1a;根据性能测试的结果来分析确定bug。–测试人员职责 2.分析原因&#xff1a;分析问题产生的原因。----开发人员职责 3.给出解决方案&#xff1a;可以是修改软件配置、增加硬件资源配置、修改代码等----…...

(视频教程)Compass代谢分析详细流程及python版-R语言版下游分析和可视化

不想做太多的前情解说了&#xff0c;有点累了&#xff0c;做了很久的内容&#xff0c;包括整个分析&#xff0c;从软件安装和报错解决到后期下游python版-R语言版下游分析和可视化&#xff01;单细胞代谢分析我们写过很多了&#xff0c;唯独少了最“高级”的compass&#xff0c…...

【SQL】MySQL中的字符串处理函数:concat 函数拼接字符串,COALESCE函数处理NULL字符串

MySQL中的字符串处理函数&#xff1a;concat 函数 一、concat &#xff08;&#xff09;函数 1.1、基本语法1.2、示例1.3、特殊用途 二、COALESCE&#xff08;&#xff09;函数 2.1、基本语法2.2、示例2.3、用途 三、进阶练习 3.1 条件和 SQL 语句3.2、解释 一、concat &…...

c++中深拷贝和浅拷贝的联系和区别

在 C 编程里&#xff0c;深拷贝和浅拷贝是两种不同的对象复制方式&#xff0c;它们在实现方式、资源管理和适用场景等方面存在显著差异。下面为你详细介绍它们的区别。 1. 基本概念 浅拷贝&#xff1a;浅拷贝仅仅复制对象的成员变量值。对于基本数据类型&#xff08;如 int、d…...

Autotestplat 在多个平台和公司推荐使用!

1、 51Testing软件测试网 开源好用&#xff01;推荐一款更轻量化的自动化测试平台&#xff01; 2、程序员杨叔 从繁琐到简单&#xff01;Autotestplat自动化测试平台搭建使用 3、一飞开源 [开源]一站式自动化测试平台及解决方案&#xff0c;支持接口、性能、UI测试 4、github h…...

字符串最后一个单词的长度

一&#xff1a;题目 二&#xff1a;思路 用rfind()函数倒着找第一个空格&#xff0c;返回的值为pos&#xff0c;然后打印size()-(pos1)&#xff0c;posnpos就代表只有一个单词&#xff0c;则直接返回size #include <iostream> using namespace std; int main() {strin…...

【Linux】learning notes(3)make、copy、move、remove

文章目录 1、mkdir &#xff08;make directory&#xff09;2、rmdir &#xff08;remove directory&#xff09;3、rm&#xff08;remove&#xff09;4、>5、touch 新建文件6、mv&#xff08;move&#xff09;7、cp&#xff08;copy&#xff09; 1、mkdir &#xff08;make…...

一、图像图像的基本概念

文章目录 一、分辨率概念二、图形图像的区别三、位图和矢量图的区别 一、分辨率概念 图形显示计数中的分辨率概念有三种&#xff0c;即屏幕分辨率、显示分辨率和显卡分辨率。它们既有区别又有着密切的联系&#xff0c;对图形显示的处理有极大的影响。 1.屏幕分辨率 显示器分辨…...

两道算法练习

力扣322零钱兑换 给你一个整数数组 coins &#xff0c;表示不同面额的硬币&#xff1b;以及一个整数 amount &#xff0c;表示总金额。 计算并返回可以凑成总金额所需的 最少的硬币个数 。如果没有任何一种硬币组合能组成总金额&#xff0c;返回 -1 。 你可以认为每种硬币的…...

国产事件相机CeleX5开发指南:如何利用开放API实现自定义功能

国产事件相机CeleX5开发指南&#xff1a;如何利用开放API实现自定义功能 事件相机作为视觉传感器领域的新兴技术&#xff0c;凭借其微秒级延迟和超高动态范围的优势&#xff0c;正在机器人导航、自动驾驶和工业检测等领域崭露头角。CeleX5作为国产事件相机的代表产品&#xff0…...

从EMIF到AXI:详解DSP与FPGA通信接口的演进与选型策略

从EMIF到AXI&#xff1a;异构计算平台接口技术演进与工程决策指南 在异构计算架构设计中&#xff0c;DSP与FPGA的高效数据交互始终是系统性能的关键瓶颈。十年前&#xff0c;工程师们还在为EMIF接口的布线优化绞尽脑汁&#xff1b;如今&#xff0c;AXI总线已成为新一代SoC的标配…...

OpenClaw配置优化:Qwen2.5-VL-7B任务执行的3个性能技巧

OpenClaw配置优化&#xff1a;Qwen2.5-VL-7B任务执行的3个性能技巧 1. 为什么需要优化OpenClaw的多模态任务性能 上周我尝试用OpenClaw自动处理一批图文混合的电商产品描述&#xff0c;结果发现简单的20条数据竟然花了47分钟。看着日志里频繁出现的"Waiting for model r…...

双模型协作实战:OpenClaw路由Kimi-VL-A3B-Thinking与Whisper处理音图文混合输入

双模型协作实战&#xff1a;OpenClaw路由Kimi-VL-A3B-Thinking与Whisper处理音图文混合输入 1. 需求场景与技术选型 上周我需要整理一场技术研讨会的录音和幻灯片。现场拍摄的照片包含PPT内容&#xff0c;同时手机录音记录了讲解语音——这种音图文混合素材的传统处理方式需要…...

Cgo回调中处理 const char- 参数的正确方法

本文详解如何在 Cgo 中为 C 回调函数正确声明和实现接收 const char* 参数的 Go 导出函数&#xff0c;解决因类型不匹配导致的编译错误&#xff0c;并提供可直接复用的类型别名方案与完整示例。 本文详解如何在 cgo 中为 c 回调函数正确声明和实现接收 const char* 参数的…...

实战:Java 日志中打印服务器 IP,快速区分多服务器日志归属

一、核心需求与背景当多台服务器&#xff08;如两台应用服务器&#xff09;运行相同代码时&#xff0c;日志文件 / 日志平台中无法直接区分日志来自哪台机器&#xff0c;排查问题时效率极低。解决思路是&#xff1a;在日志中固定输出当前服务器的 IPv4 地址&#xff0c;通过 IP…...

嵌入式裸机编程内存管理优化实践

1. 嵌入式裸机编程中的内存管理困境在STM32这类资源受限的嵌入式系统中&#xff0c;我见过太多因为内存管理不当导致的系统崩溃案例。有一次在产品现场&#xff0c;设备运行几天后突然死机&#xff0c;排查发现是内存碎片导致动态分配失败。这让我深刻认识到&#xff1a;在裸机…...

如何用Bubblewrap CLI创建你的第一个Trusted Web Activity项目

如何用Bubblewrap CLI创建你的第一个Trusted Web Activity项目 【免费下载链接】bubblewrap Bubblewrap is a Command Line Interface (CLI) that helps developers to create a Project for an Android application that launches an existing Progressive Web App (PWAs) usi…...

终极SocketRocket发布指南:从打包到CocoaPods推送的完整流程

终极SocketRocket发布指南&#xff1a;从打包到CocoaPods推送的完整流程 【免费下载链接】SocketRocket A conforming Objective-C WebSocket client library. 项目地址: https://gitcode.com/gh_mirrors/so/SocketRocket SocketRocket是一个符合标准的Objective-C WebS…...

Naivechain性能基准测试终极指南:评估区块链吞吐量的完整教程

Naivechain性能基准测试终极指南&#xff1a;评估区块链吞吐量的完整教程 【免费下载链接】naivechain A blockchain implementation in 200 lines of code 项目地址: https://gitcode.com/gh_mirrors/na/naivechain 想要了解区块链的真实性能表现吗&#xff1f;Naivech…...