学习笔记:机器学习中的数学原理(一)
1. 集合
集合分为有限集和无限集;
对于有限集,两集合元素数相等即为等势;
对于无限集,两集合元素存在一一映射关系即为等势;
无限集根据是否与正整数集等势分为可数集和不可数集。
2. sigmoid函数(也叫logistic函数)
公式:
含义:将实数集R映射到区间(0,1),两个区间是等势的,公式就是双射函数(一对一映射函数)。
3. 支持向量机
支持向量机的目标是寻找一个最优超平面,能够最大化分类间隔。
超平面形式:

数据到超平面的距离如下:

我们希望SVM在边界点数据(支持向量)的输出是

考虑上非边界点,输出是

我们最大化这个两个边界的距离的一半(支持向量到超平面的距离):

在这两个的约束下,即可求解最优w和b。

4. 决策树
1)信息论概念
信息量是事后的判断:指的是一个随机变量某个可能性(具体事件)发生所带来的信息,满足概率越低信息量越大、不相关事件信息量相加对应概率相乘,因此公式为:
𝐡(𝐱) = −𝒍𝒐𝒈𝟐𝒑(𝒙)
信息熵是事前的预估:指的是一个随机变量所有可能性的信息量的期望,公式为:
𝐇(𝐱) = −𝒔𝒖𝒎(𝒑(𝒙)𝒍𝒐𝒈𝟐𝒑(𝒙))
2)决策树理解
决策树是要找到一棵树,按照这棵树的节点进行递归判断就可以得到判断结果,例如一个瓜是不是好瓜,需要判断一系列特征然后得到结论。

决策树算法则是为了找到这样一颗树,需要确定节点顺序。显然应该优先判断重要特征,即那些对确定性增益最大的,或者说熵减最多的。
3)决策树实现
基于信息论的决策树算法有ID3 、C4.5和 CART等算法,其中C4.5和CART两种算法从ID3算法中衍生而来。
ID3算法使用 信息增益 作为分裂的规则,信息增益越大,则选取该分裂规则。具体来说,首先计算好瓜坏瓜这个随机变量的信息熵,然后计算特征A各个可能性下的好瓜坏瓜的信息熵的期望,相减得到信息增益,计算所有特征的信息增益,选取信息增益最大的作为节点。下一个节点则是在该特征的各个可能下继续上述操作来确定。

4)优缺点
| 优点 | 缺点 |
|---|---|
| 易于理解和解释 | 容易过拟合 |
| 能够处理多种数据类型 | 对数据分布敏感 |
| 对缺失值不敏感 | 倾向于选择具有更多取值的特征 |
| 不需要特征缩放 | 难以处理高维稀疏数据 |
| 能够捕捉非线性关系 | 不稳定性 |
| 计算效率较高 | 对类别不平衡数据敏感 |
| 支持分类和回归任务 | 难以表达复杂关系 |
5)改进方法
为了克服决策树的缺点,可以采用以下方法:
剪枝:通过预剪枝或后剪枝减少过拟合。
集成学习:使用随机森林(Random Forest)或梯度提升树(Gradient Boosting Trees)来提高模型的稳定性和泛化能力。
类别平衡处理:通过过采样、欠采样或调整类别权重来处理类别不平衡问题。
特征工程:对高维稀疏数据进行降维或特征选择。
6)剪枝处理
如果按照我们之前的方法形成决策树后,会存在一定的问题。决策树会无休止的生长,直到训练样本中所有样本都被划分到正确的分类。实际上训练样本中含有异常点,当决策树节点样本越少的时候,异常点就可能使得该结点划分错误。另外,我们的样本属性并不一定能完全代表分类的标准,可能有漏掉的特征,也可能有不准确的特征。这样就会导致决策树在训练集上准确率超高,但是在测试集上效果不好,模型过拟合,泛化能力弱。因此我们需要适当控制决策树的生长。
5. 朴素贝叶斯
1)贝叶斯公式
先验概率:通过经验来判断事情发生的概率
后验概率:事情发生后推测原因的概率
条件概率:一个事件在另一个事件发生条件下的概率,即P(B|A),若两者独立,则等于P(B)
全概率公式:P(Y) = P(Y,X1) + ... + P(Y,Xn) = P(X1)P(Y|X1) + ... + P(Xn)P(Y|Xn)
贝叶斯公式:

2)朴素贝叶斯(贝叶斯分类器)
朴素贝叶斯,假设每个输入变量之间独立。即全概率中各个X是独立的。
贝叶斯分类器就是在这种假设下的分类器,只需要求出在输入变量(特征)X1...Xn的条件下,各个可能类别的条件概率,找到最大的即为要分的类

贝叶斯分类器的参数(先验概率 P(c) 和条件概率 P(xi∣c))通常是通过一次训练过程计算得到的,不需要多轮训练。这是因为贝叶斯分类器的训练过程主要是基于训练数据来估计这些参数,而这些参数的估计通常是直接的统计计算,不需要像一些复杂的神经网络模型那样通过迭代优化来调整参数。
参考:【机器学习算法笔记系列】决策树(Decision Tree)算法详解和实战_decisiontreeclassifier是什么算法-CSDN博客
决策树原理详解(无基础的同样可以看懂)-CSDN博客
相关文章:
学习笔记:机器学习中的数学原理(一)
1. 集合 集合分为有限集和无限集; 对于有限集,两集合元素数相等即为等势; 对于无限集,两集合元素存在一一映射关系即为等势; 无限集根据是否与正整数集等势分为可数集和不可数集。 2. sigmoid函数(也叫…...
鼠标滚轮冒泡事件@wheel.stop
我有一个页面,是在画布上的组件,但是组件中有一个table,table中数据多了,就会出现滚动条,正常情况下,滚动条用鼠标滚轮就可以滑动,但是这个table是在画布上,滚动滚轮会让画布缩放 在table外层的div上加上 wheel.stop,就生效了 wheel.stop 用途:这个修饰符用于处理鼠…...
Unity DoTween使用文档
DoTween 使用文档 DoTween 是 Unity 中非常流行的动画补间插件。它通过链式调用方式,让开发者可以快速创建平滑、自然的动画效果。本文将介绍 DoTween 的基础用法、缓动曲线原理(包含常见缓动曲线的数学公式与参数说明)、案例演示以及一些常…...
C语言中的共用体(Union):嵌入式开发中的节省内存利器
在进行嵌入式开发时,我们常常会听到这样一句话:“内存就是金钱。” 在嵌入式系统中,内存资源通常是非常稀缺的,尤其是在一些微控制器(如STM32、ESP32等)的开发中,我们需要尽可能地精打细算&…...
Java 线程池:7参数配置、4拒绝策略与执行流程详解
1. 为什么需要线程池? 在 Java 并发编程中,线程的创建和销毁是一项昂贵的操作。频繁地创建和销毁线程会带来较高的系统开销,甚至可能因线程数过多而导致 OOM(OutOfMemoryError) 或 CPU 过载。 线程池(Thre…...
代码随想录算法【Day38】
Day38 322. 零钱兑换 思路 完全背包 代码 class Solution { public:int coinChange(vector<int>& coins, int amount) {vector<int> dp(amount 1, INT_MAX);dp[0] 0;for (int i 0; i < coins.size(); i) { // 遍历物品for (int j coins[i]; j <…...
c# Lazy<T>单例模式 - 延迟初始化单例实例示例与详解
Lazy 延迟初始化单例实例示例与详解 Lazy<T> 是 C# 中用于延迟初始化的类,它允许你在第一次访问对象时才创建实例,而不是在程序启动时就创建实例。这在单例模式中非常有用,因为它可以避免不必要的资源消耗。 1. Lazy 的基本用法 Laz…...
51单片机之冯·诺依曼结构
一、概述 8051系列单片机将作为控制应用最基本的内容集成在一个硅片上,其内部结构如图4-1所示。作为单一芯片的计算机,它的内部结构与一台计算机的主机非常相似。其中微处理器相当于计算机中的CPU,由运算器和控制器两个部分构成;…...
Safari常用快捷键
一、书签边栏 1、显示或隐藏书签边栏:Control-Command-1 2、选择下一个书签或文件夹:向上头键或向下头键 3、打开所选书签:空格键 4、打开所选文件夹:空格键或右箭头键 5、关闭所选文件夹:空格键或左箭头键 6、更…...
02.07 TCP服务器与客户端的搭建
一.思维导图 二.使用动态协议包实现服务器与客户端 1. 协议包的结构定义 首先,是协议包的结构定义。在两段代码中,pack_t结构体都被用来表示协议包: typedef struct Pack {int size; // 记录整个协议包的实际大小enum Type type; …...
【CubeMX+STM32】SD卡 文件系统读写 FatFs+SDIO+DMA
本篇,将使用CubeMXKeil,创建一个SD卡的 FatFSSDIODMA 文件系统读写工程。 目录 一、简述 二、CubeMX 配置 FatFSSDIO DMA 三、Keil 编辑代码 四、实验效果 实现效果,如下图: 一、简述 上两篇,已循序渐进讲解了SD、…...
51单片机之使用Keil uVision5创建工程以及使用stc-isp进行程序烧录步骤
一、Keil uVision5创建工程步骤 1.点击项目,新建 2.新建目录 3.选择目标机器,直接搜索at89c52选择,然后点击OK 4.是否添加起吊文件,一般选择否 5.再新建的项目工程中添加文件 6.选择C文件 7.在C文件中右键,添加…...
aws(学习笔记第二十七课) 使用aws API Gateway+lambda体验REST API
aws(学习笔记第二十七课) 使用aws API Gatewaylambda体验REST API 学习内容: 使用aws API Gatewaylambda 1. 使用aws API Gatewaylambda 作成概要 使用api gateway定义REST API,之后再接收到了http request之后,redirect到lambda进行执行。…...
React - jsx 语法
在 React 中,JSX(JavaScript XML)是一种语法扩展,它允许开发者在 JavaScript 代码中使用类似 HTML 的语法。JSX 提升了代码的可读性和可维护性,使得编写和构建用户界面更加直观。它被广泛应用于 React 组件的定义。 一…...
5 前端系统开发:Vue2、Vue3框架(上):Vue入门式开发和Ajax技术
文章目录 前言一、Vue框架(简化DOM操作的一个前端框架):基础入门1 Vue基本概念2 快速入门:创建Vue实例,初始化渲染(1)创建一个入门Vue实例(2)插值表达式:{{表…...
快速在wsl上部署学习使用c++轻量化服务器-学习笔记
知乎上推荐的Tinywebserver这个服务器,快速部署搭建,学习c服务器开发 仓库地址 githubhttps://link.zhihu.com/?targethttps%3A//github.com/qinguoyi/TinyWebServerhttps://link.zhihu.com/?targethttps%3A//github.com/qinguoyi/TinyWebServer 在…...
2025年Android NDK超全版本下载地址
Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC 👉关于作者 专注于Android/Unity和各种游戏开发技巧,以及各种资源分…...
React 设计模式:实用指南
React 提供了众多出色的特性以及丰富的设计模式,用于简化开发流程。开发者能够借助 React 组件设计模式,降低开发时间以及编码的工作量。此外,这些模式让 React 开发者能够构建出成果更显著、性能更优越的各类应用程序。 本文将会为您介绍五…...
B站自研的第二代视频连麦系统(上)
导读 本系列文章将从客户端、服务器以及音视频编码优化三个层面,介绍如何基于WebRTC构建视频连麦系统。希望通过这一系列的讲解,帮助开发者更全面地了解 WebRTC 的核心技术与实践应用。 背景 在文章《B站在实时音视频技术领域的探索与实践》中ÿ…...
centOS8安装MySQL8设置开机自动启动失败
提供一个终极解决方案虽然systemctl 更符合管理预期但是不能用 使用一下命令 修改配置文件、修改mysql.service全是问题 systemctl start mysqld systemctl enable mysqld systemctl daemon-reload完全不生效各种报错 提示配置文件内容有问题 Main process exited, codeexite…...
使用Python实现PDF与SVG相互转换
目录 使用工具 使用Python将SVG转换为PDF 使用Python将SVG添加到现有PDF中 使用Python将PDF转换为SVG 使用Python将PDF的特定页面转换为SVG SVG(可缩放矢量图形)和PDF(便携式文档格式)是两种常见且广泛使用的文件格式。SVG是…...
[渗透测试]热门搜索引擎推荐— — shodan篇
[渗透测试]热门搜索引擎推荐— — shodan篇 免责声明:本文仅用于分享渗透测试工具,大家使用时,一定需要遵守相关法律法规。 除了shodan,还有很多其他热门的,比如:fofa、奇安信的鹰图、钟馗之眼等࿰…...
基于物联网技术的智能寻车引导系统方案:工作原理、核心功能及系统架构
本文专为IT技术员、软件开发工程师及智能停车领域专业人士打造,旨在深入剖析智能寻车引导系统的构建与优化过程。如需获取详细解决方案可前往文章最下方获取,如有项目需求及技术合作可私信作者。 智能寻车引导系统是一种集智能化、自动化于一体的停车管理…...
【React】合成事件语法
React 合成事件是 React 为了处理浏览器之间的事件差异而提供的一种跨浏览器的事件系统。它封装了原生的 DOM 事件,提供了一致的事件处理机制。 合成事件与原生事件的区别: 合成事件是 React 自己实现的,封装了原生事件。合成事件依然可以通…...
Redis02 - 持久化
Redis持久化 文章目录 Redis持久化一:持久化简介1:Redis为什么要进行持久化2:Redis持久化的方式 二:RDB持久化介绍1:手动触发RDB2:自动触发RDB3:redis.conf中进行RDB的配置4:RDB优缺…...
初始JavaEE篇 —— Spring Web MVC入门(上)
找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程程(ಥ_ಥ)-CSDN博客 所属专栏:JavaEE 目录 RequestMappingg 注解介绍 Postman的介绍与使用 PostMapping 与 GetMapping 注解 构造并接收请求 接收简单参数 接收对象…...
c++计算机教程
目的 做出-*/%计算机 要求 做出可以计算-*/%的计算机 实现 完整代码 #include<bits/stdc.h> int main() {std::cout<<"加 减- 乘* 除/ 取余% \没有了|(因为可以算三位)"<<"\n"<<"提示:每打完一个符号或打完一个数,\…...
Leetcode—487. 最大连续1的个数 II【中等】Plus
2025每日刷题(210) Leetcode—487. 最大连续1的个数 II 实现代码 class Solution { public:int findMaxConsecutiveOnes(vector<int>& nums) {int zeros 0;int ans 0;for(int l 0, r 0; r < nums.size(); r) {if(nums[r] 0) {zeros;…...
【MySQL】窗口函数详解(概念+练习+实战)
文章目录 前言1. SQL窗口函数 1.1 窗口函数概念1.2 窗口函数语法1.3 常见窗口函数 1.3.1 聚合窗口函数1.3.2 专用窗口函数 1.4 窗口函数性能比较 2. LeetCode 例题 2.1 LeetCode SQL 178:分数排名2.2 LeetCode SQL 184:最高工资2.3 LeetCode SQL 185&am…...
c语言对应汇编写法(以中微单片机举例)
芯片手册资料 1. 赋值语句 C语言: a 5; b a; 汇编: ; 立即数赋值 LDIA 05H ; ACC 5 LD R01,A ; R01 ACC(a5); 寄存器间赋值 LD A,R01 ; ACC R01(读取a的值) LD R02,A ; R02 ACC&…...
