当前位置: 首页 > news >正文

【小白学机器学习31】 大数定律,中心极限定理,标准正态分布与概率的使用

目录

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

1.2 中心极限定理:(证明了)分布的收敛性

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

2.2 两种使用方式

2.3 第1种:按整数倍标准差δ 作为标准使用

2.3.1   比如3δ原则 /6西格玛管理

2.3.2 还有LCL, UCL管理

2.2 第2种:按比较整的概率如95%对应的标准差使用

3 应用举例1

4 应用举例2:造成误差的原因不是样本数占总体的比例,而是样本的绝对数量!


关于正态分布,具体应用

1 正态分布相关的2个相关定理

1.1 大数定律:(证明了)分布的稳定性

  • 大量试验结果稳定性
  • 频率的稳定性,
  • 伯努利大数定律:样本数多n变大,某个事件发生的频度 =单次试验内发生的概率
  • 泊松大数定律:   样本数多n变大,样本平均值估计 =总体平均值

1.2 中心极限定理:(证明了)分布的收敛性

  • 分布的收敛性
  • 随机变量(如多次取样的均值)会逐渐符合某一分布:正态分布
  • 二项分布的极限分布是正态分布
  • 无论一组变量独立同分布,不管本身符合什么分布,但是有u和 δ^2。这组变量的样本平均数(多次抽样的平均数分分布)就服从 u和 δ^2/N的正态分布

2 使用标准差和概率的2种思路

2.1 标准正态分布的曲线

  • 标准正态分布曲线,曲线下的面积可以表示概率
  • 曲线上的每个点,都是Xi值的标准值
  • 标准值=xi-u/sd

2.2 两种使用方式

  • 我们根据不同的需要,确定了我们使用 2δ 还是2.58δ
  • 如果有可能,我们使用其他标准的δ 都有可能,关键是根据需求来
  1. 当我们需要以整数δ为标准来看概率时,选择 δ,2δ,3δ等
  2. 当我们需要以比较整的概率时比如95%,99%时,比如做假设检验的适合,选择 1.96δ,2.58δ等

2.3 第1种:按整数倍标准差δ 作为标准使用

按照 -3δ,-2δ,-1δ,1δ,2δ,3δ 这样的整数倍δ来划分区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%

2.3.1   比如3δ原则 /6西格玛管理

  • 标准正态分布与概率,3δ原则
  • 不同的标准差δ对应不同的概率
  • 按照几倍δ,去找对应的概率,68.5%,95.45%,99.99%等


2.3.2 还有LCL, UCL管理

  • LCL“Low control limit  一般对应-3δ
  • UCL:UP control limit    一般对应+3δ

2.2 第2种:按比较整的概率如95%对应的标准差使用

按概率 90% 95% 99%等比较整的概率去划分标准正态分布的区间

  • 3δ,49.8%,99.99%
  • 2.58δ,49.5%,99%
  • 2δ,47.7%,95.45%
  • 1.96δ,47.5%,95%
  • δ,34.1%,68.5%
  • -δ,34.1%,68.5%
  • -1.96δ,47.5%,95%
  • -2δ,47.7%,95.45%
  • -2.58δ,49.5%,99%
  • -3δ,49.8%,99.99%


 

3 应用举例1

  • 使用样本均值 + 总体的标准差,去估计 总体均值的范围
  • 使用样本均值 + 总体的标准差(样本标准差),去估计 总体均值的范围

我们如果只有1个样本,少数样本,虽然不能直接推算总体样本,但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)

当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值

如果范围从95%→99%后,形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大,95%-99%,也就是置信区间变大了。而拒绝的空间α就很小了。

这个计算实际存在理论上的问题。但是实际上我们容易得到样本均值,但很难得到总体标准差,而如果用样本的标准差去替代总体的,也是个办法,因为样本方差的分母从N改为(N-1)=总体方差,所以还是可以行得通的,但是肯定是有误差的。

4 应用举例2:造成误差的原因​​​​​​​不是样本数占总体的比例,而是样本的绝对数量!

  • 一个更奇怪的公式
  • 95%时
  • 样本p-1.96*sqrt((N-n)/(N-1)*p*(1-p)/n) <总体P< 样本p+1.96*sqrt((N-n)/(N-1)*p*(1-p)/n)
  • 而(N-n)/(N-1) 样本数量n比较小时,趋近于1,故意忽略
  • 样本p-1.96*sqrt(p*(1-p)/n) <总体P< 样本p+1.96*sqrt(p*(1-p)/n)

  • 造成误差的原因
  • 不是样本数占总体的比例,而是样本的绝对数量!
  • 反常识!

相关文章:

【小白学机器学习31】 大数定律,中心极限定理,标准正态分布与概率的使用

目录 1 正态分布相关的2个相关定理 1.1 大数定律&#xff1a;(证明了)分布的稳定性 1.2 中心极限定理&#xff1a;(证明了)分布的收敛性 2 使用标准差和概率的2种思路 2.1 标准正态分布的曲线 2.2 两种使用方式 2.3 第1种&#xff1a;按整数倍标准差δ 作为标准使用 2.…...

Go语言基础语法

一、创建工程 说明&#xff1a; &#xff08;1&#xff09;go.mod文件是go项目依赖管理文件&#xff0c;相当于前端的package.json&#xff0c;也就是Java项目中的Maven的pom.xml。 二、打印数据到控制台 &#xff08;1&#xff09;引入fmt &#xff08;2&#xff09;使用fmt…...

CSS层叠/CSS变量和!important的使用

layer components {:root {--theme: red;font-family: serif !important;} } CSS Layers CSS Layers 是一种用于管理和组织样式规则的新机制。它允许开发者定义不同的样式层&#xff0c;以便更好地控制样式的优先级和覆盖关系。通过使用 layer 规则&#xff0c;开发者可以将样…...

提升工作效率的小众神器

&#x1f916;宝子们&#xff0c;今天我要给大家分享五款超实用的小众工作软件&#xff0c;让你的工作事半功倍&#xff01;&#x1f60e; &#x1f31f;亿可达 - 自动化办公神器 亿可达是一款自动化办公工具&#xff0c;无需编程知识就能搭建出各种自动化工作流程。界面清新…...

【Python+Pycharm】2024-Python安装配置教程

【PythonPycharm】2024-Python安装配置教程 一、下载装 Python 1、进入Python官网首页&#xff0c;下载最新的Python版本 Download Python | Python.org 选择对应版本下载 安装 测试安装情况 python如果安装失败 在系统环境变量添加安装路径 where pythonwin7安装路径添加…...

systemverilog中clocking的用法

文章目录 1.clocking简介2.clocking实例分析3.重点分析&#xff08;1&#xff09;bus定义是不是随便取名的&#xff08;2&#xff09;输入输出的定义原则是什么&#xff08;3&#xff09;到底如何消除了竞争和冒险&#xff08;4&#xff09;没用到的信号如何处理&#xff08;5&…...

【Python开发】大模型应用开发项目整理

不知不觉已经入职3个月了&#xff0c;同事很好&#xff0c;工作充实&#xff0c;学到了很多东西&#xff0c;大大小小的需求也实现了接近20个。负责2个主要component&#xff0c;数据抓取和利用GenAI做数据提取。 1 背景 提取新闻中事件关键信息&#xff0c;比如人名&#xff…...

Redis 的使⽤和原理

第一章:初识 Redis 1.1盛赞 Redis Redis 是⼀种基于键值对&#xff08;key-value&#xff09;的 NoSQL 数据库&#xff0c;与很多键值对数据库不同的是&#xff0c;Redis 中的值可以是由 string&#xff08;字符串&#xff09;、hash&#xff08;哈希&#xff09;、list&…...

前端学Java

一&#xff1a;语法 1、注解 注解&#xff08;Annotation&#xff09;是Java中的一种特殊类型的语法&#xff0c;它可以被用来为代码提供元数据。元数据是关于数据的数据&#xff0c;注解可以用于类、方法、变量等的描述与标记。 理解注解可以从以下几个方面入手&#xff1a…...

VR游戏:多人社交将是VR的下一个风口

第一部分&#xff1a;创业笔记 1. 市场趋势 从单机游戏转向多人互动体验&#xff1a;随着技术的进步&#xff0c;VR游戏正从单机模式向多人互动体验转变。代表作品如Rec Room、Phasmophobia、Among Us和Breachers等&#xff0c;这些游戏的成功证明了多人互动模式的巨大潜力。…...

Docker与虚拟机(VM)的不同

Docker与虚拟机&#xff08;VM&#xff09;在实现的原理上存在显著的不同&#xff0c;主要体现在以下几个方面&#xff1a; 一、基础原理 Docker 利用Linux内核的特性&#xff0c;如容器&#xff08;containers&#xff09;、命名空间&#xff08;namespaces&#xff09;和控制…...

Pr 视频效果:透视

效果面板/视频效果/透视 Video Effects/Perspective Adobe Premiere Pro 的视频效果中&#xff0c;透视 Perspective效果组主要用于在二维平面的视频剪辑中模拟三维空间的透视效果。 通过调整这些效果&#xff0c;可以改变图像的视角、添加阴影、创造立体感&#xff0c;增强画面…...

C 语言标准库 - <limit.h>

简介 <limits.h> 是 C 标准库中的一个头文件&#xff0c;定义了各种数据类型的限制。这些宏提供了有关整数类型&#xff08;char、short、int、long 和 long long 等&#xff09;和其他数据类型的最大值和最小值的信息。 这些限制指定了变量不能存储任何超出这些限制的…...

Python | Leetcode Python题解之第519题随机翻转矩阵

题目&#xff1a; 题解&#xff1a; class Solution:def __init__(self, m: int, n: int):self.m mself.n nself.total m * nself.map {}def flip(self) -> List[int]:x random.randint(0, self.total - 1)self.total - 1# 查找位置 x 对应的映射idx self.map.get(x,…...

大数据新视界 -- 大数据大厂之提升 Impala 查询效率:索引优化的秘籍大揭秘(上)(3/30)

&#x1f496;&#x1f496;&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎你们来到 青云交的博客&#xff01;能与你们在此邂逅&#xff0c;我满心欢喜&#xff0c;深感无比荣幸。在这个瞬息万变的时代&#xff0c;我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…...

【AI工作流】FastGPT - 深入解析FastGPT工作流编排:从基础到高级应用的全面指南

文章目录 一、工作流编排概述二、FastGPT的节点类型1. 基础功能插件(1) 文本输出(2) 功能调用(3) 工具(4) 外部调用(5) 其他 2. 系统插件3. 团队插件 三、工作流中的流向结语 在当今快速发展的人工智能领域&#xff0c;工作流编排的能力已成为提升用户体验和应用效率的关键因素…...

VS+Qt解决提升控件后,包含头文件格式不对问题处理

一、前言 VSQt 提升控件后&#xff0c;在uic目录下会生成ui相关的初始化文件&#xff0c;对于提升的控件头文件包含的格式为#include<> 而非 #include “ ” 导致无法找到头文件。如果手动修改为 #include “ ”相当麻烦&#xff0c;甚至每次编译都要修改一遍&#xff0c…...

opencv - py_imgproc - py_filtering filtering 过滤-卷积平滑

文章目录 平滑图像目标2D 卷积&#xff08;图像过滤&#xff09;图像模糊&#xff08;图像平滑&#xff09;1. 平均2. 高斯模糊3. 中值模糊4. 双边滤波 其他资源 平滑图像 目标 学习&#xff1a; 使用各种低通滤波器模糊图像将定制滤波器应用于图像&#xff08;2D 卷积&…...

精华帖分享|缠论系列 -笔

本文来源于量化小论坛策略分享会板块精华帖&#xff0c;作者为吴奕萱&#xff0c;发布于2023年6月4日。 以下为精华帖正文&#xff1a; 01 笔 昨天讲了3根K线组合关系的完全分类&#xff0c;按照逻辑&#xff0c;其实我们会考虑是不是应该讲4根、5根K线的组合关系了。 精华帖…...

Java项目实战II基于Spring Boot的文理医院预约挂号系统的设计与实现(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发&#xff0c;CSDN平台Java领域新星创作者&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。 一、前言 在医疗资源日益紧张的背景下&#xff0…...

STS4x温度传感器I²C驱动库深度解析与跨平台移植

1. STS4x温湿度传感器驱动库技术解析1.1 项目定位与工程价值Sensirion STS4x系列是瑞士Sensirion公司推出的高精度数字温度传感器&#xff0c;采用CMOSens技术&#xff0c;具备0.1C典型精度、0.01C分辨率、低功耗&#xff08;典型待机电流仅0.5μA&#xff09;及快速响应&#…...

VSCode党必看!用轻量级方案玩转LaTeX:2024年TexLive+VSCode配置全攻略

VSCode党必看&#xff01;用轻量级方案玩转LaTeX&#xff1a;2024年TexLiveVSCode配置全攻略 对于习惯在VSCode中高效编码的开发者而言&#xff0c;切换到传统LaTeX编辑器往往意味着要放弃熟悉的快捷键、扩展生态和流畅的代码体验。本文将带你用完全基于VSCode的轻量级方案构建…...

利用快马平台快速构建免费节点测试工具原型,十分钟完成开发

今天想和大家分享一个快速验证免费节点可用性的小工具开发过程。作为一个经常需要测试代理节点的开发者&#xff0c;手动一个个验证实在太费时间&#xff0c;于是我用InsCode(快马)平台快速搭建了一个原型工具&#xff0c;整个过程比想象中简单很多。 需求分析 免费节点测试工具…...

AutoSar标准文档下载全攻略:从官网入口到模块选择(附命名规则解析)

AutoSar标准文档高效获取与深度解析指南 引言 在汽车电子系统开发领域&#xff0c;AutoSar标准已经成为行业公认的架构规范。无论是ECU开发工程师、系统架构师还是测试验证人员&#xff0c;都需要频繁查阅AutoSar官方文档。然而&#xff0c;面对庞大的文档体系和复杂的命名规则…...

MATLAB中扩展卡尔曼滤波与无迹卡尔曼滤波源代码:一键运行,误差对比及显示最大误差数字图像程...

MATLAB编写的EKF和UKF滤波程序源代码 扩展卡尔曼滤波、无迹卡尔曼滤波的MATLAB程序&#xff0c;有误差对比图像和最大误差数字的显示。 只有一个m文件&#xff0c;打开就能运行。 带中文注释。直接双击EKFUKFComparison.m就能看到两个滤波器在非线性系统里的较量。这个文件里塞…...

带标注的交通工具分类数据集,17334张原始图片,识别率92.4%,可识别汽车,公共汽车,自行车,摩托车,支持yolo,coco json,pascal voc xml格式

带标注的交通工具分类数据集&#xff0c;17334张原始图片&#xff0c;识别率92.4%&#xff0c;可识别汽车&#xff0c;公共汽车&#xff0c;自行车&#xff0c;摩托车&#xff0c;支持yolo&#xff0c;coco json&#xff0c;pascal voc xml格式 模型训练指标参数&#xff1a; …...

foobox-cn个性化定制指南:打造专属foobar2000音乐界面

foobox-cn个性化定制指南&#xff1a;打造专属foobar2000音乐界面 【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn foobox-cn是一款为foobar2000播放器设计的DUI&#xff08;自定义用户界面&#xff0…...

3步彻底解决Umi-OCR Rapid版本HTTP服务无响应问题:参数配置完全指南

3步彻底解决Umi-OCR Rapid版本HTTP服务无响应问题&#xff1a;参数配置完全指南 【免费下载链接】Umi-OCR Umi-OCR: 这是一个免费、开源、可批量处理的离线OCR软件&#xff0c;适用于Windows系统&#xff0c;支持截图OCR、批量OCR、二维码识别等功能。 项目地址: https://git…...

告别特征工程:用Python+Matplotlib把EEG脑电信号直接变成CNN能吃的时频图

从原始EEG到CNN输入&#xff1a;Python自动化生成时频图全流程解析 深夜的实验室里&#xff0c;显示器上跳动的脑电波形正被转化为一张张彩色图像——这不是科幻场景&#xff0c;而是现代脑机接口研究的日常。传统EEG分析中繁琐的特征工程正在被一种更直观的方法取代&#xff1…...

Python开发环境搭建新选择:Miniconda-Python3.11镜像体验

Python开发环境搭建新选择&#xff1a;Miniconda-Python3.11镜像体验 1. 为什么选择Miniconda-Python3.11镜像 Python作为当今最流行的编程语言之一&#xff0c;其版本管理和环境隔离一直是开发者面临的挑战。传统的Python安装方式往往会导致&#xff1a; 系统Python版本与项…...