【小白学机器学习30】样本统计的核心参数:均值/期望,方差,标准差,标准值。
目录
1 为什么我们要搞出来这么多指标/参数?
1.1 描述统计学为啥要搞出来这么多复杂的参数?什么平均值等
1.2 所以,需要用少数几个关键数据代表1群数据
1.2.1 平均值
1.2.2 平均值的问题:方差
2 代表性的数据1:均值
2.1 平均数
2.2 其他平均数
2.3 期望值= 以概率为权重的 加权平均值
3 其他描述平均值的
3.1 中位数
3.2 四分之一分位数,1/4分位数
3.3 众数
4 描述分散程度的指标:方差,标准差
4.1 方差var
4.1.1 方差公式
4.1.2 方差公式的由来,为什么是这个平方和的公式?
4.1.3 方差的核心
4.1.4 方差的问题
4.2 标准差 SD
5 标准值和概率
5.1 标准值
5.2 有了标准值,才有标准正态分布和 标准化参数
5.3 标准值和概率
6 样本和总体的关系
6.1 两组指标/参数
6.2 我们的目的,是通过样本认识总体
6.3 我们怎么从 样本的参数 获得总体的参数?
6.3.1 总体均值和样本均值,多次抽样时
6.3.2 总体均值和样本均值,只有单个样本时
6.3.3 总体方差和样本方差,无论单次还是多次
6.3.4 为什么要多一个“均方差”概念,没有“均均值”呢?
6.3.5 均方差的延申概念
7 上面的逻辑漏洞
7.1 有问题的地方
7.2 勉强说的过去的解释
7.3 但是更常见的情况下,我们怎么办? 用T分布?
1 为什么我们要搞出来这么多指标/参数?
1.1 描述统计学为啥要搞出来这么多复杂的参数?什么平均值等
数据本身很多了,但是我们的大脑进行数据处理时却不是越多越好,所以我们需要寻转典型数据,数据的代表
- 数据收集时越多越好
- 但是进行数据处理时,数据太多,人的大脑并不好处理
- 所以我们不能直接看原始数据,而是从中提炼出一些代表性的数据
- 比如早期统计学学家,提出,平均人,也就是平均值的概念。作为数据的代表
1.2 所以,需要用少数几个关键数据代表1群数据
- 均值:代表数据的普通特征(描述:集中趋势)
- 方差:代表数据的离散趋势(描述:分散趋势)
1.2.1 平均值
- 用代表值/ 典型值来代表数据,是有价值的
- 平均值,是具有代表性的
- 而且是预测数据最合适的数据。(只有这一组数据这一个变量时!)
1.2.2 平均值的问题:方差
- 但是也有问题
- 比如,平均值相同的两组数,可能实际样本数据相差很大
- 所以除了描述平均程度的代表指标:平均值,还需要另外一个维度的代表: 描述数据分散程度的指标。
2 代表性的数据1:均值
2.1 平均数
- 算术平均数,
- Mean=(x1+x2+….+xn)/n
2.2 其他平均数
- 几何平均数,= sqrt开n次方 (x1+x2+….+xn)
- 加权平均数,= p1*x1+p2*x2+....+pn*xn
- 调和平均数,=n/(1/x1+1/x2+.......+1/xn)
2.3 期望值= 以概率为权重的 加权平均值
- 概率论里
- 期望值=平均值
- 期望值= Σ pi*xi
3 其他描述平均值的
3.1 中位数
中位数,永远处于X轴,最小和最大中间,50%位置的数。只需要找X轴即可
- IF Odd,2 X (n/2+1)
- IF Even,2 ( X(n/2)+ X (n/2+1)) / 2
3.2 四分之一分位数,1/4分位数
- 分位数,分位图
- 还有2分位,5分,
3.3 众数
- 众数,出现次数最多的数
- 频率直方图里,最高的那个柱子对应的数就是。
4 描述分散程度的指标:方差,标准差
4.1 方差var
4.1.1 方差公式
- 方差=偏差平方和/N
- 方差=(x1-mean)^2+(x2-mean)^2+….+ (xn-mean)^2 / N
- 方差= E(X)^2-E(X^2)
4.1.2 方差公式的由来,为什么是这个平方和的公式?
- 单个偏差:某偏差=某数据-平均值
- 总偏差: 然后把所有的偏差加和起来,就是总的偏差
- 偏差和=Σ(各数据-平均值),会导致互相抵消
- 偏差的绝对值的和=Σ(|各数据-平均值|) ,理论上可以,但是使用的比较少。
- 偏差平方和=Σ(各数据-平均值)^2
- 方差=偏差平方和/N=Σ(各数据-平均值)^2/N
4.1.3 方差的核心
- 方差的核心把所有得误差加和起来,直接求和,抵消了
- 偏差的绝对值的和用的比较少
- 平方求和,可以不抵消,而且适合导数计算
4.1.4 方差的问题
- 因为方差是平方和/n,数据会变大很多
- 单位也会变奇怪,比如 米→平方米,还可以理解,但是人数→平方人数就很难理解
- 所以还是要用标准差。SD=sqrt(var)
4.2 标准差 SD
- SD=sqrt(var)
5 标准值和概率
5.1 标准值
- Sdxi= (xi-mean)/sd
- 用SD标准差的长度作为单位来衡量,每个样本值和均值的差距大小
- 作用可以比较不同量纲的人在对应的正态分布中的位置。
- 而且很多分布,二项分布等,最后都可以趋近正态分布
5.2 有了标准值,才有标准正态分布和 标准化参数
- 有了标准值,才有标准正态分布和 标准化参数
- 标准正态分布,就是正态分布里的数值,转化为标准值之后对应的分布图形
- 各种回归分析里的,标准化参数
- 非标准化参数,1个X单位变化引起多数个单位Y的变化
- 标准化参数,1个X变化1个标准差(X的),引起Y多少个单位的标准差(Y的)Y的变化
5.3 标准值和概率
- 标准差对应概率
- 具体就是 标准正态分布曲线下曲线下面的积分面积= 概率
6 样本和总体的关系
6.1 两组指标/参数
总体的
- (总体)均值,均值
- (总体)方差,方差
- (总体)标准差,标准差
样本的
- 样本均值
- 样本方差
- 样本标准差
- 均方差(新概念)
6.2 我们的目的,是通过样本认识总体
- 从个体case→ 样本sample→ 总体population
- 因为我们的目的不是为了得到样本的各种参数
- 其实我们的目的,本质是为了得到总体的各种参数
6.3 我们怎么从 样本的参数 获得总体的参数?
但是样本的参数,可以直接等于总体参数吗?可以!
也就是说是可以的,但是都要绕一下!
- 样本值的均值,无法直接推断总体均值,但是可以根据中心极限定理,确定多次取样,样本的均值的均值=总体平均值
- 样本方差, 小于总体方差, 样本方差/N-1= 总体方差
6.3.1 总体均值和样本均值,多次抽样时
- 正态分布的第2点,就是样本的平均值的分布也符合正态分布。并且样本平均值的均值=总体平均值,是无偏估计。
- 而样本平均值的均值,符合正态分布。
- 和总体的分布没关系,即使总体不符合正态分布,是偏的。但是样本平均值的分布也是会符合正态分布的!
- 样本的均值,如果有多次试验
- 样本均值的均值=总体均值
6.3.2 总体均值和样本均值,只有单个样本时
- 如果只有单次试验呢?
- 我们可以用 样本均值 和 总体标准差,估计一个总体均值的范围!
前提:如果我们知道样本均值,且知道总体的方差/标准差
我们如果只有1个样本,少数样本,虽然不能直接推算总体样本,但是可以这么估计范围。
比如在95%区间内
总体均值-1.96*标准差/sqrt(n) <= 样本平均值<=总体均值-1.96*标准差/sqrt(n)
因此
总体平均值<=样本平均值+1.96*标准差/sqrt(n)
总体平均值>=样本平均值-1.96*标准差/sqrt(n)当样本数量n一直增大后
总体平均值<=样本平均值+1.96*标准差/sqrt(n)=样本平均值+0
总体平均值>=样本平均值-1.96*标准差/sqrt(n) =样本平均值-0
总体平均值=样本平均值如果范围从95%→99%后,形象的看为什么置信区间变大了
总体平均值<=样本平均值+2.58 *标准差/sqrt(n)
总体平均值>=样本平均值-2.58 *标准差/sqrt(n)
范围变大,95%-99%,也就是置信区间变大了。而拒绝的空间α就很小了。
6.3.3 总体方差和样本方差,无论单次还是多次
- 样本方差 =Σ(xi-mean)^2/n <总体方差
- 均方差 =Σ(xi-mean)^2/(n-1) =总体方差
6.3.4 为什么要多一个“均方差”概念,没有“均均值”呢?
- 因为只有均方差(把n修改为n-1了)才可以等于总体方差!
- 而样本均值可以不修改公式直接=总体均值,或者预测一个总体均值访问,所以没有均均值的概念!
6.3.5 均方差的延申概念
- 均方差 =Σ(xi-mean)^2/(n-1) =总体方差
- 样本标准差=sqrt(样本方差)
- 均标准差 =sqrt(均方差)
7 上面的逻辑漏洞
7.1 有问题的地方
我们样本数量少,只知道样本的均值,样本方差。因此我们无法用 多次样本均值的均值=总体均值,这样的大数定律去推导。我们可以上面的这个正态分布的区间去估计
- 但是这个估计还有一个逻辑上有问题的地方
- 但是这里面用到的δ可不是样本的标准差,而是总体的标准差
- 我们连总体的均值都不知道,怎么会知道总体的标准差??
- 这是个逻辑悖论
7.2 勉强说的过去的解释
而如果用样本的标准差去替代总体的,也是个办法
因为
样本方差的分母从N改为(N-1)=总体方差,所以还是可以行得通的,但是肯定是有误差的。
7.3 但是更常见的情况下,我们怎么办? 用T分布?
如果承认我们不知道总体的均值,也不知道总体的方差怎么办呢?这是常见情况
- 如果像推测总体均值只要知道总体如果呈现正态分布(不是偏的或者奇怪的,)就可以用T分布,DF大于30,T分布和正态分布类似。
相关文章:

【小白学机器学习30】样本统计的核心参数:均值/期望,方差,标准差,标准值。
目录 1 为什么我们要搞出来这么多指标/参数? 1.1 描述统计学为啥要搞出来这么多复杂的参数?什么平均值等 1.2 所以,需要用少数几个关键数据代表1群数据 1.2.1 平均值 1.2.2 平均值的问题:方差 2 代表性的数据1:…...

flink1.17.2安装和使用
版本:flink1.17.2 单机模式 配置 # 为了在别处连接flink-web rest.bind-address: 0.0.0.0命令 # 启动集群 bin/start-cluster.sh # 关闭集群 bin/stop-cluster.sh使用 使用浏览器连接 ip:8081 使用flink-web...

C向C++入门-- C语言填坑
1.c参考文档 我们在学习c中需要查找参照信息到是从这些文档中得到。 https://legacy.cplusplus.com/reference/ 标准只更新到C11,但是以头⽂件形式呈现,内容⽐较易看好懂。 https://zh.cppreference.com/w/cpp https://en.cppreference.com/w/ 后两…...

扫雷游戏(C语言详解)
扫雷游戏(C语言详解) 放在最前面的1、前言(扫雷游戏的简介)2、扫雷游戏的规则(简易版)3、代码实现(3.1)提醒一下:( i ) 提醒1:( ii ) 提醒2: &…...

信刻全自动光盘摆渡系统
随着各种数据传输、储存技术、信息技术的快速发展,保护信息安全是重中之重。各安全领域行业对跨网数据交互需求日益迫切。针对于业务需要与保密规范相关要求,涉及重要秘密信息,需做到安全的物理隔离,并且保证跨网数据高效安全传输…...

计算机网络的数据链路层
计算机网络的数据链路层 数据链路层是OSI参考模型中的第二层,它位于物理层之上,网络层之下。数据链路层的主要功能是在物理层提供的服务的基础上向网络层提供服务,其最基本的服务是将源自网络层来的数据可靠地传输到相邻节点的目标机网络层。…...

从0开始搭建一个生产级SpringBoot2.0.X项目(三)SpringBoot接口统一返回和全局异常处理
前言 最近有个想法想整理一个内容比较完整springboot项目初始化Demo。 SpringBoot接口统一返回和全局异常处理,使用ControllerAdvice ExceptionHandler 的组合来实现。 一、pom文件新增依赖 <dependency><groupId>com.alibaba</groupId><ar…...

Mybatis-plus-扩展功能
Mybatis-plus-扩展功能 一:代码生成器 AutoGenerator 是 MyBatis-Plus 的代码生成器,通过 AutoGenerator 可以快速生成 Entity、Mapper、Mapper XML、Service、Controller 等各个模块的代码,极大的提升了开发效率。 功能的演示:…...

【AI辅助】AWS Toolkit+AmazonQ
#偶然看到网上某up主用的这个AI工具,感觉还挺实用的,推荐大家~我们不可阻挡AI的攻势,但是成为利用它的人,也是反侵占的方式呢# AWS toolkit Amazon Q 安装 VScode--Extensions--搜索工具--安装 安装后,工具栏会多出对…...

云手机简述(概况,使用场景,自己部署云手机)
背景 最近经常会看到云手机的相关广告,手痒难耐,了解一下。 我的主要需求: Android 已 root,能够做一些自动化等高级功能。能够通过 远程adb 控制手机。能够尽量的少花钱,最好是能够提供动态创建删除手机的方式&…...

Java已死,大模型才是未来?
作者:不惑_ 引言 在数字技术的浪潮中,编程语言始终扮演着至关重要的角色。Java,自1995年诞生以来,便以其跨平台的特性和丰富的生态系统,成为了全球范围内开发者们最为青睐的编程语言之一 然而,随着技术的…...

NCCL安装(Ubuntu等)
目录 一、NCCL的定义二、安装NCCL的原因1、加速多GPU通信2、支持流行的深度学习框架3、提高计算效率4、易于使用和集成5、可扩展性 三、NCCL安装方法1、下载安装包2、更新APT数据库3、使用APT安装libnccl2包,另外,如果需要使用NCCL编译应用程序ÿ…...

加载视频显示 - python 实现
#-*-coding:utf-8-*- # date:2021-03-21 # Author: DataBall - Xian # Function: 加载视频并显示import cv2 if __name__ "__main__":#加载视频cap cv2.VideoCapture(./video/1.mp4)while True:ret, img cap.read()# 获取相机图像if ret True:# 如果 ret 返回值为…...

数据结构模拟题[五]
数据结构试卷(五) 一、选择题 (20 分) 1.数据的最小单位是( )。 (A) 数据项 (B) 数据类型 (C) 数据元素 (D) 数据变量 2.设一组初始记录关键字序列为 (50 ,40, 95,20…...

IDEA切换窗口快捷键失效
问题描述: 在idea中,如果切换窗口的快捷键(Alt Tab)失效了,可以通过清除缓存的方式修复...

QT中使用图表之QChart绘制X轴为日期时间轴的折线图
显然X轴是日期时间轴的话,那么我们使用的轴类就得是QDateTimeAxis QChart中日期时间轴的精度是毫秒 因此图表里面的数据的x值需要是一个毫秒数,才能显示出来 --------------------------------------------------------------------------------------…...

【传知代码】短期电力负荷(论文复现)
🍑个人主页:Jupiter. 🚀 所属专栏:传知代码 欢迎大家点赞收藏评论😊 目录 备注前言介绍问题背景复现:一. 多维特征提取的提取框架:二. 论文中进行性能测试的MultiTag2Vec-STLF模型:三…...

ubuntu20.04 加固方案-设置重复登录失败后锁定时间限制
一、编辑PAM配置文件 打开终端。 使用文本编辑器(如vim)编辑/etc/pam.d/common-auth文件。 sudo vim /etc/pam.d/common-auth 二、添加配置参数 在打开的配置文件中,添加或修改以下参数: auth required pam_tally2.so deny5 un…...

【综合算法学习】(第十三篇)
目录 解数独(hard) 题目解析 讲解算法原理 编写代码 单词搜索(medium) 题目解析 解析算法原理 编写代码 解数独(hard) 题目解析 1.题目链接:. - 力扣(LeetCode)…...

Web3 Key Talking #4|Sui有何不同?及其发展路线图
活动时间: 2024 年 10 月 31 日(周四)20:00–21:00(UTC8) 会议链接: 腾讯会议 会议 ID :429–339–777 主持:Sanzhisanzhichazi1 嘉宾:uvdwangtxxl,Sui …...

Axios 请求超时设置无效的问题及解决方案
文章目录 Axios 请求超时设置无效的问题及解决方案1. 引言2. 理解 Axios 的超时机制2.1 Axios 超时的工作原理2.2 超时错误的处理 3. Axios 请求超时设置无效的常见原因3.1 配置错误或遗漏3.2 超时发生在建立连接之前3.3 使用了不支持的传输协议3.4 代理服务器或中间件干扰3.5 …...

数据结构+算法
一、数据结构 1、线性结构 数组: 访问:O(1)访问特定位置的元素;插入:O(n)最坏的情况发生在插入发生在数组的首部并需要移动所有元素时;删除:O(n)最坏的情况发生在删除数组的开头发生并需要移动第一元素后…...

利用ExcelJS封装一个excel表格的导出
ExcelJS 操作和写入Excel 文件。 直接上代码,js部分: exportFn.js import ExcelJS from exceljs; import { saveAs } from file-saver;export function exportExcleUtils(tHeader, filterVal, listData, fileName) {//设置工作簿属性const workbook ne…...

AI 原生时代,更要上云:百度智能云云原生创新实践
本文整理自百度云智峰会 2024 —— 云原生论坛的同名演讲。 我今天分享的主题,是谈谈在云计算和 AI 技术快速发展和深入落地的背景下,百度智能云在云原生的基础设施产品和技术层面做的一些创新实践。 毋庸置疑,过去十几年云计算和 AI 技术是…...

C语言程序编译运行
程序功能:使用 printf() 输出 “Hello, World!”。 C语言源程序: #include <stdio.h> int main() {// printf() 中字符串需要引号printf("Hello, World!");return 0; }编译过程: vim hello.c gcc hello.c -o hello ./hell…...

视频点播系统扩展示例
更多的前端页面(如视频详情页、用户注册页等)。更复杂的业务逻辑(如视频评论、搜索功能等)。安全性和权限管理(如用户角色管理、权限控制等)。其他技术细节(如文件上传、分页查询等)…...

echo $? —— Linux 中的退出状态码详解
在 Linux 系统中,echo $? 是一个非常重要的命令,用于显示上一条命令的退出状态码。这个小小的符号组合可以帮助我们判断命令是否成功执行,同时也为编写自动化脚本提供了基础支持。本文将详细介绍 echo $? 的用法及其在实际开发中的应用。 …...

heic格式转化jpg最简单方法?快来学习这几种简单的转换方法!
heic格式转化jpg最简单方法?在当今的数字图像处理领域,HEIC格式以其卓越的压缩效率和高质量图像表现,正逐渐崭露头角并受到业界的深切关注,HEIC格式凭借先进的压缩技术,成功地在保持图像清晰度的同时,大幅度…...

力扣(leetcode)每日一题 3259 超级饮料的最大强化能量|动态规划
3259. 超级饮料的最大强化能量 题干 来自未来的体育科学家给你两个整数数组 energyDrinkA 和 energyDrinkB,数组长度都等于 n。这两个数组分别代表 A、B 两种不同能量饮料每小时所能提供的强化能量。 你需要每小时饮用一种能量饮料来 最大化 你的总强化能量。然而…...

Webserver(2.7)内存映射
目录 内存映射内存映射相关系统调用内存映射的注意事项如果对mmap的返回值(ptr)做操作,释放内存(munmap)是否能够成功?如果open时O_RDONLY,mmap时prot参数指定PROT_READ | PROT_WRITE会怎样?如果文件偏移量…...