当前位置: 首页 > news >正文

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录

参考书,学习书

0 统计学知识大致脉络

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

2 数据的来源

2.1 数据的来源

2.2 数据的层级

2.3 样本是什么sample? 

3  如何获得样本数据? 

3.1 随机抽样不是随意调查

3.2 等距抽样

3.3 分层抽样

3.4 群抽样

3.5 混合多阶段抽样


参考书,学习书

  • 日本,图解统计学,今野纪雄
  • 日本,新手小白学统计,本丸谅
  • 《从零开始学统计》 归璐
  • 《戏说统计》李连江

0 统计学知识大致脉络

  • 需要对统计学有个大致脉络
  • 不至于完全陷入到细节里去,时刻清楚自己在地图的哪儿

1 个体---抽样---整体

1.1 关于个体---抽样---整体,这个三段式关系

  • 个体---抽样---整体/母体
  • case---sample---polulation
  • 普通----特殊----整体
  • 这个类黑格尔的三段式逻辑的内涵:
  • 我们想从个别例子认识到整体,总结到一般规律,中间必须要借用1个逻辑步骤:抽样样本。
  • 也就是用1个命题+另外1个命题→得到结论的一种推理方式

黑格尔式三段论逻辑:

人都要吃饭

男人是人

所以男人要吃饭

科学网—“三段论(Syllogism)”简介 - 柳渝的博文

在传统逻辑中,“三段论(Syllogism)”指从两个命题(“大前提”和“小前提”)推导出“结论”的一种推理形式,是数学证明、科学研究及日常沟通交流中常用的一种推理

在希腊语中,syllogism由syn(与)和logos(语言)组成,本意指“(一个命题)与(另一个命题)相连”,引申义指“推理”。亚里士多德在“工具论(Organon)”中第一次将三段论系统化。

例子:

- 所有人都是必死的。(大前提)

- 苏格拉底是人。(小前提)

- 苏格拉底是必死的。(结论)

1.2 要明白,自然界的整体/母体是不可能被全部认识的

1.2.1 不要较真,如果是人为定义的一个整体,是可以被认识的

  • 我们自己当然可以自己定义一个我们全知的“整体”
  • 在这个角度,我们就是上帝
  • 但是这个知识“题目”“模型”“思想试验” ,我们可以在我们定义的世界里有上帝视角,这不奇怪。
  • 就和做题 != 解决社会上的真实问题一样,这些整体,一般并不是我们要面对的生活中的自然的/社会上的真正整体。

类比的例子

  • 定距数据里,比如摄氏度,身高,我们也可以进行* /,因为我们预设了一个0点,温度0,身高0。那为什么说定距数据里,进行* /运算没有意义?
  • 是因为别人可以设置 -10度,-20作为温度和身高的起点,这样计算乘除的结果就完全不同了。所以是没有意义的。
  • 只有用绝对0度当0度的华氏温度才有 */的意义。

1.2.2 如果是自然界/社会上的整体/母体,一般都不能被全部认识

大整体/母体的特点

  • 理论都是无穷的,无法穷尽数量的,所以我们不可能认识真正的全部集合里的所有元素!
  • 获得巨大量的数据,成本是很高的。
  • 等等原因

1.2.3 从哲学上说,整体/母体是彼岸的东西,是理念,是绝对精神,是大脑中先验的范式。

  • 从柏拉图等观点来看
  • 因为真正的母体/总体我们无法认识,其实这些是概念,不存在于现实世界,只存在于彼岸世界,是所谓的“形而上”
  • 而我们所有的现实生活的一个个集合,都是对这个概念的一个拙劣的投射/模仿(反正就是这个意思吧,我水平就只能描述道这)

1.2.4 反过来说,整体/母体 完全不可知吗?是部分可知的

  • 哲学里对立的观点本来就很多
  • 有“形而上”的观点,也有 纯经验的观点,比如经验主义,现象学等等
  • 这个不说了,作为普通人的我把握不住。

我认为

  • 真正的整体也许确实永远不可能被全部认识
  • 整体是部分可知的
  • 或者说,整体的一些现实投射是可知的。
  • 我们的日常经验就是对整体的一些认识,这些就是我们认识的材料。

2 数据的来源

2.1 数据的来源

  • 调查,问卷等
  • 统计

2.2 数据的层级

  • 个体:case ,特殊化
  • 整体/母体:不可知
  1. 进行普查:几乎不可能
  2. 进行全面调查,很难,成本很高
  • 所以我们要通过样本取认识整体,样本是什么?

2.3 样本是什么sample? 

  • 样本是整体的一部分
  • 样本不是整体的随便一部分
  • 样本是整体的微缩/结构相同/类似/缩小版

但是问题来了

  • 我们连整体都不能全知,我们怎么知道样本是否和总体是结构类似的?
  • 我们不能保证(因为我们确实验证不了)
  • 我们最多只能从过程中保证

3  如何获得样本数据? 

  • 我们最多只能从过程中保证,样本类似整体,怎么做?
  • 只能从过程上尽量保证随机:每个个体均等机会被抽中。
  • 取样的原则1:公平
  • 取样的原则2:成本可控时,抽样数量要尽可能多一点

保证总体中每个case有相同的概率被抽取到!

这需要考虑到很多

这些case 在各个属性维度上,都要是相同,平等的概率

比如人口调查,需要让人口从年龄,学历,地域,,,,各个维度都平等的抽到

  • 具体的手段:随机抽样/等距抽样,等等

3.1 随机抽样不是随意调查

  • 抽样调查
  • 正确:比如给每个个体编号,然后取随机抽取这些编号
  • 错误:比如给每个个体编号,挑选编号前100个

3.2 等距抽样

  • 比如给每个个体编号,然后按一定距离比如相距10个抽1个
  • 1,11,21,等等

3.3 分层抽样

  • 如果我们知道数据是分层的
  • 并且,我们可以用一些辅助数据可以区分这些分层
  • 那么我们可以在不同的分层中分别抽取数据

数据分层:(有点像聚类分析,不同的类别)

  • 分层间,数据差异大
  • 分层内,数据差异比较小

3.4 群抽样

  • 从直接抽个体,变成直接抽群
  • 群抽样的特点例子,比如学校学生等天然就是分群的

群抽样和分层抽样差异

  • 群抽样,每个群体之间差异小,群里尽量是差异很大,每个群内部都类整体分布
  • 分层抽样相反,层之间差异大,层内差异小。

3.5 混合多阶段抽样

比较复杂,我没仔细看~~

反正就是利用上面各种抽样的优点

相关文章:

【小白学机器学习28】 统计学脉络+ 总体+ 随机抽样方法

目录 参考书,学习书 0 统计学知识大致脉络 1 个体---抽样---整体 1.1 关于个体---抽样---整体,这个三段式关系 1.2 要明白,自然界的整体/母体是不可能被全部认识的 1.2.1 不要较真,如果是人为定义的一个整体,是可…...

安全研究 | 不同编程语言中 IP 地址分类的不一致性

作为一名安全研究人员,我分析了不同编程语言中 IP 地址分类 的行为。最近,我注意到一些有趣的不一致性,特别是在循环地址和私有 IP 地址的处理上。在这篇文章中,我将分享我对此问题的观察和见解。 设置 我检查了多种编程语言&am…...

小小的表盘还能玩出这么多花样?华为手表这次细节真的拉满

没想到小小的表盘还能玩出这么多花样?华为这次细节真的拉满!还有没有你不知道的神奇玩法? 情绪萌宠,心情状态抬腕可见 好心情就像生活馈赠的糖果,好的心情让我们遇到困难也不惧打击!HUAWEI WATCH GT 5情绪…...

trueNas 24.10 docker配置文件daemon.json无法修改(重启被覆盖)解决方案

前言 最近听说truenas的24.10版本开放docker容器解决方案放弃了原来难用的k3s,感觉非常巴适,就研究了一下,首先遇到无法迁移老系统应用问题比较好解决,使用sudo登录ssh临时修改daemon.json重启docker后进行docker start 容器即可…...

数字孪生,概念、应用与未来展望

随着科技的飞速发展,数字化已经成为各行各业的发展趋势,在这个过程中,数字孪生作为一种新兴的技术,逐渐引起了人们的关注,本文将对数字孪生的概念、应用以及未来展望进行详细介绍。 数字孪生的概念: 数字孪…...

Chromium HTML Input 类型Text 对应c++

一、文本域&#xff08;Text Fields&#xff09; 文本域通过 <input type"text"> 标签来设定&#xff0c;当用户要在表单中键入字母、数字等内容时&#xff0c;就会用到文本域。 <!DOCTYPE html> <html> <head> <meta charset"ut…...

SpringMvc参数传递

首先对于post请求汉字乱码需要进行过滤器配置 普通参数传递 直接传递 客户端传递的属性名与我的bean中的函数参数名相同 映射传递RequestParam("XXX") 在我们方法参数中定义一个与客户端属性名一致 并绑定参数 POJO实体类传递 嵌套POJO传递 数组likes参数传递…...

西安国际数字影像产业园:数字化建设赋能产业升级与拓展

西安国际数字影像产业园的数字化建设&#xff0c;在当前经济与科技迅猛发展的大背景下&#xff0c;已然成为提升园区管理效率、服务水平以及运营效果的关键趋势。随着信息技术日新月异的进步&#xff0c;数字化更是成为这座产业园转型升级的核心关键词。如今&#xff0c;西安国…...

linux线程池

线程池: * 一种线程使用模式。线程过多会带来调度开销&#xff0c;进而影响缓存局部性和整体性能。而线程池维护着多个线程&#xff0c;等待着 监督管理者分配可并发执行的任务。这避免了在处理短时间任务时创建与销毁线程的代价。线程池不仅能够保证内核的充分利 用&#xff0…...

PyTorch图像分类实战——基于ResNet18的RAF-DB情感识别(附完整代码和结果图)

PyTorch图像分类实战——基于ResNet18的RAF-DB情感识别&#xff08;附完整代码和结果图&#xff09; 关于作者 作者&#xff1a;小白熊 作者简介&#xff1a;精通python、matlab、c#语言&#xff0c;擅长机器学习&#xff0c;深度学习&#xff0c;机器视觉&#xff0c;目标检测…...

【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记

【OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments】阅读笔记 1. 论文概述Abstract1. Introduction2. Related work2.1 3D Occupancy Prediction2.2 Neural Radiance Fields2.3 Self-supervised Depth Estimation 3. Method3.1 Parameterized Occupanc…...

DDRPHY数字IC后端设计实现系列专题之后端设计导入,IO Ring设计

本章详细分析和论述了 LPDDR3 物理层接口模块的布图和布局规划的设计和实 现过程&#xff0c;包括设计环境的建立&#xff0c;布图规划包括模块尺寸的确定&#xff0c;IO 单元、宏单元以及 特殊单元的摆放。由于布图规划中的电源规划环节较为重要&#xff0c; 影响芯片的布线资…...

EDA --软件开发之路

之前一直在一家做数据处理的公司&#xff0c;从事c开发&#xff0c;公司业务稳定&#xff0c;项目有忙有闲&#xff0c;时而看下c&#xff0c;数据库&#xff0c;linux相关书籍&#xff0c;后面跳槽到了家eda公司&#xff0c;开始了一段eda开发之路。 eda 是 electric design …...

51c~目标检测~合集2

我自己的原文哦~ https://blog.51cto.com/whaosoft/12377509 一、总结 这里概述了基于深度学习的目标检测器的最新发展。同时&#xff0c;还提供了目标检测任务的基准数据集和评估指标的简要概述&#xff0c;以及在识别任务中使用的一些高性能基础架构&#xff0c;其还涵盖了…...

计算机低能儿从0刷leetcode | 33.搜索旋转排列数组

题目&#xff1a;33. 搜索旋转排序数组 思路&#xff1a;看到时间复杂度要求是O(log N)很容易想到二分查找&#xff0c;普通的二分查找我们已经掌握&#xff0c;本题中的数组可以看作由两个分别升序的数组拼成&#xff0c;在完全升序的部分中进行二分查找是容易的&#xff0c;…...

SpringBoot+VUE2完成WebSocket聊天(数据入库)

下载依赖 <!-- websocket --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-websocket</artifactId></dependency><!-- MybatisPlus --><dependency><groupId>com.ba…...

理解 CSS 中的绝对定位与 Flex 布局混用

理解 CSS 中的绝对定位与 Flex 布局混用 在现代网页设计中&#xff0c;CSS 布局技术如 flex 和绝对定位被广泛使用。然而&#xff0c;这两者结合使用时&#xff0c;可能会导致一些意想不到的布局问题。本文将探讨如何正确使用绝对定位元素&#xff0c;避免它们受到 flex 布局的…...

Redis 事务 问题

前言 相关系列 《Redis & 目录》《Redis & 事务 & 源码》《Redis & 事务 & 总结》《Redis & 事务 & 问题》 参考文献 《Redis事务详解》 Redis事务是什么&#xff1f; 标准的事务是指执行时具备原子性/一致性/隔离性/持久性的一系列操作。…...

Cpp学习手册-进阶学习

C标准库和C20新特性 C标准库概览&#xff1a; 核心库组件介绍&#xff1a; 容器&#xff1a; C 标准库提供了多种容器&#xff0c;它们各有特点&#xff0c;适用于不同的应用场景。 std::vector&#xff1a; vector&#xff1a;动态数组&#xff0c;支持快速随机访问。 #in…...

代码随想录-字符串-反转字符串中的单词

题目 题解 法一:纯粹为了做出本题&#xff0c;暴力解 没有技巧全是感情 class Solution {public String reverseWords(String s) {//首先去除首尾空格s s.trim();String[] strs s.split("\\s");StringBuilder sb new StringBuilder();//定义一个公共的字符反转…...

Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢&#xff0c;博主的学习进度也是步入了Java Mybatis 框架&#xff0c;目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学&#xff0c;希望能对大家有所帮助&#xff0c;也特别欢迎大家指点不足之处&#xff0c;小生很乐意接受正确的建议&…...

新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案

随着新能源汽车的快速普及&#xff0c;充电桩作为核心配套设施&#xff0c;其安全性与可靠性备受关注。然而&#xff0c;在高温、高负荷运行环境下&#xff0c;充电桩的散热问题与消防安全隐患日益凸显&#xff0c;成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...

【python异步多线程】异步多线程爬虫代码示例

claude生成的python多线程、异步代码示例&#xff0c;模拟20个网页的爬取&#xff0c;每个网页假设要0.5-2秒完成。 代码 Python多线程爬虫教程 核心概念 多线程&#xff1a;允许程序同时执行多个任务&#xff0c;提高IO密集型任务&#xff08;如网络请求&#xff09;的效率…...

智能仓储的未来:自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”&#xff0c;物流的终极形态正在诞生 想象这样的场景&#xff1a; 凌晨3点&#xff0c;某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径&#xff1b;AI视觉系统在0.1秒内扫描包裹信息&#xff1b;数字孪生平台正模拟次日峰值流量压力…...

html-<abbr> 缩写或首字母缩略词

定义与作用 <abbr> 标签用于表示缩写或首字母缩略词&#xff0c;它可以帮助用户更好地理解缩写的含义&#xff0c;尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时&#xff0c;会显示一个提示框。 示例&#x…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中&#xff0c;科研绘图是必不可少的&#xff0c;一张好看的图形会是文章很大的加分项。 为了便于使用&#xff0c;本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中&#xff0c;获取方式&#xff1a; R 语言科研绘图模板 --- sciRplothttps://mp.…...

解决:Android studio 编译后报错\app\src\main\cpp\CMakeLists.txt‘ to exist

现象&#xff1a; android studio报错&#xff1a; [CXX1409] D:\GitLab\xxxxx\app.cxx\Debug\3f3w4y1i\arm64-v8a\android_gradle_build.json : expected buildFiles file ‘D:\GitLab\xxxxx\app\src\main\cpp\CMakeLists.txt’ to exist 解决&#xff1a; 不要动CMakeLists.…...

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。 步骤如下&#xff1a; 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载&#xff0c;下载地址&#xff1a;https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

零知开源——STM32F103RBT6驱动 ICM20948 九轴传感器及 vofa + 上位机可视化教程

STM32F1 本教程使用零知标准板&#xff08;STM32F103RBT6&#xff09;通过I2C驱动ICM20948九轴传感器&#xff0c;实现姿态解算&#xff0c;并通过串口将数据实时发送至VOFA上位机进行3D可视化。代码基于开源库修改优化&#xff0c;适合嵌入式及物联网开发者。在基础驱动上新增…...

LCTF液晶可调谐滤波器在多光谱相机捕捉无人机目标检测中的作用

中达瑞和自2005年成立以来&#xff0c;一直在光谱成像领域深度钻研和发展&#xff0c;始终致力于研发高性能、高可靠性的光谱成像相机&#xff0c;为科研院校提供更优的产品和服务。在《低空背景下无人机目标的光谱特征研究及目标检测应用》这篇论文中提到中达瑞和 LCTF 作为多…...