当前位置：首页 > article >正文

统计学（第8版）——统计抽样学习笔记（考试用）

article 2026/2/8 9:16:29

一、统计抽样的核心内容与问题

研究内容

从总体中科学抽取样本的方法
利用样本数据推断总体特征（均值、比率、总量）
控制抽样误差与非抽样误差

解决的核心问题

在成本约束下，用少量样本准确推断总体特征
量化估计结果的可靠性（置信区间）

二、基本概念（7.1节）

术语	定义
总体	研究对象的全体
样本	从总体中抽取的部分元素集合
目标总体	待推断的总体（理论范围）
抽样总体	实际抽取样本的总体（操作范围）
抽样单位	抽样的基本单元（个体或一组个体）
抽样框	抽样单位的名册清单

关键提示：抽样框必须完整覆盖抽样总体，否则会引入覆盖误差

三、抽样调查方法与误差（7.2-7.3节）

调查方法

邮寄调查
电话调查
个人采访调查

误差分类

非抽样误差
- 测量误差
- 采访者误差
- 数据处理误差
抽样误差
- 因未调查全部单位产生的误差

控制策略

非抽样误差：问卷预测试、调查员培训、自动化数据处理
抽样误差：增加样本量或改进抽样设计

四、抽样方法详解

1. 简单随机抽样（SRS）（7.4节）

定义

每个容量为 $n$ 的样本被抽中的概率相同，样本独立无关联

抽样步骤

建立抽样框（总体所有个体名册）
使用随机数表抽取样本

参数估计公式

总体均值 $\mu$
$\bar{x} \pm z_{\alpha/2} \cdot \frac{s}{\sqrt{n}} \sqrt{1 - \frac{n}{N}}$
使用条件：
- $\geq 30$ （中心极限定理）
- $5\%$ 时必须使用有限总体修正系数
总体比率 $p$
$\hat{p} \pm z_{\alpha/2} \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \sqrt{1 - \frac{n}{N}}$
使用条件： $n\hat{p} \geq 5$ 且 $n(1-\hat{p}) \geq 5$

样本容量确定

估计均值：
$\frac{N \cdot z_{\alpha/2}^2 \cdot s^2}{(N-1)B^2 + z_{\alpha/2}^2 s^2}$
估计比率：
$\frac{N \cdot z_{\alpha/2}^2 \cdot p(1-p)}{(N-1)B^2 + z_{\alpha/2}^2 p(1-p)}$
关键参数：
- $B$ ：允许误差（置信区间半宽）
- $s^2$ 或 $p$ ：需预先估计（历史数据/预抽样）
- $p$ 未知时用 $p = 0.5$ 保守估计

案例示范

例7.1（杂志订户收入估计）：
$N=8000,\ n=484,\ \bar{x}=30500,\ s=7040$
$95\%\ CI:\ 30500 \pm 1.96 \times \frac{7040}{\sqrt{484}} \times \sqrt{1-\frac{484}{8000}} \rightarrow [29880,\ 31120]$
例7.3（毕业生收入调查样本量）：
要求： $B=500,\ N=5000,\ s=3000$
$\frac{5000 \times 1.96^2 \times 3000^2}{4999 \times 500^2 + 1.96^2 \times 3000^2} \approx 139$

2. 分层简单随机抽样（7.5节）

适用场景

总体存在异质子群（如不同专业、地区），层内差异小、层间差异大

抽样步骤

将总体划分为 $H$ 层
每层独立抽取简单随机样本
按层权加权合并结果

参数估计

总体均值：
$\bar{x}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \bar{x}_h$
标准误：
$s_{\bar{x}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{s_h^2}{n_h} \left(1 - \frac{n_h}{N_h}\right) }$
置信区间： $\bar{x}_{str} \pm 1.96 s_{\bar{x}_{str}}$
总体比率：
$\hat{p}_{str} = \sum_{h=1}^{H} \left( \frac{N_h}{N} \right) \hat{p}_h$
标准误：
$s_{\hat{p}_{str}} = \sqrt{ \sum_{h=1}^{H} \left( \frac{N_h}{N} \right)^2 \frac{\hat{p}_h(1-\hat{p}_h)}{n_h} \left(1 - \frac{n_h}{N_h}\right) }$

样本分配

比例分配： $n_h = n \times \frac{N_h}{N}$
最优分配（Neyman）（各层成本相同时）：
$n_h = n \cdot \frac{N_h s_h}{\sum_{h=1}^H N_h s_h}$

案例示范

例7.4（管理学院毕业生收入分层估计）：
结果： $\bar{x}_{str} = 29350,\ s_{\bar{x}_{str}} = 281.6 \rightarrow 95\%\ CI[29074,\ 29626]$
例7.5（年薪≥36000元比率估计）：
$\hat{p}_{str} = 0.0981 \rightarrow 95\%\ CI[0.0575,\ 0.1387]$

3. 整群抽样（7.6节）

适用场景

总体天然分群（如学校、村庄），群内差异大、群间差异小

参数估计

总体均值：
$\bar{x}_{cls} = \frac{\sum_{i=1}^{n} x_i}{\sum_{i=1}^{n} M_i}$ （ $x_i$ ：第 $i$ 群观测值总和）
标准误：
$s_{\bar{x}_{cls}} = \sqrt{ \frac{1}{\bar{M}^2} \cdot \frac{s_r^2}{n} \left(1 - \frac{n}{N}\right) }$
其中：
$s_r^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x}_{cls} M_i)^2}{n-1},\quad \bar{M} = \frac{\sum M_i}{n}$
总体比率：
$\hat{p}_{cls} = \frac{\sum_{i=1}^{n} a_i}{\sum_{i=1}^{n} M_i}$ （ $a_i$ ：第 $i$ 群具有特征的数量）

案例示范（例7.6）

注册会计师年薪估计：
$\bar{x}_{cls} = 42531\text{元},\ s_{\bar{x}_{cls}} = 1.730 \rightarrow 95\%\ CI[39071,\ 45991]$
女性比率估计：
$\hat{p}_{cls} = 0.2734 \rightarrow 95\%\ CI[0.2052,\ 0.3416]$

4. 系统抽样（7.7节）

方法

固定间隔 $k$ 抽样（首个单位随机起点）

使用条件

抽样框随机排列（否则有周期性偏差风险）

优缺点

优点	缺点
操作简便	若抽样框存在隐周期性，样本可能有偏
成本低

五、样本容量确定通法

规定精度 $B$ 和置信水平
选择抽样方法
若有历史数据，用其估计方差 $s^2$ 或 $p$
若无历史数据，进行预抽样估计方差
代入公式计算 $n$
验证实际精度

特殊情形处理：

分层抽样：先分配样本再计算总样本量
整群抽样：需预先估计群间方差 $s_r^2$

六、解题步骤模板

1. 简单随机抽样（均值估计）

确认抽样框和 $N$
抽取 $\geq 30$ 的样本
计算 $\bar{x}$ 和 $s$
计算标准误： $\frac{s}{\sqrt{n}} \times \sqrt{1-\frac{n}{N}}$
确定 $z$ 值（95%CI取1.96）
计算CI： $\bar{x} \pm z \cdot se$

2. 分层抽样（比率估计）

按特征分层
确定各层权 $W_h = N_h/N$
按比例分配样本 $n_h$
各层计算 $\hat{p}_h$
计算加权估计 $\hat{p}_{str} = \sum W_h \hat{p}_h$
计算标准误 $s_{\hat{p}_{str}}$
构造CI： $\hat{p}_{str} \pm 1.96 \cdot s_{\hat{p}_{str}}$

3. 样本量计算题

读取 $N, B,$ 置信水平
选择参数类型（均值/比率）
若估计均值，查找 $s^2$ 历史值
若估计比率，采用 $p = 0.5$ 或历史值
代入公式求解 $n$
若 $5\%$ ，使用有限总体修正

七、易错点警示

抽样框陷阱
- 目标总体 ≠ 抽样总体 → 推断结论有偏差
- 例：用电话簿抽样框调查网民会遗漏无固话群体
中心极限定理误用
- $n < 30$ 时不可直接使用 $z$ 值（需查 $t$ 分布表）
- 偏态总体需 $\geq 50$ 才近似正态
有限总体修正遗漏
- 当 $n/N>5\%$ 时未使用修正系数 → 标准误高估
整群抽样加权缺失
- 群大小不等时未用加权均值 → 估计有偏
- 例7.6必须用总年薪/总人数而非群均值的平均
分层抽样分配误区
- 最优分配需已知层标准差 $s_h$ → 若无数据应先比例分配

统计学（第8版）——统计抽样学习笔记（考试用）

一、统计抽样的核心内容与问题研究内容从总体中科学抽取样本的方法利用样本数据推断总体特征（均值、比率、总量）控制抽样误差与非抽样误差解决的核心问题在成本约束下，用少量样本准确推断总体特征量化估计结果的可靠性（置…...

编程日记 2025/11/22 6:31:00

Copilot for Xcode (iOS的 AI辅助编程)

Copilot for Xcode 简介Copilot下载与安装体验环境要求下载最新的安装包安装登录系统权限设置 AI辅助编程生成注释代码补全简单需求代码生成辅助编程行间代码生成注释联想代码生成总结简介尝试使用了Copilot，它能根据上下文补全代码，快速生成常用…...

编程日记 2026/1/26 20:00:58

Axure零基础跟我学：展开与收回

亲爱的小伙伴，如有帮助请订阅专栏！跟着老师每课一练，系统学习Axure交互设计课程！ Axure产品经理精品视频课https://edu.csdn.net/course/detail/40420 课程主题：Axure菜单展开与收回课程视频：...

编程日记 2026/2/7 17:46:59

Docker、Wsl 打包迁移环境

电脑需要开启wsl2 可以使用wsl -v 查看当前的版本 wsl -v WSL 版本： 2.2.4.0 内核版本： 5.15.153.1-2 WSLg 版本： 1.0.61 MSRDC 版本： 1.2.5326 Direct3D 版本： 1.611.1-81528511 DXCore 版本： 10.0.2609…...

编程日记 2025/10/14 5:08:48

RabbitMQ 各类交换机

为什么要用交换机？ 交换机用来路由消息。如果直发队列，这个消息就被处理消失了，那别的队列也需要这个消息怎么办？那就要用到交换机交换机类型 1，fanout：广播特点广播所有消息：将消息…...

编程日记 2026/2/7 17:39:49

高保真组件库：开关

一：制作关状态拖入一个矩形作为关闭的底色：44 x 22，填充灰色CCCCCC，圆角23，边框宽度0，文本为”关“，右对齐，边距2,2,6,2，文本颜色白色FFFFFF。拖拽一个椭圆，尺寸18 x 18，边框为0。3. 全选转为动态面板状态1命名为”关“。二：制作开状态复制关状态并命名为”开…...

编程日记 2026/1/26 21:49:59

未授权访问事件频发，我们应当如何应对？

在当下，数据已成为企业和组织的核心资产，是推动业务发展、决策制定以及创新的关键驱动力。然而，未授权访问这一隐匿的安全威胁，正如同高悬的达摩克利斯之剑，时刻威胁着数据的安全，一旦触发，便可…...

编程日记 2026/2/1 10:54:29

Easy Excel

Easy Excel 一、依赖引入二、基本使用1. 定义实体类（导入/导出共用）2. 写 Excel3. 读 Excel 三、常用注解说明（完整列表）四、进阶：自定义转换器（Converter） 其它自定义转换器没生效 Easy Excel在…...

编程日记 2026/1/16 8:34:43

欢乐熊大话蓝牙知识17:多连接 BLE 怎么设计服务不会乱？分层思维来救场！

多连接 BLE 怎么设计服务不会乱？分层思维来救场！ 作者按： 你是不是也遇到过 BLE 多连接时，调试现场像网吧“掉线风暴”？ 温度传感器连上了，心率带丢了；一边 OTA 更新，一边通知卡壳。…...

编程日记 2026/2/7 11:26:09

AWS vs 阿里云：功能、服务与性能对比指南

在云计算领域，Amazon Web Services (AWS) 和阿里云 (Alibaba Cloud) 是全球领先的提供商，各自在功能范围、服务生态系统、性能表现和适用场景上具有独特优势。基于提供的引用[1]-[5]，我将从功能、服务和性能三个方面进行结构化对比分析&#…...

编程日记 2025/10/30 20:22:57

用js实现常见排序算法

以下是几种常见排序算法的 JS实现，包括选择排序、冒泡排序、插入排序、快速排序和归并排序，以及每种算法的特点和复杂度分析 1. 选择排序（Selection Sort） 核心思想：每次从未排序部分选择最小元素，与未排…...

编程日记 2025/9/25 19:59:14

python读取SQLite表个并生成pdf文件

代码用于创建含50列的SQLite数据库并插入500行随机浮点数据，随后读取数据，通过ReportLab生成横向PDF表格，包含格式化（两位小数）及表头、网格线等美观样式。 # 导入所需库 import sqlite3 # 用于操作…...

编程日记 2025/12/15 21:48:04

当下AI智能硬件方案浅谈

背景： 现在大模型出来以后，打破了常规的机械式的对话，人机对话变得更聪明一点。对话用到的技术主要是实时音视频，简称为RTC。下游硬件厂商一般都不会去自己开发音视频技术，开发自己的大模型。商用方案多见为字节、百…...

编程日记 2025/10/18 7:56:08

大模型真的像人一样“思考”和“理解”吗？

Yann LeCun 新研究的核心探讨：大语言模型（LLM）的“理解”和“思考”方式与人类认知的根本差异。核心问题：大模型真的像人一样“思考”和“理解”吗？ 人类的思考方式： 你的大脑是个超级整理师。面对海量信…...

编程日记 2025/11/28 20:02:50

【题解-洛谷】P10480 可达性统计

题目：P10480 可达性统计题目描述给定一张 N N N 个点 M M M 条边的有向无环图，分别统计从每个点出发能够到达的点的数量。输入格式第一行两个整数 N , M N,M N,M，接下来 M M M 行每行两个整数 x , y x,y x,y，表示从 …...

编程日记 2025/12/15 8:11:23

在Spring Boot中集成RabbitMQ的完整指南

前言在现代微服务架构中，消息队列（Message Queue）是实现异步通信、解耦系统组件的重要工具。RabbitMQ 是一个流行的消息中间件，支持多种消息协议，具有高可靠性和可扩展性。本博客将详细介绍如何在 Spring Boot 项目…...

编程日记 2025/7/27 20:49:33

Element-Plus：popconfirm与tooltip一起使用不生效？

你们好，我是金金金。场景我正在使用Element-plus组件库当中的el-popconfirm和el-tooltip，产品要求是两个需要结合一起使用，也就是鼠标悬浮上去有提示文字，并且点击之后需要出现气泡确认框代码 <el-popconfirm title"是…...

编程日记 2026/1/31 1:09:47

Selenium 查找页面元素的方式

Selenium 查找页面元素的方式 Selenium 提供了多种方法来查找网页中的元素，以下是主要的定位方式： 基本定位方式通过ID定位 driver.find_element(By.ID, "element_id")通过Name定位 driver.find_element(By.NAME, "element_name"…...

编程日记 2026/1/26 17:29:39

OPENCV图形计算面积、弧长API讲解（1）

一.OPENCV图形面积、弧长计算的API介绍之前我们已经把图形轮廓的检测、画框等功能讲解了一遍。那今天我们主要结合轮廓检测的API去计算图形的面积，这些面积可以是矩形、圆形等等。图形面积计算和弧长计算常用于车辆识别、桥梁识别等重要功能，常用的API…...

编程日记 2026/2/7 8:43:51

文章目录 1. Filter 过滤器1.1 Filter 概述1.2 Filter 快速入门开发步骤：1.3 Filter 执行流程1.4 Filter 拦截路径配置1.5 过滤器链2. Listener 监听器2.1 Listener 概述2.2 ServletContextListener3. Ajax 技术3.1 Ajax 概述3.2 Ajax 快速入门服务端实现：客户端实现：4. Axi…...

编程日记 2025/10/29 4:33:36

spring boot使用HttpServletResponse实现sse后端流式输出消息

1.以前只是看过SSE的相关文章，没有具体实践，这次接入AI大模型使用到了流式输出，涉及到给前端流式返回，所以记录一下。 2.resp要设置为text/event-stream resp.setContentType("text/event-stream"); resp.setCharacter…...

编程日记 2026/2/5 2:55:19