当前位置：首页 > news >正文

从0开始学统计-什么是中心极限定理

news 2026/2/9 11:37:45

引言

中心极限定理（Central Limit Theorem, CLT）是统计学中的一块基石，它揭示了一个难以置信的数学现象：无论一个随机变量的原始分布如何，只要我们取足够大的样本量，这些样本的平均值（或总和）的分布将趋近于正态分布，这种分布也被称为高斯分布。中心极限定理不仅为我们使用正态分布进行推断提供了理论基础，还让正态分布成了统计学中最为重要的分布之一。

历史

在统计学史上，中心极限定理的发展是一个渐进的过程。它不是一夜之间形成的，而是经过几个世纪的逐步完善，包含了多个数学家和统计学家的贡献。
18世纪，数学家棣莫弗（Abraham de Moivre）和拉普拉斯（Pierre-Simon Laplace）等开始探索二项分布的性质。1718年，在第一本概率理论书籍《道德和机遇的教训》（“The Doctrine of Chances”）中，棣莫弗首次提出了二项分布在大样本极限下趋近于正态分布的概念，这可以看作是中心极限定理的早期形态。拉普拉斯进一步扩展了这个概念，在1812年的《概率分析理论》（“Théorie Analytique des Probabilités”）中，他通过拉普拉斯展开（Laplace expansion）详细论述了这一点，说明在大数极限下，还有更多的分布趋近于正态分布。
1901年，李雅普诺夫（Aleksandr Lyapunov）证明了一个更一般形式的中心极限定理。该定理不仅适用于二项分布，而且适用于任意有限方差的独立随机变量。李雅普诺夫的工作标志着中心极限定理现代形式的开始。
20世纪中叶，数学家们进一步扩展了中心极限定理的适用范围和形式，其中包括对独立但不同分布的随机变量之和的考虑，以及对随机变量序列弱依赖条件下的应用。

什么是中心极限？

让我们来看一个经典的例子，抛硬币实验。假设我们抛硬币的结果只有两种可能：正面（我们记为1）和反面（我们记为0）。每次抛硬币是一个独立的随机试验，结果的分布是二项分布。
现在，我们进行一系列实验。在每个实验中，我们不止抛一次硬币，而是连续抛硬币n次，并记录正面出现的次数。为了直观展示中心极限定理，我们可以重复进行多个这样的实验（例如，1000次），每次都记录下正面出现的比例。例如，做10个抛10次硬币的实验，在4个左右的实验中，有5次朝上，如图所示：
在这里插入图片描述根据中心极限定理，不管单次抛硬币的结果分布如何，只要我们重复足够多次抛硬币操作，并且记录下正面出现的比例，这些比例的分布会趋近于正态分布。具体来说，随着实验次数的增加，这些比例的分布会越来越接近于一个均值为μ=0.5、方差为σ2/n（2指平方）的正态分布，其中σ2=0.25是单次抛硬币结果的方差，n是每次实验中抛硬币的次数。

抛硬币实验说明，即使基础数据（正面或反面）不服从正态分布，大量独立实验的平均结果（或求和结果）也将趋向于正态分布。

什么是期望值？

期望值（Expected Value），也称为数学期望或均值，指在多次随机试验中某个随机变量可能结果的加权平均。对于离散随机变量，期望值是各可能值与其发生概率乘积的总和；对于连续随机变量，期望值是随机变量的概率密度函数乘以随机变量值的积分。

举个例子，假设你有一个标准的六面骰子，每面上的数字分别是1到6。这个实验的随机变量X就是骰子显示的面的数字。因为骰子是公平的，所以每个数字出现的概率都是相同的，即1/6。
我们想计算这个随机变量的期望值，也就是你在多次的掷骰子实验中，可以期待的平均骰子点数。期望值E(X)的计算公式是：
在这里插入图片描述
其中xi是第i面的数字，P(X=xi)是该面出现的概率。因此，对于六面骰子，期望值计算如下：

在这里插入图片描述
这意味着，虽然你不可能真的掷出3.5（因为骰子的面上没有3.5），但如果你做了很多次实验，那么平均每次掷出的期望是3.5。换句话说，期望值给出了在大量重复实验中，观察到的平均结果。
期望值是理论上的平均值。在实际的骰子游戏中，你每次掷骰子的结果是1到6中的一个整数，但如果你记录下非常多次掷骰子的结果，计算平均值，这个平均值会接近于3.5，这就是期望值的含义。

什么是二项分布？

二项分布( binomial distribution)是一种离散概率分布，它描述了在一系列独立的是/非（成功/失败）实验中，获得固定数量成功次数的概率。在独立的是/非（成功/失败）多次实验中，每次实验都被称为伯努利试验，它只有两种可能的结果：成功或失败。二项分布的典型特征是每次试验的成功概率不变。

让我们来看一个具体的例子，一个篮球运动员进行自由投篮训练。假设一个篮球运动员进行10次自由投篮，每次投篮成功的概率是0.5（即50%）。我们想要知道这个运动员在10次投篮中恰好投中5次的概率是多少。这个实验是一个典型的二项分布情景，因为：每次投篮（试验）只有两种可能结果：成功（投中）或失败（未投中）。每次投篮是独立的，即每次投篮的成功概率保持不变，不受前一次投篮结果的影响。我们关注的是在固定次数（n=10次投篮）的试验中成功的次数。使用二项分布的计算公式：
在这里插入图片描述代入数值：

其中，0.5是5次成功的概率，（1-0.5）的5次方部分是剩下的5次试验中失败的概率。计算结果为24.6%。因此，这位篮球运动员在10次自由投篮中恰好投中5次的概率大约是24.6%。

小结

中心极限定理的发展历程凝聚了多位数学家和统计学家的智慧。今天，中心极限定理不仅在统计学中占据着中心地位，也在社会科学、自然科学乃至于质量控制和金融工程等应用领域发挥着至关重要的作用。

从0开始学统计-什么是中心极限定理

引言

历史

什么是中心极限？

什么是期望值？

什么是二项分布？

小结

相关文章：

从0开始学统计-什么是中心极限定理

工具方法 - 个人活动的分类

11.1组会汇报-基于区块链的安全多方计算研究现状与展望

ubuntu【桌面】配置NAT模式固定IP

评估机器学习回归模型的性能和准确度

如何下载安装TestLink？

基于SSM+微信小程序的订餐管理系统（点餐2）

【C++排序双指针】1996. 游戏中弱角色的数量|1996

GESP4级考试语法知识（捕捉异常）

HTML 基础标签——元数据标签＜meta＞

栈虚拟机和寄存器虚拟机，有什么不同？

Windows下基于fping进行批量IP测试

一款实用的Word文档图片转换与水印保护工具

优化用于传感应用的衬底集成波导技术

Java多态特性的向上转型

C++ 判断语句的深入解析

15分钟学 Go 第 33 天：项目结构

conda迁移虚拟环境路径

（八）JavaWeb后端开发——Tomcat

yocto中通常不直接修改提供的recipes的bb文件

linux之kylin系统nginx的安装

R语言AI模型部署方案：精准离线运行详解

CMake基础：构建流程详解

FastAPI 教程：从入门到实践

AtCoder 第409场初级竞赛 A~E题解

【大模型RAG】Docker 一键部署 Milvus 完整攻略

连锁超市冷库节能解决方案：如何实现超市降本增效

定时器任务——若依源码分析

C# 求圆面积的程序（Program to find area of a circle）

Python 实现 Web 静态服务器（HTTP 协议）