当前位置：首页 > news >正文

【机器学习前置知识】Beta分布

news 2026/5/14 8:26:24

Beta分布与二项分布的关系

Beta分布与二项分布密切相关，由二项分布扩展而来，它是用来描述一个连续型随机变量出现的概率的概率密度分布，表示为 $X$ ~ $B e t a (a, b)$ ， $a 、 b$ 是形状参数。Beta分布本质上也是一个概率密度函数，只是这个函数的自变量和因变量都表示某种概率。

下面我们会先温故下二项分布的知识，然后循序渐进地引出Beta分布。

在二项分布这篇文章里介绍过，二项分布能解决的是 n次独立伯努利试验中成功k次的概率 问题，记作 $X$ ~ $B in (n, p)$ 。

仍以抛硬币为例，二项分布求的是抛 $n$ 次硬币中出现 $k$ 次正面向上的概率，它是一个概率质量函数(对离散型随机变量叫概率质量函数、对连续性随机变量叫概率密度函数)，这个函数的自变量是 $k$ ，因变量是概率，前提是硬币出现正面向上的概率 $p$ (质地均匀)和抛的次数 $n$ 是已知的。

假设一枚硬币质地均匀，也就是说抛一次硬币，出现正面向上和反面向上的概率 $p$ 都为0.5，然后抛10次，下图是正面向上出现0次到10次的概率图：

在这里插入图片描述

附绘图代码

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import binom
#plt.rcParams['font.family']=['Arial Unicode MS']n = 10  #试验次数
p = 0.5  #正面向上的概率#生成x轴的数据点
x = np.arange(0, n + 1, 0.001)#二项分布的概率质量函数（PMF）和累积分布函数（CDF）
pmf = binom.pmf(x, n, p)
#cdf = binom.cdf(x, n, p)plt.figure(figsize=(10, 5))
plt.subplot(121)
plt.plot(x, pmf, 'b-', lw=2, label='PMF')
plt.vlines(x, 0, pmf, colors='b', lw=1, alpha=0.5)
plt.xlabel('正面向上次数')
plt.ylabel('概率')
plt.title('二项分布-抛硬币10次')
plt.legend()
plt.show()

正常来说，我们可以提前就预料到结果中出现5次正面向上的概率最大，实际上也雀食如此。但这是对质地均匀的硬币来说的，如果是一枚质地不均匀的硬币，我们还能这么信誓旦旦地判断吗？

再假设我们拿到了一枚不知道是否质地均匀的硬币，然后想求抛一次硬币正面向上的概率。这个问题如何解决呢？

一个粗糙的解决方案是：我尽可能地多抛硬币，然后看所有结果中正面向上出现的概率是多少，这个概率就是抛一次硬币正面向上的概率的逼近。比如我茶不思饭不想地连续抛了10000次硬币，其中出现正面向上的有3000次，现在我可以自信地说再抛一次硬币正面向上的概率大概就是0.3。注意我这里用了大概两个字，也就是说0.3这个概率只是抛一次硬币中正面向上出现的所有概率中最大的一个概率，那有没有可能是0.4、0.5甚至0.9呢？是有可能的，只是这些概率出现的概率都相对0.3 更低罢了。

再试想一下，我只抛了100次，其中出现正面向上的有30次，那我判断再抛一次硬币正面向上的概率是0.3的把握是不是会比10000次出现3000次更低呢？

用图展示一下抛一次质地未知硬币出现正面向上的概率的概率(先验知识是已知抛了n次中出现正面向上的有a次)：

在这里插入图片描述

附绘图代码

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta
#plt.rcParams['font.family']=['Arial Unicode MS']a1 = 3000  # 抛一万次硬币中正面向上的次数
b1 = 7000  # 抛一万次硬币中反面向上的次数
a2 = 30  # 抛一百次硬币中正面向上的次数
b2 = 70  # 抛一百次硬币中反面向上的次数x = np.linspace(0.0, 1.0, 1000)# 计算Beta分布的概率密度函数值
y1 = beta.pdf(x, a1, b1)
y2 = beta.pdf(x, a2, b2)plt.plot(x, y1, label='Beta(a={}, b={})'.format(a1, b1))
plt.plot(x, y2, label='Beta(a={}, b={})'.format(a2, b2))
plt.xlabel('正面向上的概率')
plt.ylabel('概率密度')
plt.title('抛一次质地未知硬币出现正面向上的概率的概率')
plt.legend()
plt.show()

这个图像表示了抛一次质地未知硬币出现正面向上的概率的概率分布，其中图像的形状随参数a和b的不同而变化。从图中可以看出：

基于抛10000次硬币中出现正面向上3000次的是蓝色曲线，其在横坐标上正面向上的概率为0.3处取得最大值，即再抛一次硬币出现正面向上的概率是0.3的结果最为确信；
基于抛100次硬币中出现正面向上30次的是橙色曲线，其也在横坐标上正面向上的概率为0.3处取得最大值，即再抛一次硬币出现正面向上的概率是0.3的结果最为确信，但与蓝色曲线对比可以看出，明显橙色曲线对此判断的把握要比蓝色曲线小得多；

那么如何去量化上面提到的更低与把握？此时就该Beta分布登场了！

细心的小伙伴可以看出上图就是用Beta函数画出来的图像。

文章开头说过Beta分布的表示为 $X$ ~ $B e t a (a, b)$ ，其中 $a 、 b$ 是形状参数，可以控制图像的形状。对应到抛硬币场景中，

【机器学习前置知识】Beta分布

Beta分布与二项分布的关系

相关文章：

【机器学习前置知识】Beta分布

Notepad++批量更改文件编码格式及文档格式

Linux驱动开发学习笔记6《蜂鸣器实验》

鸿蒙（HarmonyOS 3.1） DevEco Studio 3.1开发环境汉化

毫米波雷达：从 3D 走向 4D

CENTOS docker拉取私服镜像

【前端面经】即时设计

前端三件套html/css/js的基本认识以及示例程序

云计算：OpenStack 配置云主机实例的存储挂载并实现外网互通

python/selenium/jenkins整合

华为路由器ACL操作SSH接口

Flutter 三点三：Dart Stream

centos 防火墙设置 LTS

SAP缓存表缓存（ Table Buffering）

Mybatis插件入门

DOA估计算法——迭代自适应算法(IAA)

Python If语句以及代码块的基本介绍

[嵌入式专栏](FOC - SVPWM扇区计算Part1)

亚马逊美国站ASTM F2613儿童折叠椅和凳子强制性安全标准

【机组期末速成】指令系统|机器指令概述|操作数类型与操作类型|寻址方式|指令格式

HDD与SSD存储技术演进：从产业变迁看成本容量比与分层存储实践

从《EE Times》看电子工程师的变迁：技术浪潮与职业坚守

华为OD机试真题新系统 2026-5-13 多语言实现【查找能被整除的最大整数】

JAVA校园跑腿代买代拿社区-校园跑腿小程序的后端代码示例

SwiftUI原生集成ChatGPT API：从架构设计到流式响应实战

CoPaw个人AI工作站：私有化部署与智能体集成实战指南

ARM错误恢复中断机制与ERRERICR2寄存器详解

李跳跳真实好友5.0内测版发布，悄然找出删除你的微信好友[Android]

近屿AI学：白天做运维，晚上学AI，两天入职

科研人员实用：OpenClaw批量下载文献、整理参考文献格式，自动生成论文引用列表