当前位置：首页 > news >正文

Python 数学建模——高斯核密度估计

news 2026/6/3 22:39:45

文章目录

- 前言
- 原理
- 代码实例
- - scipy 实现
  - seaborn 实现

前言

高斯核密度估计本是一种机器学习算法，在数学建模中也可以发挥作用。本文主要讨论用它来拟合变量的概率密度，获得概率密度函数 $f (x)$ 。

原理

已知一个连续型随机变量 $X$ 的一系列观测值 $X_1,X_2,\cdots,X_n$ ，我们可以用高斯核密度估计来拟合出 $X$ 的概率密度函数 $f (x)$ 。

代码实例

scipy 实现

先给出代码，后面慢慢解释。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import gaussian_kde# 为测试 gaussian_kde 效果，当场生成1000个beta分布的随机数
np.random.seed(114)
info = np.random.beta(a=2, b=5, size=1000)# 根据一系列观测值 info，拟合出概率密度
# 这个 gaussian_kde 有个神奇的参数 bw_method，说是计算估计器带宽的方法，可以调一下
kde = gaussian_kde(info)
x = np.linspace(min(info), max(info), 1000)
pdf = kde.evaluate(x)# 开始作图# 指定楷体以显示中文字体
plt.rcParams["font.sans-serif"] = ['KaiTi']
fig = plt.figure()
ax1 = fig.add_subplot(111, label="1")
ax2 = fig.add_subplot(111, label="2", frame_on=False)# 100 指的是 100 个直方条
ax1.hist(info,100, color='r', alpha=0.4)
ax1.set_xlabel("观测值")
ax1.set_ylabel("观测频数")ax2.plot(x, pdf, c = 'b')
ax2.set_xticks([])
ax2.set_ylabel("拟合概率密度")
ax2.yaxis.tick_right()
ax2.yaxis.set_label_position('right')
plt.show()

图画出来是这样的：

第 $6 - 7$ 行，按照 $\beta$ 分布生成了一个含有 $1000$ 个随机数的info。实际建模的时候，这个info应该是题目给我们的数据样本。
第 $11$ 行由info得到一个kde对象，kde.evaluate()实际上就是概率密度函数，传一个 $x$ 就返回一个 $f (x)$ 。
第 $12 - 13$ 行是取了横轴上的一些数据点获取概率密度用于后续画图，如果把x记作 $[x_1,\cdots,x_n]$ 那么pdf就是 $[f(x_1),\cdots,f(x_n)]$ 。
第 $18$ 行到最后都是在画图。

如果你觉得拟合效果不佳，可以调整gaussian_kde的bw_method参数。这个东西是采样宽度，换句话说它越大 $f (x)$ 越粗糙，它越小 $f (x)$ 更容易过拟合。比如我在上面的kde = gaussian_kde(info)中加入参数bw_method=0.1，画出来这样的图：

明显有些过拟合，但是很多时候我们需要这种过拟合。

seaborn 实现

Seaborn 作为一个强大的 Python 可视化库，也内置了高斯核密度估计的功能。Seaborn 只需要一行代码即可画出核密度估计图，但是它无法返回pdf或者kde等对象，也就是说我们只能看到 $y = f (x)$ 的大致图像，却无法获取 $f(x_0)$ （ $x_0$ 是某个具体值，比如 $x_0=5$ ）的值。如果你的目的只是为了可视化，展示随机变量 $X$ 的集中程度和均值情况，那么 seaborn 无疑是更方便的选择。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 为测试 gaussian_kde 效果，当场生成1000个beta分布的随机数
np.random.seed(114)
info = np.random.beta(a=2, b=5, size=1000)# seaborn 作图
sns.set_style("whitegrid") # 风格设置
sns.kdeplot(info,shade=True, color="g") # 概率密度函数底下填充绿色阴影
plt.show()

画出来效果如下，该图象轮廓与上面的应该是一样的。如果有两个分布类似的样本，使用 seaborn 用不同颜色画出概率密度函数，将会对比鲜明，非常好看。

除了kdeplot，seaborn 库里的distplot也可以进行高斯核密度估计，优点是它还能带上直方图。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 为测试 gaussian_kde 效果，当场生成1000个beta分布的随机数
np.random.seed(114)
info = np.random.beta(a=2, b=5, size=1000)# seaborn 作图
sns.set_style("whitegrid") # 风格设置
sns.distplot(info)
plt.show()

你也可以调整distplot的参数，hist=False不画直方图，kde=False不画概率密度函数。

Python 数学建模——高斯核密度估计

文章目录

前言

原理

代码实例

scipy 实现

seaborn 实现

相关文章：

Python 数学建模——高斯核密度估计

Flink+Spark相关记录

2023 hnust 湖科大毕业实习报告+实习鉴定表

ConflictingBeanDefinitionException | 运行SpringBoot项目时报错bean定义冲突解决方案

如何切换淘宝最新镜像源（npm）【2024版】

YoloV10改进策略：Block改进|PromptIR（NIPS‘2023）|轻量高效，即插即用|(适用于分类、分割、检测等多种场景)

使用rust自制操作系统内核

Flink难点和高阶面试题：Flink的状态管理机制如何保证数据处理的准确性和完整性

【激励广告带来的广告收入与用户留存率的双重提升】

指针和引用；内联函数和普通函数

简单题67.二进制求和（java）20240919

DDD的主要流程

linux驱动开发-设备树

数据结构——二叉树堆的专题

【C语言零基础入门篇 - 7】：拆解函数的奥秘：定义、声明、变量，传递须知，嵌套玩转，递归惊艳

ClickHouse在AI领域的结合应用

git push出错Push cannot contain secrets

OpenAI 的最强模型 o1 的“护城河”失守？谷歌 DeepMind 早已揭示相同原理

【胡乱念叨】大模型的“我”

Flag_AGtivity_clear_top网页编程指南如何退出多activity程序

物理引导的机器学习工作流：气候建模的融合创新与实践

基于LM22678的树莓派硬盘专用电源设计：解决供电不稳与电流冲击

录音会议纪要整理不同使用场景，实用口碑选择建议

skills CANN开源社区贡献技能包开发指南

DS4Windows终极指南：3步让PS手柄在PC上完美运行游戏

HoRain云--CLAUDE.md 使用指南

自动加字幕软件推荐：口播视频如何批量加字幕过

MaxEnt建模总失败？别急着换数据，先检查ArcGIS裁剪栅格这1个像素的坑

开发者在构建多模态AI应用时如何借助TaoToken简化模型集成

混合物理-ML辐射方案：攻克气候模型中次网格云效应的新范式