当前位置: 首页 > article >正文

AI_概率统计-2.常见分布

以下涵盖均匀分布、正态分布高斯分布、伯努利分布、二项分布、多项分布以及 Softmax 背后的分布思想。2. 常见分布核心目标掌握 AI 中高频使用的6种分布均匀、正态、伯努利、二项、多项、softmax对应分布理解每种分布的核心含义、适用场景能完成简单手工计算通过代码实现分布的生成与概率计算。重点掌握正态分布的中心极限定理、误差假设以及 Softmax 背后的分布思想为后续模型如线性回归、分类器的假设与推导奠定基础。说明知识点侧重“AI实战应用”不深究复杂的分布推导重点掌握“分布特点”“AI场景”“计算与实现”避免纯理论堆砌。2.1 均匀分布Uniform Distribution2.1.1 定义与参数均匀分布在某个区间内每个点被取到的概率密度相同。离散型均匀分布有限个等可能取值。概率质量函数P(Xx_i) \frac{1}{n}i1,2,\dots,n。连续型均匀分布记作 X \sim U(a, b)其中 a 为下限b 为上限。概率密度函数PDFf(x) \begin{cases} \frac{1}{b-a}, a \le x \le b \\ 0, \text{其他} \end{cases}期望E[X] \frac{ab}{2}方差\text{Var}(X) \frac{(b-a)^2}{12}记熟即可无需推导。在 AI 中的应用模型参数初始化如神经网络权重初始化避免权重过大或过小常用均匀分布如 [-0.1, 0.1]。随机抽样如数据集随机打乱、强化学习中的探索策略。无信息先验假设当对某个参数无先验认知时用均匀分布假设其概率。2.1.2 手工计算示例例1连续参数初始化区间为 [0, 0.2]求随机抽取一个参数 x 落在 [0.05, 0.15] 内的概率。解a0,b0.2f(x)\frac{1}{0.2}5P(0.05 \le x \le 0.15) (0.15-0.05) \times 5 0.5。例2离散掷一颗均匀骰子点数 X 服从离散均匀分布P(Xk)\frac{1}{6}, k1..6。求 P(X \le 3) \frac{3}{6}0.5。2.1.3 Python 代码示例import numpy as np import matplotlib.pyplot as plt from scipy.stats import uniform # 连续均匀分布 U(0,1) a, b 0, 1 x np.linspace(-0.2, 1.2, 500) pdf uniform.pdf(x, loca, scaleb-a) plt.plot(x, pdf, b-, linewidth2, labelfU({a},{b}) PDF) plt.fill_between(x, 0, pdf, where(x0.3)(x0.7), alpha0.3, colorred, labelP(0.3≤X≤0.7)) plt.title(连续均匀分布 U(0,1)) plt.xlabel(x) plt.ylabel(f(x)) plt.legend() plt.grid(alpha0.3) plt.show() # 模拟参数初始化区间 a_init, b_init 0, 0.2 samples uniform.rvs(loca_init, scaleb_init-a_init, size1000) prob_sim np.mean((samples 0.05) (samples 0.15)) print(fP(0.05≤x≤0.15) 模拟值: {prob_sim:.3f} (理论值 0.5))2.2 正态分布高斯分布—— 中心极限定理、误差假设2.2.1 定义与参数正态分布记作 X \sim N(\mu, \sigma^2)其中 \mu 为均值位置参数\sigma^2 为方差尺度参数\sigma为标准差。概率密度函数PDFf(x) \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty x \infty标准正态分布\mu0, \sigma^21记作 Z \sim N(0,1)PDF 简化为 f(x)\frac{1}{\sqrt{2\pi}}e^{-x^2/2}。核心性质钟形曲线关于 x\mu 对称。68-95-99.7法则约68%的数据落在 [\mu-\sigma, \mu\sigma]95%落在 [\mu-2\sigma, \mu2\sigma]99.7%落在 [\mu-3\sigma, \mu3\sigma]。2.2.2 关键延伸AI核心中心极限定理CLT当样本量足够大时多个独立随机变量的和或均值会趋近于正态分布与单个变量的分布无关。AI应用模型的预测误差、样本均值的分布均可通过中心极限定理近似为正态分布简化概率计算和模型推导。误差假设AI中线性回归、神经网络等模型常假设“模型预测误差服从正态分布”即 y f(x) \epsilon其中 \epsilon \sim N(0, \sigma^2)误差均值为0方差为 \sigma^2。该假设是最小二乘法的理论基础可通过极大似然估计推导模型参数。2.2.3 手工计算示例例1标准正态已知 X \sim N(0,1)求 P(-1 \le X \le 1)。解根据68-95-99.7法则\mu \pm \sigma 区间内的概率约为68.27%即 P(-1 \le X \le 1) \approx 0.6827。例2误差假设线性回归中误差 \epsilon \sim N(0, 0.04)\mu0\sigma0.2求误差的绝对值小于0.4的概率。解区间 [-0.4, 0.4] 对应 \mu \pm 2\sigma概率约为95.45%。例3中心极限定理掷一颗骰子100次求点数之和的近似分布。单次点数均值 \mu3.5方差 \sigma^2 \approx 2.917。和 S_{100} 近似 N(100\times3.5, 100\times2.917) N(350, 291.7)。2.2.4 Python 代码示例import numpy as np import matplotlib.pyplot as plt from scipy.stats import norm # 标准正态分布 mu, sigma 0, 1 x np.linspace(-4, 4, 500) pdf norm.pdf(x, mu, sigma) plt.plot(x, pdf, b-, labelfN({mu},{sigma}^2)) plt.fill_between(x, 0, pdf, where(x-1.96)(x1.96), alpha0.3, colorgreen, label95% 置信区间) plt.title(标准正态分布) plt.xlabel(x) plt.ylabel(f(x)) plt.legend() plt.grid(alpha0.3) plt.show() # 模拟误差正态分布 mu_e, sigma_e 0, 0.2 samples norm.rvs(locmu_e, scalesigma_e, size1000) prob_sim np.mean(np.abs(samples) 0.4) print(fP(|ε|0.4) 模拟值: {prob_sim:.4f} (理论≈0.9545)) # 中心极限定理演示掷骰子和的分布 n_dice 30 n_trials 10000 sums [np.random.randint(1,7, n_dice).sum() for _ in range(n_trials)] plt.hist(sums, bins30, densityTrue, alpha0.7, label模拟和分布) mu_sum n_dice * 3.5 sigma_sum np.sqrt(n_dice * 2.91667) x_norm np.linspace(mu_sum - 4*sigma_sum, mu_sum 4*sigma_sum, 200) plt.plot(x_norm, norm.pdf(x_norm, mu_sum, sigma_sum), r-, label正态近似) plt.title(f{n_dice}颗骰子点数和的分布中心极限定理) plt.xlabel(和) plt.ylabel(密度) plt.legend() plt.show()2.3 伯努利分布Bernoulli Distribution2.3.1 定义与参数伯努利分布描述单次试验中只有两种结果成功/失败1/0的随机变量。参数成功概率 p \in [0,1]。概率质量函数PMFP(X1)p, \quad P(X0)1-p期望E[X]p方差\text{Var}(X)p(1-p)。在 AI 中的应用二分类任务的标签建模如样本标签为0/1。逻辑回归中模型输出 pP(Y1|X)伯努利分布描述预测的随机性。交叉熵损失函数正是伯努利分布的负对数似然。2.3.2 手工计算示例例二分类任务中模型预测样本为正类X1的概率 p0.8求负类概率、期望、方差。解P(X0)0.2E[X]0.8\text{Var}(X)0.8\times0.20.16。2.3.3 Python 代码示例from scipy.stats import bernoulli import numpy as np p 0.8 samples bernoulli.rvs(p, size1000) print(f模拟正类比例: {np.mean(samples):.3f} (理论 {p})) print(f期望: {bernoulli.mean(p)}, 方差: {bernoulli.var(p)})2.4 二项分布Binomial Distribution2.4.1 定义与参数二项分布描述n 次独立伯努利试验中成功次数的分布。参数试验次数 n每次成功概率 p。记作 X \sim B(n, p)。概率质量函数P(Xk) \binom{n}{k} p^k (1-p)^{n-k}, \quad k0,1,\dots,n期望E[X]np方差\text{Var}(X)np(1-p)。在 AI 中的应用多轮二分类预测的概率计算如 n 个样本中有 k 个被预测正确的概率。模型性能评估如 n 次预测中正确 k 次的概率。2.4.2 手工计算示例例模型准确率 p0.9预测 n10 个样本求恰好有8个正确的概率。解P(X8)\binom{10}{8} 0.9^8 0.1^2 45 \times 0.4305 \times 0.01 \approx 0.1937。2.4.3 Python 代码示例from scipy.stats import binom import numpy as np n, p, k 10, 0.9, 8 prob binom.pmf(k, n, p) print(fP(X{k}) {prob:.4f}) # 模拟 samples binom.rvs(n, p, size10000) print(f模拟比例: {np.mean(samples k):.4f})2.5 多项分布Multinomial Distribution2.5.1 定义与参数多项分布是二项分布的推广n 次独立试验每次试验有 K 种互斥结果概率分别为 p_1,\dots,p_K\sum p_i1。随机向量 \mathbf{X}(X_1,\dots,X_K) 表示每种结果出现的次数满足 \sum X_in。概率质量函数P(X_1n_1,\dots,X_Kn_K) \frac{n!}{n_1!\cdots n_K!} p_1^{n_1}\cdots p_K^{n_K}边缘分布X_i \sim B(n, p_i)但 X_i 之间不独立。在 AI 中的应用多分类任务的标签建模如样本标签为0/1/2。Softmax 输出层的概率分布基础。2.5.2 手工计算示例例三分类任务模型预测类别1、2、3的概率分别为 0.6,0.3,0.1预测 n5 个样本求恰好有3个类别1、1个类别2、1个类别3的概率。解P \frac{5!}{3!1!1!} \times 0.6^3 \times 0.3^1 \times 0.1^1 20 \times 0.216 \times 0.3 \times 0.1 0.1296。2.5.3 Python 代码示例from scipy.stats import multinomial import numpy as np n, p 5, [0.6, 0.3, 0.1] counts [3, 1, 1] prob multinomial.pmf(counts, n, p) print(fP(3,1,1) {prob:.4f}) # 模拟 samples multinomial.rvs(n, p, size1000) print(f模拟比例: {np.mean(np.all(samples counts, axis1)):.4f})2.6 Softmax 背后的分布思想分类输出的概率2.6.1 核心思想Softmax 并非一种独立的分布而是一种概率归一化方法其背后是多项分布思想——将模型输出的“未归一化得分”logits转化为“多分类的概率分布”满足多项分布的概率约束所有类别概率和为1。2.6.2 公式对于模型输出的 K 个得分 z_1,\dots,z_K第 i 个类别的概率为p_i \frac{e^{z_i}}{\sum_{j1}^K e^{z_j}}特性归一化\sum_{i1}^K p_i 1。指数放大放大得分差异便于区分类别。与多项分布的关联Softmax 输出的概率可视为多项分布中“单次试验”的各类别概率。2.6.3 手工计算示例三分类模型输出得分 z[2,1,0]计算 Softmax 概率e^2\approx7.389e^1\approx2.718e^01总和 \approx11.107。p_1\approx0.665p_2\approx0.245p_3\approx0.090和为1。2.6.4 Python 代码示例带数值稳定性import numpy as np def softmax(logits): exp_logits np.exp(logits - np.max(logits, axis-1, keepdimsTrue)) return exp_logits / np.sum(exp_logits, axis-1, keepdimsTrue) logits np.array([2, 1, 0]) probs softmax(logits) print(fSoftmax 概率: {np.round(probs, 3)}) print(f概率和: {np.sum(probs)})2.7 学习资料链接聚焦 AI 应用常见分布总结可汗学院中心极限定理直观解释3Blue1Brown伯努利、二项、多项分布Scipy 文档Softmax 与交叉熵损失CS231n 课程笔记正态分布 68-95-99.7 法则2.8 小结与学习建议分布参数AI 应用场景重要性均匀分布 U(a,b)a,b随机初始化、随机采样★★★正态分布 N(\mu,\sigma^2)\mu,\sigma误差假设、权重初始化、CLT★★★★★伯努利分布 Bern(p)p二分类标签★★★★★二项分布 B(n,p)n,pn次试验成功次数★★★多项分布 Mult(n,\mathbf{p})n,\mathbf{p}多分类、词袋模型★★★★Softmax归一化\mathbf{z}多分类输出概率★★★★★学习路径理解每个分布的核心参数和形状。手工计算简单概率加深记忆。运行 Python 代码观察分布的可视化形态。重点掌握正态分布与中心极限定理、误差假设关联和 Softmax多分类输出核心。注意在 AI 实践中概率分布主要用于建模数据生成过程、定义损失函数通过最大似然估计以及进行随机采样。不需要背诵复杂公式但需要知道“什么场景用什么分布”。

相关文章:

AI_概率统计-2.常见分布

以下涵盖均匀分布、正态分布(高斯分布)、伯努利分布、二项分布、多项分布,以及 Softmax 背后的分布思想。 2. 常见分布 核心目标:掌握 AI 中高频使用的6种分布(均匀、正态、伯努利、二项、多项、softmax对应分布&#…...

散点云处理笔记(一):基于主成份分析算法(PCA)的平面拟合

前面我们对 Kafka 的整体架构和一些关键的概念有了一个基本的认知,本文主要介绍 Kafka 的一些配置参数。掌握这些参数的作用对我们的运维和调优工作还是非常有帮助的。 写在前面 Kafka 作为一个成熟的事件流平台,有非常多的配置参数。详细的参数列表可以…...

长芯微LD4449完全P2P替代ADS4449, 是一款高线性、四通道、14 位、250MSPS 模数转换器 ADC

描述长芯微LD4449 是一款高线性、四通道、14 位、250MSPS 模数转换器 (ADC)。此器件针对低功耗和高无杂散动 态范围 (SFDR) 而设计,具有低噪声性能以及在宽输入 频率范围内出色的 SFDR特性• 四通道 • 14 位分辨率 • 最大采样数据速率:250MSPS • 功率…...

HNU计算机系统期中题库分类(300个)

自用CS期中题库题目分类(按ID大类小类) 一、计算机组成原理(CPU、指令系统、存储器、运算基础) 1. CPU结构与功能 ID:9504、ID:9429、ID:9430、ID:9431、ID:9475、ID:9655、ID:9660、ID:9695、ID:9696、ID:9697、ID:9584、ID:9549…...

LFM2-2.6B-GGUF实操手册:日志实时查看+err.log错误定位技巧

LFM2-2.6B-GGUF实操手册:日志实时查看err.log错误定位技巧 1. 项目概述 LFM2-2.6B-GGUF是由Liquid AI公司开发的轻量级大语言模型,采用GGUF量化格式,特别适合资源有限的本地部署场景。这个2.6B参数的模型经过量化后体积大幅缩小&#xff0c…...

保姆级教程:图形验证码后端核验全流程(多语言实现)

摘要 图形验证码作为互联网应用的第一道安全屏障,其后端核验机制的设计直接决定了验证码系统的安全性和用户体验。本文深入剖析图形验证码的核心核验流程,详细讲解基于Token的后端验证机制,并通过Java、Python、Go三种主流语言提供完整的代码…...

Zotero浏览器扩展跨平台架构深度解析:如何实现学术文献一键保存的终极解决方案

Zotero浏览器扩展跨平台架构深度解析:如何实现学术文献一键保存的终极解决方案 【免费下载链接】zotero-connectors Chrome, Firefox, Edge, and Safari extensions for Zotero 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-connectors Zotero Conne…...

内网穿透方案:Fish-Speech 1.5在企业防火墙后的部署

内网穿透方案:Fish-Speech 1.5在企业防火墙后的部署 1. 引言 在企业内部部署AI服务时,经常会遇到一个实际问题:Fish-Speech 1.5 TTS服务部署在内网服务器上,但外部用户或分支机构需要访问。由于企业防火墙的安全策略&#xff0c…...

手机端千问 文心 元宝 Kimi怎么发图片

移动端 AI 对话导出:从“碎片化截屏”到“结构化知识”的技术进阶 在 2026 年的生产力变革中,移动端大模型(LLM)已成为职场人的“外脑”。然而,根据《2025-2026年中国生成式AI用户行为洞察报告》显示,超过 …...

Pixel 2刷入FART12脱壳系统全流程:从驱动安装到Dex提取的保姆级避坑指南

Pixel 2刷入FART12脱壳系统实战手册:从零开始打造专业逆向分析设备 在移动安全研究和逆向工程领域,拥有一台专用的脱壳设备能极大提升工作效率。Google Pixel 2凭借其出色的硬件兼容性和开发者友好特性,成为搭建脱壳分析平台的理想选择。本文…...

Xdotool深度解析:Linux桌面自动化技术指南

Xdotool深度解析:Linux桌面自动化技术指南 【免费下载链接】xdotool fake keyboard/mouse input, window management, and more 项目地址: https://gitcode.com/gh_mirrors/xd/xdotool xdotool是一个基于X11系统的命令行自动化工具,通过XTEST扩展…...

生物多样性监测相机:揭秘野生动物世界的科技之眼

生物多样性监测相机(也叫狩猎相机),是一种专门用于自动捕捉野生动物影像的设备。它能够拍摄照片和视频,为人们揭开野生动物世界的神秘面纱。这种相机通常被安装在野外,凭借其特殊的功能,默默记录着野生动物…...

FIDO2跨设备认证:基于QES的虚拟认证器架构解析

1. 项目概述在当今数字身份认证领域,FIDO2与WebAuthn标准已经成为抵抗钓鱼攻击的黄金方案。作为一名长期从事身份安全研究的从业者,我见证了这项技术从诞生到普及的全过程。然而,传统FIDO2实现存在一个根本性矛盾:设备绑定的安全特…...

Spring Boot 开发中批量消息处理的部分失败补偿问题详解

文章目录Spring Boot 开发中批量消息处理的部分失败补偿问题详解引言1. 问题表现:批量处理部分失败的典型症状2. 原因分析:批量处理部分失败的根源2.1 消息中间件的批量确认机制2.2 事务与批量的冲突2.3 补偿机制的缺失2.4 幂等性设计不足3. 解决方案&am…...

调查记者深度采访 实用的律师证人访谈实操技巧

"今天把我跟着资深调查记者打磨的、律师圈常用的2026最新访谈实操技巧整理出来,不管你是做论文调研访谈,还是准备校招面试,都是直接能用的落地方法,解决你记录乱、挖不到料、赶ddl熬大夜的痛点。我踩过这些坑,也见…...

【译】在 Visual Studio 中完全掌控您的悬浮窗口

如果您和我一样使用多显示器办公,那您大概率会渐渐爱上 Visual Studio 中的悬浮工具窗口与文档。将解决方案资源管理器、调试器或是代码文件拖拽到第二块(甚至第三块)屏幕上,能够大幅提升工作效率。但这些悬浮窗口的运行表现&…...

终极指南:3步解决PS手柄PC兼容问题,解锁完美游戏体验

终极指南:3步解决PS手柄PC兼容问题,解锁完美游戏体验 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 你是否曾经兴奋地连接PlayStation手柄到PC,准备在…...

三步解决网易云音乐NCM格式限制:ncmdump完全解密攻略

三步解决网易云音乐NCM格式限制:ncmdump完全解密攻略 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾经从网易云音乐下载了心爱的歌曲,却发现只能在官方客户端播放?当你试图在车载音响、手…...

Python 算法快速复习手册(长期没用、有基础、极速捡回、纯刷题向) | 一、Python 算法面试万能模板【直接背诵、白板默写】 |

一、必写开头 & 基础规则1. 无需头文件Python 不用 include,直接写代码。2. 缩进是语法(最容易忘)不用大括号 {}if / for / while / 函数 后面加冒号 :下方代码缩进 4 个空格python运行if a > 0:print("正数") # 缩进必须对…...

强化学习/对齐(个人理解)

Bradley-Terry 奖励模型含义:给定选中和拒绝响应的隐藏状态,将其投影为标量奖励并计算偏好损失。def reward_model_loss(chosen_hidden, rejected_hidden, reward_head):r_chosen (chosen_hidden reward_head).squeeze(-1) # (B,)r_rejected (rej…...

Windows下用清华源5分钟搞定ONNX全家桶(含CUDA版本匹配避坑指南)

Windows下5分钟极速部署ONNX全家桶:清华源加速与CUDA版本精准匹配实战 刚接手一个新项目需要部署YOLOv5模型时,我遇到了典型的ONNX环境配置噩梦:ImportError: Could not load library cudnn_ops_infer64_8.dll。这个报错背后是无数开发者共同…...

Win11Debloat:3分钟快速清理Windows系统垃圾的终极免费工具

Win11Debloat:3分钟快速清理Windows系统垃圾的终极免费工具 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter a…...

别再瞎调参数了!PCL中MLS点云上采样的三个关键半径(r1, r2, r3)到底怎么设?

PCL中MLS点云上采样的参数调优实战指南 点云处理中的上采样技术一直是三维重建和计算机视觉领域的关键环节。移动最小二乘(MLS)算法因其出色的平滑和细节保留能力,成为PCL库中最受欢迎的点云上采样方法之一。但很多开发者在使用过程中,面对setSearchRadi…...

从RetinaNet到YOLOv5:深入浅出图解Focal Loss原理,附PyTorch多分类任务实战代码

从RetinaNet到YOLOv5:深入浅出图解Focal Loss原理,附PyTorch多分类任务实战代码 在目标检测和图像分类领域,样本不平衡问题一直是困扰研究者的难题。想象一下,当你试图在拥挤的街头检测行人时,背景区域(负样…...

漫画翻译革命性突破:manga-image-translator让外语漫画阅读零障碍

漫画翻译革命性突破:manga-image-translator让外语漫画阅读零障碍 【免费下载链接】manga-image-translator Translate manga/image 一键翻译各类图片内文字 https://cotrans.touhou.ai/ (no longer working) 项目地址: https://gitcode.com/gh_mirrors/ma/manga-…...

如何通过Proxyee-down实现高速HTTP下载体验?

如何通过Proxyee-down实现高速HTTP下载体验? 【免费下载链接】proxyee-down http下载工具,基于http代理,支持多连接分块下载 项目地址: https://gitcode.com/gh_mirrors/pr/proxyee-down Proxyee-down是一款基于HTTP代理的开源下载工具…...

AI能创造吗——从一团噪声到一幅画

一、什么是requests? requests 是一个用于发送请求的 Python 库。 它可以帮助你: 轻松发送GET、POST、PUT、DELETE等请求 处理Cookie、会话等复杂性 自动解压缩内容 处理国际化域名和URL 二、应用场景 requests 广泛应用于以下实际场景: Web爬…...

为什么92%的微生物组论文在R 4.5中重现失败?——基于Nature Microbiology近3年217篇论文的可重复性审计报告

更多请点击: https://intelliparadigm.com 第一章:R 4.5 微生物组多组学分析的可重复性危机全景 近年来,R 4.5 环境下基于 Bioconductor 3.19 的微生物组多组学整合分析(如 16S rRNA、宏基因组、代谢组与宿主转录组联合建模&…...

保姆级教程:在Win10上用WSL2搞定AirSim+PX4仿真,再连上ROS玩点高级的

从零构建Windows 10下的无人机仿真开发环境:WSL2AirSimPX4ROS全栈指南 当无人机开发者第一次尝试在Windows系统上搭建完整的仿真环境时,往往会遇到各种"水土不服"的问题——从WSL2的网络配置到PX4的子模块下载,从AirSim的编译问题到…...

这个框架会过时吗——AI的天花板和你的判断力

前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...