当前位置: 首页 > news >正文

机器学习 - 需要了解的条件概率、高斯分布、似然函数

似然函数是连接数据与参数的桥梁,通过“数据反推参数”的逆向思维,成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”,这种视角转换是掌握现代统计学和机器学习的基础。

一、在学习似然函数之前,我们需要弄懂什么是条件概率

概率是指在事件 B 已经发生的前提下,事件 A 发生的概率,记作 P(A|B),读作“在 B 发生的条件下 A 发生的概率”。其定义为:

其中,P(A ∩ B)表示事件 A 和事件 B 同时发生的概率,P(B) 表示事件 B 发生的概率。需要注意的是,P(B)必须大于零,否则条件概率无法定义。

示例:

一个标准的52张扑克牌堆,问从中随机抽取一张牌,这张牌是红心的概率是多少?这是一个无条件概率问题,答案(红心) = 13/52 = 1/4。

现在,假设已知抽到的牌是一张(或方片),在此条件下,这张牌是红心的条件概率是多少?这是一个条件概率问题。

设事件 A 为“抽到红心”,事件 B 为“抽到红色牌”,则:

  • P(A ∩ B) = P(红心) = 13/52
  • P(B) = P(红心或方片) = 26/52 = 1/2

因此,条件概率 P(A|B) 为:

需要注意的是,条件概率 P(A|B) 与 P(B|A) 一般不相等。例如,在上述例子中,P(红心|红色牌) = 1/2,而 P(红色牌|红心) = 1,因为在抽到红心的情况下,必然是一张红色牌。

条件概率在统计学、概率论以及机器学习等领域有广泛的应用,特别是在贝叶斯定理中,条件概率是核心概念之一。

二、还需要弄懂什么是高斯分布?

(一)高斯分布

高斯分布(也称为正态分布)是统计学中最常见的连续概率分布之一。其概率密度函数呈对称的钟形曲线,描述了数据在均值附近的集中程度。高斯分然科学和社会科学中广泛应用,常用于表示未知的随机变量。

概率密度函数

对于均值为 μ、标准差为 σ 的高斯分布,其概率密度函数为:

其中,μ 决定了分布的位置,σ 决定了分布的幅度。

标准正态分布: μ = 0、σ = 1 时,标准正态分布,其概率密度函数为:

性质:

  • **对称性:*斯分布关于均值 μ 对称。

  •  68-95-99.7 规则: 在高斯分布中,约68%的数据位于均值±1σ范围内,约95%位于均值±2σ范围内,约99.7%位于均值±3σ范围内。

在三维视图中,二维高斯分布的概率密度函数图像类似于一个倒置的碗,中心最高,向四周逐渐降低。其数学表达式为::

应用:

高斯分布在统计学中具有重要地位,常用于描述自然和社会科学中的随机变量。例如,在测量误差分析中,假设误差服从高斯分布可以简化分析过程。

此外,根据中心极限定理,当对大量独立同分布的随机变量求和时,其和的分布趋近于高斯分布,这使得高斯分布在统计推断中尤为重要。

需要注意的是,虽然高斯分布在理论和应用中广泛存在,但并非所有数据都服从高斯分布。在进行数据分析时,应首先检验数据的分布特性,以选择适当的统计模型。

为了直观理解,我们来看一下高斯分布对应的图像:

高斯分布(也称为正态分布)的图像呈现为对称的钟形曲线,其形状由均值(μ)和标准差(σ)决定。均值 μ 确定曲线的中心位置,标准差 σ 控制曲线的宽度和高度。标准差越小,曲线越陡峭;标准差越大,曲线越平坦。

(二)形象理解高斯分布

1. 直观比喻

想象你在测量一群人的身高:

  • 高斯分布:大部分人的身高集中在某个平均值附近(如170cm),极端高或矮的人较少。

  • 观测数据 y:每次测量的身高值(如169cm、171cm、168cm等)。

  • 假设 y 服从高斯分布:意味着这些测量值围绕某个“中心值”波动,且波动规律符合高斯分布的形状(钟形曲线)。

2. 具体场景

以线性回归为例:

三、然后来掌握什么是似然函数

1.认识连乘运算符“∏”的用法:

2.了解独立同分布的意义:

在概率论与统计学中,独立同分布(Independent and Identically Distributed,简称 i.i.d.)指一组随机变量彼此独立,且服从相同的概率分布。这意味着每个随机变量的取值不会影响其他变量的取值,并且它们具有相同的分布特性。

独立:随机变量之间互不影响,即一个变量的取值不依赖于其他变量的取值。

同分布:所有随机变量遵循相同的概率分布,具有相同的分布函数、期望值和方差等统计特性。

示例

  • 抛硬币实验:假设我们进行多次抛硬币实验,每次记录硬币正面朝上的结果。每次抛掷都是独立的(一次抛掷的结果不影响另一次),且每次抛掷的结果服从相同的分布(正面和反面的概率相同)。因此,这些抛掷结果构成一组独立同分布的随机变量。

  • 掷骰子实验:假设我们多次掷骰子,每次记录掷出的点数。每次掷骰子都是独立的,且每次的结果服从相同的分布(每个点数出现的概率相同)。因此,这些掷骰子的结果也是独立同分布的随机变量。

独立同分布是许多统计推断和机器学习方法的基础假设。例如,在训练机器学习模型时,通常假设训练数据是从同一分布中独立采样的,以确保模型对新数据的有效性。

需要注意的是,独立同分布并不意味着每个事件发生的概率都相同,而是指随机变量之间相互独立,并且遵循相同的概率分布。

3.认识似然函数

(1)似然函数的概念

给定一组独立同分布的数据样本 x1,x2,...,xn,假设它们服从高斯分布,则似然函数表示在给定参数(μ, σ²)下,观测到这组数据的概率。

由于对数函数是单调递增的,通常对似然函数取对数,得到对数似然函数:

通过最大化对数似然函数,可以估计参数μ和σ²的值。

因此,似然函数和高斯分布的关系在于,假设数据服从高斯分布时,似然函数基于高斯分布的概率密度函数构建,用于估计分布的参数。

定义:

似然函数是统计学中用来 “衡量模型参数在已知数据下的合理性” 的工具。简单来说,它通过观测到的数据,告诉我们 “不同参数值对产生这些数据的可能性有多大”

核心思想:逆向思维
  • 概率:已知参数 → 预测数据可能性
    (例:已知硬币是公平的(参数θ=0.5),抛10次出现6次正面的概率是多少?)

  • 似然:已知数据 → 推测参数可能性
    (例:抛10次硬币观察到6次正面,此时参数θ=0.5的“似然值”有多大?θ=0.6呢?)

类比

  • 概率:天气预报说“明天下雨的概率70%” → 预测未来。

  • 似然:今天下雨了 → 推测“气象台模型参数设置是否合理”。

数学形式

(2)如何理解“似然”

(3)最大似然估计(MLE

(4)关键区别:似然 vs 概率

(5)常见误区和实际应用场景:

  • 误区1:认为“似然值高”等于“参数正确”。
    → 实际只能说明“参数对当前数据更合理”。

  • 误区2:混淆似然函数与后验概率。
    → 后验概率 = 似然 × 先验概率(需贝叶斯框架)。

  • 误区3:忽略数据的独立性假设。
    → 若数据不独立,联合似然的乘积形式不成立。

  1. 参数估计:如线性回归、逻辑回归中的MLE。

  2. 模型选择:通过比较不同模型的似然值(如AIC准则)。

  3. 假设检验:构建似然比检验(Likelihood Ratio Test)。

这篇文章,我整理了学习最大似然估计之前的基础知识,在掌握了这些知识之后,我们下一步进行学习线性回归中,求最优参数的最大似然估计的方法。

相关文章:

机器学习 - 需要了解的条件概率、高斯分布、似然函数

似然函数是连接数据与参数的桥梁,通过“数据反推参数”的逆向思维,成为统计推断的核心工具。理解它的关键在于区分“参数固定时数据的概率”与“数据固定时参数的合理性”,这种视角转换是掌握现代统计学和机器学习的基础。 一、在学习似然函…...

Spring Boot Web 入门

目录 Spring Boot Web 是 Spring Boot 框架的一个重要模块,它简化了基于 Spring 的 Web 应用程序的开发过程。以下是一个 Spring Boot Web 项目的入门指南,涵盖了项目创建、代码编写、运行等关键步骤。 1. 项目创建 使用 Spring Initializr 使用 IDE …...

神经网络|(八)概率论基础知识-二项分布及python仿真

【1】引言 前序已经学习了古典概型、条件概率、全概率公式和贝叶斯公式,它们作为基础,解释了事件发生及其概率的对应关系,相关文章链接为: 神经网络|(四)概率论基础知识-古典概型-CSDN博客 神经网络|(五)概率论基础知识-条件概…...

【面试场景】MySQL分布式主键选取

文章目录 一. MySQL的自增主键二. UUID三. 雪花ID(推荐) 我的博客地址 一. MySQL的自增主键 适合单表的情况, 在分布式分库分表下可能会有一些问题 主键冲突问题 在分布式系统中,多个数据库节点独立生成自增主键,很容易出现重复的主键值。例如&#xff…...

执行git stash drop stash@{x} 时出现error: unknown switch `e‘ 的解决方式

原因: 在 PowerShell 或某些 Shell 中,{} 是特殊符号,stash{0} 会被解析成 stash 0,而 后的字符可能被误认为选项(如 -e),使 Git 收到意外的 -e 参数,导致报错 unknown switch ‘e’。 解决方…...

链表和 list

一、单链表的模拟实现 1.实现方式 链表的实现方式分为动态实现和静态实现两种。 动态实现是通过 new 申请结点,然后通过 delete 释放结点的形式构造链表。这种实现方式最能体 现链表的特性; 静态实现是利用两个数组配合来模拟链表。一个表示数据域&am…...

windows 蓝牙驱动开发-传输总线驱动程序常见问题

以下是驱动程序开发人员在开发总线驱动程序以支持蓝牙功能时可能会遇到的一些常见问题和方案。 我的串行总线驱动程序遇到了一些错误。 它意味着什么? 代码 10-49:设备管理器生成的错误代码。 代码 51:当串行总线驱动程序具有相关的控制器…...

Qt修仙之路2-1 炼丹初成

widget.cpp #include "widget.h" #include<QDebug> //实现槽函数 void Widget::login1() {QString userusername_input->text();QString passpassword_input->text();//如果不勾选无法登入if(!check->isChecked()){qDebug()<<"xxx"&…...

【含开题报告+文档+PPT+源码】基于SpringBoot+Vue宠物预约上门服务预约平台

开题报告 本研究论文旨在构建并阐述一个基于 SpringBoot 和 Vue 技术栈开发的宠物上门服务预约平台的设计与实现。该平台集成了丰富的功能模块&#xff0c;为用户提供一体化的便捷服务体验。首先&#xff0c;用户能够通过注册并登录系统&#xff0c;享受个性化的服务流程。在平…...

无线AP之详解(Detailed Explanation of Wireless AP)

无线AP是什么&#xff1f; 市场上的AP基本上分为两大类&#xff1a;单纯型AP和扩展型AP。扩展型AP除了基本的AP功能之外&#xff0c;还可能带有若干以太网交换口、路由、NAT、DHCP、打印服务器等功能。 无线AP也就是一个无线交换机 无线路由器就是一个带路由功能的无线AP&am…...

Spring Boot Actuator与JMX集成实战

在微服务架构中&#xff0c;监控和管理应用的运行状态是至关重要的。Spring Boot Actuator 提供了一种便捷的方式来监控和管理 Spring Boot 应用&#xff0c;而 JMX&#xff08;Java Management Extensions&#xff09;则是一种用于管理 Java 应用的标准技术。本文将通过一个实…...

mac环境下,ollama+deepseek+cherry studio+chatbox本地部署

春节期间&#xff0c;deepseek迅速火爆全网&#xff0c;然后回来上班&#xff0c;我就浅浅的学习一下&#xff0c;然后这里总结一下&#xff0c;我学习中&#xff0c;总结的一些知识点吧&#xff0c;分享给大家。具体的深度安装部署&#xff0c;这里不做赘述&#xff0c;因为网…...

camera光心检测算法

1.概要 光心检测算法&#xff0c;基于opencv c实现&#xff0c;便于模组厂快速集成到软件工具中&#xff0c;适用于camera模组厂算法评估组装制程镜头与sensor的偏心程度&#xff0c;便于工程师了解制程的问题找出改善方向。 2.技术介绍 下图为camera模组厂抓取的bayer-raw经过…...

【MySQL】向后兼容设计规范(无回滚场景)

MySQL 向后兼容设计规范&#xff08;无回滚场景&#xff09; 在 不支持数据库回滚 且需保证 长期向后兼容性 的系统中&#xff0c;需通过 架构设计 和 流程管控 规避风险。以下是关键设计规范&#xff1a; 一、变更流程规范 变更分类分级 变更类型风险评估等级审批流程测试要求…...

还搞不透stm32单片机启动过程?一篇文章几百字让你彻底看懂!

1.stm32启动 1.1 msp和pc的初始值&#xff0c;第一步&#xff1a; 2.boot的值就被锁定了 可以根据实际绑定的值变动&#xff0c; 这里补充一点boot1和0的原理&#xff1a; 1.2来点刺激的&#xff1a; 这里我插入一个链接&#xff1a; 【明解STM32】一文搞明白STM32芯片存储…...

无界构建微前端?NO!NO!NO!多系统融合思路!

文章目录 微前端理解1、微前端概念2、微前端特性3、微前端方案a、iframeb、qiankun --> 使用比较复杂 --> 自己写对vite的插件c、micro-app --> 京东开发 --> 对vite支持更拉跨d、EMP 方案--> 必须使用 webpack5 --> 很多人感觉不是微前端 --> 去中心化方…...

DeepSeek辅助段落扩写的能力怎么样?

DeepSeek-R1在学术写作的诸多细节层面展现出了显著的应用价值。接下来我们将通过一系列具体案例&#xff0c;深入探讨该工具如何在扩写、翻译、发表以及内容改进等关键环节为学术写作提供有力支持。在提问环节&#xff0c;DeepSeek-R1能够高效地简化提示词&#xff0c;并精准地…...

分形的魅力:数学与艺术的完美结合

分形的魅力&#xff1a;数学与艺术的完美结合 分形&#xff08;Fractal&#xff09;是一种神奇的数学结构&#xff0c;它以其无限的复杂性和自相似性吸引了无数科学家、艺术家和数学爱好者。分形不仅仅是数学中的一个概念&#xff0c;它还广泛应用于自然科学、计算机图形学和艺…...

如何通过工业智能网关进行数控机床数据采集?

数控机床数据采集过程是一个从物理连接到数据处理的完整链条&#xff0c;涉及设备连接、数据采集、预处理和传输的复杂过程&#xff0c;包含通信协议匹配、设备配置、数据采集设置、数据预处理和传输等多个环节。天拓四方自主研发的TDE工业智能网关作为这一过程中的核心设备&am…...

水波效果

水波效果指在计算机图形学中模拟水面波纹的视觉效果&#xff0c;通常用于游戏、动画或者其他虚拟场景中。主要用于体现水体的动态感&#xff0c;比如水的波动、反射、折射、透明等&#xff0c;可以让人感觉像真实的水一样流动闪耀。 核心特点就是&#xff1a; 动态波纹光学特…...

eNSP-Cloud(实现本地电脑与eNSP内设备之间通信)

说明&#xff1a; 想象一下&#xff0c;你正在用eNSP搭建一个虚拟的网络世界&#xff0c;里面有虚拟的路由器、交换机、电脑&#xff08;PC&#xff09;等等。这些设备都在你的电脑里面“运行”&#xff0c;它们之间可以互相通信&#xff0c;就像一个封闭的小王国。 但是&#…...

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架&#xff0c;用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录&#xff0c;以帮助监视应用程序行为和诊断问题。 可以通过配置不同的记录提供程…...

装饰模式(Decorator Pattern)重构java邮件发奖系统实战

前言 现在我们有个如下的需求&#xff0c;设计一个邮件发奖的小系统&#xff0c; 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件 装饰器模式&#xff08;Decorator Pattern&#xff09;允许向一个现有的对象添加新的功能&#xff0c;同时又不改变其…...

Java如何权衡是使用无序的数组还是有序的数组

在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...

python/java环境配置

环境变量放一起 python&#xff1a; 1.首先下载Python Python下载地址&#xff1a;Download Python | Python.org downloads ---windows -- 64 2.安装Python 下面两个&#xff0c;然后自定义&#xff0c;全选 可以把前4个选上 3.环境配置 1&#xff09;搜高级系统设置 2…...

多模态商品数据接口:融合图像、语音与文字的下一代商品详情体验

一、多模态商品数据接口的技术架构 &#xff08;一&#xff09;多模态数据融合引擎 跨模态语义对齐 通过Transformer架构实现图像、语音、文字的语义关联。例如&#xff0c;当用户上传一张“蓝色连衣裙”的图片时&#xff0c;接口可自动提取图像中的颜色&#xff08;RGB值&…...

五年级数学知识边界总结思考-下册

目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解&#xff1a;由来、作用与意义**一、知识点核心内容****二、知识点的由来&#xff1a;从生活实践到数学抽象****三、知识的作用&#xff1a;解决实际问题的工具****四、学习的意义&#xff1a;培养核心素养…...

AI编程--插件对比分析:CodeRider、GitHub Copilot及其他

AI编程插件对比分析&#xff1a;CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展&#xff0c;AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者&#xff0c;分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...

浅谈不同二分算法的查找情况

二分算法原理比较简单&#xff0c;但是实际的算法模板却有很多&#xff0c;这一切都源于二分查找问题中的复杂情况和二分算法的边界处理&#xff0c;以下是博主对一些二分算法查找的情况分析。 需要说明的是&#xff0c;以下二分算法都是基于有序序列为升序有序的情况&#xf…...

Device Mapper 机制

Device Mapper 机制详解 Device Mapper&#xff08;简称 DM&#xff09;是 Linux 内核中的一套通用块设备映射框架&#xff0c;为 LVM、加密磁盘、RAID 等提供底层支持。本文将详细介绍 Device Mapper 的原理、实现、内核配置、常用工具、操作测试流程&#xff0c;并配以详细的…...