当前位置: 首页 > news >正文

概率和似然

在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。

概率与似然

假设在一场棒球比赛中,两队的队长都被召集到场上掷硬币。获胜的队长将根据掷硬币的结果选择先击球还是先投球。

现在,获胜的队长选择先击球的概率是多少?我们现在知道只有两种可能的结果:获胜的队长决定先投球或开始击球。获胜的队有50%的几率会选择先击球。

评论员现在正在讨论获胜队长选择首先在击球的可能性。在实际中这个数字可能不到 50%,因为选择先击球会受球场类型、天气、对方球队等因素的影响。比如说如果比赛前下了大雨,决定先击球的可能性会低至 1%。如果天气条件恰到好处,那么获胜的队选择先击球的可能性可能高达 95%。

所以在计算概率值时,我们相信参数值θ=0.5是正确的。在考虑了所有参数之后,我们假设我们确定参数值 θ=0.5。但是在计算似然时,我们的目标是确定我们是否可以信任该参数。

所以我们可以说概率是基于纯数学的;然而似然是一个有许多参数和条件的函数。

为什么似然不是概率分布?

在抛硬币的情况下,我们可以阐述以下关于潜在结果 x 的情况。

硬币正面朝上的概率是,

在此基础上,我们可以提出以下关于求硬币正面朝上和反面朝上的概率的问题。

下面的方程可以推广前一组方程。

现在,我们可以看到上面的公式适用于k=1和k=0的值。

有了以上的基础,现在要考虑两种不同的情况。

1、概率

假设在抛硬币之前,我们知道参数θ=3/4的值。在此基础上可以说得到正面的概率是P(正面)= θ = 3/4, P(反面)= 1-θ = 1/4。让我们把这些数据画在一个简单的图表上。我们保持参数(θ)不变,并改变数据(x=1或x=0)。

2、似然

现在,假设我们在抛硬币之前不知道正面或反面的概率,而我们有数据的结果, 也就是说我们已经掷过硬币。现在,给定 x=1,找到 θ 的概率是多少。在这种情况下,我们保持数据 (x=1) 不变并更改参数 (θ)。

我们目标是想找到定义这种结果的分布。简而言之,我们想要找到给定 x 的 θ 值。可以将其写成如下的数学格式。

P(x=1 | θ) = L(θ | x=1)

这里需要注意的关键是曲线下的面积是1/2。所以,我们可以说它不是一个有效的概率分布。它被称为似然分布。似然函数不服从概率定律。因此似然函数在[0,1]区间内是无界的。

概率和似然之间的关键区别

假设我们从参数化分布 F(X;θ) 中得到一个随机变量 X。在此参数化分布中,θ 是定义分布 F(X;θ) 的参数。随机变量 X=x 的概率为 P(X=x) = F(x;θ),这里的参数 θ 是已知的。

而我们一般情况下会拥有现实世界中的数据 (x),而定义分布 (θ) 的参数是未知的。给定模型 F(X;θ),似然度定义为观测数据 X 随 θ 变化的概率。我们可以将其写为 L(θ) = P(θ; X=x)。这里X 已知,但定义分布 (θ) 的参数未知。定义似然的动机是为了确定分布的参数。

在我们的日常生活中,经常将概率和似然称为同一事物。例如:明天下雨的概率是多少?或者明天下雨的可能性(似然)有多大?但是这些术语在机器学习和统计学中有很大不同。下面的一个例子可以解释概率和似然之间的关键区别。

当我们计算概率结果时,我们假设模型的参数是值得信赖的。但是当我们计算似然时,我们会根据我们观察到的样本数据来确定我们是否可以信任模型中的参数。

抛硬币

如果一枚硬币正面朝上和背面朝上的概率相等,就称其为均匀硬币。换句话说,P(正面)= P(反面)= 1/2。

假设有一枚均匀硬币。我们假设硬币参数值(θ = 0.5)。在寻找概率时,我们假设参数是可信的。也就是说如果我们抛这枚硬币一次,它正面朝上的概率是1/2。现在我们抛硬币100次,发现只有12次是正面朝上的。基于这些证据,我们会说硬币是均匀的可能性非常低。因为如果硬币是均匀的,我们预计它正面朝上的概率是一半,也就是50次。

在上面的例子中,我们可以说,100次硬币正面朝上的概率只有12次,这让我们高度怀疑,因为在给定的条件中,硬币正面朝下的实际概率实际上是p = 0.5。但如果这枚硬币55次正面,我们就可以说这枚硬币很可能是均匀的。

概率问题和统计问题的区别

假设我们还是抛硬币。考虑以下两个场景。

概率问题:

我们假设硬币是均匀的。连续得到两个正面的概率是多少?

它表示给定参数值(P = 0.5),观察数据(序列)的概率是多少。

统计问题:

我们不知道硬币是否公平(我们正在试图确定硬币的公平性)。假设我们抛硬币两次,连续得到两次正面。

问:根据观察到的数据,这枚硬币是均匀的可能性有多大?(p = 0.5)?

这意味着我们在给定数据(sequence = HH)的情况下确定参数的值(P = 0.5)。也就是说“我们的样本在多大程度上支持我们的假设 P = 0.5?”

我们可以将似然定义为参数模型中样本对给定参数值的支持程度的度量。

二项分布的概率和似然

继续抛硬币,让我们考虑一个简单的二项分布的例子。假设我们抛硬币十次,并记录结果。结果是9次正面1次反面。

我们知道硬币是均匀的,即p = 0.5。根据这个信息,我们要算出投掷10次得到9次正面的概率。我们可以用公式

这里0.009765是在p = 0.5的情况下得到x = 9个正面的概率。

一般情况下我们可以这样写:

下面,如果我们不确定硬币是否均匀。这意味着我们不知道参数p的值。而我们已经投掷了十次硬币,并得到了投掷结果。结果是9次正面1次反面。基于此,我们可以得出以下结论。

在这里,我们试图根据给定的数据样本(10次抛掷中有9次正面)找到参数P的值。

总结

在机器学习的背景下:

  • 概率是指基于模型中参数指定的值,特定结果发生的概率,我们相信参数值是准确的。
  • 似然指的是样本对参数模型中给定参数值的支持程度,我们试图根据提供的样本数据确定模型的参数值。

https://avoid.overfit.cn/post/02f9cd888b274752b17a9fc3f1120fbc

作者:Pratik Shukla

相关文章:

概率和似然

在日常生活中,我们经常使用这些术语。但是在统计学和机器学习上下文中使用时,有一个本质的区别。本文将用理论和例子来解释概率和似然之间的关键区别。 概率与似然 假设在一场棒球比赛中,两队的队长都被召集到场上掷硬币。获胜的队长将根据掷…...

前期软件项目评估偏差,如何有效处理?

1、重新评估制定延期计划 需要对项目进行重新评估,将新的评估方案提交项目干系人会议,开会协商一致后按照新的讨论结果制定计划,并实施执行。 软件项目评估偏差 怎么办:重新评估制定延期计划2、申请加资源 如果项目客户要求严格&a…...

Xline v0.2.0: 一个用于元数据管理的分布式KV存储

Xline是什么?我们为什么要做Xline? Xline是一个基于Curp协议的,用于管理元数据的分布式KV存储。现有的分布式KV存储大多采用Raft共识协议,需要两次RTT才能完成一次请求。当部署在单个数据中心时,节点之间的延迟较低&a…...

CompletableFuture

一、一个示例回顾Future 一些业务场景我们需要使用多线程异步执行任务,加快任务执行速度。JDK5新增了Future接口,用于描述一个异步计算的结果。虽然Future以及相关使用方法提供了异步执行任务的能力,但是对于结果的获取却是很不方便,我们必须使用Future.get()的方式阻塞调…...

面试不到10分钟就被赶出来了,问的实在是太变态了...

干了两年外包,本来想出来正儿八经找个互联网公司上班,没想到算法死在另一家厂子。 自从加入这家外包公司,每天都在加班,钱倒是给的不少,所以也就忍了。没想到11月一纸通知,所有人不许加班,薪资…...

【C++】类与对象 (四)初始化列表 static成员 友元 内部类 匿名对象 拷贝对象时的一些编译器优化

前言 本章就是我们C中类与对象的终章了,不过本章的难度不大,都是类中一些边边角角的知识,记忆理解就行了,相信经过这么长时间的学习类与对象,你对面向对象也有了更加深的理解,最后我们学习完边边角角的一些…...

04:进阶篇 - 编译 CTK

作者: 一去、二三里 个人微信号: iwaleon 微信公众号: 高效程序员 在使用 CTK 之前,首先要进行编译。但要成功编译它,并不是一件很容易的事,这不仅取决于平台、Qt 的版本,也取决于编译器,以及所使用的 IDE。 平台(Linux、Windows)Qt 版本(4.x、5.x、6.x)编译器(MS…...

SQL73 返回所有价格在 3美元到 6美元之间的产品的名称和价格

描述有表Productsprod_idprod_nameprod_pricea0011egg3a0019sockets4b0019coffee15【问题】编写 SQL 语句,返回所有价格在 3美元到 6美元之间的产品的名称(prod_name)和价格(prod_price),使用 AND操作符&am…...

【Linux 多线程互斥】如何保证锁的原子性(互斥的原理)

临界资源:可以被多个执行流(线程或者叫轻量级进程)同是访问的(多个执行流共享的,比如:全局、堆等等);临界区:访问这些临界资源的代码;原子性:没有中间态&…...

Android 实现沉浸式全屏

前言 本文总结 Android 实现沉浸式全屏的实现方式。 实现沉浸式全屏 在一些需要全屏显示的场景下,比如玩游戏、看横屏视频的时候,内容全屏,占满窗口的体验会让用户更加沉浸到对内容的消费中,带来好的用户体验。 沉浸式显示具体来说就是如状态栏和导航栏部分的显示效果调…...

数据分析与SAS学习笔记6

数据集整理: 目的:对数据集中的数据进行预处理,使数据更适合统计分析过程对数据格式的要求; 常见整理要求: 1)建立新的变量,衍生变量,删除某些原变量; 2)…...

自动化完成1000个用户的登录并获取token并生成tokens.txt文件

自动化完成1000个用户的登录并获取token并生成tokens.txt文件 写作背景 在我学习使用redis实现秒杀功能的过程中,在编写完秒杀代码后,需要使用Jmeter实际测试1000个用户进行秒杀,由于秒杀功能需要在用户登录完成后才能实现,用户是…...

2023年全国最新安全员精选真题及答案1

百分百题库提供安全员考试试题、建筑安全员考试预测题、建筑安全员ABC考试真题、安全员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 11.(单选题)在起重作业中,(&#xff09…...

NoMachine 输入用户名密码后 闪断 解决办法

大家好,我是虎哥,最近工作忙,好长时间没有继续套件的深度学习,今天周六,难得有空,泡好茶,打开电脑,链接套件桌面,得,出问题了,一个很奇怪的问题&a…...

WebADI - 参数的使用

* 本文仅供交流分享,不作为专业指导 最近研究了一下WEBADI文档下载的参数,由于网上这块资料较少,所以专意分享下我的笔记。 准备 集成器:BHSC_EMP_ADI 表值集:BHSC_DEPT_LOV(值:dname&#x…...

【OJ】两个圆

📚Description: 直角坐标系内现有两个半径相等的圆,问两圆的位置关系。 位置关系有:重合,相切,相离,相交; 若两圆相交,需要求出两圆的重叠面积。 ⏳Input: 输入包含多组数据&a…...

一文读懂澳洲医疗:白菜价的药物怎么领?

众所周知,福利优厚的澳洲,在医疗系统上有着令全世界人民都羡慕的超高福利。 几十万的天价药,在澳洲,白菜价就能轻松到手。 国内70万元一针的“诺西那生钠注射液”(目前中国国内唯一治疗脊髓性肌萎缩症的进口精准靶向药…...

scrum看板视图切换时间线视图做项目管理

企业需要开发一个项目,可以制作时间线进行管理,以便参与者和管理者了解项目的时间进度。项目进行到哪一步,参与者有哪些,责任人是谁,这些都可以通过时间线进行展示。「时间线视图」是一种比甘特图更轻量、更实用的工具…...

10、MySQL查询优化

MySQL查询优化 1.MySQL查询优化技术2.子查询优化2.1 优化器自动优化2.2 优化措施:子查询合并2.2 优化措施:子查询上拉技术3.外连接消除4.生产环境不使用join联表查询5.group by分组优化5.1 group by执行流程5.2 为什么group by要创建临时表6.order by排序优化7.MySQL性能抖动…...

C++模板(一)

文章目录C模板(一)1. 泛型编程2. 函数模板2.1 函数模板格式2.2 模板原理2.3 模板实例化2.4 模板参数匹配原则3. 类模板3.1 类模板格式3.2 背景3.3 类模板的实例化C模板(一) 1. 泛型编程 前面我们学到了函数重载这个特性&#xf…...

<6>-MySQL表的增删查改

目录 一,create(创建表) 二,retrieve(查询表) 1,select列 2,where条件 三,update(更新表) 四,delete(删除表&#xf…...

Admin.Net中的消息通信SignalR解释

定义集线器接口 IOnlineUserHub public interface IOnlineUserHub {/// 在线用户列表Task OnlineUserList(OnlineUserList context);/// 强制下线Task ForceOffline(object context);/// 发布站内消息Task PublicNotice(SysNotice context);/// 接收消息Task ReceiveMessage(…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)

文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

连锁超市冷库节能解决方案:如何实现超市降本增效

在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...

c++ 面试题(1)-----深度优先搜索(DFS)实现

操作系统:ubuntu22.04 IDE:Visual Studio Code 编程语言:C11 题目描述 地上有一个 m 行 n 列的方格,从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子,但不能进入行坐标和列坐标的数位之和大于 k 的格子。 例…...

剑指offer20_链表中环的入口节点

链表中环的入口节点 给定一个链表,若其中包含环,则输出环的入口节点。 若其中不包含环,则输出null。 数据范围 节点 val 值取值范围 [ 1 , 1000 ] [1,1000] [1,1000]。 节点 val 值各不相同。 链表长度 [ 0 , 500 ] [0,500] [0,500]。 …...

生成 Git SSH 证书

🔑 1. ​​生成 SSH 密钥对​​ 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ​​参数说明​​: -t rsa&#x…...

2025盘古石杯决赛【手机取证】

前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来,实在找不到,希望有大佬教一下我。 还有就会议时间,我感觉不是图片时间,因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...

OpenLayers 分屏对比(地图联动)

注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...

智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制

在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...