当前位置: 首页 > news >正文

机器学习知识点总结:什么是EM(最大期望值算法)

什么是EM(最大期望值算法)

在现实生活中,苹果百分百是苹果,梨百分白是梨。

请添加图片描述

生活中还有很多事物是概率分布,比如有多少人结了婚,又有多少人有工作,

请添加图片描述

如果我们想要调查人群中吸大麻者的比例呢?敏感问题很难得到真实回答,这时就可以利用概率让调查匿名化,在“你吸大麻吗?”这个问题之外,再提出一个问题,“你的手机尾号是偶数吗?”,然后邀请参与者投掷硬币,正面回答问题1,反面则回答问题2。

请添加图片描述

调查以电话进行,手机尾号是偶数的比例已经确定,只要调查样本足够多,抛硬币能让回答问题1和问题2的人接近相等,在不知道回答的是哪个问题的情况下,我们依然轻松推测出了人群中吸大麻者的比例,这就是概率的魔法。

请添加图片描述

现在让我们将问题2稍做变更,将“手机尾号是偶数”替换成“你吸烟吗”这样的未知概率事件,我们还能推断出吸大麻者的概率吗?

请添加图片描述

答案依然是能,只不过这次我们改变了调查方法,向每五个人发放同一个问题邀请他们回答,不记录问题是什么,只记录他们的答案,在保证匿名性的同时,我们得到了一些不知归属的成答案。

请添加图片描述

接下来就轮到EM算法

请添加图片描述

EM算法的步骤

  1. 随机化,不知道答案属于拿一个问题,就无法推测吸烟和吸大麻者的比例,不知道这两个比例,就无法推测答案属于哪一个问题,既然如此,我们就随机为吸烟者和吸大麻者赋予一个数值
  2. 接下来用这些数值反过来去推测这些成组的答案属于两个问题的可能性,这一步是在估算未知变量也就是问题归属的期望,因此被称为E步
在这里插入图片描述
  1. 然后我们用这个可能性,反过来估算吸烟者和吸大麻者的概率,由于这个概率是可能性最大的,因此被称为M步。
请添加图片描述
  1. 接下来重复第二步,用新的概率推算答案属于两个问题的可能性,再用可能性反过来推测概率,循环往复,直到估算出较为稳定的数值就停止
请添加图片描述

就这样,我们推算出了人群中吸烟者和吸大麻者大致的概率,这个过程是不是有点熟悉,K-means的步骤同样是:1.随机赋值、2.反复对照、3.不断逼近。事实上K-means就是EM算法的一个特例,K-means的目标是获得两个中心坐标,从而将梨和苹果作为两种事物进行区分。EM算法则能找到样本的分布规律,在聚类的同时,帮我们找到更多的梨和苹果。

请添加图片描述

相关文章:

机器学习知识点总结:什么是EM(最大期望值算法)

什么是EM(最大期望值算法) 在现实生活中,苹果百分百是苹果,梨百分白是梨。 生活中还有很多事物是概率分布,比如有多少人结了婚,又有多少人有工作, 如果我们想要调查人群中吸大麻者的比例呢?敏感问题很难得…...

漏洞挖掘和安全审计的技巧与策略

文章目录 漏洞挖掘:发现隐藏的弱点1. 源代码审计:2. 黑盒测试:3. 静态分析工具: 安全审计:系统的全面评估1. 渗透测试:2. 代码审计:3. 安全策略审查: 代码示例:SQL注入漏…...

[SpringBoot3]Web服务

五、Web服务 基于浏览器的B/S结构应用十分流行。SpringBoot非常适合Web应用开发,可以使用嵌入式Tomcat、Jetty、Undertow或Netty创建一个自包含的HTTP服务器。一个SpringBoot的Web应用能够自己独立运行,不依赖需要安装的Tomcat、Jetty等。SpringBoot可以…...

构建系统自动化-autoreconf

autoreconf简介 autoreconf是一个GNU Autotools工具集中的一个命令,用于自动重新生成构建系统的配置脚本和相关文件。 Autotools是一组用于自动化构建系统的工具,包括Autoconf、Automake和Libtool。它们通常用于跨平台的软件项目,以便在不同…...

Mysql之InnoDB和MyISAM的区别

InnoDB和MyISAM是MySQL数据库中两种常见的存储引擎,它们在功能和性能方面有一些明显的区别。下面是它们之间的详细解释和说明: 底层数据 存数据的时候,MyISAM是数据和索引分开存储,分为MYD和MYI 而InnoDB是数据即索引&#xff0…...

Unity 之 Transform.Translate 实现局部坐标系中进行平移操作的方法

文章目录 Translate 默认使用局部坐标也可以转换成世界坐标 Translate 默认使用局部坐标 在Unity中,Transform.Translate是用于在游戏对象的局部坐标系中进行平移操作的方法。这意味着它将游戏对象沿着其自身的轴进行移动,而不是世界坐标轴。这在实现物…...

PostgreSQL Error: sorry, too many clients already

Error PG的默认最大连接数是100. 如果超过100就会报错sorry, too many clients already Find show max_connections; SELECT COUNT(*) from pg_stat_activity; SELECT * FROM pg_stat_activity;Solution 提高最大连接数 ALTER SYSTEM SET max_connections 然后重启pg查看…...

Vue2(路由)

目录 一,路由原理(hash)二,路由安装和使用(vue2)三,路由跳转四,路由的传参和取值五,嵌套路由六,路由守卫最后 一,路由原理(hash&#…...

中介者模式-协调多个对象之间的交互

在深圳租房市场,有着许多的“二房东”,房主委托他们将房子租出去,而租客想要租房的话,也是和“二房东”沟通,租房期间有任何问题,找二房东解决。对于房主来说,委托给“二房东”可太省事了&#…...

Python框架【自定义过滤器、自定义数据替换过滤器 、自定义时间过滤器、选择结构、选择练习、循环结构、循环练习、导入宏方式 】(三)

👏作者简介:大家好,我是爱敲代码的小王,CSDN博客博主,Python小白 📕系列专栏:python入门到实战、Python爬虫开发、Python办公自动化、Python数据分析、Python前后端开发 📧如果文章知识点有错误…...

红黑树遍历与Redis存储

引言 在计算机科学领域,红黑树(Red-Black Tree)是一种自平衡的二叉查找树,它能在O(log n)的时间复杂度内完成插入、删除和查找操作。由于其高效性和可预测性的性能,红黑树在许多领域都得到广泛应用。本文将重点介绍红…...

前端处理图片文件的方法

在项目开发过程中&#xff0c;有一个需求&#xff0c;需要前端对上传的图片进行处理&#xff0c;以字符串的形式传给后端&#xff0c;实现效果如下&#xff1a; 1.上传图片的组件 在该项目中&#xff0c;使用了element plus组件库 <el-uploadv-model:file-list"fileL…...

「Java」《深入解析Java多线程编程利器:CompletableFuture》

《深入解析Java多线程编程利器&#xff1a;CompletableFuture》 一、 引言1. 对多线程编程的需求和挑战的介绍2. 介绍CompletableFuture的作用和优势 二. CompletableFuture简介1. CompletableFuture是Java中提供的一个强大的多线程编程工具2. 与传统的Thread和Runnable相比的优…...

Docker容器与虚拟化技术:容器运行时说明与比较

目录 一、理论 1.容器运行时 2.容器运行时接口 3.容器运行时层级 4.容器运行时比较 5.强隔离容器 二、问题 1.K8S为何难以实现真正的多租户 三、总结 一、理论 1.容器运行时 &#xff08;1&#xff09;概念 Container Runtime 是运行于 k8s 集群每个节点中&#xff…...

vue导出文件流获取附件名称并下载(在response.headers里解析filename导出)

导出文件流下载&#xff0c;拦截器统一处理配置 需求以往实现的方法&#xff08;各自的业务层写方法&#xff09;现在实现的方法&#xff08;axios里拦截器统一配置处理&#xff09;把文章链接复制粘贴给后端&#xff0c;让大佬自己赏阅。 需求 之前实现的导出都是各自的业务层…...

​山东省图书馆典藏《乡村振兴战略下传统村落文化旅游设计》鲁图中大许少辉博士八一新书

​山东省图书馆《乡村振兴战略下传统村落文化旅游设计》鲁图中大许少辉博士八一新书...

2023-08-19力扣每日一题-水题/位运算解法

链接&#xff1a; 2235. 两整数相加 题意&#xff1a; ab 解&#xff1a; ab 补一个位运算写法&#xff0c;进位是(a&b)<<1&#xff0c;不进位的计算结果为a^b 实际代码&#xff1a; #include<iostream> using namespace std; int sum(int num1, int n…...

Hadoop学习:深入解析MapReduce的大数据魔力之数据压缩(四)

Hadoop学习&#xff1a;深入解析MapReduce的大数据魔力之数据压缩&#xff08;四&#xff09; 4.1 概述1&#xff09;压缩的好处和坏处2&#xff09;压缩原则 4.2 MR 支持的压缩编码4.3 压缩方式选择4.3.1 Gzip 压缩4.3.2 Bzip2 压缩4.3.3 Lzo 压缩4.3.4 Snappy 压缩4.3.5 压缩…...

LRU淘汰策略执行过程

1 介绍 Redis无论是惰性删除还是定期删除&#xff0c;都可能存在删除不尽的情况&#xff0c;无法删除完全&#xff0c;比如每次删除完过期的 key 还是超过 25%&#xff0c;且这些 key 再也不会被客户端访问。 这样的话&#xff0c;定期删除和堕性删除可能都彻底的清理掉。如果…...

Kotlin 高阶函数详解

高阶函数 在 Kotlin 中&#xff0c;函数是一等公民&#xff0c;高阶函数是 Kotlin 的一大难点&#xff0c;如果高阶函数不懂的话&#xff0c;那么要学习 Kotlin 中的协程、阅读 Kotlin 的源码是非常难的&#xff0c;因为源码中有太多高阶函数了。 高阶函数的定义 高阶函数的…...

VMware性能分配实战:CPU、内存与存储的黄金比例

1. VMware性能分配的核心逻辑 第一次用VMware创建虚拟机时&#xff0c;很多人会直接套用默认配置——比如给Windows 10分配4GB内存、2个vCPU。但当我同时启动3个这样的虚拟机时&#xff0c;宿主机16GB内存瞬间被吃光&#xff0c;而CPU利用率却只有30%。这个现象揭示了VMware资源…...

告别乱码!用CMD批量转换文本换行符时如何保持GBK/UTF-8编码(附错误排查指南)

告别乱码&#xff01;用CMD批量转换文本换行符时如何保持GBK/UTF-8编码&#xff08;附错误排查指南&#xff09; 当你在Windows环境下处理来自不同操作系统的文本文件时&#xff0c;最令人头疼的问题莫过于换行符差异导致的格式混乱和编码转换引发的乱码。特别是对于数据分析师…...

SkyWalking TTL配置实战:如何精准控制监控数据生命周期

1. 理解SkyWalking TTL的核心价值 当你的微服务集群每天产生TB级监控数据时&#xff0c;存储成本会像野马一样失控。去年我们一个电商项目就遇到过这样的困境——仅仅三个月ES集群就撑爆了200TB磁盘空间&#xff0c;而排查问题时发现99%的监控数据其实早已失效。这正是TTL&…...

Nano语法高亮配置最佳实践:基于nanorc项目的经验分享

Nano语法高亮配置最佳实践&#xff1a;基于nanorc项目的经验分享 【免费下载链接】nanorc Improved Nano Syntax Highlighting Files 项目地址: https://gitcode.com/gh_mirrors/na/nanorc Nano语法高亮配置是提升命令行文本编辑体验的关键技巧。如果你经常使用Nano编辑…...

如何永久保存微信聊天记录?WeChatExporter 开源工具帮你解决数据备份难题

如何永久保存微信聊天记录&#xff1f;WeChatExporter 开源工具帮你解决数据备份难题 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾担心微信聊天记录会随着手机…...

最全|OpenClaw 2026年阿里云部署方法,小白7分钟掌握

最全&#xff5c;OpenClaw 2026年阿里云部署方法&#xff0c;小白7分钟掌握。本文面向零基础用户&#xff0c;完整说明在轻量服务器与本地Windows11、macOS、Linux系统中部署OpenClaw&#xff08;Clawdbot&#xff09;的流程&#xff0c;包含环境配置、服务启动、Skills集成、阿…...

毕设「零焦虑」实测:paperzz 四步流水线,把本科毕业论文从 0 写到 12000 字

Paperzz-AI官网免费论文查重复率AIGC检测/开题报告/文献综述/论文初稿/期刊论文paperzz - 毕业论文-AIGC论文检测-AI智能降重-ai智能写作https://www.paperzz.cc/dissertation 谁本科毕设没陷入过「选题卡壳→文献凑数→框架乱套→格式崩溃」的死循环&#xff1f;对着万字要求…...

并发编程进阶:volatile、内存屏障与 CPU 缓存机制详解

知识点回顾 1. 什么是CQRS&#xff1f; CQRS是Command Query Responsibility Segregation的缩写&#xff0c;一般称作命令查询职责分离。从字面意思理解&#xff0c;就是将命令&#xff08;写入&#xff09;和查询&#xff08;读取&#xff09;的责任划分到不同的模型中。 对比…...

Stable Yogi 模型 Java 开发实战:SpringBoot 微服务集成指南

Stable Yogi 模型 Java 开发实战&#xff1a;SpringBoot 微服务集成指南 最近在做一个智能客服项目&#xff0c;后端用的是 SpringBoot 微服务架构&#xff0c;需要集成一个图像理解模型来处理用户上传的截图。选型的时候&#xff0c;Stable Yogi 模型进入了我们的视野。它不仅…...

农业图像标注效率暴跌63%?这5个Auto-Labeling技巧已获农业农村部AI应用白皮书推荐

第一章&#xff1a;农业图像标注效率暴跌的根源与Auto-Labeling破局逻辑农业图像标注正面临严峻效率瓶颈&#xff1a;单张田间作物病害图平均需人工耗时4.7分钟完成细粒度标注&#xff08;含病斑轮廓、类别、严重等级三重标签&#xff09;&#xff0c;而标注错误率高达18.3%——…...