机器学习期末复习
机器学习
- 选择题
- 名词解释:
- 简答题
- 计算题
- 一、线性回归
- 二、决策树
- 三、贝叶斯
选择题
-
机器学习利用经验 ,须对以下()进行分析
A 天气 B 数据 C 生活 D 语言 -
归纳偏好值指机器学习算法在学习的过程中,对以下()的偏好
A 数据 B 某种类型假设 C 标记 D 运行速度 -
有的情况下 ,模型学习到了训练数据满足的特有性质,但这些性
质不是一般规律,这种现象被称为()
A 欠拟合 B 过拟合 C 欠配 D 以上三个选项都不是 -
最小二乘法估计 得到的线性回归模型 满足()性质
A 均方模型为 0 B 均方误差偏大 C 均方误差偏小 D 均方误差为 1 -
下列()是决策树的预测过程。
A 将测试示例从一个中间节点开始,沿着划分属性所构成的“判
定测试序列”下行,知道叶节点、
B 将测试实例从一个中间节点开始,沿着划分属性所构成的“判
定测试序列”上行,直到根节点。
C 将测试示例从叶节点开始,沿着划分属性 所构成的“判定测试
序列”上行,直 到根节点。
D 将测试示例从根节点开始,沿着划分属性所构成的“判定测试
序列”下行,直到叶节点。 -
BP 算法基于()策略对参数进行调整
A 梯度下降 B 梯度上升 C 最小化误差 D 误差逆传播 -
当训练样本线性不可划分时可采用()来缓解和解决
A 增加正例样本 B 核函数 C 训练误差最小 D 测试误差最小 -
朴素贝叶斯分类器中,对给定类别,模型对所有属性间的独立性
有()
A 部分不独立 B 部分独立 C 相互不独立 D 相互独立 -
KNN(L 近邻算法)属于一种典型的()算法
A 监督学习 B 无监督学习 C 半监督学习 D 弱监督 -
缓解维数灾难的操作是()
A 降维 B 升维 C 低维度嵌入 D 流型处理 -
决策树属于()模型。-
A.判别式 B.生成式 C.判别式和生成式 D.以上都不对 -
先对联合概率分布P(x, c)建模,再由此获得P(clx),属于()模型。
A.判别式 B.生成式 C.回归 D. 以上都不是 -
贝叶斯公式中,估计后验概率P(c|x)的主要困难在于估计()。
A. P(c) B. P(x|c) C.以上两者都是 D.以上两者都不是 -
下列()方法可以用来获得从原始数据集中划分出“测试集”?
A.留出法 B.交叉验证法 C.自助法 D.以上三个选项都可以 -
在训练集上的误差被称作()
A.泛化误差 B.经验误差 C.测试误差 D.以上三个选项都不对 -
当西瓜收购公司去瓜摊l收购西瓜时既希望把好瓜都收走J尽可能的少,请问他应该考虑()评价指标?
A.精度 B.查全率 C.查准率 D.F1度量 -
信息嫡是度量样本集合()最常用的一种指标。
A.纯度 B.对称差 C.大小 D.重要性 -
在属性划分中,信息增益越大,结点的纯度( )。
A.不变
B.变为零
C.提升越大
D.降低越快 -
剪枝是决策树学习算法对付()现象的主要手段。
A.标记噪声
B.数据少
C.过拟合
D.欠拟合 -
多层感知机表示异或逻辑时最少需要()个隐含层(仅考虑二元入)。
A. 1 B. 2 C. 3 D. 4
答案:BBBCD ABDAA ABBDB DACCB
名词解释:
- 奥卡姆剃刀原则: 是一种科学原则,在解释现象时,应该选择最简单的解释和假设
- 归纳偏好: 是指在遇到不完全信息或不确定性情况下,人们对于潜在解释或假设的倾向和偏好
- 线性模型: 是一种常见的机器学习模型,用于建立输入特征与输出变量之间的线性关系
- 线性回归:是一种常见的线性模型,用于建立输入特征与连续输出变量之间的线性关系
- 最小二乘法: 是一种常用的拟合方法,最小化预测值与真实值之间的残差平方和来确定模型的参数
- 类别不平衡: 是指在分类问题中,不同类别的样本数量存在较大差异
- 决策树: 是一种常见的机器学习算法,主要用于回归和分类任务,通过创建一个树形结构,将复杂的任务分解成一系列简单的决策分支,进而解决复杂的分类和回归问题。通常用于有监督的学习,可以训练数据集进行学习和预测
- 神经网络: 是一种模拟脑部神经系统的模型,由大量人工神经元相互连接构成。通过模拟神经元之间的连接和信息传递来实现复杂的信息处理,神经元之间连接的权重可以通过学习算法来进行调整,以使得神经网络可以学习和适应不同的任务和数据
- 间隔(margin): 是指支持向量机中分类器的决策边界与最近的分类样本之间的距离,间隔越大,泛化能力越强
- 贝叶斯决策论:是一种基于概率统计理论的决策方法,通过计算不同决策的期望损失来选择最优的决策,用于处理分类问题
- 急切学习: 一种机器学习的方法,在训练阶段就构造一个模型进行学习,并用它进行预测
- 懒惰学习:与急切学习相反
简答题
1.机器学习:
是人工智能的一种分支,让计算机从数据中学习和改进,以完成某种任务,目标是让计算机在经验中学习,自动发现模式和规律,并运用规律进行预测和决策
2.过拟合及缓解方法:
指模型在训练数据集上表现良好,但在新数据或测试集上表现不好的现象。通常是由于模型过于复杂,使得模型在训练的过程中过分注重与特定细节,而没有真正掌握数据的底层结构和一般规律
缓解方法:增加训练数据量,提供更多的数据样本供模型学习,减少过拟合的风险;降低模型的复杂度,减少模型的自由度;或者通过正则化限制模型的学习能力
3.有监督和无监督学习:
有监督的学习是指模型在训练数据中,每个样本都有对应的标签和目标输出,模型通过学习输入与输出的映射关系进行预测和决策
无监督的学习是指模型在训练数据中,每个样本没有对应的标签和目标输出,模型通过学习数据的内在结构和相似性进行聚类、降维或异常检测等任务
4.查准率和查全率:
查准率又称精确率,是指在预测为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的准确性。
查全率又称召回率,是指在实际为正类的样本中真正类所占的比例,衡量分类模型在某一分类预测上的完整性。
5.P-R曲线怎么对学习器进行比较
P-R曲线是以P查准率为横轴,R查全率为纵轴绘制的曲线。通过改变分类的阈值来得到不同的P-R点,比较不同学习器的性能,可以通过曲线下的面积AUC,越接近1越好,或者F1-score来判断
6.真正例率和假正例率
真正例率(TPR)是表示实际为正例的样本中被正确预测为正例的比例,TPR=TP/TP+FN
假正例率(FPR)是表示实际为负例的样本中 被错误预测为正例的比例,FPR=FP/FP+TN
7.简述线性判别分析LDA
LDA的主要思想是选择一个投影方向,将数据投影,使得相同类别的数据尽可能紧凑,不同类别的数据尽可能分开
步骤:①计算类内散度矩阵和类间散度矩阵
②计算投影方向
③降维
8.决策树对过拟合的主要手段是什么?该手段的优缺点是什么?
主要手段是剪枝
预剪枝的优点是计算效率高和避免过拟合,缺点是容易信息丢失,导致欠拟合
后剪枝的优点是包括更好的泛化能力和不容易欠拟合,缺点是计算开销大,容易过拟合
9.简述M-P神经元模型的组成及每一部分的作用
M-P神经元是由输入部分和激活函数构成
输入部分接收外部输入信号,并赋予每个输入相应的权重
激活函数会根据输入信号的加权和是否超过神经元的阈值来决定是否激活神经元
10.神经网络对于过拟合的有效手段
正则化,通过在损失函数中加入正则化,如L1正则化或L2正则化,以惩罚模型的复杂度,防止模型过度拟合数据
早停法,通过在训练中监控验证集的性能表现,当模型性能不再提升时,停止训练,防止模型过度拟合数据
11.卷积神经网络CNN的结构和作用
输入层:接收原始数据
卷积层:提取特征
激活函数:增加非线性
池化层:减少特征图尺寸
全连接层:将特征进行分类和回归
卷积神经网络结构有:输入层、卷积层、激活函数、池化层、全连接层
12.支持向量机的基本型和稀疏性解释
包括线性SVM和非线性SVM,=> min w,b 1/2||w||²
稀疏性指在训练数据时,只有少量数据成为支持向量,只有少数样本对模型有影响作用
13.朴素贝叶斯分类器和半朴素贝叶斯分类器区别
区别在于两者对于数据样本处理的特征依赖关系不同,朴素贝叶斯分类器假设特征之间相互独立;
半朴素贝叶斯分类器允许特征之间存在一定的依赖关系
14.聚类算法和性能度量
聚类算法将数据样本划分为不同的类别或簇,不同类别的样本相似度较高,同一类别的相似度较低。性能度量是检测聚类算法的质量,包括聚类准确度、轮廓系数等,聚类准确度是指分类正确的样本占样本总数的比例,轮廓系数是指簇内紧密度和簇间分离度的平衡程度
计算题
一、线性回归
(1)什么是“线性回归”目的?
找到一条直线或一个平面或更高维的超平面,使得预测值与真实值之间的误差最小化。
(2)给出单一属性的线性回归目标函数。
(3)若用最小二乘法求解线性回归模型,给出最小二乘法的闭式解(w和b)及其推导过程。
二、决策树
(1)简述决策树学习的目标,并列举两种度量样本集合纯度最常用的指标。
目标:在训练数据集上构建一棵决策树,使得该决策树能够对新的未知数据进行分类或回归预测,同时保证分类或预测的准确性。
指标举例:基尼指数、信息增益。
(2)“信息熵”是度量样本集合纯度最常用的一种指标,假定当前样本集合D中第k类样本所占的比例为pk,k=1,2,…∣Y∣,写出D的信息熵Ent(D)的公式表达。
(3)假定离散属性a有V个可能的取值{a1,a2,…,aV},使用a来对样本集D进行划分,写出属性a对样本集合D进行划分所获得的信息增益的公式表达。
Gain(D,a) = Ent(D) - ∑p(v) * Ent(D_v)
(4)以属性“根蒂”为例,其对应的3个数据子集分别为D1(根蒂=蜷缩),D2(根蒂=稍蜷),D3(根蒂=硬挺),分别写出计算,Ent(D1)、Ent(D2)和Ent(D3)的过程。
D1(根蒂=蜷缩)有8个,其中正例5个,反例3个,D2(根蒂=稍蜷)有7个,其中正例3个,反例4个,D3(根蒂=硬挺)有2个,正例0个,反例2个,由此得出:
Ent(D1)= -((5/8)*log2(5/8)+ (3/8)*log2(3/8))
Ent(D2)= -((3/7)*log2(3/7)+ (4/7)*log2(4/7))
Ent(D3)= -((0/2)*log2(0/2)+ (2/2)*log2(2/2))
三、贝叶斯
两类的先验概率分别为:0.8和0.2。现有一待识别的鱼,其鱼的光泽度指标x,从类条件概率密度分布曲线上查得鲈鱼:P(x|c1) = 0.15;鲑鱼: P(x|c2) = 0.5。
(1)简述朴素贝叶斯分类器原理。
朴素贝叶斯分类器基于贝叶斯定理与特征条件独立假设,通过计算给定样本属于某个类别的概率,选择概率最大的类别作为预测类别。
(2)请给出后验概率P(c|x)和贝叶斯判定准则的具体式子。
(3)使用贝叶斯决策对鱼的类别进行预测。
P(c1|x) = (0.8×0.15)/(0.8×0.15+0.2×0.5)=0.12/(0.12+0.1) = 0.545
P(c2|x) = (0.2×0.5)/(0.8×0.15+0.2×0.5)=0.1/(0.12+0.1) = 0.454
由于P(c1|x)>P(c2|x),根据贝叶斯判定准则,将该鱼判定为鲈鱼。
相关文章:

机器学习期末复习
机器学习 选择题名词解释:简答题计算题一、线性回归二、决策树三、贝叶斯 选择题 机器学习利用经验 ,须对以下()进行分析 A 天气 B 数据 C 生活 D 语言 归纳偏好值指机器学习算法在学习的过程中,对以下(&a…...
python-日志模块以及实际使用设计
python-日志模块以及实际使用设计 1. 基本组成 日志模块四个组成部分: 日志对象:产生日志信息日志处理器:将日志信息输出到指定地方,例如终端、文件。格式器:在日志处理器输出之前,对信息进行各方面的美化…...

googlecode.log4jdbc慢sql日志,格式化sql
前言 无论使用原生JDBC、mybatis还是hibernate,使用log4j等日志框架可以看到生成的SQL,但是占位符和参数总是分开打印的,不便于分析,显示如下的效果: googlecode Log4jdbc 是一个开源 SQL 日志组件,它使用代理模式实…...

Linux程序、进程和计划任务
目录 一.程序和进程 1.程序的概念 2.进程的概念 3.线程的概念 4.单线程与多线程 5.进程的状态 二.查看进程信息相关命令: 1.ps:查看静态进程信息状态 2.top:查看动态进程排名信息 3.pgrep:查看指定进程 4.pstree&#…...

【MySQL】索引基础
文章目录 1. 索引介绍2. 创建索引 create index…on…2.1 explain2.2 创建索引create index … on…2.3 删除索引 drop index … on 表名 3. 查看索引 show indexes in …4. 前缀索引4.1 确定最佳前缀长度:索引的选择性 5. 全文索引5.1 创建全文索引 create fulltex…...
精确管理Python项目依赖:自动生成requirements.txt的智能方法
在Python中,可以使用几种方法来自动生成requirements.txt文件。这个文件通常用于列出项目所需的所有依赖包及其版本,使其他人或系统可以轻松地重现相同的环境。下面是几种常见的方法: 使用pip freeze: 这是最常见的方法。pip free…...

JavaWeb基础(1)- Html与JavaScript(JavaScript基础语法、变量、数据类型、运算符、函数、对象、事件监听、正则表达式)
JavaWeb基础(1)- Html与JavaScript(JavaScript基础语法、变量、数据类型、运算符、函数、对象、事件监听、正则表达式) 文章目录 JavaWeb基础(1)- Html与JavaScript(JavaScript基础语法、变量、数据类型、运算符、函数、对象、事件…...

java SSM体育器材租借管理系统myeclipse开发mysql数据库springMVC模式java编程计算机网页设计
一、源码特点 java SSM体育器材租借管理系统是一套完善的web设计系统(系统采用SSM框架进行设计开发,springspringMVCmybatis),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要…...

西电期末1030.函数的最大值
一.题目 二.分析与思路 函数打擂台,注意数据类型和保留精度 三.代码实现 #include<bits/stdc.h>//万能头 double f(double x,double a){return a*x*x-x*x*x; }//f(x) int main() {double a;scanf("%lf",&a);double max-1000001;//打擂台for(…...

在Docker中安装Tomact
目录 前言: 一.安装Tomact 查找指定的tomact版本 下载tomact9.0 查看该镜像是否安装成功 安装成功之后就开始运行镜像了 ps(用于列出正在运行的Docker容器) 编辑 测试(虚拟机ip:8080) 编辑 解决措施 编辑 完成以上步骤&…...

【书生大模型00--开源体系介绍】
书生大模型开源体系介绍 0 通用人工智能1 InternLM性能及模型2 从模型到应用 大模型成为目前很热的关键词,最热门的研究方向,热门的应用;ChatGPT的横空出世所引爆,快速被人们上手应用到各领域; 0 通用人工智能 相信使…...

基于GPT-3、ChatGPT、GPT-4等Transformer架构的自然语言处理
文章目录 一、内容简介二、前言2.1 Transformer 模型标志着AI 新时代的开始2.2 Transformer 架构具有革命性和颠覆性2.3 Google BERT 和OpenAI GPT-3 等Transformer 模型将AI 提升到另一个层次2.4 本书将带给你的“芝士”2.5 本书面向的读者 三、本书内容简介3.1 第一章3.2 第二…...

一款开源的MES系统
随着工业4.0的快速发展,制造执行系统(MES)成为了智能制造的核心。今天,将为大家推荐一款开源的MES系统——iMES工厂管家。 什么是iMES工厂管家 iMES工厂管家是一款专为中小型制造企业打造的开源MES系统。它具备高度的可定制性和灵…...

https配置证书
HTTPS 基本原理 https 介绍 HTTPS(全称:HyperText Transfer Protocol over Secure Socket Layer),其实 HTTPS 并不是一个新鲜协议,Google 很早就开始启用了,初衷是为了保证数据安全。 国内外的大型互联网…...

图神经网络|10.4 GCN 变换原理的解读
由9.3-邻接矩阵的变换可知,理解矩阵通过两个度矩阵的逆进行归一化。 微观上看, a i j a_{ij} aij这个元素将会乘上 1 d e g ( v i ) d e g ( v j ) \frac{1}{\sqrt{deg_(v_i)\sqrt{deg(v_j)}}} deg(vi)deg(vj) 1 其现实意义如下—— 比如…...

计算机组成原理 I/O方式
I/O 方式 I/O方式分类: 程序查询方式。由 CPU通过程序不断查询 /O 设备是否已做好准备,从而控制0 设备与主机交换信息程序中断方式。只在 I/0 设备准备就绪并向 CPU发出中断请求时才予以响应。DMA方式。主存和 I/O 设备之间有一条直接数据通路,当主存和…...

VMWare网络配置
1、通用配置 选择自动,相对与选择指定网卡,能解决网卡更换导致网络不可用的问题。 2、每个虚拟机配置...

opencv期末练习题(3)附带解析
创建黑色画板,并支持两种画图功能 import mathimport cv2 import numpy as np """ 1. 创建一个黑色画板 2. 输入q退出 3. 输入m切换画图模式两种模式,画矩形和画圆形。用户按住鼠标左键到一个位置然后释放就可以画出对应的图像 "&qu…...

51单片机之LED灯
51单片机之LED灯 🌴前言:🏮点亮LED灯的原理💘点亮你的第一个LED灯💘点亮你的八个LED灯 📌让LED灯闪烁的原理🎽 LED灯的闪烁🏓错误示范1🏓正确的LED闪烁代码应该是这样&am…...

操作系统内存碎片
大家好,我叫徐锦桐,个人博客地址为www.xujintong.com,github地址为https://github.com/jintongxu。平时记录一下学习计算机过程中获取的知识,还有日常折腾的经验,欢迎大家访问。 一、前言 内存碎片是指无法被利用的内…...

【kafka】Golang实现分布式Masscan任务调度系统
要求: 输出两个程序,一个命令行程序(命令行参数用flag)和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽,然后将消息推送到kafka里面。 服务端程序: 从kafka消费者接收…...

stm32G473的flash模式是单bank还是双bank?
今天突然有人stm32G473的flash模式是单bank还是双bank?由于时间太久,我真忘记了。搜搜发现,还真有人和我一样。见下面的链接:https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...
连锁超市冷库节能解决方案:如何实现超市降本增效
在连锁超市冷库运营中,高能耗、设备损耗快、人工管理低效等问题长期困扰企业。御控冷库节能解决方案通过智能控制化霜、按需化霜、实时监控、故障诊断、自动预警、远程控制开关六大核心技术,实现年省电费15%-60%,且不改动原有装备、安装快捷、…...
【学习笔记】深入理解Java虚拟机学习笔记——第4章 虚拟机性能监控,故障处理工具
第2章 虚拟机性能监控,故障处理工具 4.1 概述 略 4.2 基础故障处理工具 4.2.1 jps:虚拟机进程状况工具 命令:jps [options] [hostid] 功能:本地虚拟机进程显示进程ID(与ps相同),可同时显示主类&#x…...

技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
Redis:现代应用开发的高效内存数据存储利器
一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发,其初衷是为了满足他自己的一个项目需求,即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源,Redis凭借其简单易用、…...

AI语音助手的Python实现
引言 语音助手(如小爱同学、Siri)通过语音识别、自然语言处理(NLP)和语音合成技术,为用户提供直观、高效的交互体验。随着人工智能的普及,Python开发者可以利用开源库和AI模型,快速构建自定义语音助手。本文由浅入深,详细介绍如何使用Python开发AI语音助手,涵盖基础功…...

jdbc查询mysql数据库时,出现id顺序错误的情况
我在repository中的查询语句如下所示,即传入一个List<intager>的数据,返回这些id的问题列表。但是由于数据库查询时ID列表的顺序与预期不一致,会导致返回的id是从小到大排列的,但我不希望这样。 Query("SELECT NEW com…...
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑
精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑 在电子商务领域,转化率与网站性能是决定商业成败的核心指标。今天,我们将深入解析不同类型电商平台的转化率基准,探讨页面加载速度对用户行为的…...

EEG-fNIRS联合成像在跨频率耦合研究中的创新应用
摘要 神经影像技术对医学科学产生了深远的影响,推动了许多神经系统疾病研究的进展并改善了其诊断方法。在此背景下,基于神经血管耦合现象的多模态神经影像方法,通过融合各自优势来提供有关大脑皮层神经活动的互补信息。在这里,本研…...