机器学习笔记——Chapter 1 – The Machine Learning landscape
ML学习笔记
Chapter 1 – The Machine Learning landscape
1.如何定义机器学习?
Answer:机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。
2.机器学习在哪些问题上表现突出,你能给出四种类型吗?
Answer:①有解决方案(但需要进行大量人工微调/需要遵循大量规则)的问题:ML通常可以简化代码,相比传统方法性能更好。②传统方法难以解决的复杂问题,ML可能会找到背后的不易发现的规律。③环境有波动的情况下,ML可以适应新数据。④可以洞察复杂问题,进行数据挖掘。
3.什么是被标记的训练数据集?
Answer:在有监督学习中,提供给算法的包含所需解决方案的训练集称为标签,这些训练数据集是被标记的。
4.最常见的两种监督学习任务是什么?
Answer:分类任务和回归任务。
5.你能举出四种常见的无监督学习任务吗?
Answer:聚类算法、k-means算法、DBSCAN、分层聚类分析HCA、异常检测和新颖性检测、单类SVM、孤立森林、可视化和降维、主成分分析PCA、核主成分分析、局部线性嵌入LLE、t-分布随机近邻嵌入t-SNE、关联规则学习、Apriori、Eclat
6.要让一个机器人在各种未知的地形中行走,你会用什么类型的ML算法?
Answer:强化学习。强化学习是ML的一个分支,在一个给定的环境(如游戏)中,训练代理(机器人)选择在一段时间内对它们的奖励最大化的行动。AlphaGo就是用强化学习构建的。
7.要将顾客分成多个组,你会使用什么类型的算法?
Answer:聚类算法
8.你会将垃圾邮件检测的问题列为监督学习还是无监督学习?
Answer:有监督学习。现在最先进的垃圾邮件过滤器可能是使用深度神经网络模型对垃圾邮件和常规邮件进行训练,完成动态信息。这使其成为一个在线的、基于模型的有监督学习系统。
9.什么是在线学习系统?
Answer:在线学习中,可以循序渐进地给系统提供数据,逐步积累学习成果。每一步学习都很快速,成本低,系统就可以根据飞速写入的最新数据进行学习。即——模型经过训练并投入生产环境,然后随着新数据的进入而不断学习。
在线学习系统的一个重要参数就是适应不断变化的数据的速度,这就是学习率。如果设置的学习率很高,系统会迅速适应新数据而忘记旧数据。如果学习率过低,学习就会更换满,同样也会对新数据中的噪声/非典型数据点(离群值)的序列更不敏感。
在线学习系统的一个重大挑战——如果给系统输入不良数据,系统的性能会逐渐下降。为了降低这种风险,需要密切监控系统。一旦检测到性能下降,就及时中断学习(可能还需要恢复到之前的工作状态)。同时还需要监控输入数据,并对异常数据做出相应(例如使用异常检测算法)。
10.什么是核外学习?
Answer:对于超大数据集——超出一台计算机的主存储器的数据,在线学习算法也同样使用,这称为核外学习。算法每次只加载部分数据,并针对这部分数据进行训练,然后不断重复这个过程,直到完成所有数据的训练。
11.什么类型的学习算法依赖相似度来做出预测?
Answer:基于实例的学习。如通过编程让系统标记与已知的垃圾邮件非常相似的邮件。系统用心学习这些例子,通过相似度度量来比较新实例和已经学习的实例/子集,从而泛化新实例。
12.模型参数与学习算法的超参数之间有什么区别?
Answer:超参数是学习算法的参数,而并非模型的参数。因此,它不受算法本身的影响。超参数必须在训练前设置好,并且在训练期间保持不变。调整超参数是构建机器学习系统非常重要的组成部分。
13.基于模型的学习算法搜索的是什么?它们最常使用的策略是什么?它们如何做出预测?
Answer:基于模型的学习算法搜索的是模型参数。它们构建一组示例集的模型,定义一个效用函数/适应度函数来衡量模型有多好,或者定义一个成本函数来衡量模型有多差。然后使用该模型进行预测,实现基于模型的学习。
14.你能给出ML中的四个主要挑战吗?
Answer:坏数据:①训练数据的数量不足。大部分ML算法需要大量的数据才能正常工作。对复杂问题而言,数据比算法更重要,但是中小型数据集依然非常普遍。②训练数据不具有代表性。为了更好地实现泛化,训练数据一定要非常有代表性。如果样本集太小,会出现采样噪声;即使非常大的样本数据,如果采样方式欠妥,也同样可能导致非代表性数据集。这就是所谓的采样偏差。③数据质量低。如果训练集的错误、异常值和噪声很多,系统的表现不可能良好。因此,清洗数据是模型训练前的一个必要步骤。④特征无关。只有训练数据中包含足够多的相关特征以及较少的无关特征,系统才能够完成学习。一个成功的机器学习项目,其关键部分是提取出一组好的用来训练的特征集。这个过程叫做特征工程。
坏算法:①过拟合训练数据。当模型相对于训练数据的数量和噪度都过于复杂时,会发生过拟合。可以通过简化模型、收集更多的训练数据、减少训练数据中的噪声等方式来解决。②欠拟合训练数据。模型太过简单,而数据结构过于复杂。可以选择带有更多参数、更强大的模型,通过特征工程给算法提供更好的特征集,或者减少正则化超参数等模型约束。
15.如果模型在训练数据上表现很好,但是应用到新实例上的泛化结果却很糟糕,是怎么回事?能给出三种可能的解决方案吗?
Answer:可能是模型对训练集过拟合。解决方案:①使用更简单的模型进行训练;②收集更多的训练数据;③对数据进行特征工程,减少训练数据的噪声。
16.什么是测试集,为什么要用测试集?
Answer:测试集是数据分割出来的,用来测试和评估模型的一部分数据。通过测试集来评估模型,可以得到对这个误差的评估。这个估值可以显示模型在处理新场景时的能力。
17.验证集的目的是什么?
Answer:验证集是训练集的一部分,可以在去掉验证集的训练集数据中训练具有各种超参数的多个模型,并选择在验证集上表现最佳的模型。但是如果验证集太小,模型评估将不够精确。
18.什么是train-dev集,什么时候需要它,怎么使用?
Answer:train-dev集又称为训练开发集,当数据来源不同时,模型训练后在训练开发集上进行评估,来判别模型效果不佳的原因。如果模型在train-dev集上表现良好,在验证集上表现不佳,则说明模型没有过拟合,问题出自数据不匹配;如果模型在train-dev集上表现不佳,则说明模型在训练集上发生了过拟合。
19.如果你用测试集来调超参数会出现什么错误?
Answer:可能会导致模型对于新的数据不太可能有良好的表现。泛化能力较弱。
解决方法:保持验证:只需保持训练集的一部分,来评估几种候选模型并选择最佳模型。新的保留集称为验证集/开发集。在此保持验证之后,在完整的训练集(包括验证集)上训练最佳模型,这就是你的最终模型。最后在测试集上评估该模型,来获得泛化误差的估计值。
相关文章:
机器学习笔记——Chapter 1 – The Machine Learning landscape
ML学习笔记 Chapter 1 – The Machine Learning landscape 1.如何定义机器学习? Answer:机器学习是一门通过编程让计算机从数据中进行学习的科学(和艺术)。 2.机器学习在哪些问题上表现突出,你能给出四种类型吗&am…...

skimage.feature--corner_harris、hog、local_binary_pattern说明
skimage.feature说明–corner_harris、hog、local_binary_pattern 文章目录skimage.feature说明--corner_harris、hog、local_binary_pattern1. 前言2. corner_harris2.1 介绍2.2 参数及返回3. hog3.1 介绍3.2 参数及返回4. local_binary_pattern4.1 介绍4.2 参数及返回5. 总结…...

致敬白衣天使,学习Python读取
名字:阿玥的小东东 学习:Python、c 主页:阿玥的小东东 故事设定:现在学校要求对所有同学进行核酸采集,每位同学先在宿舍内等候防护人员(以下简称“大白”)叫号,叫到自己时去停车场排…...

JVM - 认识JVM规范
目录 重识JVM JVM规范作用及其核心 JVM 整体组成 理解ClassFile结构 ASM开发 重识JVM JVM概述JVM: Java Virtual Machine,也就是Java虚拟机所谓虚拟机是指: 通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的计算机系统…...

文献阅读笔记 # CodeBERT: A Pre-Trained Model for Programming and Natural Languages
《CodeBERT: A Pre-Trained Model for Programming and Natural Languages》EMNLP 2020 (CCF-B)作者主要是来自哈工大、中山大学的 MSRA 实习生和 MSRA、哈工大的研究员。资源:code | pdf相关资源:RoBERTa-base | CodeNN词汇: bimodal: 双模态…...

openHarmony的UI开发
自适应布局 拉伸能力 Blank在容器主轴方向上,空白填充组件具有自动填充容器空余部分的能力。仅当父组件为Row/Column时生效,即是线性布局。这样便可以在两个固定宽度或高度的组件中间添加一个Blank(),将剩余空间占满,从而实现…...

【JavaSE】深入HashMap
文章目录1. HashMap概述2. 哈希冲突3. 树化与退化3.1 树化的意义3.2 树的退化4. 二次哈希5. put方法源码分析6. key的设计7. 并发问题参考 如何防止因哈希碰撞引起的DoS攻击_hashmap dos攻击_双子孤狼的博客-CSDN博客 为什么 HashMap 要用 h^(h >>&#…...
华为机试题:HJ62 查找输入整数二进制中1的个数(python)
文章目录博主精品专栏导航知识点详解1、input():获取控制台(任意形式)的输入。输出均为字符串类型。1.1、input() 与 list(input()) 的区别、及其相互转换方法2、print() :打印输出。1、整型int() :将指定进制…...
代码随想录训练营一刷总结|
分为几个大部分: 数组 最先接触的部分,虽然说感觉是最简单的,但是需要掌握好基础,特别是小心循环。这里面需要再仔细看的就是螺旋矩阵那一块,其他的在后续刷的时候能用一种方法一次a就行。 链表 需要注意链表的基础…...
CSS中的几种尺寸单位
一、尺寸单位 CSS 支持多种尺寸单位,包括: px:像素,固定大小单位em:相对于当前元素字体大小的单位rem:相对于根元素(HTML)字体大小的单位%:相对于父元素的百分比单位vh…...

运维必会:ansible剧本(piaybook)
playbooks 概述以及实例操作 Playbooks 组成部分: Inventory Modules Ad Hoc Commands Playbooks Tasks: 任务,即调用模块完成的某些操作 Variables: 变量 Templates: 模板 Handlers: 处理器,由某时间触发执行的操作 Roles: 角色 YAML 介绍…...

活动星投票午间修身自习室制作在线投票投票制作网页
“午间修身自习室”网络评选投票_免费小程序投票推广_小程序投票平台好处手机互联网给所有人都带来不同程度的便利,而微信已经成为国民的系统级别的应用。现在很多人都会在微信群或朋友圈里转发投票,对于运营及推广来说找一个合适的投票小程序能够提高工…...
C#泛型:高级静态语言的效率利器
文章目录引入类型约束子类泛型常用的泛型数据结构前文提要: 💎超快速成,零基础掌握C#开发中最重要的概念💎抽丝剥茧,C#面向对象快速上手💎Winform,最友好的桌面GUI框架💎懂了委托&a…...

澳大利亚访问学者申请流程总结
澳大利亚访问学者申请需要注意些什么?下面知识人网小编整理澳大利亚访问学者申请流程总结。1、取得wsk英语成绩,现在都是先买票再上车了。2、联系外导,申请意向接收函(email)。3、向留学基金委CSC提出申请。4、获批后,申请正式邀请…...

cookie和Session的作用和比较
目录 什么是cookie cookie的工作原理 什么是session Session的工作原理 为什么会有session和cookie cookie和session如何配合工作 cookie和Session作用 什么是会话 什么是cookie cookie是web服务器端向我们客户端发送的一块小文件,该文件是干嘛的呢…...

测试员都是背锅侠?测试人员避“锅”攻略,拿走不谢
最近发生了一起生产事故,究其根源,事故本身属于架构或者需求层面需要规避的问题,测试人员的责任其实是非常小的,但实际情况是:相关测试人员因此承担了很大的压力,成为质量问题的“背锅侠”。 实际上&#…...

C++: C++模板<template>
C template content😊前言😁模板💕1、泛型编程😍2、函数模板😒2.1:函数模板概念👌2.2:函数模板的格式😘2.3:函数模板原理😁2.4:函数模…...
chmod命令详解
用法:chmod [选项]… 模式[,模式]… 文件… 或:chmod [选项]… 八进制模式 文件… 或:chmod [选项]… --reference参考文件 文件… Change the mode of each FILE to MODE. With --reference, change the mode of each FILE to that of R…...

状态机设计中的关键技术
⭐本专栏针对FPGA进行入门学习,从数电中常见的逻辑代数讲起,结合Verilog HDL语言学习与仿真,主要对组合逻辑电路与时序逻辑电路进行分析与设计,对状态机FSM进行剖析与建模。 🔥文章和代码已归档至【Github仓库…...

单片机开发---ESP32S3移植NES模拟器(二)
书接上文 《单片机开发—ESP32-S3模块上手》 《单片机开发—ESP32S3移植lvgl触摸屏》 《单片机开发—ESP32S3移植NES模拟器(一)》 暖场视频,小时候称这个为—超级曲线射门!!!!!&am…...
浏览器访问 AWS ECS 上部署的 Docker 容器(监听 80 端口)
✅ 一、ECS 服务配置 Dockerfile 确保监听 80 端口 EXPOSE 80 CMD ["nginx", "-g", "daemon off;"]或 EXPOSE 80 CMD ["python3", "-m", "http.server", "80"]任务定义(Task Definition&…...

Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
OkHttp 中实现断点续传 demo
在 OkHttp 中实现断点续传主要通过以下步骤完成,核心是利用 HTTP 协议的 Range 请求头指定下载范围: 实现原理 Range 请求头:向服务器请求文件的特定字节范围(如 Range: bytes1024-) 本地文件记录:保存已…...

【2025年】解决Burpsuite抓不到https包的问题
环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...
【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)
要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...
【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)
升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求ÿ…...

学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...

3-11单元格区域边界定位(End属性)学习笔记
返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...
Rapidio门铃消息FIFO溢出机制
关于RapidIO门铃消息FIFO的溢出机制及其与中断抖动的关系,以下是深入解析: 门铃FIFO溢出的本质 在RapidIO系统中,门铃消息FIFO是硬件控制器内部的缓冲区,用于临时存储接收到的门铃消息(Doorbell Message)。…...