当前位置：首页 > news >正文

李宏毅机器学习课程学习笔记04 | 浅谈机器学习-宝可梦、数码宝贝分类器

news 2026/2/9 0:39:47

文章目录

- 案例：宝可梦、数码宝贝分类器
- - 第一步：需要定义一个含有未知数的function
  - 第二步：loss of a function
  - 如何Sample Training Examples => 如何抽样可以得到一个较好的结果
  - - 如何权衡模型的复杂程度 Tradeoff of Model Complexity

todo
这里主要讲了如果挑选训练数据集，后续的内容在，等之后看到这里再补充笔记

案例：宝可梦、数码宝贝分类器

案例：需要找一个函数，输入一个动物，输出类别宝可梦还是数码宝贝

第一步：需要定义一个含有未知数的function

先对资料做一些观察，想象一下function应该长什么样。

观察发现①数码宝贝的线条比较复杂②宝可梦的线条比较简单 => 根据线条风格区分

使用一些工具包做Edge detection边缘检测后，将图片隐射成黑白，白色的为边缘，输出白色像素点的个数。白色像素点的个数超过某个阈值，说明线条复杂。

这个阈值h是一个未知参数，我们先假设函数只有这一个未知参数。

第二步：loss of a function

首先需要数据集D，loss根据数据集D算出

1.有数据集 $D=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\}$ ，n表示第几个资料

$x$ ：输入宝可梦或者数码宝贝的图片

$\hat y$ : 该图是宝可梦还是数码宝贝

2.先随机给个阈值h，然后根据资料D计算参数h的loss

数据集的损失L(h,D)：输入阈值h和数据集D，输出错误率

每一笔资料的loss $l(h,x^n,\hat{y}^n))$ ：h是f的参数，输入xⁿ,输出yⁿ，比较model值与真实值是否相等，不相等就输出0，相等就输出1

Error rate 很直观。也可以选择使用cross-entropy

如何Sample Training Examples => 如何抽样可以得到一个较好的结果

理想情况：假设我们可以收集所有的宝可梦和数码宝贝，其集合为 $D_{all}$ 。我们找到了最好的阈值 $h^{all}$ , $h^{all} = arg\min_hL(h,D_{all})$

这里的损失函数不可以微分，所以没办法用梯度下降方法。但是h的个数其实是有限的，可以通过穷举的方法找出使损失函数值最小的阈值h。

事实情况：我们只能收集到 $D_{all}$ 中的部分案例 $D_{train}$ (从all中随机抽样出来的案例，案例符合独立同分布)， $D_{train}=\{(x^1,\hat{y}^1),....,(x^n,\hat{y}^n)\}$ 。可以找到 $h^{train} = arg\min_hL(h,D_{train})$

希望现实情况的 $h^{train}$ 在所有数据集中的表现和 $h^{all}$ 在所有数据集中的表现越接近越好。

不同的 $D_{train}$ 训练出来出来的 $h^{train}$ 不同，这里 $h^{train}$ 在所有数据集中的表现很依赖训练h时Sample到的数据集。

问题：我们希望 $L(h^{train},D_{all}) - L(h^{all},D_{all}) \leq \delta$ ，什么样的 $D_{train}$ 训练出来的 $h^{train}$ 可以满足这个期望？

$h^{all}$ 是从 $D_{all}$ 中找出来让 $L(h^{all},D_{all})$ 最小的值，所以 $L(h^{train},D_{all})$ 是大于等于 $L(h^{all},D_{all})$ 。

不过 $L(h^{train},D_{train})$ 是有可能小于 $L(h^{all},D_{all})$ 。

解：Smaple出来的资料 $D_{train}$ ，穷举所有可能的h(从1到10000)，任意h满足 $|L(h,D_{train}) - L(h,D_{all})| \leq \frac{\delta}{2}$ ，理想和显示就会很接近。 => $D_{train}$ 与 $D_{all}$ 分布很像。

问题：有多大的可能性Sample出来一个bad $D_{train}$

以下的讨论与模型无关
以下的讨论对资料本来的分布无假设
以下的讨论可以使用任何loss function

每一个坏的资料，背后都存在一个h使得 $|L(h,D_{train}) - L(h,D_{all})| \gt \epsilon$ => $P(D_{train} \ is \ bad) = \cup_{h \in \Eta} P(D_{train} \ is \ bad \ due \ to \ h\leq \sum_{h\in \Eta} P(D_{train} \ is \ bad \ due \ to \ h)$ 重叠的地方会多次被计算

由最后的式子可知， $∣ H ∣$ 是候选项h的数量，N是所选数据集 $D_{train}$ 里资料的个数

增加训练样本数量，N越大 $D_{train}$ 越接近 $D_{all}$ ， $P(D_{train} \ is \ bad)$ 的概率越小。
较少模型复杂性，|H|候选项的数目越小，较少模型的复杂程度， $P(D_{train} \ is \ bad)$ 的概率越小。

其实这些理论只是用来试图解释原理，但并没有人用在实际数据集中真正计算，因为计算的结果往往会大于1

最小样本量应该满足以下式子

问题：本案例中h的取值是离散的，所以 $∣ H ∣$ 是个确定值。当h取值是连续的， $∣ H ∣$ 是一个无穷，那 $P(D_{train} \ is \ bad)$ 永远小于无穷大，那式子还有什么意思？

回答

在计算机中没有真正连续的东西，用计算机中的bit描述数值时，精度终究是有限的(所以就不是无穷的)。
VC-dimension另外一种计算参数是连续时模型的复杂程度

如何权衡模型的复杂程度 Tradeoff of Model Complexity

理论上，理想与现实接近的方法

增加训练样本数量，N越大 $D_{train}$ 越接近 $D_{all}$ ， $P(D_{train} \ is \ bad)$ 的概率越小。
较少模型复杂性，|H|候选项的数目越小，较少模型的复杂程度， $P(D_{train} \ is \ bad)$ 的概率越小。

问题：|H|太小会导致什么问题？模型复杂程度太小会导致什么问题？

|H|太小，能选择的h数量太少，可能找不到使 $L(h,D_{all})$ 最小的h。(大海捞针，针不在大海)

收集数据集中案例的个数N通常不是我们能控制的，可能想采用小的|H|来让理想和现实更接近。

=> 小的|H|会导致可选择的参数h数量变少，导致最优的 $h^{all}$ 在可选范围之外，也就是说得到一个较大的 $L(h^{all},D_{all})$

李宏毅机器学习课程学习笔记04 | 浅谈机器学习-宝可梦、数码宝贝分类器

文章目录

案例：宝可梦、数码宝贝分类器

第一步：需要定义一个含有未知数的function

第二步：loss of a function

如何Sample Training Examples => 如何抽样可以得到一个较好的结果

如何权衡模型的复杂程度 Tradeoff of Model Complexity

相关文章：

李宏毅机器学习课程学习笔记04 | 浅谈机器学习-宝可梦、数码宝贝分类器

AIGC（生成式AI）试用 26 -- 跟着清华教程学习 - DeepSeek与AI幻觉

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_conf_add_dump

QEMU源码全解析 —— 内存虚拟化（23）

【北京迅为】itop-3568 开发板openharmony鸿蒙烧写及测试-第1章体验OpenHarmony—烧写镜像

TypeScript 类型声明

从0搭建Tomcat第二天：深入理解Servlet容器与反射机制

【Python】yield函数

Android13修改多媒体默认音量

nginx+keepalived负载均衡及高可用

SP导入智能材质球

Kotlin语言特性（一）：空安全、扩展函数与协程

Sqlserver安全篇之_启用TLS即配置SQL Server 数据库引擎以加密连接

Python 爬虫 – BeautifulSoup

【星云 Orbit-STM32F4】07. 用判断数据尾来接收据的串口通用程序框架

授权与认证之jwt（一）创建Jwt工具类

Kubernetes Service服务发现dns之CoreDNS

Spring Boot 测试：单元、集成与契约测试全解析

用友NC系列漏洞检测利用工具

PostgreSQL 创建表格

Vim 调用外部命令学习笔记

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

stm32G473的flash模式是单bank还是双bank？

循环冗余码校验CRC码算法步骤+详细实例计算

java 实现excel文件转pdf | 无水印 | 无限制

如何在看板中有效管理突发紧急任务

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

2025盘古石杯决赛【手机取证】

WordPress插件：AI多语言写作与智能配图、免费AI模型、SEO文章生成

【Oracle】分区表