当前位置：首页 > article >正文

机器学习的数学基础：假设检验

article 2026/2/8 10:44:58

假设检验

默认以错误率为性能度量，错误率由下式给出：

$E(f,\mathcal{D})=\int_{\boldsymbol{x}\sim \mathcal{D}}\mathbb{II}(f(\boldsymbol{x})\ne y )p(\boldsymbol{x})\text{d}\boldsymbol{x}$

假设检验中的"假设"是对学习泛化错误率分布的某种判断或者猜想，例如:

$\varepsilon=\varepsilon_0$

其中，我们 $\varepsilon_0$ 为测试错误率是已知的。

对单个学习器泛化能力的假设检验

对于一个样本上的留出法得到的错误率 $\varepsilon_0$ ,这意味着 $m$ 个测试样本中，恰好有 $m\times \varepsilon_0$ 个错误分类。假设测试样本是从总体中独立同分布采样获得，那么泛化错误率为 $\varepsilon$ 的学习器，将其中 $m\times \varepsilon_0$ 个分类错误，其余分类正确的概率为:

单次留出法
$P(\varepsilon;\varepsilon_0)=\binom{m}{m\times \varepsilon_0}\varepsilon^{\varepsilon_0\times m}(1-\varepsilon)^{m-\varepsilon_0 \times m}$

所以由极值条件得到：

$\frac{\partial P}{\partial \varepsilon}=0$

然后选取一个显著性水平 $\alpha$ ，对于 $\varepsilon \sim B(m,\varepsilon_0)$ ,我们假设 $\varepsilon\leq\varepsilon^{\prime}$ ,满足：

$$
\overline{\varepsilon}=\min \varepsilon

\mathbf{s.t.}:
\sum_{i=\varepsilon^{\prime}\times m+1}^{{m}\binom{m}{i}\varepsilon}{i}(1-\varepsilon)^{m-i}
$$

若此时 $\varepsilon \leq \overline{\varepsilon}$ 则有 $1-\alpha$ 的概率认为，学习器的泛化错误率不大于 $\varepsilon^{\prime}$ 。

多次留出法或交叉验证法

类似的，假定我们得到了 $k$ 个测试错误率， $\hat{\varepsilon}_1$ , $\hat{\varepsilon}_2$ , $\cdots$ , $\hat{\varepsilon}_k$ ,则平均测试错误率 $\mu$ 和方差 $\sigma^2$ 分别为：

$\mu=\frac{1}{k}\sum_{i=1}^{k}\hat{\varepsilon}_i$

$\sigma^2=\frac{1}{k-1}\sum_{i=1}^{k}(\hat{\varepsilon}_i-\mu)^2$
其中有假设：
每个测试错误率 $\hat{\varepsilon}_1, \hat{\varepsilon}_2, \ldots, \hat{\varepsilon}_k$ 必须是独立同分布（independent and identically distributed, i.i.d.）的随机变量。且样本量足够大或者它们服从正态分布。

则：

$\tau_t=\frac{(\mu-\varepsilon_0)}{\frac{\sigma}{\sqrt{k}}}\sim t(k-1)$

对两个学习器泛化能力的假设检验

对于两个学习器 $A$ 和 $B$ ，使用 $k$ 折交叉验证法得到： $\varepsilon_{1}^A$ , $\varepsilon_{2}^A$ , $\dots$ $\varepsilon_{k}^A$ 和 $\varepsilon_{1}^B$ , $\varepsilon_{2}^B$ , $\dots$ $\varepsilon_{k}^B$

我们是对

$\varepsilon_{i}^A=\varepsilon_{i}^B$

进行假设，取独立变量：

$\Delta_i=\varepsilon_{i}^A-\varepsilon_{i}^B$

对样本均值进行标准化得到：

$\tau_t=\frac{\mu}{\frac{\sigma}{\sqrt{k}}}\sim t(k-1)$

5×2交叉验证

其统计量为：
$\tau_t=\frac{\mu}{\sqrt{0.2\sum\limits_{i=1}^{5}}\sigma^2_i}\sim t(4)$

McNemar检验

对于二分类问题，我们通过列联表，基于两学习器的性能相同的假设，构造统计量：

	方法B 阳性	方法B 阴性
方法A 阳性	$a$	$b$
方法A 阴性	$c$	$d$

$\tau_{\chi^2}=\frac{(|b-c|-1)^2}{b+c} \sim \chi^2(1)$

对多于两个学习器泛化能力的假设检验

对多个算法，要进行Friedman检验和Nemenyi检验。

机器学习的数学基础：假设检验

假设检验

对单个学习器泛化能力的假设检验

对两个学习器泛化能力的假设检验

对多于两个学习器泛化能力的假设检验

相关文章：

机器学习的数学基础：假设检验

余氯传感器在智慧水务系统中如何实现IoT集成

操作系统学习（九）——存储系统

服务器安装软件失败或缺依赖怎么办？

linux nm/objdump/readelf/addr2line命令详解

006网上订餐系统技术解析：打造高效便捷的餐饮服务平台

[10-2]MPU6050简介江协科技学习笔记（22个知识点）

基于行为分析的下一代安全防御指南

Redis持久化机制详解：RDB与AOF的深度剖析

记录一次 apt-key curl导入失败的处理方式

Spring Boot 3.X 下Redis缓存的尝试（二）：自动注解实现自动化缓存操作

【03】完整开发腾讯云播放器SDK的UniApp官方UTS插件——优雅草上架插件市场-卓伊凡

C:\Users\中文名修改为英文名

Web 架构相关文章目录（持续更新中）

Redis 安装配置和性能优化

购物商城网站 Java+Vue.js+SpringBoot，包括商家管理、商品分类管理、商品管理、在线客服管理、购物订单模块

PostgreSQL 安全纵深防御：从权限到加密

【美团技术团队】从实际案例聊聊Java应用的GC优化

在word中点击zotero Add/Edit Citation没有反应的解决办法

整合swagger，以及Knife4j优化界面

Unity | AmplifyShaderEditor插件基础（第四集：简易shader）

【安全攻防与漏洞】量子计算对HTTPS的威胁：后量子密码学进展

linux C语言中的动态库静态库说明

Flash烧录速度和加载配置速度(纯FPGA ZYNQ)

解构与重构：PLM 系统如何从管理工具进化为创新操作系统？

Redis：介绍和认识，通用命令，数据类型和内部编码，单线程模型

N2语法強調、限定

OpenAI 即将推出 GPT-5：开启多模态、持续记忆对话新时代

《前端面试题：CSS预处理器（Sass、Less等）》

嵌入式开发之STM32学习笔记day20