当前位置：首页 > news >正文

一致性公式证明

news 2026/2/11 1:07:22

首先，假设存在两个不同的聚类假设 $f^1$ 和 $f^2$ ，它们在两个视角上的聚类结果分别为 $y^1\in\{-1,+1\}^n$ 和 $y^2\in\{-1,+1\}^n$ 。

证明一致性不等式：

$P(f^1\ne f^2)\ge\max\{P_{\mathrm{err}}(f^1), P_{\mathrm{err}}(f^2)\}$

其中 $P_{\mathrm{err}}(f)$ 表示假设 $f$ 的误差概率，即：

$P_{\mathrm{err}}(f)=\mathbb{E}_{(x,y)\sim D}[f(x)\ne y]$

其中 $(x, y)$ 表示数据点和其标签， $D$ 表示数据的分布。假设我们从 $D$ 中采样 $m$ 个数据点 $(x_1,y_1),\ldots,(x_m,y_m)$ ，构成训练集 $S=\{(x_1,y_1),\ldots,(x_m,y_m)\}$ 。

使用训练集 $S$ 学习得到聚类假设 $f_S$ ，我们定义训练误差 $P_{\mathrm{err}}(f_S)$ 为：

$P_{\mathrm{err}}(f_S)=\frac{1}{m}\sum_{i=1}^m\mathbf{1}(f_S(x_i)\ne y_i)$

其中 $\mathbf{1}(A)$ 表示当命题 $A$ 为真时取值为 $1$ ，否则取值为 $0$ 。

然后定义一个指示器函数 $I (S)$ 来判断训练误差是否落在某个区间之内。具体来说，对于给定的常数 $\delta\ge 0$ 和 $\epsilon>0$ ，我们定义：

$I(S)=\begin{cases} 1&\text{if }P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)>\epsilon\\ 0&\text{otherwise} \end{cases}$

其中 $f$ 表示最优聚类假设，即：

$f=\mathrm{argmin}_{g\in\{-1,+1\}^n}P_{\mathrm{err}}(g)$

接下来，我们定义两个独立的随机变量序列 $X_1^1,X_2^1,\ldots,X_n^1$ 和 $X_1^2,X_2^2,\ldots,X_n^2$ ，它们分别表示假设 $f^1$ 和 $f^2$ 在两个视角上的聚类结果是否相同。

每个随机变量的取值为 $0$ 或 $1$ ，其中 $1$ 表示相同， $0$ 表示不相同。

然后，定义：

$X_i^j=\begin{cases} 1&\text{if }y_i^1=y_i^2\\ 0&\text{otherwise} \end{cases}$

利用Hoeffding不等式来估计随机变量 $X_i^j$ 的样本平均值与其期望之间的差异。根据Hoeffding不等式，对于任意 $\epsilon>0$ ，有：

$P\left(\left|\frac{1}{n}\sum_{i=1}^nX_i^j-\mathbb{E}[X_i^j]\right|>\epsilon\right)\le 2\exp(-2n\epsilon^2)$

注意到 $\mathbb{E}[X_i^j]=P(y_i^1=y_i^2)$ ，这个概率可以通过样本外估计得到。

事实上，假设从分布 $D$ 中采样 $m$ 个独立同分布的数据点 $(x_1,y_1),\ldots,(x_m,y_m)$ 构成验证集 $V=\{(x_1,y_1),\ldots,(x_m,y_m)\}$ ，则相同的概率可以估计为：

$\hat{P}(y_i^1=y_i^2)=\frac{1}{m}\sum_{i=1}^m\mathbf{1}(y_i^1=y_i^2)$

在估计 $\hat{P}(y_i^1=y_i^2)$ 时，通过将训练得到的聚类结果应用到验证集 $V$ 上来进行。

具体来说，对于每一个数据点 $(x_i,y_i)\in V$ ，我们选择 $f^1(x_i)$ 和 $f^2(x_i)$ 中相同的那一个作为其聚类结果，然后计算相同的数据点占比。

注意到由于是将训练得到的聚类结果应用到验证集上，因此估计出来的 $\hat{P}(y_i^1=y_i^2)$ 实际上是有偏的（即估计结果的期望不等于真实值），但是可以证明这个偏差是可以控制的。

不难发现，当 $n$ 充分大时，两个随机变量序列的样本平均值与其期望之间的差异会逐渐变小，即 $\left|\frac{1}{n}\sum_{i=1}^nX_i^j-\mathbb{E}[X_i^j]\right|$ 的概率收敛于 $0$ 。

同时，当训练误差与最优误差之差 $\Delta=P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)$ 大于 $\epsilon$ 时，指示器函数 $I (S)$ 的取值为 $1$ ，否则为 $0$ 。因此，我们可以将一致性不等式表示为：

$P(X-f^1\ne X-f^2)\ge\max\left\{\frac{1}{2}\exp(-2 n \epsilon^2)-\Delta, P_{\mathrm{err}}(f^1)-P_{\mathrm{err}}(f^2)-2\epsilon\right\}$

其中 $\Delta=P_{\mathrm{err}}(f_S)-P_{\mathrm{err}}(f)$ 表示训练误差与最优误差之差， $\epsilon$ 是控制误差幅度的常数。这个不等式就是我们想要证明的一致性不等式。

一致性公式证明

相关文章：

一致性公式证明

allegro中shape的一些基本操作（一）——添加和修改shape

HBuilder创建uniapp默认项目导入uview（胎教）

C语言基础算法复习

PyQt界面里如何加载本地视频以及调用摄像头实时检测（小白入门必看）

Ubuntu：VS Code IDE安装ESP-IDF【保姆级】

软考高级系统架构设计师系列之：快速掌握软件工程核心知识点

Java基础面试-ArrayList和LinkedList的区别

如何从 Pod 内访问 Kubernetes 集群的 API

计网面试复习自用

【Android 性能优化：内存篇】——WebView 内存泄露治理

C++入门（一）

C#控制台程序读取输入按键非阻塞方式

小程序框架-＞框架，视图层，生命周期(逻辑层)

Spring framework Day14:配置类的Lite模式和Full模式

公司要做大数据可视化看板，除了EXCEL以外有没有好用的软件可以用

掌握深入挖掘数据本质的方法

MyBatisPlus的学习项目页面

基于EtherCAT的机器人多轴同步运动控制

彩虹易支付 9.27 最新版加订单查询 sy 更新版

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

剑指offer20_链表中环的入口节点

Map相关知识

图表类系列各种样式PPT模版分享

用机器学习破解新能源领域的“弃风”难题

七、数据库的完整性

Spring Security 认证流程——补充

【把数组变成一棵树】有序数组秒变平衡BST，原来可以这么优雅！

基于单片机的宠物屋智能系统设计与实现（论文+源码）

Python环境安装与虚拟环境配置详解