当前位置：首页 > article >正文

《基于自适应正负样本对比学习的特征提取框架》-核心公式提炼简洁版 2022年neural networks

article 2026/3/4 22:57:26

论文源地址

以下是从文档中提取的关于“基于对比学习的特征提取框架（CL-FEFA）”中正负样本对比学习实现的技术细节，包括详细的数学公式、特征提取过程以及特征表示方式的说明。

1. 正负样本的定义与构造

在CL-FEFA框架中，正负样本的定义是动态且自适应的，基于特征提取的结果，而不是预先固定的。这种自适应性是CL-FEFA区别于传统对比学习（如SimCLR、SupCon）的一个关键点。

定义方式：

指示矩阵 $H$ ：

$H_{i,j} = \begin{cases} 0 & \text{if } x_i \text{ and } x_j \text{ are labeled and } c_i \neq c_j \\ 1 & \text{otherwise} \end{cases}$

$H_{i,j}$ 是一个 $\times n$ 的矩阵，其中 $n$ 是样本数量。
当 $x_i$ 和 $x_j$ 是已标记样本且属于不同类别时， $H_{i,j} = 0$ ；其他情况下（包括未标记样本或同类样本）， $H_{i,j} = 1$ 。
相似性矩阵 $S$ ：
- $S_{i,j}$ 表示样本 $x_i$ 和 $x_j$ 在潜在结构空间（即特征提取后的低维空间）中的相似性关系。
- $S$ 是一个 $\times n$ 的矩阵，通过优化过程动态学习得到。
正负样本判定：
- 如果 $H_{i,j} S_{i,j} \neq 0$ ，则 $x_i$ 和 $x_j$ 被定义为一对正样本。
- 如果 $H_{i,j} S_{i,j} = 0$ ，则 $x_i$ 和 $x_j$ 被定义为一对负样本。

构造过程：

CL-FEFA通过特征提取的结果（即低维嵌入 $Y = P^T X$ ）动态调整 $S_{i,j}$ ，从而构造正负样本。
这种方法避免了传统对比学习中依赖数据增强或预定义规则的局限性，使得正负样本更贴近数据的潜在结构。

2. CL-FEFA的数学模型与优化目标

CL-FEFA的目标是通过InfoNCE损失函数提取判别性特征，同时优化投影矩阵 $P$ 和相似性矩阵 $S$ 。

优化问题：

$\min_{P, S} L = \sum_{i=1}^n \sum_{j=1}^n -H_{i,j} S_{i,j} \log \frac{f(y_i, y_j)}{\sum_{k=1}^n f(y_i, y_k)} + \gamma \|S\|_F^2$

$\text{s.t.} \quad \forall i, S_i^T \mathbf{1} = 1, 0 \leqslant S_i \leqslant 1, \operatorname{rank}(L_S) = n - c$

符号解释：
- $[x_1, x_2, \dots, x_n] \in \mathbb{R}^{D \times n}$ ：训练样本集， $D$ 是原始特征维度， $n$ 是样本数。
- $[y_1, y_2, \dots, y_n] \in \mathbb{R}^{d \times n}$ ：低维嵌入， $Y = P^T X$ ， $\ll D$ 是嵌入维度。
- $\in \mathbb{R}^{D \times d}$ ：投影矩阵，将高维数据映射到低维空间。
- $f(y_i, y_j) = \exp\left(\frac{y_i^T y_j}{\|y_i\| \|y_j\| \sigma}\right)$ ：相似性函数，基于余弦相似度， $\sigma$ 是正参数。
- $\gamma$ ：正则化参数，控制 $S$ 的Frobenius范数。
- $L_S = D_S - \frac{S + S^T}{2}$ ：图拉普拉斯矩阵， $D_S$ 是度矩阵， $\operatorname{rank}(L_S) = n - c$ 约束 $S$ 的连通分量数为 $c$ 。
目标解释：
- 第一项 $-H_{i,j} S_{i,j} \log \frac{f(y_i, y_j)}{\sum_{k=1}^n f(y_i, y_k)}$ 是InfoNCE损失，旨在最大化正样本对的相似性，同时最小化负样本对的相似性。
- 第二项 $\gamma \|S\|_F^2$ 是正则化项，防止 $S$ 过拟合。
- 约束条件确保 $S$ 是一个有效的概率分布（每列和为1），且低维空间的结构具有 $c$ 个连通分量（在监督场景中 $c$ 为类别数）。

3. 特征提取与表示

特征提取过程：

输入：高维样本集 $\in \mathbb{R}^{D \times n}$ 。
投影：通过投影矩阵 $P$ 将 $X$ 映射到低维空间，得到嵌入 $Y = P^T X$ ，其中 $\in \mathbb{R}^{d \times n}$ 。
自适应构造：
- 使用 $Y$ 计算相似性矩阵 $S$ ，从而定义正负样本。
- 根据InfoNCE损失优化 $P$ 和 $S$ ，使得正样本在低维空间中更紧凑（intra-class compact），负样本更分散（inter-class dispersed）。

特征表示：

低维嵌入 $Y$ ：
- 每个样本 $x_i$ 被表示为 $y_i = P^T x_i \in \mathbb{R}^d$ 。
- $y_i$ 是 $x_i$ 在低维空间中的特征表示，保留了原始数据的判别性信息。
相似性度量：
- $f(y_i, y_j) = \exp\left(\frac{y_i^T y_j}{\|y_i\| \|y_j\| \sigma}\right)$ 表示 $y_i$ 和 $y_j$ 的相似性，基于归一化后的内积。
- 通过优化， $f(y_i, y_j)$ 对于正样本对更大，对于负样本对更小。

4. 互信息与理论支持

CL-FEFA的一个重要理论依据是其优化目标等价于最大化正样本之间的互信息。

数学推导：

定义 $W_{i,j} = H_{i,j} S_{i,j}$ ，则：
- $W_{i,j} \neq 0$ 表示 $x_i$ 和 $x_j$ 是正样本。
- $W_{i,j} = 0$ 表示 $x_i$ 和 $x_j$ 是负样本。
优化目标可重写为：

$\min_{P, S} L = \sum_{i=1}^n \sum_{j=1}^n -W_{i,j} \log [p(W_{i,j} \neq 0 | y_j, y_i)] + \gamma \|S\|_F^2$

通过贝叶斯公式和假设，推导出：

$l_i = \sum_{j=1}^n W_{i,j} \log \left[1 + \left(\frac{n}{n_i} - 1\right) \frac{p(y_j) p(y_i)}{p(y_j, y_i)}\right]$

$n_i$ 是 $x_i$ 的正样本数。
$p(y_j, y_i)$ 是联合分布， $p(y_j) p(y_i)$ 是独立分布。
进一步推导：

$l_i \geq \log \left[\frac{n}{n_i}\right] - I(y_j, y_i)$

$I(y_j, y_i)$ 是 $y_j$ 和 $y_i$ 的互信息。
因此，最小化 $L$ 等价于最大化所有正样本对的互信息 $I(y_j, y_i)$ 。

意义：

互信息 $I(y_j, y_i)$ 捕捉了正样本之间的非线性统计依赖性，提供了CL-FEFA在特征提取中优势的理论支持。
这使得提取的特征 $Y$ 更能反映数据的真实潜在结构。

5. 优化策略

CL-FEFA采用交替优化策略求解 $P$ 和 $S$ 。

优化问题变换：

$\min_{P, S, F} L = \sum_{i=1}^n \sum_{j=1}^n -H_{i,j} S_{i,j} \log \frac{f(y_i, y_j)}{\sum_{k=1}^n f(y_i, y_k)} + \gamma \|S\|_F^2 + 2\lambda \operatorname{Tr}(F^T L_S F)$

$\text{s.t.} \quad \forall i, S_i^T \mathbf{1} = 1, 0 \leqslant S_i \leqslant 1, F \in \mathbb{R}^{n \times c}, F^T F = I$

$F$ 是辅助变量， $\lambda$ 是正参数。

交替优化：

固定 $P$ 和 $S$ ，优化 $F$ ：

$\min_F \operatorname{Tr}(F^T L_S F), \quad \text{s.t.} \quad F^T F = I$

解为 $L_S$ 的 $c$ 个最小特征值对应的特征向量。

固定 $P$ 和 $F$ ，优化 $S$ ：

$\min_S \sum_{j=1}^n \left(-H_{i,j} S_{i,j} \log \frac{f(y_i, y_j)}{\sum_{k=1}^n f(y_i, y_k)} + \gamma S_{i,j}^2 + \lambda \|f_i - f_j\|^2 S_{i,j}\right)$

对每个 $i$ 独立求解，转化为向量形式并优化。

总结

正负样本实现：通过 $H$ 和动态学习的 $S$ 自适应构造，基于特征提取结果。
数学公式：核心是InfoNCE损失和互信息最大化，详见优化目标和推导。
特征提取与表示：从 $X$ 通过 $P$ 映射到 $Y$ ，低维特征 $y_i$ 保留判别性并反映潜在结构。
优势：自适应性、鲁棒性（对噪声数据）和理论支持（互信息）。