当前位置：首页 > news >正文

Fair Graph RepresentationLearning via Diverse Mixture-of-Experts

news 2026/2/11 0:28:54

发表于：WWW23
推荐指数： #paper/⭐⭐

问题背景：

背景

现实世界的数据很多样，阻止GNN学习公平的表示。当去偏见化后，他们面临着可学知识不足且属性有限的重大问题

解决方法：

应对公平训练导致可学习知识有限的挑战，G-Fame由多个专家神经网络组成，每个神经网络都包含自己的参数，以学习不同的知识，以实现节点表示的多样化。
此外，为了提高模型对可学习知识缺乏的抵抗力，我们提出了G-Fame++，其中我们从不同的角度设计了三种不同的策略：（1）从节点表示的角度，引入嵌入多样性正规化，使节点能够在消息传递过程中从邻居那里捕获更多不同的信息;（2）从层的角度出发，设计层多样性规则化，使不同层的输出多样化，使浅层和深层都能获得不同的表示;（3）从参数权重冗余的角度出发，提出专家权重正规化，使专家的权重参数多样化，使每个专家都能捕捉到不同的信息
框架图：

余知识

公平图增强

Fairness-Based 图增强

$\left.m_{ij}=\left\{\begin{array}{cc}1&s_i\neq s_j&\forall i,j\in\mathcal{N}\\0&\mathrm{otherwise}\end{array}\right.\right.$
其中， $m_{ij}=1$ 表示两个节点，他们拥有不同敏感属性是连接的。M代表mask矩阵去mask邻接矩阵。我们重新构建mask矩阵：（加了阈值)
$\left.rr(m_{ij})=\left\{\begin{array}{ll}m_{ij}&\text{with probability: }p(m_{ij})=\frac12+\delta\\1-m_{ij}&\text{with probability: }p(1-m_{ij})=\frac12-\delta\end{array}\right.\right.$
最后，公平矩阵可以表示为：
$A_{f\boldsymbol{air}}=A\circ rr(M)$
（相当于图结构学习)

公平训练

$\min_\theta\quad\mathcal{L}(\mathcal{D};\theta)+\lambda\|\theta\|_2^2,\quad\mathrm{s.t.~}\Omega(\mathcal{D};\theta)<0,$

混合专家

$y=\sum_{i\in\mathcal{R}}q_i(x)E_i(x),$
其中，q是门控，E是专家
每层的门控由下个函数计算：
$q_i(x)=\frac{\exp(H(x)_i)}{\sum_{j=0}^N\exp(H(x)_j)},$

模型架构

文章配图

G-FAME：图公平混合专家

传播函数：
$\begin{aligned}&h_{v}^{(l)}=\text{COMBINE}\left(\text{G-FAME}^{(l)}(h_{v}^{(l-1)}),m_{v}^{(l)})\right),\\&m_{v}^{(l)}=\text{AGGREGATE}\left(\left\{\text{G-FAME}^{(l)}(h_{u}^{(l-1)}),\forall u\in N(v)\right\}\right)\end{aligned}$
实际就是GNN的传播函数
$\mathrm{G-FAME}^{(l)}(h_v^{(l-1)})=\sum_{i\in\mathcal{H}^{(l)}}q_i^{(l)}(h_v^{(l-1)})W_i^{(l)}(h_v^{(l-1)}),$

G-FAME++ 加了多个正则化操作

样本多样性

嵌入正则化：让邻居样本相近，非邻居样本相远
$\mathcal{L}_{ED}=-\log\frac{\sum_{\boldsymbol{v}_j\in V}\exp(\sin(z_i,z_j)/\tau)}{\sum_{\boldsymbol{v}_k\in V}\exp(\sin(z_i,z_k)/\tau)},$

层正则多样性

$r_{\text{cosine}}\left(z^{l_{a}}, z^{l_{b}}\right)=\frac{1}{|V|}\sum_{v_{i}\in V}\frac{\left|z_{i}^{l_{a}\top} z_{i}^{l_{b}}\right|}{\left\|z_{i}^{l_{a}}\right\|_{2}\left\|z_{i}^{l_{b}}\right\|_{2}},$
用对比损失去让相近层数靠近，相远层数相远
$r_{\text{contrast}}\left(z^{l_{a}}, z^{l_{b}}\right) = -\frac{1}{|V|} \sum_{v_{i}\in V} \log \frac{\exp\left(z_{i}^{l_{a}\top} z_{i}^{l_{b}}\right)}{\exp\left(z_{i}^{l_{a}\top} z_{i}^{l_{b}}\right) + \exp\left(z_{i}^{l_{a}\top} \left(\frac{\sum_{j\neq i} z_{j}^{l_{b}}}{n-1}\right)\right)}$

$\mathcal{L}_{LD}=\sum_{l_a,l_b\in L|_{a\neq b}}r_{cosine}(z^{l_a},z^{l_b})+r_{contrast}(z^{l_a},z^{l_b}),$

专家多样性

$\max_{\{\hat{W_1},...,\hat{W_m}\}\in\mathbb{S}^{t-1}}\{\mathcal{L}_{\mathrm{MHS}}(\hat{W}):=\min_{i\neq j}\rho(\hat{W_i},\hat{W_j})\}$
其中， $\hat{\omega}_{i}=\frac{\mathrm{vec}(W_{i})}{||\mathrm{vec}(W_{i})||_{2}}$ ， $\mathbb{S}^{t-1}:=\{\hat{\omega}\in\mathbb{R}| ||\hat{\omega}||_{2}=1\}$ ， $\rho(\cdot,\cdot)$ 表示两个W的最短距离。

最终损失：

$\mathcal{L}_{\mathrm{G-FAME++}}=\mathcal{L}_{GT}+\mathcal{L}_{ED}+\mathcal{L}_{LD}+\mathcal{L}_{MHS}.$

其实，如上可以总结：需要让专家之间的差距变大，否则没有意义。