GGD证明推导学习
GGD证明推导学习
这篇文章,建议先看相关的论文。这篇是我读证明的感悟,因此,不会论文的主体内容
首先,给出命题:
DGI的sumary向量是一个常数
给定一个图: G = { X ∈ R N × D , A ∈ R N × N } \mathcal{G}=\{\mathbf{X}\in\mathbb{R}^{N\times D},\mathbf{A}\in\mathbb{R}^{N\times N}\} G={X∈RN×D,A∈RN×N},以及一个GNN编码器 g g g,我们将其嵌入表示为: H = σ ( g ( G ) ) \mathbf{H}=\sigma(g(\mathcal{G})) H=σ(g(G)), σ \sigma σ是非线性激活函数。通过对summary向量s进行激活函数操作,我们可以得到:ReLU,Prelu,LReLU的值为0.5,sigmoid的值为0.62。及:我们可以得到:
$$s=\mathcal{E}I \tag{1}$$注:这个是有详细的理论证明的,但是不是我阅读的主要部分。详细证明见论文的A.1
GGD与DGI的联系
既然我们知道dgi的summary向量s为1了,那我们就可以简化整个dgi的流程:
简化DGI
假如设置 s = ϵ I = I \mathbf{s}=\mathbf{\epsilon}\mathbf{I}=\mathbf{I} s=ϵI=I,定义区分器为 D ( ⋅ ) \mathcal{D}(\cdot) D(⋅),我们就可以重写dgi为:
$$\begin{aligned} \mathcal{L}_{DGI}& =\frac1{2N}(\sum_{i=1}^N\log\mathcal{D}(\mathbf{h}_i,\mathbf{s})+\log(1-\mathcal{D}(\tilde{\mathbf{h}}_i,\mathbf{s}))), \\ &=\frac1{2N}(\sum_{i=1}^N\log(\mathbf{h}_i\cdot\mathbf{s})+\log(1-\tilde{\mathbf{h}_i}\cdot\mathbf{s}))), \\ &=\frac1{2N}(\sum_{i=1}^N\log(sum(\mathbf{h}_i))+\log(1-sum(\tilde{\mathbf{h}}_i))), \end{aligned} \tag{2}$$其中,区分器是: D ( h i , s ) = σ s i g ( h i ⋅ W ⋅ s ) \mathcal{D}(\mathbf{h}_i,\mathbf{s})=\sigma_{sig}(\mathbf{h}_i\cdot\mathbf{W}\cdot\mathbf{s}) D(hi,s)=σsig(hi⋅W⋅s)(这个在代码中,是nn.bilinear(如果代码看到这个,公式就是左侧的区分器)
我们定义 y ^ i = a g g ( h i ) \hat{y}_{i}=agg(\mathbf{h}_{i}) y^i=agg(hi),那么,整个公式可以简化为:
$$\mathcal{L}_{BCE}=-\frac{1}{2N}(\sum_{i=1}^{2N}y_{i}\log\hat{y}_{i}+(1-y_{i})\log(1-\hat{y}_{i})\tag{3}$$DGI中的引理:定义 { H g } g = 1 ∣ H ∣ \{\mathbf{H}^{g}\}_{g=1}^{|\mathbf{H}|} {Hg}g=1∣H∣是一系列从图形中提取到的一系列节点的嵌入, p ( H ) p(\mathbf{H}) p(H), ∣ H ∣ \left|\mathbf{H}\right| ∣H∣是有限数量的元素。 p ( H g ) = p ( H g ′ ) p(\mathbf{H}^{g})=p(\mathbf{H}^{g\prime}) p(Hg)=p(Hg′)。 R R R是readout函数,其将 H g H^g Hg作为输入,summary向量作为输出, s g \mathbf{s}^{g} sg. s g \mathbf{s}^{g} sg遵循边缘分布 p ( s ) p(\mathbf{s}) p(s)。我们可以得到:联合分布 p ( H , s ) p(\mathbf{H},\mathbf{s}) p(H,s)与边缘分布 p ( H ) p ( s ) ˉ p(\mathbf{H})\bar{p(\mathbf{s})} p(H)p(s)ˉ之间最佳分类器错误率的上界是: E r ∗ = 1 2 ∑ g = 1 ∣ H ∣ p ( s g ) 2 Er^{*}=\frac{1}{2}\sum_{g=1}^{|\mathbf{H}|}p(\mathbf{s}^{g})^{2} Er∗=21∑g=1∣H∣p(sg)2
有公式1我们可以得到s是一个常量summary vector E I \mathcal{E}I EI, E \mathcal{E} E是一个常量。我们可以假设 E \mathcal{E} E独立于 p ( H ) p(H) p(H)(实际上,在本文先前的证明中,我们已经证明 E \mathcal{E} E是常数。其肯定独立于 p ( H ) p(H) p(H))。这样,我们就可以退出lemma2:
lemma2 我们假设s是一个summary vector E I \mathcal{E}I EI, E \mathcal{E} E独立于 p ( H ) p(H) p(H),我们可以得到最优分类器的错误率是: E r ∗ = 1 2 Er^{*}=\frac{1}{2} Er∗=21
其实,很容易理解:现在 E \mathcal{E} E独立于 p ( H ) p(H) p(H),那自然而然, p ( s ) p(\mathbf{s}) p(s)独立于 p ( H ) p(\mathbf{H}) p(H)。这样,预测正确和预测错误都应该为1/2
Theorem 2:给定最佳summary vector s ∗ s^* s∗,其为联合分布和边缘分布的最佳分类器。 s ∗ = a r q m a x s M I ( H ; s ) \mathbf{s}^{*} = arqmax_{\mathbf{s}}MI(\mathbf{H};\mathbf{s}) s∗=arqmaxsMI(H;s)
根据理论2,DGI生成最小化分类器D的分类误差可以被使用于最大化MI在输入和readout函数之间的损失。然而,在上述假设下,错误率是一个常数,最小化分类误差是不切实际的。除此之外,由于s是一个常数vector,因此: M I ( H ; s ) = 0 MI(\mathbf{H};\mathbf{s})=0 MI(H;s)=0
这样,DGI的推理是有问题的。区分器的作用不是最大化 M I ( H ; s ) MI(\mathbf{H};\mathbf{s}) MI(H;s),而是:最大化正嵌入和恒定只要s的相似性和最小化负嵌入和s的相似性。这相当于最大化正嵌入和府前路分布之间的JS偏差。我们给出一个定理来证明这一点:
Theorem 3:假设s是一个常数向量,s独立于 p ( H ) p(H) p(H),给定图 G \mathcal{G} G和扰乱图 G ^ \hat{\mathcal{G}} G^. g θ ( ⋅ ) g_{\theta}(\cdot) gθ(⋅)是GNN编码器。我们考虑正样本嵌入 g θ ( G ) g_{\theta}(\mathcal{G}) gθ(G)为 P p o s h P_{pos}^{\mathbf{h}} Pposh, g θ ( G ~ ) a s P n e g h g_{\theta}(\tilde{\mathcal{G}}) as P_{neg}^{\mathbf{h}} gθ(G~)asPnegh,优化DGI实质上是优化 P p o s h ^ 和 P n e g h ^ P_{pos}^{\mathbf{\hat{h}}} 和 P_{neg}^{\mathbf{\hat{h}}} Pposh^和Pnegh^JS散度,其中 h ^ \hat{h} h^是现行变换后的向量。
证明:首先,我们对DGI进行变换
$$\begin{aligned} \text{L}& =\mathbb{E}_{\mathbf{h}\sim P_{pos}^{\mathbf{h}}}log\mathcal{D}(\mathbf{h},\mathbf{s})+\mathbb{E}_{\mathbf{h}\sim P_{neg}^{\mathbf{h}}}log(1-\mathcal{D}(\mathbf{h},\mathbf{s})), \\ &=\mathbb{E}_{\mathbf{h}\sim P_{pos}^{\mathbf{h}}}log(\mathbf{h}\cdot\mathbf{W}\cdot\mathbf{s})+\mathbb{E}_{\mathbf{h}\sim P_{neg}^{\mathbf{h}}}log(1-\mathbf{h}\cdot\mathbf{W}\cdot\mathbf{s}), \\ &=\mathbb{E}_{\mathbf{h}\sim P_{\infty}^{\mathbf{h}}}log(\mathbf{h}\cdot\mathbf{W}\cdot\epsilon)+\mathbb{E}_{\mathbf{h}\sim P_{\infty}^{\mathbf{h}}}log(1-\mathbf{h}\cdot\mathbf{W}\cdot\epsilon), \end{aligned}$$h是节点嵌入,W是可学习的权重。在这里,我们将 h ⋅ W \mathbf{h}\cdot\mathbf{W} h⋅W视为 h ^ \hat{h} h^。正样本采样为 P h ^ p o s P^{\hat{\mathbf{h}}_{pos}} Ph^pos,负样本采样为: p h ^ p o s p^{\hat{\mathbf{h}}_{pos}} ph^pos。这样,公式就可以重写为:
$$\mathcal{L}=\mathbb{E}_{\hat{\mathbf{h}}\sim P_{pos}^{\hat{\mathbf{h}}}}log(sum(\epsilon\hat{\mathbf{h}}))+\mathbb{E}_{\hat{\mathbf{h}}\sim P_{neg}^{\hat{\mathbf{h}}}}log(1-sum(\epsilon\hat{\mathbf{h}})),\\=\mathbb{E}_{\hat{\mathbf{h}}\sim P_{pos}^{\hat{\mathbf{h}}}}log(\epsilon\cdot agg(\hat{\mathbf{h}}))+\mathbb{E}_{\hat{\mathbf{h}}\sim P_{neg}^{\hat{\mathbf{h}}}}log(1-\epsilon\cdot agg(\hat{\mathbf{h}})),$$a g g ( ⋅ ) agg(\cdot) agg(⋅)是sum函数
Theorem 3的详细证明:
(理论推导受到了gan的启发)
$$\begin{aligned}\mathcal{L}&=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(agg(\mathbf{h}))+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(1-agg(\mathbf{h})),\\&=\int_\mathbf{h}P_{pos}(\mathbf{h})log(agg(\mathbf{h}))d\mathbf{h}+\int_\mathbf{h}P_{neg}(\mathbf{h})log(1-agg(\mathbf{h}))d\mathbf{h},\end{aligned}$$agg是aggregation函数。 P p o s P_{pos} Ppos是正样本的分布, P n e g P_{neg} Pneg是负样本的分布。优化损失函数,我们可以得到 a g g ( h ) agg(h) agg(h)的最优解为: P p o s ( h ) P p o s ( h ) + P n e g ( h ) \frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})} Ppos(h)+Pneg(h)Ppos(h)。这是因为 a l o g ( x ) + b l o g ( 1 − x ) alog(x)+blog(1-x) alog(x)+blog(1−x)在 x = a a + b x=\frac a{a+b} x=a+ba处得到最优解。通过取代 a g g ( h ) agg(\mathbf{h}) agg(h)为: P p o s ( h ) P p o s ( h ) + P n e g ( h ) \frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})} Ppos(h)+Pneg(h)Ppos(h),上述公式可以转换为:
$$\mathcal{L}=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})})+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(1-\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}),\\=\mathbb{E}_{\mathbf{h}\thicksim P_{pos}}log(\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})})+\mathbb{E}_{\mathbf{h}\thicksim P_{neg}}log(\frac{P_{neg}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}).$$我们发现,其和JS散度很相似:
$$JS(P_1\parallel P_2)=\frac12\mathbb{E}_{\mathbf{h}\thicksim P_1}log(\frac{\frac{P_1}{P_1+P_2}}2)+\frac12\mathbb{E}_{\mathbf{h}\thicksim P_2}log(\frac{\frac{P_2}{P_1+P_2}}2).$$这样,我们可以重写公式为:
$$\begin{aligned}\mathcal{L}&=\mathbb{E}_{\mathbf{h}\sim P_{pos}}log(\frac{\frac{P_{pos}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}}2)+\mathbb{E}_{\mathbf{h}\sim P_{neg}}log(\frac{\frac{P_{neg}(\mathbf{h})}{P_{pos}(\mathbf{h})+P_{neg}(\mathbf{h})}}2)-2log2,\\&=2JS(P_{pos}\parallel P_{neg})-2log2,\end{aligned}$$因此,最优化L相当于优化JS散度 J S ( P p o s ∥ P n e g ) JS(P_{pos}\parallel P_{neg}) JS(Ppos∥Pneg)
相关文章:
GGD证明推导学习
GGD证明推导学习 这篇文章,建议先看相关的论文。这篇是我读证明的感悟,因此,不会论文的主体内容 首先,给出命题: DGI的sumary向量是一个常数 给定一个图: G { X ∈ R N D , A ∈ R N N } \mathcal{G…...
Flink难点和高频考点:Flink的反压产生原因、排查思路、优化措施和监控方法
目录 反压定义 反压影响 WebUI监控 Metrics指标 backPressureTimeMsPerSecond idleTimeMsPerSecond busyTimeMsPerSecond 反压可视化 资源优化 算子优化 数据倾斜优化 复杂算子优化 背压机制 反压预防 性能调优 内置工具 第三方工具 反压定义 在探讨Flink的性…...
Swarm - Agent 编排工具
文章目录 一、关于 Swarm(实验性、教育性)为什么选择蜂群文档 二、安装使用安装基本用法其它示例 三、Running Swarmclient.run()ArgumentsResponse字段 四、AgentFields Agent指令函数切换和更新上下文变量函数模式 流媒体评估工具 一、关于 Swarm&…...
使用Python中的jieba库进行简单情感分析
在自然语言处理(NLP)领域,情感分析是一项重要的任务,它可以帮助我们理解文本背后的情感倾向。本文将通过一个简单的例子来介绍如何使用Python的jieba库对中文文本进行基本的情感分析。 1. 环境准备 首先,确保已经安装…...
`pip` 下载速度慢
pip 下载速度慢(例如只有 50KB/s)可能由多个因素导致,以下是一些常见原因和解决方法: 1. 使用国内镜像源 国内访问 PyPI 服务器可能会较慢,您可以通过配置国内镜像源来提升下载速度。以下是一些常用的国内镜像源&…...
【WRF数据准备】基于GEE下载静态地理数据-叶面积指数LAI及绿色植被率Fpar
【WRF数据准备】基于GEE下载静态地理数据 准备:WRF所需静态地理数据(Static geographical data)数据范围说明基于GEE下载叶面积指数及绿色植被率GEE数据集介绍数据下载:LAI(叶面积指数)和Fpar(绿色植被率)数据处理:基于Python处理为单波段LAI数据参考GEE的介绍可参见另…...
网管平台(进阶篇):网管软件的配置方式
正确选择网管软件配置方式对于确保网络运行的高效性、稳定性和安全性至关重要,因为它直接影响到网络管理的灵活性、监控的深度以及故障响应的速度,从而保障整体网络环境的顺畅运行和业务连续性。下面我们就分别介绍一下。 一、集中式网络管理配置 在集…...
推荐系统中的AB测试
在现代互联网平台中,推荐系统起着至关重要的作用,无论是视频平台、社交网络还是电商网站,推荐系统都能够帮助用户找到最感兴趣的内容。为了不断优化推荐效果,AB测试(A/B Testing)作为评估新算法或功能改进的…...
.NET 8 Web API 中的身份验证和授权
本次介绍分为3篇文章: 1:.Net 8 Web API CRUD 操作.Net 8 Web API CRUD 操作-CSDN博客 2:在 .Net 8 API 中实现 Entity Framework 的 Code First 方法https://blog.csdn.net/hefeng_aspnet/article/details/143229912 3:.NET …...
Vue弹窗用也可以直接调用Js方法了
问题描述 在前端开发中,弹窗开发是一个不可避免的场景。然而,按照正常的逻辑,通过在template模板中先引用组件,然后通过v-if指令控制显隐,进而达到弹窗的效果。然而,这种方法却有一个严重的缺陷࿰…...
【c语言测试】
1. C语言中,逻辑“真”等价于( ) 题目分析: “逻辑真”在C语言中通常指的是非零数。 A. 大于零的数B. 大于零的整数C. 非零的数 (正确答案)D. 非零的整数 正确答案:C 2. 若定义了数组 int a[3][4];,则对…...
一种将树莓派打造为游戏机的方法——Lakka
什么是Lakka? Lakka是一款Linux发行版,轻量级的,可将小型计算机转变为一台复古游戏机。 图1-Lakka官网,见参考链接[1] Lakka是RetroArch和libretro生态系统下的官方操作系统,前者RetroArch是模拟器、游戏引擎和媒体播…...
如何在 MySQL 中创建一个完整的数据库备份?
在MySQL数据库中创建一个完整的数据库备份通常不是通过编程语言直接实现的,而是借助MySQL提供的命令行工具mysqldump来完成。 作为Java开发者,我们可以编写脚本来调用这些工具,从而实现自动化备份。 下面我们将详细介绍如何使用Java来调度m…...
京准电钟HR-901GB双GPS北斗卫星时钟服务器
京准电钟HR-901GB双GPS北斗卫星时钟服务器 京准电钟HR-901GB双GPS北斗卫星时钟服务器 作为国家电力系统最重要的设备之一,卫星时间同步装置随着电力行业的发展不断有了新的要求,从单纯的具备时间数据输出能力,发展到装置状态信息上送、对用时设备的对时质量进行监测,确保站点内…...
uniapp使用websocket
后端java websoket中的 onOpen 中。依赖注入为null 引用:https://blog.csdn.net/qq_63431773/article/details/132389555 https://blog.csdn.net/weixin_43961117/article/details/123989515 https://cloud.tencent.com/developer/article/2107954 https://blog.c…...
基于Pycharm和Django模型技术的数据迁移
1.配置数据库 在trip_server/settings.py中修改配置: 其格式可访问官网:Settings | Django documentation | Django 1.1 配置数据库 文件地址:trip_server/settings.py 配置前需要创建(NaviCat)个人数据库 "…...
乐尚代驾-----Day10(订单三)
hi UU 们!!!我又来跟辛辣!感谢你们的观看,话不多说!~ 司机到达代驾终点,代驾结束了。结束代驾之后, – 获取额外费用(高速费、停车费等) – 计算订单实际里程…...
105. 聚光源SpotLight
入门部分给大家介绍过平行光DirectionalLight、点光源PointLight、环境光AmbientLight,下面给大家介绍一个新的光源对象,也就是聚光源SpotLight。 创建聚光源SpotLight 聚光源可以认为是一个沿着特定方会逐渐发散的光源,照射范围在三维空间中构成一个圆…...
系统接口权限拦截器,获取用户信息存储
UserInfo 类 这是一个表示用户信息的 Java 类,使用了 Lombok 注解来简化代码编写。 import lombok.Data; import lombok.EqualsAndHashCode; import lombok.ToString;import java.io.Serializable; import java.util.List;Data ToString EqualsAndHashCode public…...
Chromium HTML5 新的 Input 类型color 对应c++
一、Input 类型: color color 类型用在input字段主要用于选取颜色,如下所示: <!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>菜鸟教程(runoob.com)</title> </head> <body&…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
MMaDA: Multimodal Large Diffusion Language Models
CODE : https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA,它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构…...
【论文笔记】若干矿井粉尘检测算法概述
总的来说,传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度,通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...
【android bluetooth 框架分析 04】【bt-framework 层详解 1】【BluetoothProperties介绍】
1. BluetoothProperties介绍 libsysprop/srcs/android/sysprop/BluetoothProperties.sysprop BluetoothProperties.sysprop 是 Android AOSP 中的一种 系统属性定义文件(System Property Definition File),用于声明和管理 Bluetooth 模块相…...
Spring数据访问模块设计
前面我们已经完成了IoC和web模块的设计,聪明的码友立马就知道了,该到数据访问模块了,要不就这俩玩个6啊,查库势在必行,至此,它来了。 一、核心设计理念 1、痛点在哪 应用离不开数据(数据库、No…...
在Mathematica中实现Newton-Raphson迭代的收敛时间算法(一般三次多项式)
考察一般的三次多项式,以r为参数: p[z_, r_] : z^3 (r - 1) z - r; roots[r_] : z /. Solve[p[z, r] 0, z]; 此多项式的根为: 尽管看起来这个多项式是特殊的,其实一般的三次多项式都是可以通过线性变换化为这个形式…...
群晖NAS如何在虚拟机创建飞牛NAS
套件中心下载安装Virtual Machine Manager 创建虚拟机 配置虚拟机 飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...
[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG
TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码:HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...
【堆垛策略】设计方法
堆垛策略的设计是积木堆叠系统的核心,直接影响堆叠的稳定性、效率和容错能力。以下是分层次的堆垛策略设计方法,涵盖基础规则、优化算法和容错机制: 1. 基础堆垛规则 (1) 物理稳定性优先 重心原则: 大尺寸/重量积木在下…...
Linux入门(十五)安装java安装tomcat安装dotnet安装mysql
安装java yum install java-17-openjdk-devel查找安装地址 update-alternatives --config java设置环境变量 vi /etc/profile #在文档后面追加 JAVA_HOME"通过查找安装地址命令显示的路径" #注意一定要加$PATH不然路径就只剩下新加的路径了,系统很多命…...
