当前位置：首页 > news >正文

4.将图神经网络应用于大规模图数据（Cluster-GCN）

news 2026/2/9 19:13:31

到目前为止，我们已经为节点分类任务单独以全批方式训练了图神经网络。特别是，这意味着每个节点的隐藏表示都是并行计算的，并且可以在下一层中重复使用。

然而，一旦我们想在更大的图上操作，由于内存消耗爆炸，这种方案就不再可行。例如，一个具有大约1000万个节点和128个隐藏特征维度的图已经为每层消耗了大约5GB的GPU内存。

因此，最近有一些努力让图神经网络扩展到更大的图。其中一种方法被称为Cluster-GCN (Chiang et al. (2019)，它基于将图预先划分为子图，可以在子图上以小批量的方式进行操作。

为了展示，让我们从 Planetoid 节点分类基准套件(Yang et al. (2016))中加载PubMed 图：

import torch
from torch_geometric.datasets import Planetoid
from torch_geometric.transforms import NormalizeFeaturesdataset = Planetoid(root='data/Planetoid', name='PubMed', transform=NormalizeFeatures())print()
print(f'Dataset: {dataset}:')
print('==================')
print(f'Number of graphs: {len(dataset)}')
print(f'Number of features: {dataset.num_features}')
print(f'Number of classes: {dataset.num_classes}')data = dataset[0]  # Get the first graph object.print()
print(data)
print('===============================================================================================================')# Gather some statistics about the graph.
print(f'Number of nodes: {data.num_nodes}')
print(f'Number of edges: {data.num_edges}')
print(f'Average node degree: {data.num_edges / data.num_nodes:.2f}')
print(f'Number of training nodes: {data.train_mask.sum()}')
print(f'Training node label rate: {int(data.train_mask.sum()) / data.num_nodes:.3f}')
print(f'Has isolated nodes: {data.has_isolated_nodes()}')
print(f'Has self-loops: {data.has_self_loops()}')
print(f'Is undirected: {data.is_undirected()}')

在这里插入图片描述
可以看出，该图大约有19717个节点。虽然这个数量的节点应该可以轻松地放入GPU内存，但它仍然是一个很好的例子，可以展示如何在PyTorch Geometric中扩展GNN。

Cluster-GCN的工作原理是首先基于图划分算法将图划分为子图。因此，GNN被限制为仅在其特定子图内进行卷积，从而省略了邻域爆炸的问题。
在这里插入图片描述
然而，在对图进行分区后，会删除一些链接，这可能会由于有偏差的估计而限制模型的性能。为了解决这个问题，Cluster-GCN还将类别之间的连接合并到一个小批量中，这导致了以下随机划分方案：
在这里插入图片描述

这里，颜色表示每批维护的邻接信息（对于每个epoch可能不同）。PyTorch Geometric提供了Cluster-GCN算法的两阶段实现：

ClusterData 将一个 Data 对象转换为包含num_parts分区的子图的数据集。
给定一个用户定义的batch_size, ClusterLoader 实现随机划分方案以创建小批量。

然后，制作小批量的程序如下：

from torch_geometric.loader import ClusterData, ClusterLoadertorch.manual_seed(12345)
cluster_data = ClusterData(data, num_parts=128)  # 1. Create subgraphs.
train_loader = ClusterLoader(cluster_data, batch_size=32, shuffle=True)  # 2. Stochastic partioning scheme.print()
total_num_nodes = 0
for step, sub_data in enumerate(train_loader):print(f'Step {step + 1}:')print('=======')print(f'Number of nodes in the current batch: {sub_data.num_nodes}')print(sub_data)print()total_num_nodes += sub_data.num_nodesprint(f'Iterated over {total_num_nodes} of {data.num_nodes} nodes!')

在这里插入图片描述

在这里，我们将初始图划分为128个分区，并使用32个子图的batch_size来形成mini-batches（每个epoch4批）。正如我们所看到的，在一个epoch之后，每个节点都被精确地看到了一次。

Cluster-GCN的伟大之处在于它不会使GNN模型的实现复杂化。我们构造如下一个简单模型：
在这里插入图片描述
这种图神经网络的训练与用于图分类任务的图神经网络训练非常相似。我们现在不再以全批处理的方式对图进行操作，而是对每个小批进行迭代，并相互独立地优化每个批：

model = GCN(hidden_channels=16)
optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4)
criterion = torch.nn.CrossEntropyLoss()def train():model.train()for sub_data in train_loader:  # Iterate over each mini-batch.out = model(sub_data.x, sub_data.edge_index)  # Perform a single forward pass.loss = criterion(out[sub_data.train_mask], sub_data.y[sub_data.train_mask])  # Compute the loss solely based on the training nodes.loss.backward()  # Derive gradients.optimizer.step()  # Update parameters based on gradients.optimizer.zero_grad()  # Clear gradients.def test():model.eval()out = model(data.x, data.edge_index)pred = out.argmax(dim=1)  # Use the class with highest probability.accs = []for mask in [data.train_mask, data.val_mask, data.test_mask]:correct = pred[mask] == data.y[mask]  # Check against ground-truth labels.accs.append(int(correct.sum()) / int(mask.sum()))  # Derive ratio of correct predictions.return accsfor epoch in range(1, 51):loss = train()train_acc, val_acc, test_acc = test()print(f'Epoch: {epoch:03d}, Train: {train_acc:.4f}, Val Acc: {val_acc:.4f}, Test Acc: {test_acc:.4f}')

在这里插入图片描述
在本文中，我们向您介绍了一种将 scale GNNs to large graphs的方法，否则这些图将不适合GPU内存。

本文内容参考：PyG官网

4.将图神经网络应用于大规模图数据（Cluster-GCN）

相关文章：

4.将图神经网络应用于大规模图数据（Cluster-GCN）

pymongo更新数据

手机软件测试规范（含具体用例）

mysql having的用法

大数据需要学习哪些内容？

【c++】static和const修饰类的成员变量或成员函数

DVWA-9.Weak Session IDs

Bug序列——容器内给/root目录777权限后无法使用ssh免密登录

华为OD机试真题 JavaScript 实现【服务中心选址】【2023Q1 100分】

＜Linux＞《OpenSSH 客户端配置文件ssh_config详解》

Linux内核中内存管理相关配置项的详细解析8

深入浅出Vite：Vite打包与拆分

大数据ETL工具Kettle

大学物理（上）-期末知识点结合习题复习（4）——质点运动学-动能定理力做功保守力与非保守力势能机械能守恒定律完全弹性碰撞

这两个小众的资源搜索工具其实很好用

Java设计模式（六）— 单例模式1

iOS -- isa指针

【SA8295P 源码分析】14 - Passthrough配置文件 /mnt/vm/images/linux-la.config 内容分析

新型糖基化氨基酸：Fmoc-Thr((Ac4Galβ1-3)Me,Ac4Neu5Acα2-6AcGalNAcα)-OH，化学CAS号174783-92-7

网络安全（黑客）怎么自学？

华为云AI开发平台ModelArts

【Python】 -- 趣味代码 - 小恐龙游戏

css实现圆环展示百分比，根据值动态展示所占比例

如何在看板中体现优先级变化

Opencv中的addweighted函数

电脑插入多块移动硬盘后经常出现卡顿和蓝屏

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

P3 QT项目----记事本（3.8）

基于matlab策略迭代和值迭代法的动态规划

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据