当前位置：首页 > article >正文

GRN前沿：DGCGRN：基于有向图卷积网络的基因调控网络推理

article 2026/4/23 6:59:08

1.论文原名：Inference of gene regulatory networks based on directed graph convolutional networks

2.发表日期：2024

DGCGRN框架

中心节点和节点的构建

局部增强策略

1. 问题背景

在基因调控网络中，许多节点的连接度较低（即低度节点），这些节点在图结构中包含的信息较少。传统的图神经网络（GNN）在处理这类低度节点时，可能会因为缺乏足够的邻域信息而导致特征表达能力不足，进而影响整体的预测性能。因此，需要一种方法来增强这些低度节点的特征表示。

2. 局部增强策略的核心思想

局部增强策略的核心是通过生成模型（CVAE）为低度节点生成额外的邻域特征，从而增强其特征表达能力。具体来说，该策略利用节点的局部结构信息和特征分布，生成与中心节点特征相关的邻域节点特征。这种方法可以在不改变整体图结构的前提下，为低度节点提供更丰富的特征信息。

3. 条件变分自编码器（CVAE）

CVAE是一种生成模型，结合了变分自编码器（VAE）和条件生成对抗网络（GAN）的思想。它通过编码器将输入数据编码为潜在空间的分布，然后通过解码器生成新的数据。在DGCGRN中，CVAE被用于生成邻域节点的特征，具体步骤如下：

局部增强策略的优势

针对性增强低度节点：通过生成邻域特征，为低度节点提供额外的特征信息，增强其在图神经网络中的表达能力。
保留局部结构信息：CVAE在生成邻域特征时，考虑了中心节点的特征分布，因此生成的特征与局部结构相关，能够更好地保留图的局部信息。
提升模型性能：通过增强低度节点的特征，模型能够更准确地捕捉节点间的调控关系，从而提升GRN推断的整体性能。

序列特征提取

1. 序列特征提取模块的背景和动机

在基因调控网络（GRN）推断中，基因表达数据通常是主要的输入特征。然而，基因表达数据的维度可能较低，尤其是在处理真实生物数据时。此外，基因表达数据只能反映基因在特定条件下的表达水平，而无法提供基因序列本身的结构信息。这些结构信息对于理解基因的调控机制至关重要，因为基因序列中的某些模式（如转录因子结合位点）直接影响基因的调控。

因此，DGCGRN引入了序列特征提取模块，通过从基因序列中提取额外的特征来补充基因表达数据。这些序列特征不仅能够提供基因序列的结构信息，还能增强模型对基因调控关系的推断能力。

2. 序列特征提取模块的实现细节

序列特征提取模块主要通过两种方法提取序列特征：

隐藏特征提取（Hidden Features Extraction）：使用双向门控循环单元（Bi-GRU）模型提取基因序列的隐藏特征。
理化特征计算（Physicochemical Features Calculation）：计算基因序列的物理化学性质，如Z-curve、GC含量、AT/GC比等。

2.1 隐藏特征提取（Hidden Features Extraction）

2.1.1 Bi-GRU模型

Bi-GRU（双向门控循环单元）是一种基于循环神经网络（RNN）的模型，能够处理序列数据的时间依赖性和上下文信息。Bi-GRU通过双向处理输入序列，能够捕捉序列的前向和后向依赖关系，从而提取更全面的特征。

输入：基因序列被分割成多个k-mer片段（长度为k的子序列），每个k-mer片段通过one-hot编码表示。
处理：Bi-GRU模型对这些k-mer片段进行处理，提取隐藏特征。
输出：Bi-GRU模型输出每个基因序列的隐藏特征向量。

具体步骤：

k-mer分割：将基因序列分割成多个长度为k的子序列（k-mer片段）。例如，对于一个基因序列“ATGCGT”，如果k=3，则分割为“ATG”、“TGC”、“GCG”、“CGT”。
One-hot编码：将每个k-mer片段通过one-hot编码表示。例如，对于4个核苷酸（A、C、G、T），每个核苷酸可以用一个4维的向量表示。
Bi-GRU处理：将编码后的k-mer片段输入到Bi-GRU模型中，提取隐藏特征。

示例：假设基因序列“ATGCGT”被分割成3-mer片段“ATG”、“TGC”、“GCG”、“CGT”，每个片段通过one-hot编码表示后输入到Bi-GRU模型中，最终输出一个隐藏特征向量。

基于有向图卷积网络的GRN预测

1. 有向图卷积网络（DGCN）的背景和动机

1.1 传统GCN的局限性

传统的图卷积网络（GCN）主要用于处理无向图数据。在无向图中，边没有方向，因此GCN通过聚合邻域节点的信息来更新节点的特征表示。然而，在基因调控网络（GRN）中，调控关系是有方向的（例如，转录因子A调控基因B，但基因B不一定调控转录因子A）。如果直接将无向图的处理方法应用于有向图，会丢失调控关系的方向性信息，从而影响推断的准确性。

1.2 DGCN的优势

DGCN通过引入有向图的处理机制，能够直接处理有向图数据，保留调控关系的方向性。具体来说，DGCN通过定义一阶和二阶邻近矩阵，能够更好地捕捉节点之间的直接和间接调控关系，从而提高GRN推断的准确性。

4. GRN预测模块的流程

基于DGCN的GRN预测模块的完整流程如下：

输入特征：将增强后的节点特征（包括基因表达特征、序列特征和局部增强特征）作为输入。
图卷积操作：通过DGCN的谱卷积操作，结合一阶和二阶邻近矩阵，更新节点的特征表示。
动态更新策略：在每次迭代中，根据预测的调控关系更新边的权重，生成新的加权图。
输出预测结果：最终，模型输出节点之间的调控关系预测结果，包括调控关系的存在概率和方向。

5. DGCN的优势和作用

5.1 保留调控关系的方向性

DGCN通过处理有向图数据，保留了基因调控关系的方向性，从而提高了GRN推断的准确性。

5.2 捕捉直接和间接调控关系

通过定义一阶和二阶邻近矩阵，DGCN能够捕捉节点之间的直接和间接调控关系，从而更好地理解基因调控网络的全局结构。

5.3 动态更新策略

动态更新策略使模型能够根据每次迭代的结果调整图结构，从而更好地捕捉节点之间的调控关系，进一步提高模型的预测性能。

细节补充：动态更新策略

1. 动态更新策略的背景和动机

在传统的图神经网络（GNN）中，图结构通常是静态的，即边的权重在训练过程中不会改变。然而，在基因调控网络（GRN）推断中，调控关系的强度可能因节点之间的相互作用而有所不同。静态图结构无法有效捕捉这种动态变化，从而限制了模型的预测能力。

为了解决这一问题，DGCGRN引入了动态更新策略。该策略通过在每次迭代中更新边的权重，使模型能够根据当前预测结果动态调整图结构，从而更好地反映节点之间的调控关系强度。

3. 动态更新策略的作用和优势

3.1 提高预测准确性

通过动态更新边权重，模型能够根据当前预测结果调整图结构，从而更好地反映节点之间的调控关系强度。这有助于提高模型对调控关系的预测准确性。

3.2 捕捉动态变化

基因调控网络中的调控关系可能因环境变化或节点状态而有所不同。动态更新策略能够捕捉这种动态变化，使模型在训练过程中不断优化图结构。

3.3 增强模型的适应性

动态更新策略使模型能够自适应地调整图结构，从而更好地适应不同的数据集和调控关系模式。实验结果表明，加入动态更新策略后，模型的预测性能显著提升。

GRN前沿：DGCGRN：基于有向图卷积网络的基因调控网络推理

DGCGRN框架

中心节点和节点的构建

局部增强策略

序列特征提取

基于有向图卷积网络的GRN预测

细节补充：动态更新策略

相关文章：

GRN前沿：DGCGRN：基于有向图卷积网络的基因调控网络推理

DeepSeek崛起：中国AI产业的颠覆者与重构者

E. Exposition

KVM虚拟化快速入门，最佳的开源可商用虚拟化平台

unity删除了安卓打包平台，unityhub 还显示已经安装，怎么解决

软件工程-软件设计

【Viper】配置格式与支持的数据源与go案例

C++ Primer 参数传递

数据结构 day06

AI编程01-生成前/后端接口对表-豆包（或Deepseek+WPS的AI

01什么是DevOps

力扣100. 相同的树（利用分解思想解决）

【深度学习模型分类】

el-select 设置宽度没效果

chrome://version/

反向代理块sjbe

封装一个sqlite3动态库

P1878 舞蹈课（详解）c++

力扣第一题哈希解法 O（n）时间复杂度

【C++学习篇】C++11

leetcode刷题第十天——栈与队列Ⅱ

Vulnhub靶机随笔-Hackable II

适配器模式 + 外观模式联合使用：新旧系统的平滑整合之道

九.Spring Boot使用 ShardingSphere + MyBatis + Druid 进行分库分表

【第2章：神经网络基础与实现——2.3 多层感知机（MLP）的构建与调优技巧】

宠物企业宣传网站静态模板 – 前端静态页面开发实例

git如何下载指定版本

【第4章：循环神经网络（RNN）与长短时记忆网络（LSTM）——4.2 LSTM的引入与解决长期依赖问题的方法】

IoTDB 集群节点 IP 改变，如何更新集群

C++ 设计模式-建造者模式