论文学习:《通过基于元学习的图变换探索冷启动场景下的药物-靶标相互作用预测》
原文标题:Exploring drug-target interaction prediction on cold-start scenarios via meta-learning-based graph transformer
原文链接:https://www.sciencedirect.com/science/article/pii/S1046202324002470
药物-靶点相互作用(DTI)预测通常是从已知的药物-靶点相互作用中预测潜在的未观察到的相互作用。
传统的方法通过生物实验发现药物靶标相互作用,准确但往往费时费力。
基于网络的方法可以无缝地组织和利用异构的生物数据,但在处理冷启动问题下的DTI预测时仍然存在差距。
冷启动场景需要预测新的药物或靶点与现有的靶点或药物之间是否存在潜在的相互作用。
冷启动场景下的药物-靶标相互作用预测可以分为两类:
( i )冷启动药物任务,即预测新药物与已知靶标之间的相互作用;
( ii )冷目标任务,预测新靶点与已知药物之间的相互作用。
下图展示了一个冷启动场景下药物-靶标相互作用( DTI )预测的实例。
基于网络的DTI预测方法在缓解冷启动场景中需要考虑以下问题:
1.现有的方法都是面向设计具有足够药物-靶标相互作用情况的模型架构。因此,一旦没有在训练集(冷启动场景)中呈现,这些方法将无法很好地进行DTI预测。
2.大多数方法倾向于优先考虑1跳邻居信息,往往忽略了对长距离依赖关系的提取。虽然GNNs堆叠具有利用远程节点信息的能力,但也可能面临挑战,如过平滑问题。
本文提出了一个基于图变换的元学习框架MGDTI ( Meta-learning based Graph Transformer for Drug-Target Interaction Prediction简称Meta - learning),用于处理DTI预测中的冷启动问题。目标是增强模型的泛化能力,并有效地捕获长程依赖关系。
| 问题 | 解决方案 |
| 模型泛化能力差 | 通过元学习的方式对模型进行训练,使其能够快速适应冷药物任务和冷目标任务。 |
| 药物-药物和靶标-靶标相互作用的稀缺性 | 结合了药物-药物结构相似性和靶标-靶标结构相似性,利用相似度矩阵作为额外信息来缓解交互的稀缺性。 |
| 过度平滑 | 采用节点邻居采样方法为每个节点生成上下文序列,然后将这些序列输入到图转换器中,通过上下文聚合来捕获局部结构信息。 |
相关工作
药物靶标作用关系预测
DTI被描述为药物分子与靶点(通常是蛋白质)的结合,其中药物与靶点相互作用以治疗疾病。提高DTI预测的准确性可能会导致更快的药物开发。
大多数传统方法通常是耗时耗力的。
基于对接的方法需要目标物的三维结构;
基于配体的方法利用已知的相互作用配体的规则进行预测来预测DTI。
基于网络的方法使用基于图的技术来表征药物和靶点的属性来预测DTIs。
DTINet从异构网络中学习药物和靶标的慢维特征向量,然后找到从药物空间到靶标空间的最优投影并预测相互作用。
IMCHGAN采用两级GAT策略从多个网络中学习药物和靶标的潜在特征表示,并使用归纳矩阵补全预测DTI。
HGAN基于注意力机制和扩散技术,捕获生物异构图中复杂的结构和丰富的语义,用于DTI预测。
MOVE通过跨视图对比表示学习整合多源信息进行DTI预测。
图Transformer
Transformer是一种广泛应用于处理序列数据的深度学习框架。它依赖于自注意力机制来捕获输入序列中的依赖关系。
图Transformer是为处理图结构数据而量身定做的Transformer的变体。它扩展了Transformer架构,能够有效地对图中节点之间的关系进行建模,从而能够更好地对图数据进行学习和推理。
图Transformer可以缓解基于消息传递的GNN模型的局限性(如过度平滑、过度压扁等)。Transformers主要是将图结构信息融入到Transformer架构中,对图结构数据进行泛化。
GraphTrans,GraphiT结合GNNs来捕获局部结构信息。
一些研究提出在图转换器中加入图和结构编码来补充拓扑信息。
HINormer提出的异构信息网络上的图转换器利用局部结构编码器和异构编码器进行节点表示学习。
方法
MGDTI主要由3个部分组成:( 1 )图增强模块;( 2 )局部图结构编码器;( 3 )图形转换器模块
图增强模块

为了解决冷启动问题,MGDTI分别在药物和靶标内部补充具有结构相似性的额外信息。对于每个药物v∈D,选择与药物v结构相似度最高的前5个药物(不含自身),并在DTN中添加5条边。对于每个目标v′∈T,也做同样的处理。对图进行增强后,得到新的DTN图G′。
局部图结构编码器

在该模块中,MGDTI利用局部图结构编码器学习节点的嵌入,以充分捕获DTN′的局部结构信息。对于每个节点v∈V,MGDTI随机初始化其在d维隐空间中的嵌入。此外,将所有节点的嵌入进行聚合,形成嵌入矩阵H(0)∈R|v|×d。图卷积网络( Graph Convolutional Network,GCN )因其消息传递机制能有效捕获局部结构信息而被广泛应用于图表示学习。形式上,对于L层输出:
![]()
式中:H(l)为第l层的特征表示。这里,~A = A + IN 是添加了自连接的无向图G'的邻接矩阵,其中IN是单位矩阵,~D是~A的度矩阵。~D-1/2 ~A~D-1/2 表示规范化的邻接矩阵,W(l)是l层可训练的权重矩阵。经过l层GCN后,得到节点的新嵌入H。
图Transformer模块

在该模块中,旨在通过图Transformer模块从长距离依赖中捕获信息,以防止过度平滑。
该模型将固定数量(n)的节点v的邻居节点采样为一个邻域序列Sv,其嵌入作为Transformer编码器的输入。对于节点v首先对自身进行采样,然后优先将其1跳节点采样到邻域序列Sv中。如果|Sv|<n,则从它的2跳邻居中采样,以此类推,直到|Sv| = n。
形式上,节点v的邻域序列Sv记为Sv = [ v , v1 , ... , vn-1 ],因此邻域序列的嵌入记为HSv = [ Hv , Hv1 , ... , Hvn - 1]∈R n×d。Transformer因其优秀的序列学习能力而被广泛应用于不同领域。标准变换层由多头自注意力模块( MSA )和前馈网络( FFN )两个主要部件组成。MGDTI中删除了FFN,因此我们只简单介绍MSA的简单性。
MSA允许模型并行地学习多组注意力权重,以提取来自不同子空间的特征,并将它们融合在一起,以增强模型的表示能力。对于节点v的邻域序列嵌入,MSA首先通过三个参数矩阵WQ,WK,WV和将输入HSv投影到查询空间,键空间和值空间(分别用Q , K , V表示),从而学习到一组他们的注意力权重Attention
![]()
然后将注意力权重计算为:
![]()
在HSv上计算两个独立的自注意力,得到两组注意力权重Attention1,Attention2,并将其串联和线性变换得到MSA输出:
之后,MSA的输出将连接到层归一化(LN)和残差连接。
对于Transformer编码器,j层表示为:
经过j层Transformer后,Transformer编码器的最终输出表示为" HSv∈R n×d "。
对于节点v,我们用~HSv[0]作为其新的嵌入。经过图变换模块后,MGDTI可以根据邻域序列不同位置之间的接近程度来学习节点特征。值得注意的是,在更新节点对药物节点和目标节点的嵌入时,我们使用了不同的图变换模块。此时,MGDTI分别得到了药物节点的嵌入Zv = ~HSv[0]和目标节点的嵌入Zv′= ~HSv′[0]。
预测模块

MGDTI将Zv和Zv′级联作为预测模块的输入,构成3层MLP。MLP的输出是一个预测分数,表示DTI的概率,记为:
![]()
我们将DTI预测任务转换为二分类任务,并使用二分类交叉熵损失:
元学习训练
为了解决冷启动场景下的数据不平衡问题,我们使用元学习来训练模型参数。
给定一个带有随机初始化模型参数θ的模型Fθ,元学习的核心思想是针对不同的任务学习最优参数θ*,从而快速适应新任务。首先,对于每个epoch,将训练集随机划分为支持集{Xp,Yp}和查询集{Xq,Yq}。并且每次都将模型参数θ复制为^θ,通过更新支撑集损失Lp来更新θ:
![]()
然后使用参数^θ对查询集进行训练,得到查询集Liq的损失。我们重复上述步骤k次,得到平均损失均值Lmean,计算为:

并利用其对模型的原始参数θ进行优化:
![]()
其中α和β是超参数,通常分别称为局部更新学习率和全局更新学习率。
实验
数据集预处理
为了反映冷启动场景下的药物-靶点相互作用预测,对数据集采用了不同的实验拆分策略。将冷启动任务分为两类,冷药物任务和冷目标任务。
以冷药物任务为例,首先将药物分为10份,进行10折交叉验证。对于每一个折叠,将其中的一个部分作为冷药物,其余的九个部分作为现有药物。对于每个冷药物,屏蔽了一定比率的边,包括网络中的药物-药物相互作用和药物-靶标相互作用,以创建冷药物场景。为了模拟已知DTI显著少于未知DTI的现实场景,设置了1:1、1:5和1:10三种负采样率,分别表示相同负样本数比正样本数,5倍负样本数比正样本数,10倍负样本数比正样本数。然后,对于每个折叠,使用药物-靶标相互作用的掩码边和负样本的负采样率编号(也就是说,冷药物与靶点之间没有相互作用)作为测试集,使用网络中的未掩码边和负样本的负采样率编号作为训练集。
为了评估模型在不同冷药物场景下的表现,设置了不同的掩码率0.5、0.7、0.9和1.0来模拟冷药物学习到了多少信息。对于冷目标任务,做了与上面相同的工作。
评价指标
为了评估MGDTI的有效性,使用了两个广泛使用的指标:受试者工作特征曲线下面积( AUC )和精确率-召回率曲线下面积( AUPR )。这两个评价指标常用于评估模型在不同领域中的性能,可以全面地了解模型区分正例和负例的能力( AUC ),以及在不同召回率水平下的精度( AUPR )。评价指标的得分越高,表明性能越好。
有效性
为了评估模型的性能,在数据集上进行了10折交叉验证,并计算了10折结果的平均值。在不同负采样率的冷启动DTI预测任务上将MGDTI与基线进行了比较。冷药物任务的结果汇总在表中,而冷目标任务的结果如图所示。在表中,加粗的值表示该度量的最佳性能。并对本实验中各模型的预测结果进行了统计分析,通过图展示了十折交叉验证中各折的AUC和AUPR结果。
总的来说,在冷药物任务和冷目标任务上,MGDTI在大多数实验条件下都取得了最好的结果。而对于其他实验条件,MGDTI达到次优。特别地,当掩码速率为1.0时,MGDTI相对于其他基线取得了显著的优势。根据结果,可以得出结论,MGDTI比其他基线更适合处理冷启动场景。此外,当负采样率增加时,MGDTI也保持了优异的性能,证明了模型的鲁棒性。
随着掩码率的增加,所有模型的AUC和AUPR都有一定程度的下降。基于网络的方法需要聚集邻居的信息才能得到药物和靶点的表示,但在冷启动场景下,冷药物和冷靶点在网络中的相互作用信息很少或几乎没有,这将极大地限制DTI预测的性能。具体来说,随着掩蔽率的增加,冷目标任务的实验结果比冷目标任务下降更明显。
相关文章:
论文学习:《通过基于元学习的图变换探索冷启动场景下的药物-靶标相互作用预测》
原文标题:Exploring drug-target interaction prediction on cold-start scenarios via meta-learning-based graph transformer 原文链接:https://www.sciencedirect.com/science/article/pii/S1046202324002470 药物-靶点相互作用(DTI&…...
【题解-洛谷】P1824 进击的奶牛
题目:P1824 进击的奶牛 题目描述 Farmer John 建造了一个有 N N N( 2 ≤ N ≤...
机械革命 无界15X 自带的 有线网卡 YT6801 debian12下 的驱动方法
这网卡是国货啊。。。 而且人家发了驱动程序 Motorcomm Microelectronics. YT6801 Gigabit Ethernet Controller [1f0a:6801] 网卡YT6801在Linux环境中的安装方法 下载网址 yt6801-linux-driver-1.0.29.zip 我不知道别的系统是否按照说明安装就行了 但是debian12不行&…...
十八、TCP多线程、多进程并发服务器
1、TCP多线程并发服务器 服务端: #include<stdio.h> #include <arpa/inet.h> #include<stdlib.h> #include<string.h> #include <sys/types.h> /* See NOTES */ #include <sys/socket.h> #include <pthread.h>…...
JAVA中正则表达式的入门与使用
JAVA中正则表达式的入门与使用 一,基础概念 正则表达式(Regex) 用于匹配字符串中的特定模式,Java 中通过 java.util.regex 包实现,核心类为: Pattern:编译后的正则表达式对象。 Matcher&#…...
AIGC-文生图与图生图
在之前的文章中,我们知道了如何通过Web UI和Confy UI两种SD工具来进行图片生成,今天进一步地讲解其中的参数用处及如何调节。 文生图 参数详解 所谓文生图,就是通过文字描述我们想要图片包含的内容。初学的话,还是以Web UI为例…...
量化交易 - 聚宽joinquant - 多因子入门研究 - 源码开源
先看一下我们的收益: JoinQuant直达这里看看 下面讲解原理和代码。 目录 一、是否为st 二、是否停牌 三、市值小、roe大 四、编写回测代码 今天来研究一下多因子回测模型,这里以‘市值’、‘roe’作为例子。 几个标准:沪深300里选股&am…...
本地缓存方案Guava Cache
Guava Cache 是 Google 的 Guava 库提供的一个高效内存缓存解决方案,适用于需要快速访问且不频繁变更的数据。 // 普通缓存 Cache<Key, Value> cache CacheBuilder.newBuilder().maximumSize(1000) // 最大条目数.expireAfterWrite(10, TimeUnit.MINUTES) /…...
虚拟列表react-virtualized使用(npm install react-virtualized)
1. 虚拟化列表 (List) // 1. 虚拟化列表 (List)import { List } from react-virtualized; import react-virtualized/styles.css; // 只导入一次样式// 示例数据 const list Array(1000).fill().map((_, index) > ({id: index,name: Item ${index},description: This is i…...
解释型语言和编译型语言的区别
Python 的执行过程通常涉及字节码,而不是直接将代码编译为机器码。以下是详细的解释: ### **Python 的执行过程** 1. **源代码到字节码**: - Python 源代码(.py 文件)首先被编译为字节码(.pyc 文件&…...
猫咪如厕检测与分类识别系统系列【三】融合yolov11目标检测
✅ 前情提要 家里养了三只猫咪,其中一只布偶猫经常出入厕所。但因为平时忙于学业,没法时刻关注牠的行为。我知道猫咪的如厕频率和时长与健康状况密切相关,频繁如厕可能是泌尿问题,停留过久也可能是便秘或不适。为了更科学地了解牠…...
sql server 字段逗号分割取后面的值
在 SQL Server 中,如果你有一个字段(字段类型通常是字符串),其中包含用逗号分隔的值,并且你想提取这些值中逗号后面的特定部分,你可以使用多种方法来实现这一点。这里我将介绍几种常见的方法: …...
FPGA 37 ,FPGA千兆以太网设计实战:RGMII接口时序实现全解析( RGMII接口时序设计,RGMII~GMII,GMII~RGMII 接口转换 )
目录 前言 一、设计流程 1.1 需求理解 1.2 模块划分 1.3 测试验证 二、模块分工 2.1 RGMII→GMII(接收方向,rgmii_rx 模块) 2.2 GMII→RGMII(发送方向,rgmii_tx 模块) 三、代码实现 3.1 顶层模块 …...
上篇:《排序算法的奇妙世界:如何让数据井然有序?》
个人主页:strive-debug 排序算法精讲:从理论到实践 一、排序概念及应用 1.1 基本概念 **排序**:将一组记录按照特定关键字(如数值大小)进行递增或递减排列的操作。 1.2 常见排序算法分类 - **简单低效型**ÿ…...
红宝书第三十四讲:零基础学会单元测试框架:Jest、Mocha、QUnit
红宝书第三十四讲:零基础学会单元测试框架:Jest、Mocha、QUnit 资料取自《JavaScript高级程序设计(第5版)》。 查看总目录:红宝书学习大纲 一、单元测试是什么? 就像给代码做“体检”,帮你检查…...
【JDBC-54.1】MySQL JDBC连接字符串常用参数详解
在Java应用程序中连接MySQL数据库时,JDBC连接字符串是建立连接的关键。一个配置得当的连接字符串不仅能确保连接成功,还能优化性能、增强安全性并处理各种连接场景。本文将深入探讨MySQL JDBC连接字符串的常用参数及其最佳实践。 1. 基本连接字符串格式…...
swagger 注释说明
一、接口注释核心字段 在 Go 的路由处理函数(Handler)上方添加注释,支持以下常用注解: 注解名称用途说明示例格式Summary接口简要描述Summary 创建用户Description接口详细说明Description 通过用户名和邮箱创建新用户Tags接口分…...
CST1019.基于Spring Boot+Vue智能洗车管理系统
计算机/JAVA毕业设计 【CST1019.基于Spring BootVue智能洗车管理系统】 【项目介绍】 智能洗车管理系统,基于 Spring Boot Vue 实现,功能丰富、界面精美 【业务模块】 系统共有三类用户,分别是:管理员用户、普通用户、工人用户&…...
【前端网络请求】XHR封装,支持文件上传、进度监控、混合字段传输
网络请求介绍 XMLHttpRequest(XHR)是前端开发中用于发起网络请求的基础技术。虽然现代开发中常用fetch或axios,但掌握XHR的封装技巧仍能让你更灵活地应对复杂需求。本文将通过一个可复用、功能全面的XHR封装工具,教你实现以下功能: 📤 文件上传(单个/多个文件)📊 实…...
# Shell脚本参数设计规范(DeepSeek指导)
Shell脚本参数设计规范(DeepSeek指导) 文章目录 Shell脚本参数设计规范(DeepSeek指导)A 我问:Q DeepSeek回答:**命令行参数表示规范****标准化表示示例**情况1:必选选项参数值情况2:…...
学习SqlSugar的跨库查询基本用法
使用SqlSugar操作数据库通常都是单库操作,跨库查询的情况要么是单个系统数据不完整,需要其它系统的关联业务数据支撑,要么就是需要整合汇总多个系统的数据进行数据数据分析、处理、展示。遇到上述情况,可以要求另外的系统提供查询…...
HTTP:五.WEB服务器
web服务器 定义:实现提供资源或应答的提供者都可以谓之为服务器!web服务器工作内容 接受建立连接请求 接受请求 处理请求 访问报文中指定的资源 构建响应 发送响应 记录事务处理过程 Web应用开发用到的一般技术元素 静态元素:html, img,js,Css,SWF,MP4 动态元素:PHP,…...
5.3 GitHub订阅系统核心架构解密:高并发设计与SQLite优化实战
GitHub Sentinel 分析报告功能实现:订阅管理核心逻辑解析 关键词:GitHub API 订阅管理, SQLite 数据库设计, RESTful API 开发, 原子操作封装, 异常处理机制 1. 订阅管理功能架构设计 订阅管理模块采用分层架构设计,通过清晰的接口隔离实现高内聚低耦合: #mermaid-svg-bW…...
CSI-PVController-volumeWorker
volumeWorker() 与claim worker流程一样,从volumeQueue中取数据,也就是取出的都是PV,如果informer中有这个pv,就进入update流程。 定义workFunc:首先,定义了一个匿名函数workFunc,这个函数是实…...
0基础 | 硬件滤波 C、RC、LC、π型
一、滤波概念 (一)滤波定义 滤波是将信号中特定波段频率滤除的操作,是抑制和防止干扰的重要措施。通过滤波器实现对特定频率成分的筛选,确保目标信号的纯净度,提升系统稳定性。 (二)滤波器分…...
图论基础理论
在我看来,想要掌握图的基础应用,仅需要三步走。 什么是图(基本概念)、图的构造(打地基)、图的遍历方式(应用的基础) 只要能OK的掌握这三步、就算图论入门了!࿰…...
leaflet 之 获取中国某个行政区的经纬度边界(latLngBounds)
思路 在json文件中获取下面的四个点 组成东北,西南两组 { “southwest”: { “lat”: 35.950, “lng”: 120.000 },//西南方 “northeast”: { “lat”: 36.200, “lng”: 120.300 }//东北方 } 最西点经度(minLng) 最东点经度(maxLng&#x…...
企业级低代码平台的架构范式转型研究
在快速迭代的数字时代,低代码平台如同一股清流,悄然成为开发者们的新宠。 它利用直观易用的拖拽式界面和丰富的预制组件,将应用程序的开发过程简化到了前所未有的程度。通过封装复杂的编程逻辑和提供强大的集成能力,低代码平台让…...
怎么免费下载GLTF/GLB格式模型文件,还可以在线编辑修改
现在非常流行glb格式模型,和gltf格式文件,可是之类模型网站非常非常少 1,咱们先直接打开http://glbxz.com 官方glb下载网站 glbxz.com 2 可以搜索,自己想要的模型关键词 3,到自己想下载素材页面 4,…...
MyBatis 中 Mapper 传递参数的多种方法
# MyBatis Mapper 传递参数的多种方法及其优势 在使用 MyBatis 进行数据库操作时,Mapper 接口的参数传递是一个非常基础但又十分重要的部分。不同的参数传递方式适用于不同的场景,合理选择可以大大提高代码的可读性和维护性。本文将详细介绍几种常见的 …...

