当前位置: 首页 > news >正文

J. Chem. Theory Comput. | AI驱动的柔性蛋白-小分子复合物建模

今天为大家介绍的是来自陈语谦教授团队发表在Journal of Chemical Theory and Computation的论文,“Equivariant Flexible Modeling of the Protein−Ligand Binding Pose with Geometric Deep Learning”,博士生董铁君为第一作者。该文提出了一种新的AI驱动的蛋白-小分子复合物结构柔性建模方法FlexPose,可准确高效的预测复合物结构、亲和力及模型置信度。模型采用标量-矢量二元特征表示和 SE(3)-等变网络,以端到端动态建模复合物结构;同时提出构象感知的预训练和弱监督学习策略提高模型在未见过的化学空间中泛化性。在PDBbind,APObind数据集上的评估显示,在涉及蛋白质构象变化的任务中,模型的精度和效率大幅高于传统的分子对接及近期基于AI的方法。在基于数据集相似性的评价中,两个构象感知策略很大程度上提高了模型在低相似性化学空间中的性能。此外模型预测的亲和力及置信度估计为后续的药物研发提供了有效直接的参考。

ea0318c87dae2feadad148094a69e18b.png

模型架构

FlexPose 将一对蛋白质配体表示为由节点(蛋白质残基,小分子原子)和边组成的图(图 1b),其中每个节点和边都被初始化为标量(含其生化属性,如残基/原子类型)和一组欧几里得矢量集合(含其几何特征,如蛋白质原子间的相对位置)。与只包含标量特征的常用方法(只使用距离或扭转角来表示几何特征)不同,这种标量-矢量双重特征表示法允许模型明确管理节点的动态变化,而不是简单地依赖于其与所有相邻节点的相对位置。此外,双重特征使模型够覆盖更多的蛋白质残基,在无需直接访问其全原子结构的情况下拥有足够的几何表示。

如图1b 所示,FlexPose采用编码器-解码器式设计。蛋白质编码器和配体编码器首先将三维蛋白质结构和二维配体图分别嵌入潜在空间。然后,复合解码器通过多轮循环(图 1c)从头开始构建配体结构(从随机的高斯噪声开始),同时重建蛋白质结构。在每个循环中,复合解码器都会迭代更新特征和结构。简而言之,复合解码器对标量和矢量特征进行信息传递,其中每个节点通过汇总相邻节点的注意力加权信息来更新其特征,值得注意的是,更新结构和特征时,注意力权重是共享的。在每个循环结束时,复合解码器会对配体约束能量最小化,以确保结构的几何正确。然后如图1c 所示,特征和结构会到下一个循环进行进一步完善,额外的浅层网络用于估计亲和力。

为了提高模型的通用性,FlexPose用构象感知任务对编码器进行了预训练(图1d),同时该文提出了构象感知的弱监督学习(WSL,图1e),以扩展学习到的化学空间。构象感知预训练任务鼓励模型学习与化学性质相关(如屏蔽属性预测)的标量特征和与三维结构相关任务(如结构去噪)的矢量特征。这样的设计使解码器能够用更好的特征表示构建结构。构象感知WSL鼓励模型对未知结构的预测尽可能接近与其最相似的低置信度的结构。为减少潜在偏差,低置信度的结构最好由自下而上的方法生成,如分子力学等。当预测结构的化学空间与训练样本的化学空间几乎完全不重叠时,构象感知WSL将有助于模型建模新结构。

9d14f70f3ba69780b9654d3769744006.png
图 1

基于Apo蛋白预测复合物结构

文章首先评估了模型基于apo(native unbound)态蛋白预测原生复合物结构的能力,这对传统的对接方法来说极具挑战性。与apo构象相比,大多数holo(ligand-bound)构象显示出结构差异,通常是由于侧链构象的变化引起。传统的对接方法在结构变化时会面临严重的采样压力,此外许多对接工具只能将蛋白质视为刚性成分(半柔性对接)。文章使用了从 APObind和 PDBbind数据集中提取的两个测试集进行评估,apo-refined集(N = 937)和 apo-core集(N = 168)。

FlexPose的性能大大优于所有测试的传统对接工具(图 2c-f),在两个测试集中,预测构象与原生构象之间的均方根偏差(rmsd)值要小得多。图 2a,b 显示了两个样本,图 2c,e 显示了两个测试集的成功率。与表现最好的对接工具(RosettaLigand)相比,FlexPose在apo-refined和apo-core的成功率分别提高了 36.60% 和 40.48%。进一步将FlexPose 与最近的深度学习方法进行了比较,结果 FlexPose也取得了压倒性的优势,与排名第二的深度学习方法EDM-Dock相比,成功率提高了 33.41%。

efc9c3eec56b18e85f1455ebbe4a1107.png
图 2

交叉对接与重对接任务评估

文章测试了 FlexPose 在交叉对接与重对接任务的能力。重对接是用原生复合物蛋白结构作为输入。交叉对接是用从不同配体得到的次优蛋白构象重现原生复合体结构。DBbind 数据集中的core set(N = 278)和cross-core set(N = 1305)上,将 FlexPose与14种传统方法或基于机器/深度学习的方法进行了比较。

如表 1 所示,在交叉对接任务中,FlexPose 的表现大大优于所有测试方法,在重对接任务中,FlexPose 的准确率也与最好的测试方法相当。在交叉对接方面,FlexPose及其变体的成功率在 0.644 到 0.735 之间,远高于排名第二的RTMscore方法(0.519)。结果表明,即使用holo态蛋白质,所有测试的对接工具和深度学习方法都显示出有限的能力,而 FlexPose实现了更好的准确性。

bca02ebf695a85df9deb7de07cdc1bc2.png
表 1

构象感知策略提高模型在unseen化学空间中预测能力

文章在交叉对接任务中测试了分子相似性的影响,训练集根据其与测试集的蛋白质和配体相似度进行筛选,同时比较了构象感知预训练和WSL在此类情况下的能力(图 3)。在构象感知预训练中,使用了额外的蛋白质和有机小分子来训练两个编码器(图 1d)。在预训练中没有使用天然复合物结构。相比之下,构象感知WSL通过使用未见化学空间中的低置信度复合物结构来对解码器进行训练(图1e)。WSL计算的是预测结构与其最近的低置信度结构之间的损失。

如图3所示,分子相似性对模型性能有影响,模型在使用预训练编码器或WSL后有明显改善,尤其是在相似性截断值较低的情况下。文章有两个主要发现:(1)蛋白质相似性比配体相似性的影响更大。当配体相似性临界值从1.0降到0.4时,基线模型(图 3b)的成功率从0.59降到0.39。然而当蛋白质相似性截止值降至0.4时,模型成功率降至0.20。这表明该模型善于推断已知蛋白质的新结合模式,但在预测未见过的蛋白质时却面临挑战,即使要预测的配体与训练集相似。(2)预训练的编码器和构象感知WSL都能在很大程度上提高模型性能(图 3c,d),而WSL的表现更好。如图3a-d所示,在大多数相似性截止条件下,两者都能提高成功率(最高可达0.14)。训练集越严格(即相似性截止值越低),提高的幅度就越大。例如,在蛋白质和配体的相似性截止值为1.0时,预训练编码器和WSL与基线相比分别提高了0.02和0.04;在蛋白质和配体的相似性截止值为0.4时,则分别可以提高0.06和0.14。

a7292bf046825dd6a36ba7a1dcbd4b16.png
图 3

高效建模蛋白构象变化

FlexPose 可高效预测蛋白质的构象变化,重塑蛋白质侧链,并提供骨架CA和CB原子位置估计值。对于所有氨基酸类型,模型预测侧链构象的χ角误差(图 4a)都比 RosettaLigand低得多。如图2a,b所示,模型将参与相互作用的残基从apo构象重塑为holo构象。图 2a 中的红圈显示了apoY365与原生配体构象之间的冲突,预测结果改善了这一冲突,此外在预测中还建立了非共价相互作用(如π-π堆叠)。模型对骨架 CA 原子预测的平均误差分别为 0.78Å和1.41Å。上述结果表明,模型在重塑蛋白质构象变化方面具有显著的精确性。

9d7ad641d0436c9d5ad4955af8b645d4.png
图 4

亲和力和模型置信度估计提供互作分析参考

FlexPose 提供了对结合亲和力和模型置信度的估计,这对蛋白质配体相互作用的后期分析非常有用。如图4c所示,模型对亲和力估计的皮尔逊相关系数(Pearson R)分别为0.809 和0.801。为了评估预测的可靠性,文章引入了一个称为 "ENS-factor "的模型置信度指标,它不需要额外的可训练参数。它基于这样一个假设:初始三维嵌入不同,模型都倾向于对有把握的部分做出一致的预测。ENS-factor的值是作为预测结构集合内偏差的简化表示来计算的。ENS-factor值越高,表明模型的可信度越高。图5显示了四个可视化样本。ENS-factor(即高置信度,以绿色显示)接近天然位置。相比之下,ENS-factor低(即置信度低,用红色表示)的子结构误差较大。模型在分子层级上的ENS-factor与rmsd(图 5e)之间的 Pearson R值为-0.61,原子层级的ENS-factor与原子位置误差(图 5f)之间的 Pearson R 值为-0.54。这些结果表明 ENS 因子可以代表预测中的潜在误差,为进一步的结构分析(如非共价相互作用)提供直接的视觉参考。

9161025de803e432e2bced2b5b3c097c.png
图 5

结论

FlexPose是一种高效的端到端深度学习框架,可用于柔性建模蛋白质配体复合物结构。得益于标量-向量双特征表示、SE(3)-等变网络、构象感知预训练和 WSL,其准确性大大超过了所有测试过的对接工具和近期深度学习方法,且大大缩短了预测时间。此外,模型能准确估计结合亲和力和模型置信度,以协助后期分析,这对于计算机辅助的药物相关开发(如药物设计、药物筛选)非常有用。

参考资料

Equivariant Flexible Modeling of the Protein–Ligand Binding Pose with Geometric Deep Learning; Tiejun Dong, Ziduo Yang, Jun Zhou, and Calvin Yu-Chian Chen; Journal of Chemical Theory and Computation Article ASAP

DOI: 10.1021/acs.jctc.3c00273

代码

https://github.com/tiejundong/FlexPose

相关文章:

J. Chem. Theory Comput. | AI驱动的柔性蛋白-小分子复合物建模

今天为大家介绍的是来自陈语谦教授团队发表在Journal of Chemical Theory and Computation的论文,“Equivariant Flexible Modeling of the Protein−Ligand Binding Pose with Geometric Deep Learning”,博士生董铁君为第一作者。该文提出了一种新的AI…...

数据库sql语句设置外键

当我们需要在数据库表之间建立关联关系时,可以使用外键(Foreign Key)来实现。在 SQL 中,外键可以用来保持数据的完整性,并帮助我们更有效地管理数据。以下是设置外键的步骤: 1.在创建表时,需要…...

excel在函数中插入函数

例如,要计算RAND()1的值,其中RAND()表示取0~1之间的随机数。 插入-》函数: 选SUM函数: 点击“继续”: 将光标先放在数字1中的输入框中,然后在左边过滤出RAND函数,并且点击继续&#xff1…...

保姆级前端翻牌效果(CSS)

效果 翻牌效果 hover 时候 代码直接上 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document<…...

Mac环境配置的相关知识

Mac中配置环境的三个途径&#xff1a; 1.open/vim /etc/profile (建议不修改这个文件)全局(公有)配置&#xff0c;不管是哪个用户&#xff0c;登录时都会读取该文件(一般在这个文件中添加系统级环境变量) 2./etc/bashrc全局(公有)配置&#xff0c;bash shell执行时&#xff0…...

业务连续性:确保稳健运营的关键战略

在今天的快节奏商业环境中&#xff0c;保障业务连续性是企业成功的重要保障。业务连续性不仅仅是关于应对自然灾害或技术故障&#xff0c;更是一项战略&#xff0c;涉及组织的整体准备、规划和应对能力&#xff0c;以确保在各种情况下业务的稳健运营。 一、业务连续性的定义 业…...

【Pytorch和深度学习】栏目导读

一、栏目说明 本栏目《pytorch实践》是为初学者入门深度学习准备的。本文是该栏目的导读部分&#xff0c;因为计划本栏目在明年完成&#xff0c;因此&#xff0c;导读部分&#xff0c;即本文也在持续更新中。 本栏目设计目标是将深度学习全面用pytorch实践一遍&#xff0c;由浅…...

sklearn笔记:neighbors.NearestNeighbors

1 最近邻 class sklearn.neighbors.NearestNeighbors(*, n_neighbors5, radius1.0, algorithmauto, leaf_size30, metricminkowski, p2, metric_paramsNone, n_jobsNone)邻居搜索算法的选择通过关键字 algorithm 控制&#xff0c;它必须是 [auto, ball_tree, kd_tree, brute] …...

V-for中 key 值的作用,如何选择key

Vue.js 中的 v-for 指令是一个强大的工具&#xff0c;可以用于循环渲染列表数据。在使用 v-for 指令时&#xff0c;我们经常需要为每个循环项指定一个 key 值。本文将深入探讨 key 值的作用&#xff0c;并为您提供如何选择 key 值的建议和指导。 开始 在开始之前&#xff0c;让…...

linux内核驱动开发

系列文章目录 主要介绍linux系统下的驱动开发 文章目录 系列文章目录 文章目录 前言 一、驱动是什么&#xff1f; 二、主要分类 2.读入数据 3.代码示例 总结 前言 对设备驱动最通俗的解释就是“驱使硬件设备行动”。驱动与底层硬件直接打交道,按照硬件设备的具体工作方式,读写…...

2.3.5 交换机的VRRP技术

实验2.3.5 交换机的VRRP技术 一、任务描述二、任务分析三、具体要求四、实验拓扑五、任务实施1.交换机的基本配置 六、任务验收七、任务小结 一、任务描述 某公司的网络核心层原来采用一台三层交换机&#xff0c;随着网络应用的日益增多&#xff0c;对网络的可靠性也提出了越来…...

Knowledge Graph Reasoning with Relational Digraph

摘要: 知识图推理的目的是从已有的事实中推断出新的事实。基于关系路径的推理方法具有较强的可解释性和可转移性。然而&#xff0c;路径在捕获图中的局部证据方面自然受到限制。在本文中&#xff0c;我们引入了一种新的关系结构&#xff0c;即关系有向图(r-digraph)&#xff0…...

力扣203:移除链表元素

力扣203&#xff1a;移除链表元素 题目描述&#xff1a; 给你一个链表的头节点 head 和一个整数 val &#xff0c;请你删除链表中所有满足 Node.val val 的节点&#xff0c;并返回 新的头节点 。 示例 1&#xff1a; 输入&#xff1a;head [1,2,6,3,4,5,6], val 6 输出&a…...

Moto edge s pro手机 WIFI和蓝牙连接不上 解决方法分享

2021年12月入手一台Moto Edge S Pro 12256版&#xff0c;看着性价比很高&#xff0c;越用越垃圾。屏幕显示没有vivo亮丽/APP图标很丑/屏幕上一点点水就失灵/拍照片边缘是模糊的/系统几乎不更新。 以上都可以忍受&#xff0c;但是&#xff1a; 用一年不到&#xff0c;蓝牙不能…...

两万字图文详解!InnoDB锁专题!

前言 本文将跟大家聊聊 InnoDB 的锁。本文比较长&#xff0c;包括一条 SQL 是如何加锁的&#xff0c;一些加锁规则、如何分析和解决死锁问题等内容&#xff0c;建议耐心读完&#xff0c;肯定对大家有帮助的。 为什么需要加锁呢&#xff1f; InnoDB 的七种锁介绍 一条 SQL 是…...

2023湖南省赛

​​​​​​连接 目录 A:开开心心233 B:Square Game C:室温超导 F:necklace I:hard math J:radius K:tourist 补题中&#xff0c;会给出大部分代码 A:开开心心233 签到题 &#xff0c;无论二分还是解方程还是直接for循环枚举都能直接通过啦 signed main() {ios_base:…...

AISchedule(3):基础生成表格

<!DOCTYPE html> <html> <head><meta charset"utf-8"><title>事件列表</title><!-- 加载样式表 --><style>/* 基础样式 */body {background: linear-gradient(to bottom, #f2f2f2, #e0e0e0);font-family: Helvetica…...

OpenAI 上线新功能力捧 RAG,开发者真的不需要向量数据库了?

近期&#xff0c; OpenAI 的开发者大会迅速成为各大媒体及开发者的热议焦点&#xff0c;有人甚至发出疑问“向量数据库是不是失宠了&#xff1f;” 这并非空穴来风。的确&#xff0c;OpenAI 在现场频频放出大招&#xff0c;宣布推出 GPT-4 Turbo 模型、全新 Assistants API 和一…...

PyCharm鼠标控制字体缩放

File->Settings->Keymap 右边搜索栏输入increase(放大)&#xff0c;可以看到下面出现increase Font Size(放大字体尺寸)&#xff0c;双击。 双击后出现几个选项&#xff0c;选择Add Mouse Shortcut,会出现一个页面给录入动作。 按住Ctrl同时鼠标向上滚动&#xff0c;该动…...

NI USRP RIO软件无线电

NI USRP RIO软件无线电 NI USRP RIO是SDR游戏规则的改变者&#xff0c;它为无线通信设计人员提供了经济实惠的SDR和前所不高的性能&#xff0c;可帮助开发下一代5G无线通信系统。“USRP RIO”是一个术语&#xff0c;用于描述包含FPGA的USRP软件定义无线电设备&#xff0c;例如…...

kicad源代码研究:symbol properties窗口中为SCH_SYMBOL添加或删除一个sch_field

向grid中添加一个sch_field FIELDS_GRID_TABLE<SCH_FIELD>* m_fields; WX_GRID* m_fieldsGrid; simEnableFieldRow (int) m_fields->size(); m_fields->emplace_back( VECTOR2I( 0, 0 ), simEnableFieldRow, m_symbol, SIM_ENABLE_FIELD ); // notify the grid w…...

httpClient超时时间详解与测试案例

使用httpclient作为http请求的客户端时&#xff0c;我们一般都会设置超时时间&#xff0c;这样就可以避免因为接口长时间无响应或者建立连接耗时比较久导致自己的系统崩溃。通常它里面设置的几个超时时间如下&#xff1a; RequestConfig config RequestConfig.custom().setCo…...

后端接口性能优化分析-数据库优化

&#x1f44f;作者简介&#xff1a;大家好&#xff0c;我是爱吃芝士的土豆倪&#xff0c;24届校招生Java选手&#xff0c;很高兴认识大家&#x1f4d5;系列专栏&#xff1a;Spring源码、JUC源码&#x1f525;如果感觉博主的文章还不错的话&#xff0c;请&#x1f44d;三连支持&…...

都很忙,哪里寻找时间?

最近忙不&#xff1f; 多久未联系的朋友发来信息。 我感觉就是一坑。 说忙吧&#xff0c;显得自己很重要&#xff0c;可说不忙吧&#xff0c;又显得没价值。 有事说事&#xff0c;不要上来就说“在不&#xff1f;忙不&#xff1f;有时间不&#xff1f;空不&#xff1f;”等…...

【经验记录】Ubuntu系统安装xxxxx.tar.gz报错ImportError: No module named setuptools

最近在Anaconda环境下需要离线状态&#xff08;不能联网的情况&#xff09;下安装一个xxxxx.tar.gz格式的包&#xff0c;将对应格式的包解压后&#xff0c;按照如下命令进行安装 sudo python setup.py build # 编译 sudo python setup.py install # 安装总是报错如下信息&am…...

SDL2 消息循环和事件响应

1.简介 SDL事件可以是用户输入、系统通知或窗口管理事件等。SDL事件可以通过SDL_PollEvent和SDL_WaitEvent函数来获取。在SDL中&#xff0c;事件是通过SDL_Event结构体表示的&#xff0c;其中包含事件类型以及与该类型相关的具体数据。 下面是一些常见的SDL事件类型和相关的事…...

技巧篇:Mac 环境PyCharm 配置 python Anaconda

Mac 中 PyCharm 配置 python Anaconda环境 在 python 开发中我们最常用的IDE就是PyCharm&#xff0c;有关PyCharm的优点这里就不在赘述。在项目开发中我们经常用到许多第三方库&#xff0c;用的最多的命令就是pip install 第三方库名 进行安装。现在你可以使用一个工具来帮你解…...

matplotlib绘图

介绍 在官网上有更多种类的图型的绘制方法 matpoltlib中文官方文档&#xff1a;例子_Matplotlib 中文网 matpoltlib英文官方文档&#xff1a;Examples — Matplotlib 3.8.1 documentation 分类 一、折线图 1、要实现的功能&#xff1a; 2、实例&#xff1a; # 导入包 from…...

QT使用Socket与安卓Socket互发消息

背景:安卓设备通过usb网络共享给Linux,此时安卓设备与linux处于同一网络环境,符合使用socket的条件,linux做客户端,安卓做服务端 1.QT使用Socket (1).在工程文件中加入 QT network (2).导包以及写一些槽函数用做数据传输与状态接收 #ifndef MAINWINDOW_H #define MAINWINDOW…...

Redis05-集群方案

目录 Redis集群方案 主从复制 主从复制的基本原理 主从复制的工作流程 乐观复制 主从复制的优势 哨兵机制 哨兵的关键作用 服务状态监控 哨兵选举Master规则 分片集群 分片集群中的数据读写 数据写入 数据读取 一致性哈希和客户端分片 Redis集群方案 微服务时代…...