Nature Communications | 张阳实验室:端到端深度学习实现高精度RNA结构预测
RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑战之一。
近日,新加坡国立大学张阳教授团队在《Nature Communications》杂志上发表了题为 “Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction” 的研究论文。该研究报道了一项用于精确预测RNA的三维结构全新技术DRfold。新加坡国立大学和密歇根大学的李阳博士、张成辛博士和封晨洁博士为该论文的共同第一作者。
图1: 新加坡国立大学张阳团队在《Nature Communication》上的论文
研究背景
就像蛋白质分子一样,RNA分子的生物学功能与其特定的三维构象密切相关;而这种三维构型取决于RNA分子中核苷酸序列的排列顺序。RNA分子的序列和结构,会影响到RNA的稳定性、药物结合、催化活性等多个关键功能。因此,深入了解RNA的三维结构对于疾病研究和药物开发至关重要。然而,传统X射线晶体、冷冻电镜和核磁共振等生物湿实验方法不仅耗时,而且成本高昂,远远无法满足生物学家的结构测定需求。因此,直接基于RNA序列进行结构建模的计算方法成为现代计算生物学一个前沿热点方向。
DRfold采用了一种RNA的粗粒度模型,并将RNA结构的特定原子进行建模,以达到提高计算效率的目的。特别是,研究人员引入了一个与端对端训练并行运行的新颖几何模块设计,同时整合端对端学习和几何势,指导RNA结构的模拟重建。研究结果令人振奋,DRfold方法能够生成比传统自动方法更准确的RNA结构模型。另外,定量的基准测试结果表明,端到端深度学习与几何学相结合,超越了仅基于粗粒度端对端学习或仅基于几何的结构优化方法。
DRfold的执行代码可以在张阳团队的实验室网页(https://zhanggroup.org/DRfold/)免费获得。该网页也提供在线服务。使用者只需提供RNA序列,DRfold服务器自动生成RNA三维结构模型。
DRfold算法流程
DRfold流程如图2A所示。首先,通过用户提供待预测的RNA序列,DRfold 预测该序列的二级结构特征;其次,这些信息被送入嵌入层(图2B),它的任务是将输入的RNA序列和二级结构信息转化为计算机可以理解的表示形式。
随后,这些表示形式通过 48 个 RNA transformer 模块(图2C),进行了一系列复杂的转换。这个过程中,深度学习将自动学习如何通过结构模块(图2D)预测RNA的全局结构,包括每个核苷酸的旋转和平移信息(图2G),这些信息将用于后续恢复RNA特定原子(图2F)坐标。
同时,还有另一组神经网络模型(图2E)专门用于预测RNA核苷酸之间的几何约束(图2H)。所学到的全局结构信息和核苷酸间的几何信息将被整合成一个复合势能。这个复合势能描述了RNA分子的稳定性和构象。
随后,计算机使用基于梯度的优化算法,尝试不断调整RNA分子的构象,以找到具有最低能量的最稳定的结构。最终,这个优化后的构象被选定作为DRfold的输出模型。
图2. DRfold利用深度学习预测RNA分子结构流程图
实验结果
与同类算法的比较
这项研究首先将DRfold与以前的RNA结构计算机预测方法进行了比较。对比方法包括片段组装方法和从头预测方法。计算结果表明DRfold在多项性能指标上均超越了这些方法(图3)。例如,与其他方法相比,DRfold的模型在RMSD误差和TM-score方面表现出更高的准确性,这表明它可以更准确地预测RNA结构的三维构象。
图3. DRfold与其他方法的性能比较
DRfold的性能优势
DRfold的性能优势与研究团队的预期一致。因为现有的自动RNA结构预测方法主要利用基本的经验和统计势能的形式来进行预测,这种形式通常表示为𝑃(𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒|𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒)。由于这些方法的力场中参数数量有限,因此无法广泛考虑全局序列条件,通用的势能形式(例如距离或角度)也不能精确地确定RNA结构的复杂拓扑结构。相比之下,DRfold使用的Transformer模块嵌入了大量的权重参数设置,使其能够访问RNA全局序列信息。这意味着DRfold可以更好地捕捉RNA序列中的全局特征,从而提高了结构预测的准确性。
此外,DRfold还采用了端到端的损失函数(loss function),确保深度学习的预测与正确的整体构象高度一致。这意味着DRfold不仅可以考虑全局序列信息,还可以确保生成的结构与实际的RNA结构紧密匹配。
氢键的作用
在RNA分子中,氢键相互作用在三维结构中起着至关重要的作用,直接影响着RNA的结构和生物功能。准确地预测这些关键的结构模式对于推进我们对RNA生物学的认识至关重要。尽管DRfold没有在其方法中明确纳入特定的碱基配对信息,但它在相关评估指标上的表现都优于其他方法(表1)。
表1. DRfold与其他方法的RNA二级结构恢复性能比较
这表明在DRfold的方法中,通过学到的相对位置的帧对齐点误差(FAPE)和几何分布,可能形成了一种隐含的机制,有助于恢复RNA结构内的碱基配对模式。然而,值得注意的是,DRfold 在预测非经典碱基配对模式(INF_nwc)方面的成功率仍然相对较低。为了在这一特定方面提高准确性,研究人员建议开发一个更详细的原子水平学习模型。通过增强非经典配对示例的数据集权重,从而期望提供更准确的预测。
伪结(pseudo-knot)的预测
该项研究的测试集中涉及了40个RNA测试目标,其中15个包含被称为伪结(pseudo-knot)的复杂结构。有趣的是,虽然其他方法难以准确检测到这些伪结,但DRfold成功预测了两个与原生结构中观察到的伪结非常相似的结构(图4)。这突显了DRfold学习和复现RNA分子内复杂碱基间相互作用模式的出色能力。
图4. DRfold成功预测两个含有伪结的RNA分子的结构。红色部分表明伪结结构
FAPE势能和几何势能的互补
DRfold的核心创新在于引入了两种互补的势能函数:FAPE势能和几何势能。它们通过两个独立的Transformer网络进行训练,共同构成了RNA结构预测的深度学习势能。
首先,FAPE势能的作用是直接预测核苷酸的旋转矩阵和平移向量,也就是核苷酸构象的坐标信息。通过这种方式,DRfold能够更全面地考虑RNA结构的各种复杂性,从而提高了模型的预测准确性。作者训练了6个独立的端到端模型,每个模型使用不同的参数初始化。令人惊奇的是,即使在没有进行后续处理的情况下,每个单独的端到端模型已经显著优于其他同类RNA预测算法。这意味着FAPE势能本身已经为RNA结构预测带来了很大的提升。
其次,几何势能使用了一系列几何约束项,用于表示核苷酸之间的几何关系,包括距离和扭转角。几何势能的引入进一步改善了DRfold的性能。研究人员发现,将几何势能叠加到端到端势能之上,虽然改进不大,但在TM-score上带来了一致的提升。这表明几何势能主要对RNA结构的远距离核苷酸关系起到了积极的作用。
总的来说,DRfold通过端到端学习策略和几何势能的优势互补,让RNA结构预测变得更为准确和全面。如消融实验结果如图 5 所示,拿掉任何一个分量,都会降低DRfold的预测精度。
图 5. DRfold中端到端势能和几何势能的消融(ablation)实验结果
二级结构预测的作用
因为DRfold是基于单序列的结构预测,二级结构的引导显得特别重要。就像图 6 的结果所示,拿掉二级结构会显著的降低DRfold的模型预测精度。
图 6,二级结构对DRfold模型精度的影响
CASP双盲测试
早期版本的DRfold程序参与了CASP15的RNA结构预测实验,该程序被标识为“rDP”组。尽管只有12个测试目标,仍为评估DRfold的性能提供了宝贵的信息。就RMSD而言,使用惩罚阈值为-2.0和0.0时,DRfold分别排名第5和第6。在使用TM-score评估时,相同的惩罚阈值下,排名分别为第6和第9。然而,DRfold与排名前4的方法(如AIchemy_RNA2和GeneSilico等)之间存在一定的性能差距,这些方法依赖于丰富的RNA结构领域专业知识和人工专业技能。
相比之下,DRfold完全自动运行,且仅利用单一的序列信息进行预测。尽管存在这一差距,CASP15的结果表明,DRfold的基于单一序列的方法在RNA结构预测领域具有很大的潜力。它的性能与一些依赖于额外信息源(如模板、多序列比对或预训练核苷酸序列模型)的方法相媲美。这强调了DRfold在未来版本中通过复合势能函数整合多种信息源来进一步改进的潜力。
结论与展望
最近,RNA结构预测领域出现了好几种深度学习模型。这些深度学习方法根据其训练所使用的输入特征可分为单一序列方法和多序列比对(MSA)方法。MSA方法通常可以从多序列比对中获得协同进化信息,因此在整体结构预测方面性能更优。但在单一序列方法中,DRfold表现出色,显著优于其他单一序列方法,而且与大多数MSA方法的性能上相当,差异并不具有统计学上的显著性。
从方法论的角度来看,这些深度学习方法可以分为端到端方法和基于几何的方法。而DRfold则通过势能函数集成将这两种方法结合在一起。这使得DRfold在其方法流程的扩展上更具灵活性。例如,研究人员将另一种RNA结构预测算法(DeepFoldRNA)中的几何预测用于构建混合几何势能,并替换了DRfold中的默认几何势能。这种结合可以使DRfold获得了更精确的空间约束,有助于更好地引导RNA结构的组装和优化过程。
DRfold的成功得益于其深度学习模型,这一方法在现有的RNA结构预测中鲜有涉足。DRfold采用的端到端模型已被证明非常有效,再通过整合几何约束,可以进一步提高结构模型的准确性。此外,从物理学角度生成的二级结构特征也对帮助网络学习和生成准确的碱基配对和局部结构组装起到了积极作用。
然而,与蛋白质结构预测相比,RNA结构预测的整体精度仍然有限。这部分原因在于RNA结构可用于训练的实验数据相对较少。此外,为了改进对没有足够同源序列的RNA的建模,DRfold目前只使用单一序列进行训练。进一步使用多序列比对、结构模板和RNA物理知识等额外信息,将显著其结构预测的准确性。
总的来说,DRfold在人工智能RNA结构预测问题上做了一些非常有意义的探索。随着深度学习技术和RNA数据的不断发展,以DRfold为代表的人工智能算法对RNA三维结构的测定将会起着越来越重要作用。
参考文献:
Y Li, C Zhang, C Feng, R Pearce, PL Freddolino, Y Zhang. Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction. Nature Communications 14: 5745 (2023).
https://www.nature.com/articles/s41467-023-41303-9
相关文章:

Nature Communications | 张阳实验室:端到端深度学习实现高精度RNA结构预测
RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑…...

提升您的Mac文件拖拽体验——Dropzone 4 for mac
大家都知道,在Mac上进行文件拖拽是一件非常方便的事情。然而,随着我们在工作和生活中越来越多地使用电脑,我们对于这个简单操作的需求也越来越高。为了让您的文件拖拽体验更加高效和便捷,今天我们向大家介绍一款强大的工具——Dro…...

Vue之transition组件
Vue提供了transition组件,使用户可以更便捷地添加过渡动画效果。 transition组件 transition组件也是一个抽象组件,并不会渲染出真实dom。Vue会在其第一个真实子元素上添加过渡效果。 props render 这里将render分为两部分,第一部分界定真…...

lenovo联想笔记本电脑ThinkPad X13 AMD Gen2(20XH,20XJ)原装出厂Windows10系统镜像
联想原厂Win10系统,自带所有驱动、出厂主题壁纸、系统属性联想LOGO专属标志、Office办公软件、联想电脑管家等预装程序 链接:百度网盘 请输入提取码 提取码:dolg 适用于型号:20XL,20XJ,20XG,21A1,20XK,20XH,20XF,21A0 所需要…...

php导出cvs,excel打开数字超过16变科学计数法
今天使用php导出cvs,在excel中打开,某一个字段是数字,长度高于16位结果就显示科学计数法 超过15位的话从第16位开始就用0代替了 查询了半天总算解决了就是在后面加上"\t" $data[$key][1] " ".$value[1]."\t";…...

CSS 模糊效果 CSS 黑白效果 CSS调整亮度 对比度 饱和度 模糊效果 黑白效果反转颜色
CSS 模糊效果 CSS 黑白效果 CSS调整亮度 饱和度 模糊效果 黑白效果 实现 调整亮度 饱和度 模糊效果 黑白效果 使用 filter1、模糊2、亮度3、对比度4、饱和度5、黑白效果6、反转颜色7、组合使用8、 filer 完整参数 实现 调整亮度 饱和度 模糊效果 黑白效果 使用 filter 1、模糊…...

蓝桥杯 题库 简单 每日十题 day11
01 质数 质数 题目描述 给定一个正整数N,请你输出N以内(不包含N)的质数以及质数的个数。 输入描述 输入一行,包含一个正整数N。1≤N≤10^3 输出描述 共两行。 第1行包含若干个素数,每两个素数之间用一个空格隔开&…...

dart flutter json 转 model 常用库对比 json_serializable json_model JsonToDart
1.对比 我是一个初学者,一直跟着教材用原生的json,最近发现实在太麻烦了.所以搜索了一下,发现真的有很多现成的解决方案. 网页 https://app.quicktype.io/?ldart 这个是测试下来最好用的 有很多选项,可以使用 json_serializable 也可以不使用 json_serializable 这是推荐最…...
nginx启用了自动目录列表功能的安全漏洞修复方法
一、前言 最近被扫描到安全漏洞,说是nginx启用了自动目录列表功能,现象就是访问http://localhost/file就能看到服务器上的目录 二、修复方法 1.把nginx.conf中的autoindex on改为autoindex off location /file {alias /myuser/userfile/file;autoi…...
vector向量类使用
向量是最简单的 STL 容器,其数据结构与数组相似,占据着一个连续的内存块。 由于内存位置是连续的,所以向量中的元素可以随机访问,访问向量中任何一个元素的时间也是固定的。存储空间的管理是自动的,当要将一个元素插入…...

【Java 进阶篇】MySQL多表查询:内连接详解
MySQL是一种强大的关系型数据库管理系统,允许您在多个表之间执行复杂的查询操作。本文将重点介绍MySQL中的多表查询中的一种重要类型:内连接(INNER JOIN)。内连接用于检索满足两个或多个表之间关联条件的行,它能够帮助…...

C理解(四):链表
本文主要探讨单链表与双链表相关知识。 linux内核链表(include/linux/list.h) 内核链表中纯链表封装,纯链表的各种操作函数(节点创建、插入、删除、遍历),纯链表内嵌在驱动结构体中,实现驱动的创建、插入、删除、遍历等 单链表 单链表链表头插…...

新手教程,蛋糕小程序的搭建流程一网打尽
作为一名新手,想要搭建一个蛋糕小程序可能会觉得有些困惑。但是,不用担心!今天我将为大家详细介绍蛋糕小程序的搭建流程,并带大家一步步完成。 首先,我们需要登录乔拓云网的后台。在登录成功后,点击进入商城…...

springcloud之自我介绍
写在前面 在这篇文章 中我们分析了单体应用的问题,以及用来解决这些问题的解决的方案微服务,并接着看了微服务需要考虑的各种,如服务调用,负载均衡,服务治理,链路追踪,分布式事务,等…...

机器学习之神经网络的层次
文章目录 神经网络组成神经网络根据结构分类神经网络的信号传递 神经网络组成 大脑是一个巨大的神经元网络,所以神经网络是一个节点网络。根据节点的连接方式,可以创建多种神经网络。最常用的神经网络类型之一采用了如图所示的节点分层结构 正方形节点组…...

力扣每日一题(+日常水几道题)
每日一题1333. 餐厅过滤器 - 力扣(LeetCode) 简单的按规则排序,去除几个不满足的条件然后排序返回即可 #include<algorithm> class Solution { public:vector<int> filterRestaurants(vector<vector<int>>& restaurants, …...

百度SEO不稳定的原因及解决方法(百度SEO不稳定因素的5大包括)
百度SEO优化不稳定介绍:蘑菇号-www.mooogu.cn 随着百度SEO算法的不断变化和升级,许多网站的SEO排名经常出现不稳定的情况,这种情况在一定程度上影响了网站的流量和排名,导致网站的质量评分降低。因此,深入分析百度SEO…...

深度学习(1)---卷积神经网络
文章目录 一、发展历史1.1 CNN简要说明1.2 猫的视觉实验1.3 新认知机1.4 LeNet-51.5 AlexNet 二、卷积层2.1 图像识别特点2.2 卷积运算2.3 卷积核2.4 填充和步长2.5 卷积计算公式2.6 多通道卷积 三、池化层 一、发展历史 1.1 CNN简要说明 1. 卷积神经网络(Convolut…...

探索社会工程的深度:从定义到高级攻击策略
在广阔的网络安全领域,社会工程作为一种微妙的威胁而出现,它利用人类的漏洞来访问敏感信息或实施欺诈。网络安全背景下的社会工程的定义很明确:它包括使用欺骗手段操纵个人泄露机密或个人信息,然后将这些信息用于欺诈目的。 此类…...

CTF 入门指南:从零开始学习网络安全竞赛
文章目录 写在前面CTF 简介和背景CTF 赛题类型介绍CTF 技能和工具准备好书推荐 写作末尾 写在前面 CTF比赛是快速提升网络安全实战技能的重要途径,已成为各个行业选拔网络安全人才的通用方法。但是,本书作者在从事CTF培训的过程中,发现存在几…...

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

2021-03-15 iview一些问题
1.iview 在使用tree组件时,发现没有set类的方法,只有get,那么要改变tree值,只能遍历treeData,递归修改treeData的checked,发现无法更改,原因在于check模式下,子元素的勾选状态跟父节…...
什么?连接服务器也能可视化显示界面?:基于X11 Forwarding + CentOS + MobaXterm实战指南
文章目录 什么是X11?环境准备实战步骤1️⃣ 服务器端配置(CentOS)2️⃣ 客户端配置(MobaXterm)3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果
ArcGIS Pro制作水平横向图例+多级标注
今天介绍下载ArcGIS Pro中如何设置水平横向图例。 之前我们介绍了ArcGIS的横向图例制作:ArcGIS横向、多列图例、顺序重排、符号居中、批量更改图例符号等等(ArcGIS出图图例8大技巧),那这次我们看看ArcGIS Pro如何更加快捷的操作。…...
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析
Java求职者面试指南:Spring、Spring Boot、MyBatis框架与计算机基础问题解析 一、第一轮提问(基础概念问题) 1. 请解释Spring框架的核心容器是什么?它在Spring中起到什么作用? Spring框架的核心容器是IoC容器&#…...
AGain DB和倍数增益的关系
我在设置一款索尼CMOS芯片时,Again增益0db变化为6DB,画面的变化只有2倍DN的增益,比如10变为20。 这与dB和线性增益的关系以及传感器处理流程有关。以下是具体原因分析: 1. dB与线性增益的换算关系 6dB对应的理论线性增益应为&…...

人机融合智能 | “人智交互”跨学科新领域
本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

Golang——7、包与接口详解
包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...

手机平板能效生态设计指令EU 2023/1670标准解读
手机平板能效生态设计指令EU 2023/1670标准解读 以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读,综合法规核心要求、最新修正及企业合规要点: 一、法规背景与目标 生效与强制时间 发布于2023年8月31日(OJ公报&…...