当前位置: 首页 > news >正文

Nature Communications | 张阳实验室:端到端深度学习实现高精度RNA结构预测

RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑战之一。

近日,新加坡国立大学张阳教授团队在《Nature Communications》杂志上发表了题为 “Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction” 的研究论文。该研究报道了一项用于精确预测RNA的三维结构全新技术DRfold。新加坡国立大学和密歇根大学的李阳博士、张成辛博士和封晨洁博士为该论文的共同第一作者。


图1: 新加坡国立大学张阳团队在《Nature Communication》上的论文

研究背景

就像蛋白质分子一样,RNA分子的生物学功能与其特定的三维构象密切相关;而这种三维构型取决于RNA分子中核苷酸序列的排列顺序。RNA分子的序列和结构,会影响到RNA的稳定性、药物结合、催化活性等多个关键功能。因此,深入了解RNA的三维结构对于疾病研究和药物开发至关重要。然而,传统X射线晶体、冷冻电镜和核磁共振等生物湿实验方法不仅耗时,而且成本高昂,远远无法满足生物学家的结构测定需求。因此,直接基于RNA序列进行结构建模的计算方法成为现代计算生物学一个前沿热点方向。

DRfold采用了一种RNA的粗粒度模型,并将RNA结构的特定原子进行建模,以达到提高计算效率的目的。特别是,研究人员引入了一个与端对端训练并行运行的新颖几何模块设计,同时整合端对端学习和几何势,指导RNA结构的模拟重建。研究结果令人振奋,DRfold方法能够生成比传统自动方法更准确的RNA结构模型。另外,定量的基准测试结果表明,端到端深度学习与几何学相结合,超越了仅基于粗粒度端对端学习或仅基于几何的结构优化方法

DRfold的执行代码可以在张阳团队的实验室网页(https://zhanggroup.org/DRfold/)免费获得。该网页也提供在线服务。使用者只需提供RNA序列,DRfold服务器自动生成RNA三维结构模型。

DRfold算法流程

DRfold流程如图2A所示。首先,通过用户提供待预测的RNA序列,DRfold 预测该序列的二级结构特征;其次,这些信息被送入嵌入层(图2B),它的任务是将输入的RNA序列和二级结构信息转化为计算机可以理解的表示形式。

随后,这些表示形式通过 48 个 RNA transformer 模块(图2C),进行了一系列复杂的转换。这个过程中,深度学习将自动学习如何通过结构模块(图2D)预测RNA的全局结构,包括每个核苷酸的旋转和平移信息(图2G),这些信息将用于后续恢复RNA特定原子(图2F)坐标。

同时,还有另一组神经网络模型(图2E)专门用于预测RNA核苷酸之间的几何约束(图2H)。所学到的全局结构信息和核苷酸间的几何信息将被整合成一个复合势能。这个复合势能描述了RNA分子的稳定性和构象。

随后,计算机使用基于梯度的优化算法,尝试不断调整RNA分子的构象,以找到具有最低能量的最稳定的结构。最终,这个优化后的构象被选定作为DRfold的输出模型。

图2. DRfold利用深度学习预测RNA分子结构流程图

实验结果

与同类算法的比较

这项研究首先将DRfold与以前的RNA结构计算机预测方法进行了比较。对比方法包括片段组装方法和从头预测方法。计算结果表明DRfold在多项性能指标上均超越了这些方法(图3)。例如,与其他方法相比,DRfold的模型在RMSD误差和TM-score方面表现出更高的准确性,这表明它可以更准确地预测RNA结构的三维构象。

图3. DRfold与其他方法的性能比较

DRfold的性能优势

DRfold的性能优势与研究团队的预期一致。因为现有的自动RNA结构预测方法主要利用基本的经验和统计势能的形式来进行预测,这种形式通常表示为𝑃(𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑒|𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒)。由于这些方法的力场中参数数量有限,因此无法广泛考虑全局序列条件,通用的势能形式(例如距离或角度)也不能精确地确定RNA结构的复杂拓扑结构。相比之下,DRfold使用的Transformer模块嵌入了大量的权重参数设置,使其能够访问RNA全局序列信息。这意味着DRfold可以更好地捕捉RNA序列中的全局特征,从而提高了结构预测的准确性。

此外,DRfold还采用了端到端的损失函数(loss function),确保深度学习的预测与正确的整体构象高度一致。这意味着DRfold不仅可以考虑全局序列信息,还可以确保生成的结构与实际的RNA结构紧密匹配。

氢键的作用

在RNA分子中,氢键相互作用在三维结构中起着至关重要的作用,直接影响着RNA的结构和生物功能。准确地预测这些关键的结构模式对于推进我们对RNA生物学的认识至关重要。尽管DRfold没有在其方法中明确纳入特定的碱基配对信息,但它在相关评估指标上的表现都优于其他方法(表1)。

表1. DRfold与其他方法的RNA二级结构恢复性能比较

这表明在DRfold的方法中,通过学到的相对位置的帧对齐点误差(FAPE)和几何分布,可能形成了一种隐含的机制,有助于恢复RNA结构内的碱基配对模式。然而,值得注意的是,DRfold 在预测非经典碱基配对模式(INF_nwc)方面的成功率仍然相对较低。为了在这一特定方面提高准确性,研究人员建议开发一个更详细的原子水平学习模型。通过增强非经典配对示例的数据集权重,从而期望提供更准确的预测。

伪结(pseudo-knot)的预测

该项研究的测试集中涉及了40个RNA测试目标,其中15个包含被称为伪结(pseudo-knot)的复杂结构。有趣的是,虽然其他方法难以准确检测到这些伪结,但DRfold成功预测了两个与原生结构中观察到的伪结非常相似的结构(图4)。这突显了DRfold学习和复现RNA分子内复杂碱基间相互作用模式的出色能力。

图4. DRfold成功预测两个含有伪结的RNA分子的结构。红色部分表明伪结结构

FAPE势能和几何势能的互补

DRfold的核心创新在于引入了两种互补的势能函数:FAPE势能和几何势能。它们通过两个独立的Transformer网络进行训练,共同构成了RNA结构预测的深度学习势能

首先,FAPE势能的作用是直接预测核苷酸的旋转矩阵和平移向量,也就是核苷酸构象的坐标信息。通过这种方式,DRfold能够更全面地考虑RNA结构的各种复杂性,从而提高了模型的预测准确性。作者训练了6个独立的端到端模型,每个模型使用不同的参数初始化。令人惊奇的是,即使在没有进行后续处理的情况下,每个单独的端到端模型已经显著优于其他同类RNA预测算法。这意味着FAPE势能本身已经为RNA结构预测带来了很大的提升。

其次,几何势能使用了一系列几何约束项,用于表示核苷酸之间的几何关系,包括距离和扭转角。几何势能的引入进一步改善了DRfold的性能。研究人员发现,将几何势能叠加到端到端势能之上,虽然改进不大,但在TM-score上带来了一致的提升。这表明几何势能主要对RNA结构的远距离核苷酸关系起到了积极的作用。

总的来说,DRfold通过端到端学习策略和几何势能的优势互补,让RNA结构预测变得更为准确和全面。如消融实验结果如图 5 所示,拿掉任何一个分量,都会降低DRfold的预测精度。

图 5. DRfold中端到端势能和几何势能的消融(ablation)实验结果

二级结构预测的作用

因为DRfold是基于单序列的结构预测,二级结构的引导显得特别重要。就像图 6 的结果所示,拿掉二级结构会显著的降低DRfold的模型预测精度。


图 6,二级结构对DRfold模型精度的影响

CASP双盲测试

早期版本的DRfold程序参与了CASP15的RNA结构预测实验,该程序被标识为“rDP”组。尽管只有12个测试目标,仍为评估DRfold的性能提供了宝贵的信息。就RMSD而言,使用惩罚阈值为-2.0和0.0时,DRfold分别排名第5和第6。在使用TM-score评估时,相同的惩罚阈值下,排名分别为第6和第9。然而,DRfold与排名前4的方法(如AIchemy_RNA2和GeneSilico等)之间存在一定的性能差距,这些方法依赖于丰富的RNA结构领域专业知识和人工专业技能。

相比之下,DRfold完全自动运行,且仅利用单一的序列信息进行预测。尽管存在这一差距,CASP15的结果表明,DRfold的基于单一序列的方法在RNA结构预测领域具有很大的潜力。它的性能与一些依赖于额外信息源(如模板、多序列比对或预训练核苷酸序列模型)的方法相媲美。这强调了DRfold在未来版本中通过复合势能函数整合多种信息源来进一步改进的潜力。

结论与展望

最近,RNA结构预测领域出现了好几种深度学习模型。这些深度学习方法根据其训练所使用的输入特征可分为单一序列方法和多序列比对(MSA)方法。MSA方法通常可以从多序列比对中获得协同进化信息,因此在整体结构预测方面性能更优。但在单一序列方法中,DRfold表现出色,显著优于其他单一序列方法,而且与大多数MSA方法的性能上相当,差异并不具有统计学上的显著性。

从方法论的角度来看,这些深度学习方法可以分为端到端方法和基于几何的方法。而DRfold则通过势能函数集成将这两种方法结合在一起。这使得DRfold在其方法流程的扩展上更具灵活性。例如,研究人员将另一种RNA结构预测算法(DeepFoldRNA)中的几何预测用于构建混合几何势能,并替换了DRfold中的默认几何势能。这种结合可以使DRfold获得了更精确的空间约束,有助于更好地引导RNA结构的组装和优化过程。

DRfold的成功得益于其深度学习模型,这一方法在现有的RNA结构预测中鲜有涉足。DRfold采用的端到端模型已被证明非常有效,再通过整合几何约束,可以进一步提高结构模型的准确性。此外,从物理学角度生成的二级结构特征也对帮助网络学习和生成准确的碱基配对和局部结构组装起到了积极作用。

然而,与蛋白质结构预测相比,RNA结构预测的整体精度仍然有限。这部分原因在于RNA结构可用于训练的实验数据相对较少。此外,为了改进对没有足够同源序列的RNA的建模,DRfold目前只使用单一序列进行训练。进一步使用多序列比对、结构模板和RNA物理知识等额外信息,将显著其结构预测的准确性。

总的来说,DRfold在人工智能RNA结构预测问题上做了一些非常有意义的探索。随着深度学习技术和RNA数据的不断发展,以DRfold为代表的人工智能算法对RNA三维结构的测定将会起着越来越重要作用。

参考文献:

Y Li, C Zhang, C Feng, R Pearce, PL Freddolino, Y Zhang. Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction. Nature Communications 14: 5745 (2023).

https://www.nature.com/articles/s41467-023-41303-9

相关文章:

Nature Communications | 张阳实验室:端到端深度学习实现高精度RNA结构预测

RNA分子是基因转录的主要执行者,也是细胞运作的隐形功臣。它们在基因表达调控、支架构建以及催化活性等多个生命过程中都扮演着关键角色。虽然RNA如此重要,但由于实验数据的缺乏,准确预测RNA 的三维空间结构仍然是目前计算生物学面临的重大挑…...

提升您的Mac文件拖拽体验——Dropzone 4 for mac

大家都知道,在Mac上进行文件拖拽是一件非常方便的事情。然而,随着我们在工作和生活中越来越多地使用电脑,我们对于这个简单操作的需求也越来越高。为了让您的文件拖拽体验更加高效和便捷,今天我们向大家介绍一款强大的工具——Dro…...

Vue之transition组件

Vue提供了transition组件,使用户可以更便捷地添加过渡动画效果。 transition组件 transition组件也是一个抽象组件,并不会渲染出真实dom。Vue会在其第一个真实子元素上添加过渡效果。 props render 这里将render分为两部分,第一部分界定真…...

lenovo联想笔记本电脑ThinkPad X13 AMD Gen2(20XH,20XJ)原装出厂Windows10系统镜像

联想原厂Win10系统,自带所有驱动、出厂主题壁纸、系统属性联想LOGO专属标志、Office办公软件、联想电脑管家等预装程序 链接:百度网盘 请输入提取码 提取码:dolg 适用于型号:20XL,20XJ,20XG,21A1,20XK,20XH,20XF,21A0 所需要…...

php导出cvs,excel打开数字超过16变科学计数法

今天使用php导出cvs,在excel中打开,某一个字段是数字,长度高于16位结果就显示科学计数法 超过15位的话从第16位开始就用0代替了 查询了半天总算解决了就是在后面加上"\t" $data[$key][1] " ".$value[1]."\t";…...

CSS 模糊效果 CSS 黑白效果 CSS调整亮度 对比度 饱和度 模糊效果 黑白效果反转颜色

CSS 模糊效果 CSS 黑白效果 CSS调整亮度 饱和度 模糊效果 黑白效果 实现 调整亮度 饱和度 模糊效果 黑白效果 使用 filter1、模糊2、亮度3、对比度4、饱和度5、黑白效果6、反转颜色7、组合使用8、 filer 完整参数 实现 调整亮度 饱和度 模糊效果 黑白效果 使用 filter 1、模糊…...

蓝桥杯 题库 简单 每日十题 day11

01 质数 质数 题目描述 给定一个正整数N,请你输出N以内(不包含N)的质数以及质数的个数。 输入描述 输入一行,包含一个正整数N。1≤N≤10^3 输出描述 共两行。 第1行包含若干个素数,每两个素数之间用一个空格隔开&…...

dart flutter json 转 model 常用库对比 json_serializable json_model JsonToDart

1.对比 我是一个初学者,一直跟着教材用原生的json,最近发现实在太麻烦了.所以搜索了一下,发现真的有很多现成的解决方案. 网页 https://app.quicktype.io/?ldart 这个是测试下来最好用的 有很多选项,可以使用 json_serializable 也可以不使用 json_serializable 这是推荐最…...

nginx启用了自动目录列表功能的安全漏洞修复方法

一、前言 最近被扫描到安全漏洞,说是nginx启用了自动目录列表功能,现象就是访问http://localhost/file就能看到服务器上的目录 二、修复方法 1.把nginx.conf中的autoindex on改为autoindex off location /file {alias /myuser/userfile/file;autoi…...

vector向量类使用

向量是最简单的 STL 容器,其数据结构与数组相似,占据着一个连续的内存块。 由于内存位置是连续的,所以向量中的元素可以随机访问,访问向量中任何一个元素的时间也是固定的。存储空间的管理是自动的,当要将一个元素插入…...

【Java 进阶篇】MySQL多表查询:内连接详解

MySQL是一种强大的关系型数据库管理系统,允许您在多个表之间执行复杂的查询操作。本文将重点介绍MySQL中的多表查询中的一种重要类型:内连接(INNER JOIN)。内连接用于检索满足两个或多个表之间关联条件的行,它能够帮助…...

C理解(四):链表

本文主要探讨单链表与双链表相关知识。 linux内核链表(include/linux/list.h) 内核链表中纯链表封装,纯链表的各种操作函数(节点创建、插入、删除、遍历),纯链表内嵌在驱动结构体中,实现驱动的创建、插入、删除、遍历等 单链表 单链表链表头插…...

新手教程,蛋糕小程序的搭建流程一网打尽

作为一名新手,想要搭建一个蛋糕小程序可能会觉得有些困惑。但是,不用担心!今天我将为大家详细介绍蛋糕小程序的搭建流程,并带大家一步步完成。 首先,我们需要登录乔拓云网的后台。在登录成功后,点击进入商城…...

springcloud之自我介绍

写在前面 在这篇文章 中我们分析了单体应用的问题,以及用来解决这些问题的解决的方案微服务,并接着看了微服务需要考虑的各种,如服务调用,负载均衡,服务治理,链路追踪,分布式事务,等…...

机器学习之神经网络的层次

文章目录 神经网络组成神经网络根据结构分类神经网络的信号传递 神经网络组成 大脑是一个巨大的神经元网络,所以神经网络是一个节点网络。根据节点的连接方式,可以创建多种神经网络。最常用的神经网络类型之一采用了如图所示的节点分层结构 正方形节点组…...

力扣每日一题(+日常水几道题)

每日一题1333. 餐厅过滤器 - 力扣&#xff08;LeetCode&#xff09; 简单的按规则排序,去除几个不满足的条件然后排序返回即可 #include<algorithm> class Solution { public:vector<int> filterRestaurants(vector<vector<int>>& restaurants, …...

百度SEO不稳定的原因及解决方法(百度SEO不稳定因素的5大包括)

百度SEO优化不稳定介绍&#xff1a;蘑菇号-www.mooogu.cn 随着百度SEO算法的不断变化和升级&#xff0c;许多网站的SEO排名经常出现不稳定的情况&#xff0c;这种情况在一定程度上影响了网站的流量和排名&#xff0c;导致网站的质量评分降低。因此&#xff0c;深入分析百度SEO…...

深度学习(1)---卷积神经网络

文章目录 一、发展历史1.1 CNN简要说明1.2 猫的视觉实验1.3 新认知机1.4 LeNet-51.5 AlexNet 二、卷积层2.1 图像识别特点2.2 卷积运算2.3 卷积核2.4 填充和步长2.5 卷积计算公式2.6 多通道卷积 三、池化层 一、发展历史 1.1 CNN简要说明 1. 卷积神经网络&#xff08;Convolut…...

探索社会工程的深度:从定义到高级攻击策略

在广阔的网络安全领域&#xff0c;社会工程作为一种微妙的威胁而出现&#xff0c;它利用人类的漏洞来访问敏感信息或实施欺诈。网络安全背景下的社会工程的定义很明确&#xff1a;它包括使用欺骗手段操纵个人泄露机密或个人信息&#xff0c;然后将这些信息用于欺诈目的。 此类…...

CTF 入门指南:从零开始学习网络安全竞赛

文章目录 写在前面CTF 简介和背景CTF 赛题类型介绍CTF 技能和工具准备好书推荐 写作末尾 写在前面 CTF比赛是快速提升网络安全实战技能的重要途径&#xff0c;已成为各个行业选拔网络安全人才的通用方法。但是&#xff0c;本书作者在从事CTF培训的过程中&#xff0c;发现存在几…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分&#xff1a; 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析&#xff1a; CTR…...

OpenLayers 可视化之热力图

注&#xff1a;当前使用的是 ol 5.3.0 版本&#xff0c;天地图使用的key请到天地图官网申请&#xff0c;并替换为自己的key 热力图&#xff08;Heatmap&#xff09;又叫热点图&#xff0c;是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

VB.net复制Ntag213卡写入UID

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略&#xff0c;并且实现了基本的选区操作&#xff0c;还调研了自绘选区的实现。那么相对的&#xff0c;我们还需要设计编辑器的选区表达&#xff0c;也可以称为模型选区。编辑器中应用变更时的操作范围&#xff0c;就是以模型选区为基准来…...

质量体系的重要

质量体系是为确保产品、服务或过程质量满足规定要求&#xff0c;由相互关联的要素构成的有机整体。其核心内容可归纳为以下五个方面&#xff1a; &#x1f3db;️ 一、组织架构与职责 质量体系明确组织内各部门、岗位的职责与权限&#xff0c;形成层级清晰的管理网络&#xf…...

OkHttp 中实现断点续传 demo

在 OkHttp 中实现断点续传主要通过以下步骤完成&#xff0c;核心是利用 HTTP 协议的 Range 请求头指定下载范围&#xff1a; 实现原理 Range 请求头&#xff1a;向服务器请求文件的特定字节范围&#xff08;如 Range: bytes1024-&#xff09; 本地文件记录&#xff1a;保存已…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

什么?连接服务器也能可视化显示界面?:基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录 什么是X11?环境准备实战步骤1️⃣ 服务器端配置(CentOS)2️⃣ 客户端配置(MobaXterm)3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

项目部署到Linux上时遇到的错误(Redis,MySQL,无法正确连接,地址占用问题)

Redis无法正确连接 在运行jar包时出现了这样的错误 查询得知问题核心在于Redis连接失败&#xff0c;具体原因是客户端发送了密码认证请求&#xff0c;但Redis服务器未设置密码 1.为Redis设置密码&#xff08;匹配客户端配置&#xff09; 步骤&#xff1a; 1&#xff09;.修…...