当前位置: 首页 > article >正文

酶动力学参数预测,瓶颈识别……中科院深圳先进技术研究院罗小舟分享AI在酶领域的创新应用

蛋白质,作为生命的基石,在生命活动中发挥着关键作用,其结构和功能的研究,对创新药物研发、合成生物学、酶制剂生产等领域,有着极其重要的意义。但传统蛋白质设计面临诸多难题,蛋白质结构复杂,序列空间庞大,依赖专家经验和高通量筛选的设计方式,不仅耗时费力,成功率也难以保证。

如今,AI for Science 已成为全球人工智能发展的新前沿,正在深刻改变着科学研究的范式,并在蛋白质设计领域掀起巨大变革。尤其是在 AlphaFold 等革新性成果面世后,相关研究逐渐走进大众视野,得到了更多关注,同时也进一步促进更多的海内外优秀团队投身于此,从技术、应用等不同环节进行攻坚。

中国科学院深圳先进技术研究院研究员罗小舟教授便是其中的一员,他此前深耕合成生物学,自 2019 年回国后,开始投身 AI 蛋白质研究。在中国上海交通大学近期主办的「未来已来」 AI 蛋白质设计峰会上,罗小舟教授对「人工智能驱动的酶工程」主题进行了分享。探讨多模态学习与生成式 AI 在酶设计中的潜在应用,从 UniKP 框架、ProEnsemble 机器等多个角度阐释了 AI 在酶工程领域的创新应用及实践。

在这里插入图片描述

中国科学院深圳先进技术研究院罗小舟教授

HyperAI超神经在不违背原意的前提下,对其深度分享进行了整理汇总,以下为演讲精华实录。

自动化平台搭建 ,AI 解决蛋白质领域难题

天然产物作为药用宝库,具有来源广泛、结构丰富、活性多样的特点。然而,传统从天然资源中提取天然产物的方式效率低下,纯化学合成不仅产率低,还需使用大量有毒有害试剂。例如,青蒿素最初从黄花蒿中提取,但在化学合成时面临诸多问题。后来,通过调控多个基因,在酿酒酵母中实现了青蒿素的表达。这一突破让我们看到生物合成的潜力,所以我开始关注生物领域研究。此外,在酶改造领域,数据的匮乏会严重制约研究进展,这一问题让我们意识到数据的重要性,所以我致力于搭建自动化和数据平台,为后续的 AI 研究奠定基础。

作为生命的基础分子,核酸、小分子脂类、糖类、代谢产物和离子、水等物质均产自蛋白质,基于这一特性,在 2019 年回国后,我将研究重点聚焦到蛋白质领域,并且提出了 3 个科学问题:首先是能否直接从蛋白质的序列预测出其活性和功能?第二是能否按需生成或进化出人们所需要的蛋白质?第三是能否基于通用、标准化策略来优化酶或菌株?

UniKP 框架预测酶的性质结果更优秀

教科书里写道:蛋白质的一级序列决定三级结构及功能,并且一级序列一定包含功能信息。所以,如何萃取序列极为关键。受到 AlphaFold 的启发,我们团队开始探索从序列预测蛋白质功能的方法。在研究中,我们引入了 Transformer 架构,将传统表征方式与机器学习特征融合,构建集成模型。基于融合特征和集成模型的多肽和蛋白质功能预测框架,在 8 个相关的预测任务上达到了 SOTA 性能,精确预测多肽和蛋白质功能, 加速了抗菌肽等抗感染活性物质的筛选过程,降低了实验成本。

在这里插入图片描述

蛋白质功能预测框架工作流程

随后,团队基于 Transformer embedding 的酶学参数预测工具,使用 UniKP 框架尝试预测酶的性质。用 ProtT5 和传统 SMILE Transformer model 将序列向量化,结合简单机器学习模型,取得 SOTA 结果。

研究团队选择了 4 个具有代表性的数据集来验证 UniKP 的性能及价值。

首先是 DLkcat 数据集, 研究人员筛选后得到了 16,838 个样本,包括来自 851 个生物体的 7,822 个独特蛋白质序列和 2,672 个独特底物。数据集按照 9:1 的比例划分为训练集和测试集。

其次是 pH 和温度数据集, 其中 pH 数据集包含 636 个样本,由 261 个独特的酶序列和 331 个独特的底物组成;温度数据集包含 572 个样本,由 243 个独特的酶序列和 302 个独特的底物组成。数据集按照 8:2 的比例划分为训练集和测试集。

第三是米氏常数 (Km) 数据集, 由 11,722 个样本组成,包括酶序列、底物分子指纹图谱和相应的 Km 值。数据集按照 8:2 的比例划分为训练集和测试集。

第四是 kcat/Km 数据集, 包含 910 个由酶序列、底物结构及其相应的 kcat/Km 值组成的样本。

经验证 UniKP 在 kcat 预测显著优于现有模型,首次实现 kcat/Km 预测。 以 kcat 为例,在公开可获得最大数据集上,决定系数相较于目前 SOTA 结果提高了 20 个百分点,同时在不同数据集划分、不同区间划分、 不同酶类别划分等多类任务上,表现也明显突出。

在这里插入图片描述

UniKP 在 kcat 预测中的表现

利用此架构,从 1,000 个 Blast 序列中,找到截至目前酶活性最高的野生型 TAL 酶,并通过预测单位点突变,获得酶活性更高的突变体,极大加速了酶工程改造进程。

在这里插入图片描述

此外,针对蛋白质的热稳定性,我们提出了基于序列的嗜热蛋白质预测模型 Thermal Finer,在 3 个分类数据集上达到了 SOTA 性能,并首次实现了从蛋白质序列出发预测对应的最优催化温度(回归)。换句话讲,我们首次实现从蛋白质序列直接预测最优温度,为酶的挖掘和进化提供有力支持。

ProGPT-2 微调,按需生成或进化蛋白质

当前,针对蛋白质生成,特别是酶生成的模型主要有以下两类:

  • 生成式对抗性神经网络 (GAN):ProteinGAN

  • 预训练生成式大语言模型 (LLM): ProtGPT2、 ProGen

但是,这些蛋白质生成的工具均存在生成序列相似的问题,难以满足生成新颖功能、新颖活性酶的需求。 理论上分析也存在不合理之处:首先,图像的像素点数值是连续的,更适用于梯度优化;其次,文本(氨基酸序列)是不连续的,且梯度优化对 embeddings 的更新没有意义,而且它效率很低。

在这里插入图片描述

对于此类问题,我们深入分析了现有模型的不足,并提出新的优化框架。

我们团队采用 ProGPT-2 进行微调,并使用 CNN 神经网络作为判别器,对生成的序列进行筛选和优先处理。通过实验发现,微调序列仅需要 2000 ,甚至更低,且无需提示词生成的序列更接近天然酶。同时,减少冗余数据可提高生成序列的新颖性。

在这里插入图片描述

不需要提示序列

在这里插入图片描述

微调序列的冗余性会影响生成序列的新颖性

我们想要新颖的、拥有新结构、新功能的酶,所以势必不需要冗余的序列。通过预测性抗菌肽,发现这个模型功能基本完好,接着做了 MDH 的分析后发现:关键位点保守度高;具备标志性域的预测分数更高;分子对接结果与自然界的 MDH 基本上没有差异。 如下图所示:

在这里插入图片描述

随后我们验证,经过模型后生产出来的不像的酶是否具有功能。我们基于 ProteinGAN 的原始数据,基本 80% 相似的酶,经过 prioritized MDHs 模型可以达到相似度 40% 以下。与我们从自然界中随机挑选的 10 个酶相比, 在 insoluble、no expression、soluble 三部分基本一致,但它依然能有非常好的酶活性。换言之,我们团队用此模型生成的酶与天然酶相比相似度低,且大多数酶均具有酶活性。

ProEnsemble 代谢瓶颈识别,优化酶产量

在生物合成过程,代谢通路中多个酶催化效率低与酶之间的上位效应等一系列代谢瓶颈,使得优化过程复杂且不确定,通路酶的过表达往往会影响细胞生长和产物表达,某些酶可能导致负面效应。为此,我提出是否有一个通用、标准化策略来优化酶或菌株?

我们首先验证过表达是否真的不好?团队通过人为降低某些酶的表达量,制造人工代谢瓶颈,从而获得可控的进化空间。

在这里插入图片描述

于是提出了一种通路瓶颈设计与解除策略的方案,以柚皮素为例:

  • 第一阶段,搭载自动化大设施平台技术,让合成柚皮素的相关基因低水平表达(低拷贝数背景),构建一个柚皮素合成的人工代谢瓶颈。

  • 第二阶段,筛选与原始突变体柚皮素产量相当的候选突变体 4CL-11C1 和 CHS-9H9,消除柚皮素途径的瓶颈。

  • 第三阶段,通过人工智能介导的启动子工程,将单个基因的突变体放回原始通路并平衡代谢流。

研究结果表明,在清晰轨迹的范围内,人工瓶颈创造与解除策略可实现代谢途径的高效进化, 也进一步证实了上位效应可能会限制途径进化的边界。

在此基础上,我们设计了自动化流程,包括指令、克隆、筛菌检测。结果显示,它在生长、筛选、产物提取上跟人手工操作均无明显差异。 但是自动化辅助的代谢途径进化方法,多酶平行进化时间大幅缩短,两周内即可完成一轮平行进化。

基于大量的数据积累,团队又开发了一个机器学习的集成模型 ProEnsemble 来优化代谢增量。实验表明,基于机器学习的集成模型平衡代谢通路,柚皮素产量相比未优化提高 5.16 倍,96 孔板 1.21g/L,发酵罐 3.65g/L,达到报道最高水平。仅通过过表达关键性合成基因,各类修饰的化合物底盘产量高于文献报道水平(借助代谢工程策略)。

ProEnsemble 学习策略构建代谢瓶颈识别-优化闭环系统,成功开发高产柚皮素大肠杆菌底盘,数倍超越业界现有水平,为复杂代谢网络平衡提供普适性解决方案。

搭建大型自动化平台,推动产学研合作

最后我向大家介绍一下这些成果的产业落地,我们已建成一个规模庞大的全自动化平台——中国深圳合成生物研究重大科技设施,包含大型自动化平台,涵盖设计学习、合成测试、用户检测等多个平台。该平台具备强大的功能,可在云端进行机器学习标准化数据处理和实验设计,机器人可协助完成实验操作,制谱检测速度快,仅 10 秒钟就能够生成 1 个样品,实现高通量检测。

此外,平台还提供自动化辅助式软件设计,用户可直接在原件库中挑选所需原件,生成实验指令。我们现已与众多产业界、学术界开展合作,是业界首个实现链霉菌自动化全流程的平台,十分欢迎大家找我们合作。

关于罗小舟教授

罗小舟教授是中科院深圳先进技术研究院,研究员,博士生导师,合成生物学研究所所长助理,入选国家重大人才工程专家-青年项目,国家生物制造产业创新中心 CTO,中国深圳市合成生物重大科技技术设施副总工艺师。

他于 2016 年获得美国斯克里普斯研究所化学博士学位(导师 Peter G. Schultz 院士),随后于加州大学伯克利分校完成博士后研究(合作导师 Jay D Keasling 院士),2019 年加入中国科学院深圳先进技术研究院。先后入选国家级青年人才计划、广东省杰青、深圳市优青。

研究领域聚焦合成生物学领域中生命体内生物化学过程相关研究,包括酶的定向进化、蛋白质工程、高通量筛选以及天然及非天然化合物的生物全合成等,以通讯作者身份在 Nature Metabolism, Advanced Science, Nature Synthesis, Nature Communications, Angew. Chem. Int. Ed.等发表论文 20 篇,共计发表 SCI 论文 50 余篇,申请专利 30 余项,授权 6 项。

相关文章:

酶动力学参数预测,瓶颈识别……中科院深圳先进技术研究院罗小舟分享AI在酶领域的创新应用

蛋白质,作为生命的基石,在生命活动中发挥着关键作用,其结构和功能的研究,对创新药物研发、合成生物学、酶制剂生产等领域,有着极其重要的意义。但传统蛋白质设计面临诸多难题,蛋白质结构复杂,序…...

【Redis】布隆过滤器应对缓存穿透的go调用实现

布隆过滤器 https://pkg.go.dev/github.com/bits-and-blooms/bloom/v3 作用: 判断一个元素是不是在集合中 工作原理: 一个位数组(bit array),初始全为0。多个哈希函数,运算输入,从而映射到位数…...

【LLM】解锁Agent协作:深入了解谷歌 A2A 协议与 Python 实现

人工智能(AI)智能体正迅速成为企业提高生产力、自动化工作流程和增强运营能力的关键工具。从处理日常重复性任务到协助复杂的决策,智能体的潜力巨大。然而,当这些智能体来自不同的供应商、使用不同的框架或被限制在孤立的数据系统…...

kafka4.0浅尝辄止

最近工作中接触消息队列比较多,前几周又看到kafka4.0发布,故写一篇博客对消息队列做一个复盘。 目录 消息队列对比1. Apache Kafka 4.02. RabbitMQ3. RocketMQ4. ActiveMQ5. Apache Pulsar6. NSQ kafka4.0鲜明的新特性Java 版本要求升级API 更新与精简移…...

数据库原理及应用mysql版陈业斌实验三

🏝️专栏:Mysql_猫咪-9527的博客-CSDN博客 🌅主页:猫咪-9527-CSDN博客 “欲穷千里目,更上一层楼。会当凌绝顶,一览众山小。” 目录 实验三多表查询 1.实验数据如下 student 表(学生表&#…...

OpenHarmony - 小型系统内核(LiteOS-A)(二)

OpenHarmony - 小型系统内核(LiteOS-A)(二) 三、基础内核 3.1、中断及异常处理 基本概念 中断是指出现需要时,CPU暂停执行当前程序,转而执行新程序的过程。即在程序运行过程中,出现了一个必须…...

数字化引擎再升级:小匠物联十周年庆典与全链路创新实践

4月11日,浙江宁波的小匠物联十周年庆典拉开帷幕。本次活动以“拾阶而上,智创未来”为主题,从全员签到、心愿书写,到董事长致辞、切蛋糕及全体合影,每一个环节都精心设计,展现出企业在家用物联网领域的卓越技…...

机器学习核心知识:从基础概念到关键算法

摘要 本文深度剖析机器学习知识体系,从基本概念、学习方式,到分类算法、逻辑回归等关键内容均有涉及。详细阐述各知识点原理与应用场景,并对比多种算法的优劣。 关键词:机器学习;监督学习;分类算法&#x…...

开发工具-jetbrains使用技巧

更详细的可以看 狂神说Java】JavaWeb入门到实战 p6 idea中maven的操作 可以设置怎么调试 然后还可以wsl、远程方式等运行 maven 这里的相当于cmd的操作 命令行去执行这些东西...

HarmonyOS:页面滚动时标题悬浮、背景渐变

一、需求场景 进入到app首页或者分页列表首页时,随着页面滚动,分类tab要求固定悬浮在顶部。进入到app首页、者分页列表首页、商品详情页时,页面滚动时,顶部导航栏(菜单、标题)背景渐变。 二、相关技术知识点…...

Python——Matplotlib库的练习

1、 import matplotlib.pyplot as plt import numpy as npx np.linspace(0,2*np.pi,100) y1 np.sin(x) y2 np.cos(x)plt.plot(x,y1,"r--o",linewidth1.5,markersize6) plt.plot(x,y2,"g-s",linewidth2,markersize8)plt.show() 2、 import matplotlib…...

信息系统项目管理师-第十八章-项目绩效域

本文章记录学习过程中,重要的知识点,是否为重点的依据,来源于官方教材和历年考题,持续更新共勉 本文章记录学习过程中,重要的知识点,是否为重点的依据,来源于官方教材和历年考题,持续更新共勉 在整个生命周期过程中,项目管理者需要始终坚持项目管理原则,通过涵盖 10 …...

Windows 操作系统 - Windows 10 磁盘管理无法为 C 盘选择扩展卷

Windows 10 磁盘管理无法为 C 盘选择扩展卷 在 Windows 10 的磁盘管理中,无法为 C 盘选择扩展卷(选项灰色不可用),主要原因是未分配空间没有紧邻 C 盘的右侧 补充:Windows 10 磁盘管理打开方式 1. 按下快捷键【Win …...

[NOIP 2003 普及组] 栈 Java

import java.io.*;public class Main {public static void main(String[] args) throws IOException {BufferedReader br new BufferedReader(new InputStreamReader(System.in));int n Integer.parseInt(br.readLine());int[] dp new int[n 1];dp[0] 1; // 空序列只有一种…...

C++ (类的设计,对象的创建,this指针,构造函数)

类的设计 C对结构体是有增强的 可以包含函数作为结构体成员 可以直接定义变量 在结构体成员函数里面可以直接访问结构体成员变量 struct student{string name;int age;float score;void play_game(const string &name);}void student::play_game(const string game){}…...

笔记:代码随想录算法训练营day67:Floyd 算法精讲、A * 算法精讲 (A star算法) 严重超时完结,不过,撒花

学习资料:代码随想录 Floyd 算法精讲 卡码网:97. 小明逛公园 首先明确floyd算法解决的是多源最短路径问题,对边的权的正负值没有要求,而且是动态规划的思想 五部曲: 定义:grid[i][j][k]表示从i出发到j…...

面试篇 - Transformer模型中的位置编码

1. 位置编码的引入 背景:Transformer模型通过自注意力机制(Self-Attention)处理序列数据,但自注意力机制本身并不包含序列中元素的位置信息。因此,需要一种方法来为模型提供位置信息。 解决方案:位置编码&…...

蓝桥杯篇---客观题

文章目录 前言 前言 本文简单介绍了蓝桥杯中客观题各个部分的知识点。 一、单片机相关 IAP15F2K61S2单片机的定时器0具有4种工作模式,当采用外部12MHz晶振时,定时器最大定时长度65535us。8051单片机的P0口,当使用外部存储器时它是一个传输低…...

ES6 新增特性 箭头函数

简述: ECMAScript 6(简称ES6)是于2015年6月正式发布的JavaScript语言的标准,正式名为ECMAScript 2015(ES2015)。它的目标是使得JavaScript语言可以用来编写复杂的大型应用程序,成为企业级开发语…...

Javaweb后端 maven高级 maven聚合

聚合用modules...

vue+flask图书知识图谱推荐系统

文章结尾部分有CSDN官方提供的学长 联系方式名片 文章结尾部分有CSDN官方提供的学长 联系方式名片 关注B站,有好处! 编号: F025 架构: vueflaskneo4jmysql 亮点:协同过滤推荐算法知识图谱可视化 支持爬取图书数据,数据超过万条&am…...

vue2 走马灯 展示多个

使用 npm install “swiper”: “^11.2.4”, 在这里插入代码片 <template><section class"swiper pc-banner"><div class"swiper-container"><div class"swiper-wrapper"><div v-for"(item, index) in swiperD…...

《MySQL从入门到精通》

文章目录 《MySQL从入门到精通》1. 基础-SQL通用语法及分类2. 基础-SQL-DDL-数据库操作3. 基础-SQL-DDL-表操作-创建&查询4. 基础-SQL-DDL-数据类型及案例4.1 数值类型4.2 字符串类型4.3 时间和日期类型 5. 基础-SQL-DDL-表操作-修改&删除5.1 DDL-表操作-修改5.2 DDL-表…...

Linux: 线程同步

目录 一 前言 二 线程饥饿 三 线程同步 四 条件变量 1. cond &#xff08; condition&#xff09; 2. pthread_cond_wait() &#xff1a; 3. pthread_cond_signal() 五 条件变量的使用 一 前言 在上篇文章Linux : 多线程互斥-CSDN博客我们讲解了线程互斥的概念&#xff…...

golang-context详解

Context是什么 cancel 其实就是通过chan select进行提前中断返回 如果没有context&#xff0c;携程之间怎么做这些交互呢&#xff1f;肯定也能做 跨线程通讯如共享内存&#xff0c;pipe等等都可以做到&#xff0c;但是就需要开发者对通讯设计建模、规划数据同步方式等&#xf…...

python蓝桥杯备赛常用算法模板

一、python基础 &#xff08;一&#xff09;集合操作 s1 {1,2,3} s2{3,4,5} print(s1|s2)#求并集 print(s1&s2)#求交集 #结果 #{1, 2, 3, 4, 5} #{3}&#xff08;二&#xff09;对多维列表排序 1.新建列表 list1[[1,2,3],[2,3,4],[0,3,2]] #提取每个小列表的下标为2的…...

Spring Boot 集成 RocketMQ 全流程指南:从依赖引入到消息收发

前言 在分布式系统中&#xff0c;消息中间件是解耦服务、实现异步通信的核心组件。RocketMQ 作为阿里巴巴开源的高性能分布式消息中间件&#xff0c;凭借其高吞吐、低延迟、高可靠等特性&#xff0c;成为企业级应用的首选。而 Spring Boot 通过其“约定优于配置”的设计理念&a…...

AI与我共创WEB界面

记录一次压测后的自我技术提升 这事儿得从机房停电说起。那天吭哧吭哧做完并发压测,正准备截Zabbix监控图写报告,突然发现监控曲线神秘失踪——系统组小哥挠着头说:“上次停电后,zabbix服务好像就没起来过…” 我盯着空荡荡的图表界面,大脑的CPU温度可能比服务器还高。 其…...

基于 `Gradio` 的聊天机器人界面

这段代码实现了一个基于 Gradio 的聊天机器人界面&#xff0c;并使用了 langchain 和 ChatGLM 作为后端模型支持。以下是对代码的详细解释&#xff1a; 1. 导入必要的库 import gradio as grfrom langchain_community.llms import ChatGLM from langchain.chains import Conve…...

基于频率约束条件的最小惯量需求评估,包括频率变化率ROCOF约束和频率最低点约束matlab/simulink

基于频率约束条件的最小惯量评估&#xff0c;包括频率变化率ROCOF约束和频率最低点约束matlab/simulink 1建立了含新能源调频的频域仿真传函模型&#xff0c;虚拟惯量下垂控制 2基于构建的模型&#xff0c;考虑了不同调频系数&#xff0c;不同扰动情况下的系统最小惯量需求...