当前位置: 首页 > news >正文

中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数

作者:李宝珠

编辑:三羊

中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。

众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这些反应如果在体外进行,通常需要在高温、高压、强酸、强碱等剧烈条件下才能发生。

但在生物体内,新陈代谢反应却可以在极为温和的条件下高效进行,这主要归功于重要的有机催化剂——酶。

作为贯穿高中生物学科的高分知识点,酶的特性或许已经烙印在大家记忆深处——催化效率高、专一性强、作用条件温和等。更重要的是,酶与很多人体疾病密切相关,还可以用于诊断与治疗。一直以来,人们在深入研究酶分子结构与功能的同时,也在持续探究酶促反应的影响因素。

研究酶促反应速率以及各种因素对酶促反应速率影响机制的科学,被称为「酶促反应动力学」,在研究中,酶在特定反应中的催化效率通常通过酶动力学参数 (enzyme kinetic parameters) 来衡量。

酶促反应动力学参数包括了酶周转数 kcat、米氏常数 Km 和催化效率 kcat / Km 等,目前主要依赖湿实验来进行参数测量,但这一过程耗时且成本高,使得实验测得的酶动力学参数数据库规模相对较小,而数据的稀缺则会限制下游系统生物学和代谢工程领域的发展。

针对于此,中国科学院深圳先进技术研究院合成所罗小舟团队提出了,基于预训练大语言模型和机器学习模型的酶动力学参数预测框架 (enzyme kinetic parameters prediction framework,UniKP)。

该框架仅通过给定酶的氨基酸序列和底物的结构信息,就可以实现多种不同的酶动力学参数的预测。此外,研究团队进一步将环境因素纳入考量,提出了基于 UniKP 的双层框架 EF-UniKP,实现了更准确地酶动力学参数的预测。
在这里插入图片描述

该研究成果已发表于 Nature Communications

论文链接:
https://www.nature.com/articles/s41467-023-44113-1
GitHub链接:
https://github.com/Luo-SynBioLab/UniKP

关注公众号,回复「UniKP」下载完整论文

代表性数据集验证模型价值

研究团队选择了 4 个具有代表性的数据集来验证 UniKP 的性能及价值。

首先是 DLKcat 数据集,研究人员筛选后得到了 16,838 个样本,包括来自 851 个生物体的 7,822 个独特蛋白质序列和 2,672 个独特底物。数据集按照 9:1 的比例划分为训练集和测试集。

其次是 pH 和温度数据集,其中 pH 数据集包含 636 个样本,由 261 个独特的酶序列和 331 个独特的底物组成;温度数据集包含 572 个样本,由 243 个独特的酶序列和 302 个独特的底物组成。数据集按照 8:2 的比例划分为训练集和测试集。

第三是米氏常数 (Km) 数据集,由 11,722 个样本组成,包括酶序列、底物分子指纹图谱和相应的 Km 值。数据集按照 8:2 的比例划分为训练集和测试集。

第四是 kcat/Km 数据集,包含 910 个由酶序列、底物结构及其相应的 kcat/Km 值组成的样本。

两大关键组件:表示模块+机器学习模块

研究团队提出的 UniKP,能提高根据给定的酶序列和底物结构预测 kcat、Km 和 kcat / Km 的准确性。UniKP 框架由两个关键组件组成——表示模块 (representation module) 和机器学习模块。

表示模块的作用是将复杂的酶和底物信息转换为机器学习模型能够理解和处理的向量表示,以便后续的机器学习模块进行预测和分析。

在这里插入图片描述

其中,酶序列表示模块 (Enzyme sequence representation module), 使用预训练语言模型 ProtT5-XL-UniRef50 对酶的信息进行编码,每个氨基酸通过该模型被转换为一个 1,024 维的向量,并通过均值池化 (averaged by mean pooling) 进行处理,最终生成一个 1,024 维的向量来表示整个酶的序列信息(如上图所示)。

在这里插入图片描述

底物结构表示模块 (Substrate structure representation module),使用预训练语言模型 SMILES Transformer model 对底物的信息进行编码。底物结构被转换为 SMILES 格式,进而通过预训练的 SMILES 转换器生成一个 1,024 维的向量,并对最后一层和倒数第二层的第一个输出进行均值和最大池化,最终生成一个 1,024 维的向量来表示底物的结构信息(如上图所示)。
在这里插入图片描述

针对机器学习模块,研究团队对比了 16 种不同的机器学习模型,以及 2 种代表性的深度学习模型——卷积神经网络和循环神经网络。

结果显示,集成性模型表现出更好的性能,尤其是随机森林 (random forests) 和极端随机树 (extra trees) 显著优于其他模型,其中极端随机树表现最佳 (R²=0.65)。如上图所示,机器学习模型以连接表示向量为输入,生成预测的 kcat、Km 或 kcat / Km 值。

在这里插入图片描述

此外,研究人员将环境因素纳入考量,生成了优化的预测框架,并在涵盖 pH 和温度信息的两个数据集上进行了验证(如上图所示)。

在这里插入图片描述

最后,UniKP 通过不同的重新加权方法来调整样本权重分布,从而为高价值预测任务生成优化预测结果(如上图所示)。

双层框架——EF-UniKP

作为双层框架,EF-UniKP 包含一个基础层 (base layer) 和一个元层 (meta layer),如下图所示:

在这里插入图片描述

EF-UniKP 架构

基础层包含两个独立模型——UniKP 和 Revised UniKP。UniKP 以蛋白质和底物的连接表示向量作为输入,而 Revised UniKP 使用蛋白质和底物的连接表示向量、结合 pH 或温度值作为输入。

元层包括一个线性回归模型,使用来自 UniKP 和 Revised UniKP 的预测 kcat 值来预测最终的 kcat 值。

R² 值高出20%,EF-UniKP 完胜

研究团队在 kcat 预测任务上使用 DLKcat 数据集对 UniKP 框架进行了验证,该数据集包含 16,838 个样本。在 5 轮随机划分的测试集验证中,UniKP 的 R² 值为 0.68,比 DLKcat 提高了20%。此外,在测试中,DLKcat 的最高值比 UniKP 的最低值低了 16%,进一步证明了 UniKP 的稳健性。

在这里插入图片描述

UniKP 在 kcat 预测中的表现

随后,研究团队创建了涵盖 pH 和温度信息的两个数据集来对 EF-UniKP 进行了评估,并分别按照 8:2 的比例划分为训练集和测试集。

在测试集上,EF-UniKP 相较于 UniKP 和 Revised UniKP 表现更佳。在 pH 数据集测试中,EF-UniKP 的 R² 分别高出 20% 和 8%,在温度数据集测试中,EF-UniKP 的 R² 分别高出 26% 和 2%。在酶和底物至少有一个不在训练集的测试中,EF-UniKP 在 pH 数据集上的 R² 值相较于 UniKP 和 Revised UniKP 分别高出 13% 和 10%,在温度数据集上分别高出 16% 和 4%。

在这里插入图片描述

EF-UniKP相较于UniKP和Revised UniKP表现更佳

蝴蝶模式:拉通科研与产业

罗小舟课题组背后的中国科学院深圳先进技术研究院(简称“深圳先进院”)是由中国科学院、深圳市人民政府及香港中文大学于 2006 年 2 月共同建立的,由 8 个研究所组成:

  • 中国科学院香港中文大学深圳先进集成技术研究所

  • 生物医学与健康工程研究所

  • 先进计算与数字工程研究所

  • 生物医药与技术研究所

  • 脑认知与脑疾病研究所

  • 合成生物学研究所

  • 先进材料科学与工程研究所

  • 碳中和技术研究所(筹)

罗小舟博士是在 2019 年完成了在加州大学伯克利分校的博士后研究,回国并正式加入深圳先进院合成生物学研究所,任职研究员。同年,其作为合伙人之一筹备的 「森瑞斯生物」也在深圳正式成立,专注于合成生物技术的研发及其在各领域的创新应用。2022 年 3 月,公司完成了近亿元人民币的 A 轮融资。

罗小舟博士「科研」与「产业」兼顾的发展路径恰恰与深圳先进院的宗旨完美契合。据介绍,深圳先进院探索了「0—1—10—∞的蝴蝶模式」,这也在森瑞斯生物得到了很好的实践。

在发现液体橡胶 HVR 和大麻素 CBD 可共用同一自主知识产权的底盘细胞后,森瑞斯利用其前期已开发的数个针对酿酒酵母改造的工艺方法,再结合内部的合成生物元件库,在 6 个月时间内就将液体橡胶 HVR 产量提升到了可商业化的水平

这其中,罗小舟博士与其导师、同时也是森瑞斯的发起人之一 Jay D. Keasling 院士合作,在 2019 年便成功打通大麻素的生物全合成通路,成为了其商业化的基础。

罗小舟表示,实现管线的快速产业化有着两大关键因素:一是学术界和产业深度融合,学术界有效搭建产业界所需化合物的 0-1 的合成通路;二是标准化的生产工艺和工具,覆盖从 0-1 的学术研究、1-10 的工程研发、到 10 - 无限工业化放大这三个阶段,打造合成生物的生产线,提升 1-10 的研发效率。

参考资料:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw

相关文章:

中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数

作者:李宝珠 编辑:三羊 中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。 众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这…...

组件中写选项的顺序(vue的问题)

为什么选项要有统一的书写顺序呢?很简单,就是要将选择和认知成本最小化。 副作用 (触发组件外的影响) el全局感知 (要求组件以外的知识) nameparent组件类型 (更改组件的类型) functional模板修改器 (改变模板的编译方式) delimiterscomments模板依赖 (…...

LUA 对象转excel

1. 首先把LUA 转成JSON 对象 因为是excel, 所以第一层要是数组,否则没有什么意义,即lua对象要是一个数组比较合理。这里使用开源的json.lua, 但是开源的,对于数字作下标的,或者是一个数组里,不同类型的key…...

深入理解 Flink(八)Flink Task 部署初始化和启动详解

JobMaster 部署 Task 核心入口: JobMaster.onStart();部署 Task 链条:JobMaster --> DefaultScheduler --> SchedulingStrategy --> ExecutionVertex --> Execution --> RPC请求 --> TaskExecutor TaskExecutor 处理 JobMaster 的 …...

openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c

文章目录 openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c概述笔记END openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c 概述 开源工程包含的头文件类型是.inc, 要重命名为.h, 否则没有c头文件语法提示 从数组中载入大数p,q,g 建立ossl…...

【k8s】Kubernetes技术和相关命令简介

一、 Kubernetes简介 Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时,通常要部署该应用的多个实例以便对应用请求进行负载均衡。kubernetes,简称K8s&#xff0…...

清晰光谱空间:全自动可调波长系统的高光谱成像优势

高光谱成像技术 高光谱成像技术是一种捕获和分析宽波长信息的技术,能够对材料和特征进行详细的光谱分析和识别。高光谱成像技术的实现通过高光谱相机,其工作原理是使用多个光学传感器或光学滤波器分离不同波长的光,并捕获每个波段的图像&…...

23.实战演练--个人主页

<?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"><applicationandroid:allowBackup"true"an…...

[剪藏] - 任泽平年终演讲精华:点燃希望——2024中国经济十大预测

任泽平年终演讲精华&#xff1a;点燃希望——2024中国经济十大预测 泽平宏观 2023-12-23 08:01 发表于上海 12月22日22:30&#xff0c;任泽平年终秀“点燃希望乐观者前行——2024中国经济十大预测”圆满收官。 泽平宏观、北京广播电视台、上海高净值研究院、北京时间等携手打…...

基于LabVIEW的压力传感器测试系统

摘要 现在各类压力传感器已广泛应用于各种工业自控环境&#xff0c;对压力传感器的研究 及应用&#xff0c;既可以体现一个国家的科技发展水平&#xff0c;又可以提升国家的综合国力&#xff0c;还 可以在丰富、方便和智能化人们的生活方面做出重要的贡献。而针对不同仪器组 成…...

Vue 如何使用WebSocket与服务器建立链接 持续保持通信

WebSocket 浏览器通过JavaScript向服务器发出建立WebSocket链接的请求&#xff0c;链接建立后&#xff0c;客户端和服务器端就可以通过TCP链接直接交互数据。WebSocket链接后可以通过send()方法来向服务器发送数据&#xff0c;并通过onnessage事件来接受服务器返回的数据。 创…...

自动驾驶模拟器

目录 Carla 自动驾驶模拟器 Udacity自动驾驶模拟器 Carla 自动驾驶模拟器 pip install carla 需要下载地图 Udacity自动驾驶模拟器...

Jmeter的文件参数化:CSV数据文件设置和_CSVRead函数

一、CSV数据文件设置 1、简介 CSV数据文件配置&#xff08;CSV Data Set Config&#xff09;可以将CSV文件中数据读入自定义变量中 Jmeter中CSV数据文件配置的界面如下图所示&#xff1a; 其中&#xff1a; &#xff08;1&#xff09;文件编码 文件的编码格式&#xff0c;与所…...

windows编译TensorFlowServing

概述 整个编译打包过程的总体思路&#xff0c;是参照在linux下的编译流程&#xff0c;配置环境&#xff0c;执行编译命令&#xff0c;根据编译器/链接器反馈的错误&#xff0c;修改相应的源码或者相关库文件的存放路径&#xff0c;编译出windows平台下静态库和二进制执行文件。…...

debian 12 安装 浏览器 Epiphany

Epiphany 什么epiphany-browser epiphany-browser 是&#xff1a; Epiphany 是一款简单而强大的 GNOME 网络浏览器&#xff0c;针对 非技术用户。它的原则是简单和标准 合规。 简单性是通过精心设计的用户界面和依赖来实现的 在用于执行外部任务&#xff08;如阅读 电子邮件…...

Kafka-消费者-KafkaConsumer分析

与KafkaProducer不同的是&#xff0c;KafkaConsumer不是一个线程安全的类。 为了便于分析&#xff0c;我们认为下面介绍的所有操作都是在同一线程中完成的&#xff0c;所以不需要考虑锁的问题。 这种设计将实现多线程处理消息的逻辑转移到了调用KafkaConsumer的代码中&#x…...

Spring | Spring中的Bean--下

Spring中的Bean: 4.Bean的生命周期5.Bean的配装配式 ( 添加Bean到IOC容器的方式 依赖注入的方式 )5.1 基于XML的配置5.2 基于Annotation (注解) 的装配 (更常用&#xff09;5.3 自动装配 4.Bean的生命周期 Spring容器可以管理 singleton作用域的Bean的生命周期&#xff0c;在此…...

本周五上海见 第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛(上海站)即将召开

低时延技术是证券基金期货领域业务系统的核心技术&#xff0c;是打造极速交易系统领先优势的关键&#xff0c;也是证券基金行业关注的前沿技术热点。 1月19日下午&#xff0c;第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛&#xff08;上海站&#xff09;即…...

怎么安装IK分词器

.安装IK分词器 1.在线安装ik插件&#xff08;较慢&#xff09; # 进入容器内部 docker exec -it elasticsearch /bin/bash ​ # 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elastics…...

【踩坑】flask_uploads报错cannot import name ‘secure_filename‘

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 背景说明 截至目前&#xff0c;用新版的flask实现文件上传(用到flask_uploads库)&#xff0c;会出现这个问题。 问题原因 版本问题&#xff0c;新的werkzeug已经把secure_filename的位置改了。 解决方法 手动修改…...

可靠性+灵活性:电力载波技术在楼宇自控中的核心价值

可靠性灵活性&#xff1a;电力载波技术在楼宇自控中的核心价值 在智能楼宇的自动化控制中&#xff0c;电力载波技术&#xff08;PLC&#xff09;凭借其独特的优势&#xff0c;正成为构建高效、稳定、灵活系统的核心解决方案。它利用现有电力线路传输数据&#xff0c;无需额外布…...

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

1. 项目概述 本跑酷小游戏基于鸿蒙HarmonyOS 5开发&#xff0c;使用DevEco Studio作为开发工具&#xff0c;采用Java语言实现&#xff0c;包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中&#xff0c;新增了一个本地验证码接口 /code&#xff0c;使用函数式路由&#xff08;RouterFunction&#xff09;和 Hutool 的 Circle…...

C# 求圆面积的程序(Program to find area of a circle)

给定半径r&#xff0c;求圆的面积。圆的面积应精确到小数点后5位。 例子&#xff1a; 输入&#xff1a;r 5 输出&#xff1a;78.53982 解释&#xff1a;由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982&#xff0c;因为我们只保留小数点后 5 位数字。 输…...

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。 您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。 您还将了解如何分析列&#xff0c;以便知晓哪些列包含有价值的数据&#xff0c;…...

Python ROS2【机器人中间件框架】 简介

销量过万TEEIS德国护膝夏天用薄款 优惠券冠生园 百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选 鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒 优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友 热卖妙洁棉…...

R语言速释制剂QBD解决方案之三

本文是《Quality by Design for ANDAs: An Example for Immediate-Release Dosage Forms》第一个处方的R语言解决方案。 第一个处方研究评估原料药粒径分布、MCC/Lactose比例、崩解剂用量对制剂CQAs的影响。 第二处方研究用于理解颗粒外加硬脂酸镁和滑石粉对片剂质量和可生产…...

SQL慢可能是触发了ring buffer

简介 最近在进行 postgresql 性能排查的时候,发现 PG 在某一个时间并行执行的 SQL 变得特别慢。最后通过监控监观察到并行发起得时间 buffers_alloc 就急速上升,且低水位伴随在整个慢 SQL,一直是 buferIO 的等待事件,此时也没有其他会话的争抢。SQL 虽然不是高效 SQL ,但…...

使用LangGraph和LangSmith构建多智能体人工智能系统

现在&#xff0c;通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战&#xff0c;比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...

Webpack性能优化:构建速度与体积优化策略

一、构建速度优化 1、​​升级Webpack和Node.js​​ ​​优化效果​​&#xff1a;Webpack 4比Webpack 3构建时间降低60%-98%。​​原因​​&#xff1a; V8引擎优化&#xff08;for of替代forEach、Map/Set替代Object&#xff09;。默认使用更快的md4哈希算法。AST直接从Loa…...