当前位置: 首页 > news >正文

中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数

作者:李宝珠

编辑:三羊

中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。

众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这些反应如果在体外进行,通常需要在高温、高压、强酸、强碱等剧烈条件下才能发生。

但在生物体内,新陈代谢反应却可以在极为温和的条件下高效进行,这主要归功于重要的有机催化剂——酶。

作为贯穿高中生物学科的高分知识点,酶的特性或许已经烙印在大家记忆深处——催化效率高、专一性强、作用条件温和等。更重要的是,酶与很多人体疾病密切相关,还可以用于诊断与治疗。一直以来,人们在深入研究酶分子结构与功能的同时,也在持续探究酶促反应的影响因素。

研究酶促反应速率以及各种因素对酶促反应速率影响机制的科学,被称为「酶促反应动力学」,在研究中,酶在特定反应中的催化效率通常通过酶动力学参数 (enzyme kinetic parameters) 来衡量。

酶促反应动力学参数包括了酶周转数 kcat、米氏常数 Km 和催化效率 kcat / Km 等,目前主要依赖湿实验来进行参数测量,但这一过程耗时且成本高,使得实验测得的酶动力学参数数据库规模相对较小,而数据的稀缺则会限制下游系统生物学和代谢工程领域的发展。

针对于此,中国科学院深圳先进技术研究院合成所罗小舟团队提出了,基于预训练大语言模型和机器学习模型的酶动力学参数预测框架 (enzyme kinetic parameters prediction framework,UniKP)。

该框架仅通过给定酶的氨基酸序列和底物的结构信息,就可以实现多种不同的酶动力学参数的预测。此外,研究团队进一步将环境因素纳入考量,提出了基于 UniKP 的双层框架 EF-UniKP,实现了更准确地酶动力学参数的预测。
在这里插入图片描述

该研究成果已发表于 Nature Communications

论文链接:
https://www.nature.com/articles/s41467-023-44113-1
GitHub链接:
https://github.com/Luo-SynBioLab/UniKP

关注公众号,回复「UniKP」下载完整论文

代表性数据集验证模型价值

研究团队选择了 4 个具有代表性的数据集来验证 UniKP 的性能及价值。

首先是 DLKcat 数据集,研究人员筛选后得到了 16,838 个样本,包括来自 851 个生物体的 7,822 个独特蛋白质序列和 2,672 个独特底物。数据集按照 9:1 的比例划分为训练集和测试集。

其次是 pH 和温度数据集,其中 pH 数据集包含 636 个样本,由 261 个独特的酶序列和 331 个独特的底物组成;温度数据集包含 572 个样本,由 243 个独特的酶序列和 302 个独特的底物组成。数据集按照 8:2 的比例划分为训练集和测试集。

第三是米氏常数 (Km) 数据集,由 11,722 个样本组成,包括酶序列、底物分子指纹图谱和相应的 Km 值。数据集按照 8:2 的比例划分为训练集和测试集。

第四是 kcat/Km 数据集,包含 910 个由酶序列、底物结构及其相应的 kcat/Km 值组成的样本。

两大关键组件:表示模块+机器学习模块

研究团队提出的 UniKP,能提高根据给定的酶序列和底物结构预测 kcat、Km 和 kcat / Km 的准确性。UniKP 框架由两个关键组件组成——表示模块 (representation module) 和机器学习模块。

表示模块的作用是将复杂的酶和底物信息转换为机器学习模型能够理解和处理的向量表示,以便后续的机器学习模块进行预测和分析。

在这里插入图片描述

其中,酶序列表示模块 (Enzyme sequence representation module), 使用预训练语言模型 ProtT5-XL-UniRef50 对酶的信息进行编码,每个氨基酸通过该模型被转换为一个 1,024 维的向量,并通过均值池化 (averaged by mean pooling) 进行处理,最终生成一个 1,024 维的向量来表示整个酶的序列信息(如上图所示)。

在这里插入图片描述

底物结构表示模块 (Substrate structure representation module),使用预训练语言模型 SMILES Transformer model 对底物的信息进行编码。底物结构被转换为 SMILES 格式,进而通过预训练的 SMILES 转换器生成一个 1,024 维的向量,并对最后一层和倒数第二层的第一个输出进行均值和最大池化,最终生成一个 1,024 维的向量来表示底物的结构信息(如上图所示)。
在这里插入图片描述

针对机器学习模块,研究团队对比了 16 种不同的机器学习模型,以及 2 种代表性的深度学习模型——卷积神经网络和循环神经网络。

结果显示,集成性模型表现出更好的性能,尤其是随机森林 (random forests) 和极端随机树 (extra trees) 显著优于其他模型,其中极端随机树表现最佳 (R²=0.65)。如上图所示,机器学习模型以连接表示向量为输入,生成预测的 kcat、Km 或 kcat / Km 值。

在这里插入图片描述

此外,研究人员将环境因素纳入考量,生成了优化的预测框架,并在涵盖 pH 和温度信息的两个数据集上进行了验证(如上图所示)。

在这里插入图片描述

最后,UniKP 通过不同的重新加权方法来调整样本权重分布,从而为高价值预测任务生成优化预测结果(如上图所示)。

双层框架——EF-UniKP

作为双层框架,EF-UniKP 包含一个基础层 (base layer) 和一个元层 (meta layer),如下图所示:

在这里插入图片描述

EF-UniKP 架构

基础层包含两个独立模型——UniKP 和 Revised UniKP。UniKP 以蛋白质和底物的连接表示向量作为输入,而 Revised UniKP 使用蛋白质和底物的连接表示向量、结合 pH 或温度值作为输入。

元层包括一个线性回归模型,使用来自 UniKP 和 Revised UniKP 的预测 kcat 值来预测最终的 kcat 值。

R² 值高出20%,EF-UniKP 完胜

研究团队在 kcat 预测任务上使用 DLKcat 数据集对 UniKP 框架进行了验证,该数据集包含 16,838 个样本。在 5 轮随机划分的测试集验证中,UniKP 的 R² 值为 0.68,比 DLKcat 提高了20%。此外,在测试中,DLKcat 的最高值比 UniKP 的最低值低了 16%,进一步证明了 UniKP 的稳健性。

在这里插入图片描述

UniKP 在 kcat 预测中的表现

随后,研究团队创建了涵盖 pH 和温度信息的两个数据集来对 EF-UniKP 进行了评估,并分别按照 8:2 的比例划分为训练集和测试集。

在测试集上,EF-UniKP 相较于 UniKP 和 Revised UniKP 表现更佳。在 pH 数据集测试中,EF-UniKP 的 R² 分别高出 20% 和 8%,在温度数据集测试中,EF-UniKP 的 R² 分别高出 26% 和 2%。在酶和底物至少有一个不在训练集的测试中,EF-UniKP 在 pH 数据集上的 R² 值相较于 UniKP 和 Revised UniKP 分别高出 13% 和 10%,在温度数据集上分别高出 16% 和 4%。

在这里插入图片描述

EF-UniKP相较于UniKP和Revised UniKP表现更佳

蝴蝶模式:拉通科研与产业

罗小舟课题组背后的中国科学院深圳先进技术研究院(简称“深圳先进院”)是由中国科学院、深圳市人民政府及香港中文大学于 2006 年 2 月共同建立的,由 8 个研究所组成:

  • 中国科学院香港中文大学深圳先进集成技术研究所

  • 生物医学与健康工程研究所

  • 先进计算与数字工程研究所

  • 生物医药与技术研究所

  • 脑认知与脑疾病研究所

  • 合成生物学研究所

  • 先进材料科学与工程研究所

  • 碳中和技术研究所(筹)

罗小舟博士是在 2019 年完成了在加州大学伯克利分校的博士后研究,回国并正式加入深圳先进院合成生物学研究所,任职研究员。同年,其作为合伙人之一筹备的 「森瑞斯生物」也在深圳正式成立,专注于合成生物技术的研发及其在各领域的创新应用。2022 年 3 月,公司完成了近亿元人民币的 A 轮融资。

罗小舟博士「科研」与「产业」兼顾的发展路径恰恰与深圳先进院的宗旨完美契合。据介绍,深圳先进院探索了「0—1—10—∞的蝴蝶模式」,这也在森瑞斯生物得到了很好的实践。

在发现液体橡胶 HVR 和大麻素 CBD 可共用同一自主知识产权的底盘细胞后,森瑞斯利用其前期已开发的数个针对酿酒酵母改造的工艺方法,再结合内部的合成生物元件库,在 6 个月时间内就将液体橡胶 HVR 产量提升到了可商业化的水平

这其中,罗小舟博士与其导师、同时也是森瑞斯的发起人之一 Jay D. Keasling 院士合作,在 2019 年便成功打通大麻素的生物全合成通路,成为了其商业化的基础。

罗小舟表示,实现管线的快速产业化有着两大关键因素:一是学术界和产业深度融合,学术界有效搭建产业界所需化合物的 0-1 的合成通路;二是标准化的生产工艺和工具,覆盖从 0-1 的学术研究、1-10 的工程研发、到 10 - 无限工业化放大这三个阶段,打造合成生物的生产线,提升 1-10 的研发效率。

参考资料:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw

相关文章:

中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数

作者:李宝珠 编辑:三羊 中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。 众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这…...

组件中写选项的顺序(vue的问题)

为什么选项要有统一的书写顺序呢?很简单,就是要将选择和认知成本最小化。 副作用 (触发组件外的影响) el全局感知 (要求组件以外的知识) nameparent组件类型 (更改组件的类型) functional模板修改器 (改变模板的编译方式) delimiterscomments模板依赖 (…...

LUA 对象转excel

1. 首先把LUA 转成JSON 对象 因为是excel, 所以第一层要是数组,否则没有什么意义,即lua对象要是一个数组比较合理。这里使用开源的json.lua, 但是开源的,对于数字作下标的,或者是一个数组里,不同类型的key…...

深入理解 Flink(八)Flink Task 部署初始化和启动详解

JobMaster 部署 Task 核心入口: JobMaster.onStart();部署 Task 链条:JobMaster --> DefaultScheduler --> SchedulingStrategy --> ExecutionVertex --> Execution --> RPC请求 --> TaskExecutor TaskExecutor 处理 JobMaster 的 …...

openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c

文章目录 openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c概述笔记END openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c 概述 开源工程包含的头文件类型是.inc, 要重命名为.h, 否则没有c头文件语法提示 从数组中载入大数p,q,g 建立ossl…...

【k8s】Kubernetes技术和相关命令简介

一、 Kubernetes简介 Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时,通常要部署该应用的多个实例以便对应用请求进行负载均衡。kubernetes,简称K8s&#xff0…...

清晰光谱空间:全自动可调波长系统的高光谱成像优势

高光谱成像技术 高光谱成像技术是一种捕获和分析宽波长信息的技术,能够对材料和特征进行详细的光谱分析和识别。高光谱成像技术的实现通过高光谱相机,其工作原理是使用多个光学传感器或光学滤波器分离不同波长的光,并捕获每个波段的图像&…...

23.实战演练--个人主页

<?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"><applicationandroid:allowBackup"true"an…...

[剪藏] - 任泽平年终演讲精华:点燃希望——2024中国经济十大预测

任泽平年终演讲精华&#xff1a;点燃希望——2024中国经济十大预测 泽平宏观 2023-12-23 08:01 发表于上海 12月22日22:30&#xff0c;任泽平年终秀“点燃希望乐观者前行——2024中国经济十大预测”圆满收官。 泽平宏观、北京广播电视台、上海高净值研究院、北京时间等携手打…...

基于LabVIEW的压力传感器测试系统

摘要 现在各类压力传感器已广泛应用于各种工业自控环境&#xff0c;对压力传感器的研究 及应用&#xff0c;既可以体现一个国家的科技发展水平&#xff0c;又可以提升国家的综合国力&#xff0c;还 可以在丰富、方便和智能化人们的生活方面做出重要的贡献。而针对不同仪器组 成…...

Vue 如何使用WebSocket与服务器建立链接 持续保持通信

WebSocket 浏览器通过JavaScript向服务器发出建立WebSocket链接的请求&#xff0c;链接建立后&#xff0c;客户端和服务器端就可以通过TCP链接直接交互数据。WebSocket链接后可以通过send()方法来向服务器发送数据&#xff0c;并通过onnessage事件来接受服务器返回的数据。 创…...

自动驾驶模拟器

目录 Carla 自动驾驶模拟器 Udacity自动驾驶模拟器 Carla 自动驾驶模拟器 pip install carla 需要下载地图 Udacity自动驾驶模拟器...

Jmeter的文件参数化:CSV数据文件设置和_CSVRead函数

一、CSV数据文件设置 1、简介 CSV数据文件配置&#xff08;CSV Data Set Config&#xff09;可以将CSV文件中数据读入自定义变量中 Jmeter中CSV数据文件配置的界面如下图所示&#xff1a; 其中&#xff1a; &#xff08;1&#xff09;文件编码 文件的编码格式&#xff0c;与所…...

windows编译TensorFlowServing

概述 整个编译打包过程的总体思路&#xff0c;是参照在linux下的编译流程&#xff0c;配置环境&#xff0c;执行编译命令&#xff0c;根据编译器/链接器反馈的错误&#xff0c;修改相应的源码或者相关库文件的存放路径&#xff0c;编译出windows平台下静态库和二进制执行文件。…...

debian 12 安装 浏览器 Epiphany

Epiphany 什么epiphany-browser epiphany-browser 是&#xff1a; Epiphany 是一款简单而强大的 GNOME 网络浏览器&#xff0c;针对 非技术用户。它的原则是简单和标准 合规。 简单性是通过精心设计的用户界面和依赖来实现的 在用于执行外部任务&#xff08;如阅读 电子邮件…...

Kafka-消费者-KafkaConsumer分析

与KafkaProducer不同的是&#xff0c;KafkaConsumer不是一个线程安全的类。 为了便于分析&#xff0c;我们认为下面介绍的所有操作都是在同一线程中完成的&#xff0c;所以不需要考虑锁的问题。 这种设计将实现多线程处理消息的逻辑转移到了调用KafkaConsumer的代码中&#x…...

Spring | Spring中的Bean--下

Spring中的Bean: 4.Bean的生命周期5.Bean的配装配式 ( 添加Bean到IOC容器的方式 依赖注入的方式 )5.1 基于XML的配置5.2 基于Annotation (注解) 的装配 (更常用&#xff09;5.3 自动装配 4.Bean的生命周期 Spring容器可以管理 singleton作用域的Bean的生命周期&#xff0c;在此…...

本周五上海见 第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛(上海站)即将召开

低时延技术是证券基金期货领域业务系统的核心技术&#xff0c;是打造极速交易系统领先优势的关键&#xff0c;也是证券基金行业关注的前沿技术热点。 1月19日下午&#xff0c;第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛&#xff08;上海站&#xff09;即…...

怎么安装IK分词器

.安装IK分词器 1.在线安装ik插件&#xff08;较慢&#xff09; # 进入容器内部 docker exec -it elasticsearch /bin/bash ​ # 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elastics…...

【踩坑】flask_uploads报错cannot import name ‘secure_filename‘

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhang.cn] 背景说明 截至目前&#xff0c;用新版的flask实现文件上传(用到flask_uploads库)&#xff0c;会出现这个问题。 问题原因 版本问题&#xff0c;新的werkzeug已经把secure_filename的位置改了。 解决方法 手动修改…...

逻辑回归:给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告&#xff08;肿瘤大小、血液指标&#xff09;&#xff0c;你需要做出一个**决定性判断**&#xff1a;恶性还是良性&#xff1f;这种“非黑即白”的抉择&#xff0c;正是**逻辑回归&#xff08;Logistic Regression&#xff09;** 的战场&a…...

iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版​分享

平时用 iPhone 的时候&#xff0c;难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵&#xff0c;或者买了二手 iPhone 却被原来的 iCloud 账号锁住&#xff0c;这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)

服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍,多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述 二、position 的五种类型详解(初学者版) 1. static(默认值) 2. relative(相对定位) 3. absolute(绝对定位) 4. fixed(固定定位) 5. sticky(粘性定位) 三、定位元素的层级关系(z-i…...

(转)什么是DockerCompose?它有什么作用?

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用&#xff0c;而无需手动一个个创建和运行容器。 Compose文件是一个文本文件&#xff0c;通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

Java面试专项一-准备篇

一、企业简历筛选规则 一般企业的简历筛选流程&#xff1a;首先由HR先筛选一部分简历后&#xff0c;在将简历给到对应的项目负责人后再进行下一步的操作。 HR如何筛选简历 例如&#xff1a;Boss直聘&#xff08;招聘方平台&#xff09; 直接按照条件进行筛选 例如&#xff1a…...

JVM 内存结构 详解

内存结构 运行时数据区&#xff1a; Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器&#xff1a; ​ 线程私有&#xff0c;程序控制流的指示器&#xff0c;分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

[免费]微信小程序问卷调查系统(SpringBoot后端+Vue管理端)【论文+源码+SQL脚本】

大家好&#xff0c;我是java1234_小锋老师&#xff0c;看到一个不错的微信小程序问卷调查系统(SpringBoot后端Vue管理端)【论文源码SQL脚本】&#xff0c;分享下哈。 项目视频演示 【免费】微信小程序问卷调查系统(SpringBoot后端Vue管理端) Java毕业设计_哔哩哔哩_bilibili 项…...

Selenium常用函数介绍

目录 一&#xff0c;元素定位 1.1 cssSeector 1.2 xpath 二&#xff0c;操作测试对象 三&#xff0c;窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口 四&#xff0c;弹窗 五&#xff0c;等待 六&#xff0c;导航 七&#xff0c;文件上传 …...

【C++进阶篇】智能指针

C内存管理终极指南&#xff1a;智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...