中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
作者:李宝珠
编辑:三羊
中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。
众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这些反应如果在体外进行,通常需要在高温、高压、强酸、强碱等剧烈条件下才能发生。
但在生物体内,新陈代谢反应却可以在极为温和的条件下高效进行,这主要归功于重要的有机催化剂——酶。
作为贯穿高中生物学科的高分知识点,酶的特性或许已经烙印在大家记忆深处——催化效率高、专一性强、作用条件温和等。更重要的是,酶与很多人体疾病密切相关,还可以用于诊断与治疗。一直以来,人们在深入研究酶分子结构与功能的同时,也在持续探究酶促反应的影响因素。
研究酶促反应速率以及各种因素对酶促反应速率影响机制的科学,被称为「酶促反应动力学」,在研究中,酶在特定反应中的催化效率通常通过酶动力学参数 (enzyme kinetic parameters) 来衡量。
酶促反应动力学参数包括了酶周转数 kcat、米氏常数 Km 和催化效率 kcat / Km 等,目前主要依赖湿实验来进行参数测量,但这一过程耗时且成本高,使得实验测得的酶动力学参数数据库规模相对较小,而数据的稀缺则会限制下游系统生物学和代谢工程领域的发展。
针对于此,中国科学院深圳先进技术研究院合成所罗小舟团队提出了,基于预训练大语言模型和机器学习模型的酶动力学参数预测框架 (enzyme kinetic parameters prediction framework,UniKP)。
该框架仅通过给定酶的氨基酸序列和底物的结构信息,就可以实现多种不同的酶动力学参数的预测。此外,研究团队进一步将环境因素纳入考量,提出了基于 UniKP 的双层框架 EF-UniKP,实现了更准确地酶动力学参数的预测。

论文链接:
https://www.nature.com/articles/s41467-023-44113-1
GitHub链接:
https://github.com/Luo-SynBioLab/UniKP
关注公众号,回复「UniKP」下载完整论文
代表性数据集验证模型价值
研究团队选择了 4 个具有代表性的数据集来验证 UniKP 的性能及价值。
首先是 DLKcat 数据集,研究人员筛选后得到了 16,838 个样本,包括来自 851 个生物体的 7,822 个独特蛋白质序列和 2,672 个独特底物。数据集按照 9:1 的比例划分为训练集和测试集。
其次是 pH 和温度数据集,其中 pH 数据集包含 636 个样本,由 261 个独特的酶序列和 331 个独特的底物组成;温度数据集包含 572 个样本,由 243 个独特的酶序列和 302 个独特的底物组成。数据集按照 8:2 的比例划分为训练集和测试集。
第三是米氏常数 (Km) 数据集,由 11,722 个样本组成,包括酶序列、底物分子指纹图谱和相应的 Km 值。数据集按照 8:2 的比例划分为训练集和测试集。
第四是 kcat/Km 数据集,包含 910 个由酶序列、底物结构及其相应的 kcat/Km 值组成的样本。
两大关键组件:表示模块+机器学习模块
研究团队提出的 UniKP,能提高根据给定的酶序列和底物结构预测 kcat、Km 和 kcat / Km 的准确性。UniKP 框架由两个关键组件组成——表示模块 (representation module) 和机器学习模块。
表示模块的作用是将复杂的酶和底物信息转换为机器学习模型能够理解和处理的向量表示,以便后续的机器学习模块进行预测和分析。

其中,酶序列表示模块 (Enzyme sequence representation module), 使用预训练语言模型 ProtT5-XL-UniRef50 对酶的信息进行编码,每个氨基酸通过该模型被转换为一个 1,024 维的向量,并通过均值池化 (averaged by mean pooling) 进行处理,最终生成一个 1,024 维的向量来表示整个酶的序列信息(如上图所示)。

底物结构表示模块 (Substrate structure representation module),使用预训练语言模型 SMILES Transformer model 对底物的信息进行编码。底物结构被转换为 SMILES 格式,进而通过预训练的 SMILES 转换器生成一个 1,024 维的向量,并对最后一层和倒数第二层的第一个输出进行均值和最大池化,最终生成一个 1,024 维的向量来表示底物的结构信息(如上图所示)。

针对机器学习模块,研究团队对比了 16 种不同的机器学习模型,以及 2 种代表性的深度学习模型——卷积神经网络和循环神经网络。
结果显示,集成性模型表现出更好的性能,尤其是随机森林 (random forests) 和极端随机树 (extra trees) 显著优于其他模型,其中极端随机树表现最佳 (R²=0.65)。如上图所示,机器学习模型以连接表示向量为输入,生成预测的 kcat、Km 或 kcat / Km 值。

此外,研究人员将环境因素纳入考量,生成了优化的预测框架,并在涵盖 pH 和温度信息的两个数据集上进行了验证(如上图所示)。

最后,UniKP 通过不同的重新加权方法来调整样本权重分布,从而为高价值预测任务生成优化预测结果(如上图所示)。
双层框架——EF-UniKP
作为双层框架,EF-UniKP 包含一个基础层 (base layer) 和一个元层 (meta layer),如下图所示:

基础层包含两个独立模型——UniKP 和 Revised UniKP。UniKP 以蛋白质和底物的连接表示向量作为输入,而 Revised UniKP 使用蛋白质和底物的连接表示向量、结合 pH 或温度值作为输入。
元层包括一个线性回归模型,使用来自 UniKP 和 Revised UniKP 的预测 kcat 值来预测最终的 kcat 值。
R² 值高出20%,EF-UniKP 完胜
研究团队在 kcat 预测任务上使用 DLKcat 数据集对 UniKP 框架进行了验证,该数据集包含 16,838 个样本。在 5 轮随机划分的测试集验证中,UniKP 的 R² 值为 0.68,比 DLKcat 提高了20%。此外,在测试中,DLKcat 的最高值比 UniKP 的最低值低了 16%,进一步证明了 UniKP 的稳健性。

随后,研究团队创建了涵盖 pH 和温度信息的两个数据集来对 EF-UniKP 进行了评估,并分别按照 8:2 的比例划分为训练集和测试集。
在测试集上,EF-UniKP 相较于 UniKP 和 Revised UniKP 表现更佳。在 pH 数据集测试中,EF-UniKP 的 R² 分别高出 20% 和 8%,在温度数据集测试中,EF-UniKP 的 R² 分别高出 26% 和 2%。在酶和底物至少有一个不在训练集的测试中,EF-UniKP 在 pH 数据集上的 R² 值相较于 UniKP 和 Revised UniKP 分别高出 13% 和 10%,在温度数据集上分别高出 16% 和 4%。

蝴蝶模式:拉通科研与产业
罗小舟课题组背后的中国科学院深圳先进技术研究院(简称“深圳先进院”)是由中国科学院、深圳市人民政府及香港中文大学于 2006 年 2 月共同建立的,由 8 个研究所组成:
-
中国科学院香港中文大学深圳先进集成技术研究所
-
生物医学与健康工程研究所
-
先进计算与数字工程研究所
-
生物医药与技术研究所
-
脑认知与脑疾病研究所
-
合成生物学研究所
-
先进材料科学与工程研究所
-
碳中和技术研究所(筹)
罗小舟博士是在 2019 年完成了在加州大学伯克利分校的博士后研究,回国并正式加入深圳先进院合成生物学研究所,任职研究员。同年,其作为合伙人之一筹备的 「森瑞斯生物」也在深圳正式成立,专注于合成生物技术的研发及其在各领域的创新应用。2022 年 3 月,公司完成了近亿元人民币的 A 轮融资。
罗小舟博士「科研」与「产业」兼顾的发展路径恰恰与深圳先进院的宗旨完美契合。据介绍,深圳先进院探索了「0—1—10—∞的蝴蝶模式」,这也在森瑞斯生物得到了很好的实践。
在发现液体橡胶 HVR 和大麻素 CBD 可共用同一自主知识产权的底盘细胞后,森瑞斯利用其前期已开发的数个针对酿酒酵母改造的工艺方法,再结合内部的合成生物元件库,在 6 个月时间内就将液体橡胶 HVR 产量提升到了可商业化的水平。
这其中,罗小舟博士与其导师、同时也是森瑞斯的发起人之一 Jay D. Keasling 院士合作,在 2019 年便成功打通大麻素的生物全合成通路,成为了其商业化的基础。
罗小舟表示,实现管线的快速产业化有着两大关键因素:一是学术界和产业深度融合,学术界有效搭建产业界所需化合物的 0-1 的合成通路;二是标准化的生产工艺和工具,覆盖从 0-1 的学术研究、1-10 的工程研发、到 10 - 无限工业化放大这三个阶段,打造合成生物的生产线,提升 1-10 的研发效率。
参考资料:
https://www.siat.ac.cn/cyjl2016/202203/t20220330_6416153.html
https://mp.weixin.qq.com/s/QsAqhqIBwYhDfdtY1zJACw
相关文章:
中科院罗小舟团队提出 UniKP 框架,大模型 + 机器学习高精度预测酶动力学参数
作者:李宝珠 编辑:三羊 中国科学院深圳先进技术研究院罗小舟团队提出了,基于酶动力学参数预测框架 (UniKP),实现多种不同的酶动力学参数的预测。 众所周知,生物体内的新陈代谢是通过各种各样的化学反应来实现的。这…...
组件中写选项的顺序(vue的问题)
为什么选项要有统一的书写顺序呢?很简单,就是要将选择和认知成本最小化。 副作用 (触发组件外的影响) el全局感知 (要求组件以外的知识) nameparent组件类型 (更改组件的类型) functional模板修改器 (改变模板的编译方式) delimiterscomments模板依赖 (…...
LUA 对象转excel
1. 首先把LUA 转成JSON 对象 因为是excel, 所以第一层要是数组,否则没有什么意义,即lua对象要是一个数组比较合理。这里使用开源的json.lua, 但是开源的,对于数字作下标的,或者是一个数组里,不同类型的key…...
深入理解 Flink(八)Flink Task 部署初始化和启动详解
JobMaster 部署 Task 核心入口: JobMaster.onStart();部署 Task 链条:JobMaster --> DefaultScheduler --> SchedulingStrategy --> ExecutionVertex --> Execution --> RPC请求 --> TaskExecutor TaskExecutor 处理 JobMaster 的 …...
openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c
文章目录 openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c概述笔记END openssl3.2 - 官方demo学习 - pkey - EVP_PKEY_DSA_paramfromdata.c 概述 开源工程包含的头文件类型是.inc, 要重命名为.h, 否则没有c头文件语法提示 从数组中载入大数p,q,g 建立ossl…...
【k8s】Kubernetes技术和相关命令简介
一、 Kubernetes简介 Kubernetes是Google开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。在生产环境中部署一个应用程序时,通常要部署该应用的多个实例以便对应用请求进行负载均衡。kubernetes,简称K8s࿰…...
清晰光谱空间:全自动可调波长系统的高光谱成像优势
高光谱成像技术 高光谱成像技术是一种捕获和分析宽波长信息的技术,能够对材料和特征进行详细的光谱分析和识别。高光谱成像技术的实现通过高光谱相机,其工作原理是使用多个光学传感器或光学滤波器分离不同波长的光,并捕获每个波段的图像&…...
23.实战演练--个人主页
<?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"xmlns:tools"http://schemas.android.com/tools"><applicationandroid:allowBackup"true"an…...
[剪藏] - 任泽平年终演讲精华:点燃希望——2024中国经济十大预测
任泽平年终演讲精华:点燃希望——2024中国经济十大预测 泽平宏观 2023-12-23 08:01 发表于上海 12月22日22:30,任泽平年终秀“点燃希望乐观者前行——2024中国经济十大预测”圆满收官。 泽平宏观、北京广播电视台、上海高净值研究院、北京时间等携手打…...
基于LabVIEW的压力传感器测试系统
摘要 现在各类压力传感器已广泛应用于各种工业自控环境,对压力传感器的研究 及应用,既可以体现一个国家的科技发展水平,又可以提升国家的综合国力,还 可以在丰富、方便和智能化人们的生活方面做出重要的贡献。而针对不同仪器组 成…...
Vue 如何使用WebSocket与服务器建立链接 持续保持通信
WebSocket 浏览器通过JavaScript向服务器发出建立WebSocket链接的请求,链接建立后,客户端和服务器端就可以通过TCP链接直接交互数据。WebSocket链接后可以通过send()方法来向服务器发送数据,并通过onnessage事件来接受服务器返回的数据。 创…...
自动驾驶模拟器
目录 Carla 自动驾驶模拟器 Udacity自动驾驶模拟器 Carla 自动驾驶模拟器 pip install carla 需要下载地图 Udacity自动驾驶模拟器...
Jmeter的文件参数化:CSV数据文件设置和_CSVRead函数
一、CSV数据文件设置 1、简介 CSV数据文件配置(CSV Data Set Config)可以将CSV文件中数据读入自定义变量中 Jmeter中CSV数据文件配置的界面如下图所示: 其中: (1)文件编码 文件的编码格式,与所…...
windows编译TensorFlowServing
概述 整个编译打包过程的总体思路,是参照在linux下的编译流程,配置环境,执行编译命令,根据编译器/链接器反馈的错误,修改相应的源码或者相关库文件的存放路径,编译出windows平台下静态库和二进制执行文件。…...
debian 12 安装 浏览器 Epiphany
Epiphany 什么epiphany-browser epiphany-browser 是: Epiphany 是一款简单而强大的 GNOME 网络浏览器,针对 非技术用户。它的原则是简单和标准 合规。 简单性是通过精心设计的用户界面和依赖来实现的 在用于执行外部任务(如阅读 电子邮件…...
Kafka-消费者-KafkaConsumer分析
与KafkaProducer不同的是,KafkaConsumer不是一个线程安全的类。 为了便于分析,我们认为下面介绍的所有操作都是在同一线程中完成的,所以不需要考虑锁的问题。 这种设计将实现多线程处理消息的逻辑转移到了调用KafkaConsumer的代码中&#x…...
Spring | Spring中的Bean--下
Spring中的Bean: 4.Bean的生命周期5.Bean的配装配式 ( 添加Bean到IOC容器的方式 依赖注入的方式 )5.1 基于XML的配置5.2 基于Annotation (注解) 的装配 (更常用)5.3 自动装配 4.Bean的生命周期 Spring容器可以管理 singleton作用域的Bean的生命周期,在此…...
本周五上海见 第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛(上海站)即将召开
低时延技术是证券基金期货领域业务系统的核心技术,是打造极速交易系统领先优势的关键,也是证券基金行业关注的前沿技术热点。 1月19日下午,第二届证券基金行业先进计算技术大会暨2024低时延技术创新实践论坛(上海站)即…...
怎么安装IK分词器
.安装IK分词器 1.在线安装ik插件(较慢) # 进入容器内部 docker exec -it elasticsearch /bin/bash # 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elastics…...
【踩坑】flask_uploads报错cannot import name ‘secure_filename‘
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] 背景说明 截至目前,用新版的flask实现文件上传(用到flask_uploads库),会出现这个问题。 问题原因 版本问题,新的werkzeug已经把secure_filename的位置改了。 解决方法 手动修改…...
新手必看:用Cisco Packet Tracer一步步配置VLAN(附常见错误排查)
从零开始掌握Cisco Packet Tracer中的VLAN配置:完整指南与避坑手册 在计算机网络的学习和实践中,虚拟局域网(VLAN)技术是每个网络工程师必须掌握的核心技能之一。无论你是正在准备CCNA认证的学生,还是需要为企业部署网络架构的IT专业人员&…...
通义千问2.5-7B-Instruct开发者指南:API调用代码实例详解
通义千问2.5-7B-Instruct开发者指南:API调用代码实例详解 1. 快速了解通义千问2.5-7B-Instruct 通义千问2.5-7B-Instruct是阿里云在2024年9月发布的70亿参数指令微调模型,属于中等体量的全能型AI助手,最大的特点是完全开源且可以商用。 这…...
【AI工具篇】10款免费AI聊天与绘画神器:从GPT到Stable Diffusion的全方位体验
1. GPT机器人:全能型AI助手 这款工具可以说是AI领域的瑞士军刀,既能陪你聊天又能帮你画画。我实测下来最惊艳的是它直接集成了GPT-4模型,要知道很多收费工具都还在用3.5版本。打开应用就像有个学霸朋友随时待命——上周我写项目方案卡壳时&am…...
解密革命性构建工具:PoeCharm如何突破传统限制实现高效角色规划
解密革命性构建工具:PoeCharm如何突破传统限制实现高效角色规划 【免费下载链接】PoeCharm Path of Building Chinese version 项目地址: https://gitcode.com/gh_mirrors/po/PoeCharm 在流放之路的复杂游戏生态中,角色构建往往成为玩家面临的最大…...
别再只用CEC2005了!手把手教你用MATLAB跑通CEC2017测试集(附完整代码)
从CEC2005到CEC2017:MATLAB实战迁移指南与性能优化技巧 当优化算法研究者还在使用CEC2005作为基准测试时,前沿论文早已转向更具挑战性的CEC2017测试集。这个转变不仅仅是数字上的更新,更代表着优化算法评估标准的一次重大飞跃。本文将带你从零…...
【部署】windows下虚拟机OpenClaw Ubuntu 24.04.4 安装指南
未来已来,只需一句指令,养龙虾专栏导航,持续更新ing… 概述 前置环境:win10/11、vmware等虚拟机(安装时注意勾选VMware Tools、cpu可以分配2C,内存建议4G,硬盘空间建议给40G) 系统要求 Node.js 22+:安装脚本可自动检测并安装(下文补充手动安装方案); Ubuntu 24.0…...
OpenClaw浏览器自动化:GLM-4.7-Flash驱动的智能搜索与数据采集
OpenClaw浏览器自动化:GLM-4.7-Flash驱动的智能搜索与数据采集 1. 为什么需要浏览器自动化助手 上周我需要做一个小型市场调研,收集20家竞品的产品定价和功能列表。手动打开每个网站、复制粘贴数据、整理成表格,花了整整一个下午。这种重复…...
ReAct Agent:新手程序员必看!收藏这款融合推理与行动的AI智能体框架,轻松入门大模型应用开发
ReAct框架通过结合推理与行动,解决了传统提示工程的局限性,构建出能主动思考、决策并执行复杂任务的智能体。本文详细介绍了ReAct的核心设计思想,包括推理模块的动态思考链和错误回溯机制,以及行动模块的工具集成和环境状态感知。…...
CAD_Sketcher终极指南:如何在Blender中实现精准约束绘图
CAD_Sketcher终极指南:如何在Blender中实现精准约束绘图 【免费下载链接】CAD_Sketcher Constraint-based geometry sketcher for blender 项目地址: https://gitcode.com/gh_mirrors/ca/CAD_Sketcher 你是否曾在Blender中尝试绘制精确的机械零件或建筑平面图…...
2026年03月CCF-GESP编程能力等级认证Scratch图形化编程二级真题解析
本文收录于《Scratch等级认证CCF-GESP图形化真题解析》专栏,专栏总目录:点这里,订阅后可阅读专栏内所有文章。 一、单选题(每题 3 分,共 30 分) 第 1 题 在 2026 年春晚的《武 BOT》节目中,一群机器人表演空翻:它们落地后晃一下又能站稳,还会移动保持队形整齐。如果…...
