蛋白质功能预测论文阅读记录2025(DPFunc、ProtCLIP)
前言
最近研究到瓶颈了,怎么优化都提升不了,遂开始看点最新的论文。
DPFunc
2025.1.2 Nature Communication 中南大学
论文地址:DPFunc: accurately predicting protein function via deep learning with domain-guided structure information | Nature Communications
github仓库:CSUBioGroup/DPFunc
数据集:PDB(被认为test与train的序列相似度较高,在review中被指出)、CAFA3(在论文中说的是large_scale dataset)
使用蛋白质序列、结构、结构域数据
模型结构:

非常清晰的模型结构,序列特征用的ESM-1b,结构特征提取用的GCN,结构域用的Embedding,最后使用MLP分类
建图依然是接触图
融合的交叉注意力是值得关注的地方,这里用的domain作为Q,序列+结构作为K、V,主观感觉十分合理
另一个值得关注的地方是关键残基的预测算法:(论文中还有几个蛋白质的实例分析,非常细节)

简单来说就是,先按照每个残基位置的注意力得分进行排序,然后根据下图的方法选择。

结果:
PDB数据集:(虽然总标签数少,但结果也相当不错了)


CAFA3数据集:(结果有所下降,毕竟标签数有28000+个)

ProtCLIP
2024.12.28 还在arxiv上AAAI 浙江大学
论文地址:[2412.20014] ProtCLIP: Function-Informed Protein Multi-Modal Learning
github仓库:diaoshaoyou/ProtCLIP
该模型是利用蛋白质序列和蛋白质相关的描述文本进行对比学习预训练,然后再做下游任务预测,在22个下游任务中都取得了sota,相当nb

使用的数据是自己整理的两个数据集,ProtAnno-S和ProtAnno-D。
其中S数据集是量比较少,数据置信度高,D数据集是数据密集,但置信度稍低于S
模型结构:

序列特征提取用的ESM2-650M,蛋白质文本描述特征提取使用的PubMed-BERT
论文中定义了一个蛋白质簇u的Property属性P,C表示置信度、R表示覆盖率(文中的这个覆盖率定义还不是很清晰,看起来就是某个簇在总集中的占比吧)、N表示簇的大小

在选取训练数据时,根据这个P值作为概率分布来进行数据采样
预训练有四个任务loss,GC、MLM、PDA和BSR
GC就是普通的CLIP对比学习损失,MLM就是对文本mask重建的损失。
PDA(Property-Grouped Dynamic Segment Alignment)
直译就是根据文本属性(比如蛋白质名、功能、用途之类的描述)分组,然后动态区间对齐。按照论文的意思,就是蛋白质的每个氨基酸和文本中的原型(大概就是聚类的文本含义)求相似度,过一个阈值,把每个原型对应的相似度和蛋白质氨基酸求点积,得到每个原型的得分,最后再来对齐。
大致公式如下:(其实和对比学习损失差不多)


这里的公式似乎有些问题,不是求集合,而是求点积(按照示例图的含义)
BSR(Biotext-guided Static Segment Reconstruction)
直译就是基于生物文本引导的静态区间重建
它首先在蛋白质序列上进行区间采样,每次选一个长度为L(在5~10之间均匀分布)的区间(与之前的区间不重叠),直到采样区间总长度达到蛋白质序列总长度的15%。
然后把这些采样的区间mask之后,用生物文本的特征来重建这些区间,使用的交叉注意力+MLP+GELU,最后重建结果用以下的损失函数:

其实就是对每个mask位置的预测做一个交叉熵损失,求一个平均值。
下游任务表现
各个下游任务的模型结构:

蛋白质功能预测

相当恐怖的结果,在BP上能够达到0.567的AUPR,但在CC上却没有特别高,之前的论文在CC的Fmax一般都能上0.6(例如Domain-PFP),可能是下游模型比较简单,所以结果并不高。
另外一个值得注意的点,论文并没有明确指出使用的GO数据集,因为其本身的训练数据也很大,不好说是否训练集是否包含测试信息。
前SOTA ProtST论文地址2301.12040,用的方法和数据也是和这篇论文类似的,具有可比性。
突变效应预测
既然都看了这么多了,就不拘泥于蛋白质功能预测这一个任务指标,看看其他任务的表现
突变效应预测属于回归任务,使用的数据集是two vs many和human(与FLIP论文相同)
使用的是5个landscape的Spearman相关系数来衡量预测结果,分别是:
β-lactamase酶相关的特性、腺病毒相关特性、热力学特性、荧光性、稳定性
根据图例,应该是找一个位点,突变成不同的氨基酸,然后预测各个突变的fitness值
不过确实没看懂这个预测的是什么东西,怎么来的数据,论文也没细讲(我也没怎么了解过,之后多看点这方面的论文吧)

跨模态转移
这个就相对好懂一些,也是比较类似对比学习的相似性计算,不过这个衡量标准是MRR(推荐系统的常用指标)(这个图的match就是MRR的计算)。

(右图来自poe)

语义相似性预测
这个是检测biotext-encoder性能的实验
通过biotext-encoder对GO标签计算embedding,然后计算他们之间的曼哈顿距离
然后和GO标签之间的林相似度作比较,计算spearman系数(没想到之前IC值计算里面的困惑居然在这里解决了)
(图来自poe)
由于出现了太多次spearman系数,还是复习一下:
(图来自poe)
在这里是用来计算预测值和ground truth值的相关性的
计算两个相似度矩阵的spearman相关系数流程其实也是一样的,求得每个矩阵位置的预测值、真实值各自的大小排名,然后把每个位置的排名差值平方加起来,最后归一化。
至于归一化系数为什么是6/(n(n^2-1))
考虑最坏情况,两个序列完全相反,1~n对应n~1,Σdi^2则是Σ(i-(n-i+1))^2 (i -> 1~n)
=Σ(n-2i+1)^2
=2n(n+1)(2n+1)/3−(n^3+2n^2+n) (这里跳过了一大堆运算化简)
=(4n^3+6n^2+2n-3n^3-6n^2-3n)/3 = (n^3-n)/3 = n*(n^2-1)/3
Σdi^2最大取值就是上述式子,所以为了把spearman系数转换到[-1,1]区间中,我们用公式1-6/(n(n^2-1))*Σdi^2进行了归一化和转换,1表示正相关性,-1表示负相关性

PPI预测
这个就是连接预测任务了,没什么好说的
用的数据集是SHS27K、SHS148K、STRING,其实提升并不大
消融实验
这里的下游指标就只用了EC标签分类和Prot2MF模态跨转移
消融的目标是预训练数据集和预训练任务,可以看到PDA任务影响很大,ProtAnno-S(高质量数据集)的影响也较大。

有点奇怪的是这里的EC分类效果比前面对比实验的效果低了许多
最后还对loss权重进行了消融,没想到loss权重对训练效果的影响这么大


个人总结
这篇论文确实很好,可惜代码还没有开源,只有一个空仓库
用protein-biotext的预训练完成了下游任务的各项提升,尤其对类别众多的bp标签分类任务提升很大,已经跳出了用蛋白质本身信息端到端地预测蛋白质功能的传统方法。
除此之外,各种预训练的任务设计也很巧妙(或许这些方法在多模态学习领域已经见怪不怪了,但是对于我这种只在一个领域研究的来说,确实开拓了我的视野。只能说,不要闭门造车,还得多读、多看、多实践)
缺点就是,64张V100跑了10000个GPU小时,可能很少有实验室有复现的算力资源,而且如此繁杂的数据搜集整理以及下游任务,感觉一个人很难完成吧,应该是一个团队合力做出来的项目。
另外使用的下游蛋白质功能预测的数据集还不知道具体情况,等出了代码看看能不能对比。
本来说简写一点,结果快写成ProtCLIP的专门介绍了
后续有空会继续更新
相关文章:
蛋白质功能预测论文阅读记录2025(DPFunc、ProtCLIP)
前言 最近研究到瓶颈了,怎么优化都提升不了,遂开始看点最新的论文。 DPFunc 2025.1.2 Nature Communication 中南大学 论文地址:DPFunc: accurately predicting protein function via deep learning with domain-guided structure inform…...
Linux网络套接字编程——UDP服务器
Linux网络套接字编程——创建并绑定-CSDN博客 前面已经介绍了网络套接字的创建和绑定,这篇文章会通过UDP套接字实现一个UDP服务器。 先介绍将使用的接口。 recvfrom ssize_t recvfrom(int sockfd, void *buf, size_t len, int flags,struct sockaddr *src_addr,…...
主流向量数据库对比
在 AI 的 RAG(检索增强生成)研发领域,向量数据库是存储和查询向量嵌入的核心工具,用于支持高效的语义搜索和信息检索。向量嵌入是文本或其他非结构化数据的数值表示,RAG 系统通过这些嵌入从知识库中检索相关信息&#…...
54.HarmonyOS NEXT 登录模块开发教程(八):测试与调试技巧
温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT 登录模块开发教程(八):测试与调试技巧 文章目录 HarmonyOS NEXT 登录模块开发教程(…...
Vue3中 ref 与 reactive区别
ref 用途: ref 通常用于创建一个响应式的基本类型数据(如 string、number、boolean 等),但它也可以用于对象或数组 返回值: ref 返回一个带有 .value 属性的对象,访问或修改数据需要通过 .value 进行 使用场景: …...
结构型——装饰器模式
装饰器模式 装饰器是指能动态地为对象添加额外的功能的一种结构型设计模式。 特点 不修改原有代码的情况下,动态地扩展一个对象的功能。支持多个装饰器叠加使用透明性,装饰后的对象与原对象保持一致,客户端无需感知装饰过程 结构模式与实…...
在Simulink中将Excel数据导入可变负载模块的方法介绍
文章目录 数据准备与格式要求Excel数据格式MATLAB预处理数据导入方法使用From Spreadsheet模块(直接导入Excel)通过MATLAB工作区中转(From Workspace模块)使用1-D Lookup Table模块(非线性负载映射)Signal Builder模块(变载工况导入)可变负载模块配置注意事项与调试在S…...
分布式事务的产生背景及理论指导
分布式事务的产生背景 在现代互联网和企业级系统架构中,随着业务需求的增长,单体架构逐渐向微服务架构、分布式架构演进。传统单体架构下,事务管理相对简单,可以依赖数据库的本地事务(如 MySQL 的 ACID 事务ÿ…...
动手学强化学习-记录
3.5 蒙特卡洛方法 统计每一个状态s出现的总次数和总回报,用大数定律,总回报/总次数≈状态s的期望回报 第4章 动态规划算法 策略迭代中的策略评估使用贝尔曼期望方程来得到一个策略的状态价值函数,这是一个动 态规划的过程;而价值迭代直接使用贝尔曼最…...
RocketMQ性能优化篇
在分布式消息系统中,RocketMQ以其高性能、高可靠性和高可扩展性而被广泛应用。然而,为了充分发挥其性能优势,需要进行一系列的性能测试和优化。本文将从性能测试方法和优化实践两个方面,详细介绍如何对RocketMQ进行性能优化。通过…...
C语言为例谈数据依赖性
数据依赖性(Data Dependency)是指程序中后续操作的计算结果或内存访问依赖于前面操作的结果。在存在数据依赖的情况下,编译器或处理器会保证这些操作的执行顺序,因此不需要显式地使用内存屏障(Memory Barrierÿ…...
阿里云操作系统控制台评测:国产AI+运维 一站式运维管理平台
阿里云操作系统控制台评测:国产AI运维 一站式运维管理平台 引言 随着云计算技术的飞速发展,企业在云端的运维管理面临更高的要求。阿里云操作系统控制台作为一款集运维管理、智能助手和系统诊断等多功能于一体的工具,正逐步成为企业高效管理…...
C++中的const与类型转换艺术
目录 强制转换 static_cast const_cast reinterpret_cast dynamic_cast const关键字 修饰内置类型* 修饰指针类型* 类比 数组指针 指针数组 函数指针 指针函数 强制转换 C语言中的强制转换在C代码中依然可以使用,这种C风格的转换格式非常简单 TYPE a …...
网络安全演练有哪些形式
OPENVAS使用 1、确定指定IP是否能ping通 2、创建扫描目标 3、创建扫描任务(scan management →newtask) 4、开始任务start 5、查看扫描细节 6、查看扫描结果,包含漏洞详细信息,亦可到处PDF文件 7、导出扫描结果报告 8、为…...
c++常用的算术生成算法
注意: 算术生成算法属于小型算法,使用时包含的头文件为 #include <numeric> 算法简介: accumulate //计算容器元素累加总和fill //向容器中添加元素 1. accumulate 功能描述: 计算区间内 容器元素…...
2011. 执行操作后的变量值
执行操作后的变量值 题目描述尝试做法推荐做法 题目描述 存在一种仅支持 4 种操作和 1 个变量 X 的编程语言: X 和 X 使变量 X 的值 加 1 –X 和 X-- 使变量 X 的值 减 1 最初,X 的值是 0 给你一个字符串数组 operations ,这是由操作组成的…...
特辣的海藻!10
基础知识点 1.清除换行符 scan.nextInt()要加scan.nextLine()清楚换行符。 2.Map.Entry<K, V> Map.Entry是Map接口的嵌套接口,表示一个键值对(Key-Value) 常用方法: entry.getKey():获取键 …...
SpringBoot动态加载JAR包实战:实现插件化架构的终极指南
在需要热插拔业务模块、支持灰度发布的系统中,动态加载外部JAR包是提升系统扩展性的核心技术。本文将手把手实现3种动态加载方案,包含可直接运行的SpringBoot代码,并深入分析类加载机制与内存泄漏预防策略。 一、动态加载的应用场景 电商…...
双因素拆解法 - 分析比例型指标的因子贡献度
什么是比例型指标 比例型指标是指那些以比例或比率形式表示的指标,通常涉及两个相关量的比较。以下是一些常见的比例型指标的例子: 毛利率:毛利率是毛利与销售收入的比率,公式为: 毛利率 毛利 销售收入 100 % \tex…...
sqli-lab靶场学习(八)——Less26-28
前言 25关已经出现了初步的一些关键字过滤,通过双写可以绕过。后面的关卡,我们会遇到更多关键字过滤,需要各种技巧绕过。 Less26 第26关写了会过滤空格和注释符。有很多的答案,会用%a0替代空格,但据说这是sqli-labs部…...
Netty基础—4.NIO的使用简介二
大纲 1.Buffer缓冲区 2.Channel通道 3.BIO编程 4.伪异步IO编程 5.改造程序以支持长连接 6.NIO三大核心组件 7.NIO服务端的创建流程 8.NIO客户端的创建流程 9.NIO优点总结 10.NIO问题总结 4.伪异步IO编程 (1)BIO的主要问题 (2)BIO编程模型的改进 (3)伪异步IO编程 …...
双指针算法专题之——复写零
文章目录 题目介绍思路分析异地复写优化为就地复写 AC代码 题目介绍 链接: 1089. 复写零 思路分析 那么这道题我们依然可以使用双指针算法来解决 异地复写 先不考虑题目的要求,直接就地在原数组上修改,可能不太好想,我们这里可以先在一个…...
【Pandas】pandas Series last_valid_index
Pandas2.2 Series Time Series-related 方法描述Series.asfreq(freq[, method, how, …])用于将时间序列数据转换为指定的频率Series.asof(where[, subset])用于返回时间序列中指定索引位置的最近一个非缺失值Series.shift([periods, freq, axis, …])用于将时间序列数据沿指…...
python-leetcode-子数组最大平均数 I
643. 子数组最大平均数 I - 力扣(LeetCode) 可以使用滑动窗口(Sliding Window)的方法来解决这个问题。具体步骤如下: 先计算数组 nums 中前 k 个元素的和 sum_k,作为初始窗口的和。然后滑动窗口࿰…...
【度的数量——数位DP】
题目 分析 数位DP可以解决“区间内满足某种性质的数的个数”的问题 通常按照数位分支,形成一颗数位树 最左分支的值由上界值决定,右分支可以直接计算权重 有可能最左分支会有一个权重 代码 #include <bits/stdc.h> using namespace std;cons…...
STM32使用EXTI触发进行软件消抖(更新中)
在STM32的HAL库中,为了实现按键的软件消抖,通常需要在按键中断处理或轮询程序中加入一定的延时和状态检测逻辑。以下是一个简单的示例,展示了如何使用HAL库来实现按键的软件消抖。 假设你有一个按键连接到GPIO引脚,并且已经配置好…...
计算机操作系统进程(3)
系列文章目录 第二章:进程的描述与控制 文章目录 系列文章目录前言一、进程同步的基本概念:二、临界资源:总结 前言 前面我们学习了进程的定义和特征,进程状态的转换,接下来我们开始学习我们最重要的一点也是相对最难…...
搭建阿里云专有网络VPC
目录 一、概述 二、专有网络vpc 2.1 vpc基本信息 2.2 vpc资源管理 2.3 vpc网段管理 三、交换机 四、NAT网关 4.1 绑定弹性公网IP 4.2 NAT网关信息 4.3 绑定的弹性公网IP 4.4 DNAT 4.5 SNAT 五、弹性公网IP 六、访问控制ACL(绑定交换机) 6…...
centos steam8 部署k8s
kubernetes搭建 文章目录 kubernetes搭建[toc] 准备工作(三节点)安装docker(三节点)安装cri-dockerd(三节点)添加阿里云软件源(三节点)安装kubeadm、kubelet、kubectl(三节点)初始化…...
DB2 字符串比较 (= 或 IN) 时,忽略末尾的空格踩坑与解决方法
一、问题描述 在 DB2 中,VARCHAR 类型的字段在 字符串比较 ( 或 IN) 时会忽略末尾的空格,这可能导致查询结果与预期不符。例如: SELECT * FROM t_user WHERE id IN (016110110000011763); 如果 id 字段中存储的值为016110110000011763 &…...
