DTI综述(更新中)
Deep Learning for drug repurposing:methods,datasets,and applications
综述读完,觉得少了点东西,自己写个DTI综述
Databases(包括但不限于文章中的)
| DATABASE | DESCRIBE |
|---|---|
| BindingDB | 有详细的drug信息和对应的target,V5.1.7包括13791个drug entries(DTI) |
| KEGG(Kyoto Encylopedia of Genes and Genomes) | 集成数据库,包含来自基因,蛋白质,生物通路和人类疾病的大规模分子数据集, |
| Pubchem | 化学分子数据库及其对生物测定的活性,包括110万个化合物,27100万个substances以及297 million bioactivities,提供了多种分子信息,包括化学结构和物理性质、生物属性、生物活性、安全性、毒性信息、专利、文献、引用等 |
| CCLE | 对抗癌药物有用 |
| ChemDB | 提供了化学结构和分子性质,还预测了分子3D结构 |
| CTD(Comparative Toxicogenomics Database) | CTD提供了有关化学基因(chemical-gene?)或蛋白质相互作用、化学疾病和基因疾病关系的manually curated information |
| DGIdb | 从30个来源挖掘的DTI,包括DrugBank、PharmGKB、Chembl,DrugTarget Commons,Therapeutic Target Database |
| DrugBank | 将药物数据信息(chemical,pharmacological,pharmaceutical)和药物靶标信息(sequence,structure,pathway)结合 |
| DrugCentral | 提供了active chemical entities and dug mode of action |
| DTC(Drug Target Commons) | DTC整理了生物活性数据以及蛋白质分类into superfamilies,临床阶段和不良反应以及disease indications |
| DTP(Drug Target Profiler) | DTP包含drug target生物活性数据并实现了网络可视化,还包含药物的基于细胞的药物反应图谱及其临床相位信息 |
| GCLIDA | 包含DTI for G-protein-coupled receptors(GPCRs) |
| GtopDB | 包含已批准的药物和在调查中的化合物的定量生物活性数据 |
| PathwayCommon | 包含生化反应、complex assembly、物理相互作用的,涉及蛋白质、DNA、RNA、小分子和复合物 |
| PharmGKB | 包含临床以实和研究人员药物反应的遗传变异的综合数据 |
| STITCH | 存储了化学品和蛋白质已知和预测的相互作用,涵盖了来自2031和生物体的9643763个蛋白质 |
| Supertarget | 用于分析DTI和药物副作用 |
| BioSNAP | DTI |
| HUMAN | DTI |
| TTD(Therapeutic Target Database) | 提供了有关已知和探索中的therapeutic protein和nucleic acid targets,靶向疾病、通路信息以及针对每个target的相应药物信息 |
| AOPEDF | 从DrugBank,TTD,PharmKGB收集物理DTI,并利用生物活性数据从chembl,bindingdb提取DTI,从DrugBANK中提取每种药物的SMIES格式的化学结构。 |
上述都是数据库,数据集还要自己造,或者看看别的论文的数据集开源没
数据集
| dataset | contents | source |
|---|---|---|
| BindingDB | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
| BioSNAP | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
| HUMAN | 药物序列,蛋白质序列,label(0/1) | DrugBAN-github |
Representation Learning
Sequence-based

Drug representations(对于分子化合物).
(a) One-hot representation[67] of SMILES string. 1d表示是SMILES(simpified Molecular input Line Entry System)基于化学键规则的拓扑信息的文本符号。
(b) Two-dimensional(2D) representation of molecular graph where each substructure was associated with a predefined bitvector.化学指纹,如圆形指纹,是分子的2D表示,它循环搜索每个原子周围的部分结构,然后使用哈希函数将分子转换为二进制向量。然而,由于生成的向量不仅高维稀疏,而且由于哈希函数,它们可能包含“比特碰撞”。
© Graph Neural network (GNN) was adopted to transfer a molecular graph to a vector where the atoms and bonds were denoted by nodes and edges, respectively.
此外,Mol2vec被提出并被认为是最具代表性的方法,将分子子结构视为“词”,化合物视为“句子”,并使用Word2Vec生成原子标识符的嵌入。尽管这些方法取得了很好的性能,但这种一维或二维表示的明显缺点是键长和三维构象的信息会丢失,这对于药物靶标的结合细节可能很重要。因此,3D 表示将在未来引起更多的关注。

Target representations.
(a) One-hot representation ofamino acids sequences.其中每个氨基酸可以简单地通过 one-hot 编码进行编码。
(b) Contactmap was a kind of two-dimensional (2D)representation of the protein.蛋白质也可以用二维(2D)距离图来表示,该距离图计算三维蛋白质结构中所有可能的氨基酸残基对之间的距离。
© Graph convolutionalnetwork was used to learnthe representation of the three-dimensional (3D) protein graph withnodesrepresenting the various constituent non-hydrogen atoms.
同样,蛋白质序列通常由 20 个标准氨基酸组成。受NLP嵌入技术的启发,进一步开发了ProtVec和doc2vec,从蛋白质序列生成非重叠的3-gram子序列,并使用word2vec技术基于skip-gram模型预训练它们的分布式表示。然而,这些模型通常专注于学习与上下文无关的表示。与 k-gram 不同,UniRep旨在应用 RNN 从未标记的氨基酸序列中学习蛋白质的统计表示,这些氨基酸序列在语义上丰富且结构丰富、进化和生物物理基础。
Strodthoff等人提出了一种通用深度序列模型,该模型在未标记的蛋白质序列上进行了预训练,可以在下游分类任务上进行微调。然而,上面提到的蛋白质表示仅使用由 20 个不同的字符组成的蛋白质序列的特殊顺序提供的信息,而忽略了蛋白质的物理、化学和生物学特性。Rifaioglu等人提出了一种新的特征化方法,根据蛋白质序列的物理、化学和生物学特性,将蛋白质序列表示为数字矩阵。MDeePred与化合物类似,基于序列的表示方法没有考虑更多关于蛋白质三维结构的信息。
Network/graph-based representation learning
RDKit可以很容易地将SMILES字符串转换为分子图,对于分子,我们可以将原子和键表示为12条边连接的顶点(drug图c)。
对于蛋白质,表示蛋白质分子的一种更自然的方法是用代表蛋白质中各种组成非氢原子的节点对蛋白质图进行编码,是构建旋转不变的呈现。ProteinGCN有效地利用了原子间方向和距离,并通过图卷积公式捕获了局部结构信息(target图c)。与那些主要保留一阶或二阶邻近性的 GNN 相比,另一种有前途的技术,称为网络嵌入,用于学习全局特征。具体来说,它通常将节点、边及其特征映射到一个向量,它最大限度地保留了全局属性(例如结构信息)。[84]一旦获得节点表示,深度学习模型就可以应用于基于网络的任务,包括节点分类、[85]节点聚类[86]和链接预测。[87]另一个重要的基于图的深度学习方法,称为概率图,结合了各种神经生成模型、基于梯度的优化和神经推理技术。此外,在生物序列上训练的变分自动编码器 (VAE)[88] 已被证明可以学习有利于各种下游任务的生物学意义表示。简而言之,VAE是自动编码器的变体,它在输入空间和潜在空间之间提供随机映射。该映射在训练期间被正则化,以确保其潜在空间有能力生成一些新的数据。在蛋白质建模领域应用 VAE 的一个例子是学习细菌荧光素酶的表示。[89] 由此产生的连续实值表示可用于生成luxA 细菌荧光素酶的新功能变体。
深度学习模型(target-centered)
药物再利用工具通常旨在预测未知的drug-target或drug-disease相互作用,可分为“以靶点为中心”或“以疾病为中心的”方法。
| Model | drug | target(pr) | architecture | type | year |
|---|---|---|---|---|---|
| DeepAffintiy | SMILES | Protein SPS(Structural property sequence) | RNN,CNN,Attention Mechanism | DTA | 2019 |
| Rifaioglu et al. | SMILES | Protein sequence structural,evolutionary and physicochemical properties | CNN | DTA | 2020 |
| GraphDTA | Molecular graph | Protein sequence | GCN,DNN | DTA | 2019 |
| DeepConv-DTI | Fingerprint | Protein sequence | CNN,DNN | DTI | 2019 |
| MCPINN | ECFP&Mol2Vec&SMILES | Amino acid sequence & ProtVec | DNN | CPI | 2019 |
| Gao et al | Molecular graph | Amino acid sequence | GCN,LSTM,two-way attention mechanism | DTI | 2018 |
| TransformerCPI | Molecular graph | Protein sequence | Transformer | CPI | 2020 |
| Tsubaki et al. | Molecular graph | Amino acid sequence | GCN,CNN,attention mechanism | CPI | 2019 |
| Trimodel | Biomedical knoledge graphs about drug and target | - | Knowledge Graph Embedding | DTI | 2019 |
| MOVE | |||||
| MultiDTI | |||||
| MolTrans | |||||
| Yang li et al. | |||||
| MIRACLE | |||||
| ImageMol | |||||
| DrugBAN | Molecular graph | Protein sequence | GCN,CNN,biattention | DTI | 2023 |
| CLOOME |
相关文章:
DTI综述(更新中)
Deep Learning for drug repurposing:methods,datasets,and applications 综述读完,觉得少了点东西,自己写个DTI综述 Databases(包括但不限于文章中的) DATABASEDESCRIBEBindingDB有详细的drug信息和对应的target&a…...
封装一个滑块控制灯光组件
效果如下gif 只进行了基础的事件和布局,可优化的地方:luminance-box这个div加上后,由于和slider-run-way都是absolute定位,导致slider-run-way的点击事件无法设置值,只能通过滑块设置。暂时想不到咋处理,有…...
flutter循环
flutter for循环: Wrap(children: <Widget>[for (int i 0; i < (xx.yy.data?.items?.length ?? 0); i)TextButton(onPressed: (){}, child: Text("${xx.yy.data?.items?[i].name.toString()} (${xx.yy.data?.items?[i].connId.toString()})…...
2.3 如何使用FlinkSQL读取写入到JDBC(MySQL)
1、JDBC SQL 连接器 FlinkSQL允许使用 JDBC连接器,向任意类型的关系型数据库读取或者写入数据 添加Maven依赖 <dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-jdbc</artifactId><version>3.1…...
Flink日志收集到数据库/kafka
引言 我们做项目过程中发现flink日志不同模式启动,存放位置不同,查找任务日志很不方便,具体问题如下: 原始flink的日志配置文件log4j-cli.properties appender.file.append false,取消追加,直接覆盖掉上…...
Go项目踩坑:go get下载超时,goFrame框架下的go项目里将vue项目的dist同步打包发布,go项目打包并压缩
Go项目踩坑:go get下载超时,goFrame框架下的go项目里将vue项目的dist同步打包发布,go项目打包并压缩 go get下载超时goFrame打包静态资源vue项目打包gf pack生成go文件 静态资源使用打包发布go项目交叉编译,省略一些不必要的信息通…...
DataCon【签到题】挖矿流量检测
【签到题】挖矿流量检测 文章目录 答案【多选】1. 个人电脑中了挖矿病毒通常有以下哪些表现?【单选】2. 在典型挖矿场景中,矿工和矿池之间目前最常用的通信协议是哪一个?【单选】3. 目前的虚拟货币挖矿场景中,最常采用的是哪种共识…...
Vivado详细使用教程 | LED闪烁示例
文章目录 整体流程第一步:新建工程第二步:设计输入第三步:功能仿真第四步:分析与综合第五步:约束输入第六步:设计实现第七步:下载比特流 整体流程 打开软甲------>新建工程------->设计输…...
一些经典的神经网络(第17天)
1. 经典神经网络LeNet LeNet是早期成功的神经网络; 先使用卷积层来学习图片空间信息 然后使用全连接层来转到到类别空间 【通过在卷积层后加入激活函数,可以引入非线性、增加模型的表达能力、增强稀疏性和解决梯度消失等问题,从而提高卷积…...
Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件
Hadoop-HA-Hive-on-Spark 4台虚拟机安装配置文件 版本号步骤hadoopcore-site.xmlhdfs-site.xmlmapred-site.xmlslavesworkersyarn-site.xml hivehive-site.xmlspark-defaults.conf sparkhdfs-site.xmlhive-site.xmlslavesyarn-site.xmlspark-env.sh 版本号 apache-hive-3.1.3-…...
Hutool工具类参考文章
Hutool工具类参考文章 日期: 身份证:...
【 Python ModuleNotFoundError: No module named ‘xxx‘可能的解决方案大全】
Python ModuleNotFoundError: No module named ‘xxx‘可能的解决方案大全 本文主要介绍了Python ModuleNotFoundError: No module named ‘xxx‘可能的解决方案大全,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值&#x…...
eclipse 配置selenium环境
eclipse环境 安装selenium的步骤 配置谷歌浏览器驱动 Selenium安装-如何在Java中安装Selenium chrome驱动下载 eclipse 启动配置java_home: 在eclipse.ini文件中加上一行 1 配置java环境,网上有很多教程 2 下载eclipse,网上有很多教程 ps&…...
数据挖掘(6)聚类分析
一、什么是聚类分析 1.1概述 无指导的,数据集中类别未知类的特征: 类不是事先给定的,而是根据数据的相似性、距离划分的聚类的数目和结构都没有事先假定。挖掘有价值的客户: 找到客户的黄金客户ATM的安装位置 1.2区别 二、距离和相似系数 …...
在启智平台上安装anconda
安装Anaconda3-5.0.1-Linux-x86_64.sh python版本是3.6 在下面的网站上找到要下载的anaconda版本,把对应的.sh文件下载下来 https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 把sh文件压缩成.zip文件,拖到启智平台的调试页面 上传到平台上 un…...
棒球省队建设实施办法·棒球1号位
棒球省队建设实施办法 1. 建设目标与原则 提升棒球省队整体竞技水平 为了提升棒球省队整体竞技水平,我们需要采取一系列有效的措施。 首先,我们应该加强对棒球运动的投入和关注。各级政府和相关部门应加大对棒球运动的经费投入,提高球队的…...
架构案例2017(五十二)
第5题 阅读以下关于Web系统架构设计的叙述,在答题纸上回答问题1至问题3.【说明】某电子商务企业因发展良好,客户量逐步增大,企业业务不断扩充,导致其原有的B2C商品交易平台己不能满足现有业务需求。因此,该企业委托某…...
给四个点坐标计算两条直线的交点
文章目录 1 chatgpt42、文心一言3、星火4、Bard总结 我使用Chatgpt4和文心一言、科大讯飞星火、google Bard 对该问题进行搜索,分别给出答案。先说结论,是chatgpt4和文心一言给对了答案, 另外两个部分正确。 问题是:python 给定四…...
从入门到进阶 之 ElasticSearch SpringData 继承篇
🌹 以上分享 从入门到进阶 之 ElasticSearch SpringData 继承篇,如有问题请指教写。🌹🌹 如你对技术也感兴趣,欢迎交流。🌹🌹🌹 如有需要,请👍点赞…...
中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例
中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例 中文编程开发语言工具编程案例:计时计费管理系统软件连接灯控器编程案例 中文编程系统化教程,不需英语基础。学习链接 https://edu.csdn.net/course/detail/39036...
基于FPGA的PID算法学习———实现PID比例控制算法
基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...
【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密
在实际项目中,用户注册、登录、修改密码等操作,都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输,在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...
Objective-C常用命名规范总结
【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...
在 Nginx Stream 层“改写”MQTT ngx_stream_mqtt_filter_module
1、为什么要修改 CONNECT 报文? 多租户隔离:自动为接入设备追加租户前缀,后端按 ClientID 拆分队列。零代码鉴权:将入站用户名替换为 OAuth Access-Token,后端 Broker 统一校验。灰度发布:根据 IP/地理位写…...
Python如何给视频添加音频和字幕
在Python中,给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加,包括必要的代码示例和详细解释。 环境准备 在开始之前,需要安装以下Python库:…...
涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战
“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...
C# 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信
文章目录 Linux C语言网络编程详细入门教程:如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket(服务端和客户端都要)2. 绑定本地地址和端口&#x…...
C++.OpenGL (14/64)多光源(Multiple Lights)
多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...
如何配置一个sql server使得其它用户可以通过excel odbc获取数据
要让其他用户通过 Excel 使用 ODBC 连接到 SQL Server 获取数据,你需要完成以下配置步骤: ✅ 一、在 SQL Server 端配置(服务器设置) 1. 启用 TCP/IP 协议 打开 “SQL Server 配置管理器”。导航到:SQL Server 网络配…...
