当前位置: 首页 > article >正文

GEARS以及与基础模型结合

理解基因扰动的反应是众多生物医学应用的核心。然而,可能的多基因扰动组合数量呈指数级增长,严重限制了实验探究的范围。在此,图增强基因激活与抑制模拟器(GEARS),将深度学习与基因-基因关系知识图谱相结合,利用扰动筛选的单细胞RNA测序数据,预测单细胞对单基因和多基因扰动的转录反应。GEARS能够预测从未经实验扰动的基因组合的扰动结果。GEARS可以预测多基因扰动的表型差异效应,从而指导扰动实验的设计。

Predicting transcriptional outcomes of novel multigene perturbations with GEARS,Nature Biotechnology,2023

目录

  • 背景概述
  • GEARS框架
  • 预测新的生物学表型
  • scFoundation+GEARS
  • 补充内容:化学扰动和基因扰动(参考UniPERT)

背景概述

细胞对基因扰动的转录反应揭示了细胞功能的基本机制。转录反应可描述多种功能,从基因调控机制如何维持细胞特性到调节基因表达如何逆转疾病表型。这对生物医学研究具有重要意义,尤其是在开发个性化疗法方面。例如,通过基因扰动研究验证药物靶点可提高临床试验成功的可能性。此外,识别协同基因对可增强联合治疗的效果。已知复杂的细胞表型由少数基因之间的遗传相互作用产生,因此识别此类相互作用可促进精准细胞工程的发展。尽管近年来的技术进步使科学家能够更快速地通过实验获取扰动结果,但由于潜在多基因组合的数量呈指数级增长,预测扰动效应的计算方法对于缩小实验规模至关重要。

然而,现有的预测扰动结果的计算方法自身存在局限性。预测单基因扰动结果的主流方法依赖于以基因调控网络的形式推断基因之间的转录关系。这种方法的局限性在于,要么难以从基因表达数据集中准确推断网络,要么从公共数据库中获取的网络不完整。此外,使用此类网络构建的现有预测模型通过线性组合单个扰动的效应进行预测,这使得它们无法预测多基因扰动的非加性效应(如协同作用)。最近的研究利用在大规模扰动筛选数据上训练的深度神经网络,跳过网络推断步骤,将遗传关系直接映射到潜在空间以预测扰动结果(比如scGen)。然而,这些方法仍要求组合中的每个基因在预测组合扰动效应之前必须经过实验扰动(来自已知细胞类型的对照和刺激数据)。

fig-scgen

  • scGen:在给定对照组和刺激组中一组已观察到的细胞类型的情况下,我们旨在通过训练一个能够学习训练集中细胞响应的模型,来预测新细胞类型A(蓝色)的扰动反应。在scGen模型中,该模型为变分自动编码器(VAE),其预测通过在自动编码器的潜在空间中进行向量运算获得。具体而言,我们使用编码器网络将基因表达测量值投影到潜在空间,并获得向量δ,该向量表示训练集中受扰动细胞与未受扰动细胞在潜在空间中的差异。利用向量δ,对A类型的未受扰动细胞在潜在空间中进行线性外推,然后通过解码器网络将潜在空间中的线性预测映射到基因表达空间中的高度非线性预测。

fig-scgen-data

  • scGen的动机:我们可以直接看umap,发现从对照组到刺激组(左),在每个细胞类型(右)中,给人一种非线性的对称感。我们可以用神经网络学习这个关系,从而在新细胞类型上推断扰动后的响应。

scButterfly的扰动和scGen一样,也是在已知细胞类型对照数据和刺激数据上训练,然后预测新细胞类型的扰动响应,并且都是单基因扰动

图增强基因激活与抑制模拟器(GEARS),这是一种将深度学习与基因-基因关系知识图谱相结合的计算方法,用于模拟基因扰动的效应。生物知识的融入使GEARS能够预测单基因或基因组合扰动的结果,即使这些基因或组合此前没有实验扰动数据。在预测来自七个不同数据集的单基因和双基因扰动结果时,GEARS的表现均优于现有方法。此外,GEARS能够检测五种不同的基因相互作用亚型,并通过预测训练中未见过的表型,将预测能力泛化到扰动空间的新区域。因此,GEARS可直接影响未来扰动实验的设计。

GEARS框架

GEARS是一种基于深度学习的模型,可预测组合扰动一个或多个基因(扰动集)后的基因表达结果。给定未受扰动的单细胞基因表达数据以及所应用的扰动集(图1a),其输出为扰动后细胞的转录状态。
fig1a

  • 图1a:给定未受扰动的基因表达(绿色)和施加的扰动(红色),预测基因表达结果(紫色)。每个方框对应一个独立基因,箭头表示表达变化。

GEARS提出了一种新方法,即使用不同的多维嵌入(用于表示有意义概念的任意数字向量;图1b)来表征每个基因及其扰动。在训练过程中,每个基因的嵌入会被调整以表征该基因的关键特征。将表征拆分为两个多维组件,使GEARS能够更充分地捕捉基因特异性的扰动响应异质性。每个基因的嵌入会依次与扰动集中每个基因的扰动嵌入相结合,最终用于预测该基因的扰动后状态。这一预测以一个单一的“跨基因”嵌入向量为条件,该向量捕捉了每个细胞的全转录组信息。

GEARS具有独特的能力,能够预测涉及一个或多个缺乏实验扰动数据基因的扰动集结果。为此,GEARS在学习基因嵌入时采用基因共表达知识图谱整合基因-基因关系先验知识,并在学习基因扰动嵌入时使用基因本体论(GO)衍生的知识图谱。这一方法基于两个生物学直觉:(i)具有相似表达模式的基因可能对外部扰动产生相似响应;(ii)参与相似通路的基因在扰动后可能影响相似基因的表达(图1b)。根据目标基因集的不同,其他知识图谱(如大型上下文特异性网络)可能更适用。GEARS通过图神经网络(GNN)架构将这种基于图的归纳偏置转化为实际功能。
fig1b

  • 图1b:GEARS模型架构(i)对于未扰动状态下的每个基因,GEARS初始化一个基因嵌入向量(绿色)和一个基因扰动嵌入向量(红色)(ii)。这些嵌入向量被指定为基因关系图和扰动关系图中的节点特征(iii)。图神经网络(GNN)用于融合每个图中相邻节点的信息。每个生成的基因嵌入会与扰动集中每个扰动的扰动嵌入相加(iv)。输出通过跨基因层在所有基因间进行组合,并输入特定基因的输出层(v)。最终结果为扰动后的基因表达;MLP为多层感知机。

预测新的生物学表型

fig4

  • 图a:一组基因的所有成对组合扰动结果的预测流程。
  • 图b:用于训练 GEARS 的 102 个单基因扰动和 128 个双基因扰动的扰动后基因表达低维表示。随机选择部分进行了标记。
  • 图c:GEARS 对实验中观察到的 102 个单基因的所有 5,151 (一共(102*102-102)/2个) 个成对组合的扰动后基因表达进行预测。预测的扰动后表型(非黑色符号)通常与实验观察到的表型(黑色符号)不同。颜色表示使用标记基因表达标注的 Leiden 簇。

图4b和图4c中的UMAP图基于Norman等人数据集中102个单基因扰动的所有成对组合的GEARS预测扰动后基因表达谱生成。该数据集中共有105个单基因扰动,本图使用了人类物种基因本体数据库中存在的102个基因的扰动数据。图4c展示了包含所有5151种可能的双基因扰动以及102种单基因扰动的完整UMAP扰动后结果。图4b仅使用Norman中用于训练GEARS的扰动(102种单基因扰动和128种双基因扰动)的GEARS预测扰动后基因表达谱绘制。因此,图4b是图4c数据的子集。

聚类使用scanpy中默认参数的Leiden聚类(分辨率=1)进行。图4b和4c中显示的簇使用Norman中的表型标签进行标注。如果任何单个簇或簇组包含Norman等人标注为表现出特定表型的扰动,则整个簇或簇组在图4b或4c中被标注为显示该特定表型。这些图中所有其他簇未赋予表型标签。

每个散点代表一个基因表达谱(比如经过指定扰动的一组细胞的平均表达量)。

scFoundation+GEARS

将基因符号列表统一为19,264个,并在每个数据集上构建了基因共表达网络。参照原始GEARS研究的设计方案:对于单基因扰动实验,随机选取75%的扰动样本作为训练数据;对于双基因扰动实验,训练集仅包含两个基因均属于已知基因集(0/2未见过)的75%组合,其余所有含未知基因的组合(1/2和2/2未见过)均保留作为测试集。随后,通过设置训练周期为15轮、批处理量为30来训练GEARS基线模型。

通过移除scFoundation最后一层MLP,从解码器提取基因上下文嵌入作为共表达网络的节点特征。训练过程中固定scFoundation参数不动,仅对下游GEARS模型进行训练,并采用梯度累积策略以保证与基线模型保持一致的等效批处理规模。

scfoundation+gears

  • 在每个数据集中生成共表达网络,用大模型输出的gene token作为网络节点embedding,结合扰动embedding预测转录结果。

与scGPT的不同之处:scGPT没有使用GEARS,是类似scGen的方式。其次,scGPT在每个输入基因的位置附加了一个二元条件标记,用以表明该基因是否受到了扰动。scGPT使用一个对照细胞作为输入,将受扰动的细胞作为目标。这是通过将每个受扰动的细胞与一个未受扰动的对照细胞随机配对来构建输入 - 目标对实现的。因此,该模型学会了基于对照基因的表达情况和扰动标记来预测扰动后的响应。

CellFM的做法与scFoundation一样。

补充内容:化学扰动和基因扰动(参考UniPERT)

下面补充介绍化学扰动和基因扰动的典型架构(参考UniPERT:https://www.biorxiv.org/content/10.1101/2025.02.02.635055v1)

基因扰动:
unipert-1

  • GEARS-based:GEARS衍生的遗传扰动结果预测框架示意图。给定未扰动的基因表达谱(左下角,即对照组),其中每个基因通过基于基因共表达网络的图神经网络(GNN)进行编码。遗传扰动因子的嵌入表示(左上角)可通过以下方式获得:
    1.整合基因本体论(Gene Ontology)先验知识与GNN(如原始GEARS模型)
    2.从可扩展的预训练/预定义蛋白质序列表征方法中提取,包括:
    • ii) PseAAC(伪氨基酸组成)
    • iii) ESM(进化-scale模型)
    • iv) OntoProtein(基于本体的蛋白质表征)
    • v) 本文提出的UniPert模型
  • 单一或多个扰动因子的嵌入(绿色)随后被添加到每个基因的嵌入(灰色)中,生成扰动后的基因嵌入(紫色)。这些嵌入向量依次通过融合层和基因特异性解码器,最终转换为预测的扰动后基因表达值。

化学扰动:
unipert-2

  • CPA-based:CPA衍生的化学扰动结果预测框架示意图。未扰动谱(左下角)向量被投影到低维潜在空间,而化学扰动因子(左上角),即小分子,使用传统分子指纹特征进行数字化,如i) chemCPA模型,或通过先进表示方法编码,如ii) Uni-Mol、iii) KPGT和iv) UniPert。随后,扰动因子嵌入(黄色)与其他协变量嵌入被添加到潜在对照嵌入(灰色)中,解码后生成预测的扰动后基因谱向量(紫色)。

相关文章:

GEARS以及与基础模型结合

理解基因扰动的反应是众多生物医学应用的核心。然而,可能的多基因扰动组合数量呈指数级增长,严重限制了实验探究的范围。在此,图增强基因激活与抑制模拟器(GEARS),将深度学习与基因-基因关系知识图谱相结合…...

SFINAE(替换并不是错误)机制详解详解

C—SFINAE机制详解 1. 核心概念 SFINAE(替换失败并非错误)是C模板元编程的核心机制,它规定了: 在模板参数推导/替换过程中如果某个替换导致无效代码不会引发编译错误而是从候选函数集中静默移除该模板特化 关键特性 template …...

怎么用外网打开内网的网址?如在异地在家连接访问公司局域网办公网站

什么是内网:即本地网络,私有网,内网IP,如学校局域网,家庭内网,公司内部网络等。可以简单理解为同一个路由下的几个电脑网络。 外网概念:即公网,互联网,是相对于内网而言…...

计算机网络 | 1.1 计算机网络概述思维导图

附大纲: 计算机网络的概念 一个通过通信设备与线路把不同计算机系统连接起来,实现资源共享和信息传递的系统 计算机网络的组成 从组成成分上 硬件:主机、通信链路、交换设备、通信处理机软件:网络操作系统、聊天软件等协议&…...

AI对软件工程的影响及未来发展路径分析报告

目录 第一部分:引言 研究背景与意义 报告框架与方法论 第二部分:AI对不同行业软件工程的影响分析 数字化行业 制造业 零售业 工业领域 第三部分:大厂AI软件工程实践案例分析 微软 谷歌 阿里巴巴 华为 第四部分:未来…...

redis缓存与数据库协调读写机制设计

1.读机制: 读机制没有太大的争议点,因为缓存机制的设计,就是为了更快的命中目标数据,所以读机制先天固定好了:先去读取缓存,缓存未命中再去读取数据库。 2.写机制: 写机制其实也没什么争议点…...

最悉心的指导教程——阿里云创建ECS实例教程+Vue+Django前后端的服务器部署(通过宝塔面板)

各位看官老爷们,点击关注不迷路哟。你的点赞、收藏,一键三连,是我持续更新的动力哟!!! 阿里云创建ECS实例教程 注意: 阿里云有300元额度的免费适用期哟 白嫖~~~~ 注册了阿里云账户后&#x…...

【Python】os模块

目录 🌟 前言🏗️ 技术背景与价值🩹 当前技术痛点🛠️ 解决方案概述👥 目标读者说明 🧠 一、技术原理剖析📊 核心架构图解💡 核心作用讲解🔧 关键技术模块说明⚖️ 技术选…...

Syslog 全面介绍及在 C 语言中的应用

Syslog 概述 Syslog 是一种工业标准的日志记录协议,用于在网络设备之间传递日志消息。它最早由 Eric Allman 在 1980 年代为 BSD Unix 开发,现在已成为系统和网络管理的重要组成部分。Syslog 协议允许设备将事件消息发送到中央服务器(称为 sy…...

windows中Redis、MySQL 和 Elasticsearch启动并正确监听指定端口

Redis:在 localhost 上启动,并监听端口 6379 MySQL:在 localhost 上启动,并监听端口 3306 Elasticsearch:在 127.0.0.1 上启动,并监听端口 9300 1. Redis 确保 Redis 在 localhost 上启动并监听端口 6379…...

Paimon远程文件系统连接机制解析

Paimon 在处理与远程文件系统的连接和使用方面,设计了一套灵活的抽象机制。下面将结合源代码分析 Paimon 是如何实现这一点的。 核心思想是定义一个通用的 FileIO 接口,然后为不同的文件系统提供具体的实现。对于常见的 HDFS、S3、OSS 等,Pa…...

学者观察 | Web3.0的技术革新与挑战——北京理工大学教授沈蒙

导语 沈蒙老师认为Web3.0正推动形成新型数据基础设施架构和数据要素流通机制,有望在数字经济时代发挥重要作用,对我国经济发展和社会进步将产生深远影响。AI在推动Web3.0发展方面具有巨大的潜力,但在隐私保护、公平性与安全性等方面也存在“…...

pycharm终端遇不显示虚拟环境的问题

大部分我们用pycharm会配合我们的anaconda来使用,但是配置好后,可能会出现pycharm终端不显示虚拟环境的问题。 首先是确定不显示环境,下图中如果没有这个方框,就是不显示虚拟环境。此时用pip或者conda的命令是会提示不是 “不是内…...

聊聊网络变压器的浪涌等级标准是怎样划分的呢?

Hqst盈盛(华强盛)电子导读:聊聊网络变压器的浪涌等级标准是怎样划分的呢? 在和做防雷产品的客户的深度沟通网络变压器产品选型中发现:客户对网络变压器的浪涌等级划分也很希望有更深的了解,今天就这个问题和…...

2025年Google I/O大会上,谷歌展示了一系列旨在提升开发效率与Web体验的全新功能

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

ONLYOFFICE文档API:编辑器的品牌定制化

在当今数字化办公时代,文档编辑器已成为各类企业、组织和开发者不可或缺的工具之一。ONLYOFFICE 文档提供的功能丰富且强大的文档编辑 API,让开发者能够根据自己的产品需求和品牌特点,定制编辑器界面,实现品牌化展示,为…...

HTTP/HTTPS与SOCKS5三大代理IP协议,如何选择最佳协议?

在复杂多变的网络环境中,代理协议的选择直接影响数据安全、访问效率和业务稳定性。HTTP、HTTPS和SOCKS5作为三大主流代理协议,各自针对不同场景提供独特的解决方案。本文将从协议特性、性能对比到选型策略,为您揭示如何根据业务需求精准匹配最…...

远程调用 | OpenFeign+LoadBalanced的使用

目录 RestTemplate 注入 OpenFeign 服务 LoadBalanced 服务 LoadBalanced 注解 RestTemplate 注入 创建 配置类,这里配置后 就不用再重新new一个了,而是直接调用即可 import org.springframework.cloud.client.loadbalancer.LoadBalanced; import …...

NSSCTF [NISACTF 2022]ezheap

2058.[NISACTF 2022]ezheap(堆溢出) [NISACTF 2022]ezheap 1.准备 2.ida分析 main函数 int __cdecl main(int argc, const char **argv, const char **envp) {char *command; // [esp8h] [ebp-10h]char *s; // [espCh] [ebp-Ch]setbuf(stdin, 0);setbuf(stdout, 0);s (cha…...

ADB推送文件到指定路径解析

您执行的命令 adb push ota.zip /sdcard/Download 中,目标路径 /sdcard/Download 是您显式指定的,因此 ADB 会直接将文件推送到此位置。具体过程如下: 1. 命令结构解析 adb push:ADB 的推送指令。ota.zip:本地计算机上…...

【HarmonyOS Next之旅】DevEco Studio使用指南(二十七) -> 开发云函数

目录 1 -> 开发流程 2 -> 创建并配置函数 2.1 -> 创建函数 2.2 -> 配置函数 3 -> 开发函数 4 -> 调试函数 4.1 -> 前提条件 4.2 -> 通过本地调用方式调试函数 4.3 -> 通过远程调用方式调试函数 5 -> 部署函数 1 -> 开发流程 云函数…...

ansible中的inventory.ini 文件详解

1. 主机定义 主机是 Ansible 管理的最小单元,可以是 IP 或域名,支持直接定义或附加参数。 基础语法 # 直接定义主机(IP 或域名) 192.168.1.10 example.com# 定义主机并指定连接参数(如端口、用户等) web…...

基于AOD-Net与GAN的深度学习去雾算法开发

基于AOD-Net与GAN的深度学习去雾算法开发 1. 引言 1.1 图像去雾研究意义 大气散射现象导致的图像质量退化对计算机视觉应用产生严重影响… 2. 理论基础 2.1 大气散射物理模型 经典模型描述为: I ( x ) = J ( x ) t ( x...

Rust 学习笔记:闭包

Rust 学习笔记:闭包 Rust 学习笔记:闭包用闭包捕获环境闭包类型推断和注释捕获引用或移动所有权将捕获的值移出闭包和 Fn Traits Rust 学习笔记:闭包 Rust 的闭包是匿名函数,可以保存在变量中,也可以作为参数传递给其…...

c# 获取电脑 分辨率 及 DPI 设置

using System; using System.Collections.Generic; using System.Diagnostics; using System.IO; using System.Runtime.InteropServices;/// <summary> /// 这个可以 /// </summary> class Program {static void Main(){//设置DPI感知try{SetProcessDpiAwareness(…...

基于频分复用导频的MMSE信道估计方法设计与仿真

基于频分复用导频的MMSE信道估计方法设计与仿真 摘要 本文详细研究了基于频分复用(FDM)导频的最小均方误差(MMSE)信道估计方法。首先介绍了无线通信系统中信道估计的基本原理和重要性,然后深入分析了频分复用导频结构的设计和MMSE估计算法的理论基础。我们使用Python实现了完…...

低代码开发模式下的应用交付效率优化:拖拽式交互机制研究

低代码开发平台凭借其可视化操作、快速构建、灵活扩展等核心特性&#xff0c;正在成为推动企业数字化转型的重要工具。 拖拽式开发&#xff0c;降低技术门槛 &#xff1a;图形化界面与模块化组件&#xff0c;用户无需编写复杂代码&#xff0c;只需通过简单的拖拽即可完成应用搭…...

STP配置

由于我们演示的是STP 但是华为交换机默认的都是MSTP所以要换到STP以下是方法 STP mode &#xff1f; 查看模式 STP mode stp 选择stp 换好了后配置交换机优先级 [SWA]stp priority 4096 Apr 15 2013 16:15:33-08:00 SWA DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011.5…...

Linux操作系统 使用共享内存实现进程通信和同步

共享内存使用 //main.c #include <stdio.h> #include <stdlib.h> #include <unistd.h> #include <assert.h> #include <sys/shm.h> #include <string.h> int main() {int shmidshmget((key_t)1234,256,IPC_CREAT|0600);assert(shmid!-1);…...

如何优化微信小程序中渲染带有图片的列表(二进制流存储方式的图片存在本地数据库)

方法一&#xff1a;对列表的获取进行分页处理 实现方法&#xff1a; 前端请求&#xff08;需要向后端传两个参数&#xff0c;pageIndex是获取第几页是从0开始&#xff0c;pageSize是这一页需要获取多少个数据&#xff09; 后端接口实现&#xff08;因为这里是通过参数拼接请求…...