当前位置: 首页 > news >正文

【Gene Expression Prediction】Part2 Enchancer discovery

文章目录

  • 5. 第一个讲座:Enchancer discovery
    • 5.1 STARR-seq
    • 5.2 Enchancer detection with weakly supervised learning
    • 5.3 Model performance

来自Manolis Kellis教授(MIT计算生物学主任)的课
YouTube:(Gene Expression Prediction - Lecture 09 - Deep Learning in Life Sciences (Spring 2021)
Slides: slides
本节课分为四个部分,本篇笔记是第二部分。
本节主要是一个讲座STARR-seq,探讨发现增强子的方法。如何利用弱监督学习检测增强子。评估了模型性能,以及它们在基因表达分析中的应用潜力。

5. 第一个讲座:Enchancer discovery

增强子是增强特定基因的转录的。对理解细胞如何在不同条件下调控基因表达至关重要。

以前的识别方法都是一些非监督方法,因为没有监督数据

5.1 STARR-seq

MPRA(Massively Parallel Reporter Assays)是一种高通量基因组功能验证技术。它可以同时测试成千上万个DNA序列(如启动子、增强子等调控元件)对基因表达的影响。

大量候选DNA序列插进短的报告基因vector中(比如荧光素酶基因,都包含一个小的启动子)。如果一个候选DNA是增强子,就会增强基因转录表达,就会被检测出来。

关键优点是能够在一个实验中评估大量序列,这是传统单个报告基因测定所无法实现的

STARR-seq 是MPRA的一个变体。

在一个细胞系中,它通过直接测量基因片段的活性来识别转录增强子

产生数据为监督学习提供基础,DNA序列和其活性标签。

这里主要是为了大规模筛选,所以就用了统一的报告基因,就是为了测试DNA序列的增强子活性

不同细胞类型(如K562、HepG2等)进行的一系列基因组分析实验。

ENCODE项目研究人员的一个核心假设,即染色质的开放状态和组蛋白修饰之间的相互作用调控基因表达特别是转录因子结合和增强子活性的关键

这些数据集用于进行验证

在这里就是我们能否使用这些特征,来验证STARR-seq expression

5.2 Enchancer detection with weakly supervised learning

该模型结合了表观遗传特征数据(如ATAC-seq、DNase-seq和ChIP-seq的信号轨迹)和STARR-seq实验结果来训练一个模型,从而识别和精确定位增强子

  • 首先模型的input,就是某个区域的,4kb大小的滑动窗口,进行移动

    • 记录每个窗口的表观遗传标记的数据,包括组蛋白修饰的分布、DNA可及性的测量等等。(基因组上每个位置的综合信号强度)
    • 按我的理解的话,就是一个input matrix就是4kb的窗口
  • 然后output是STARR-seq实验得到的数据。

    • 包括增强子位置区域预测和核心增强子区域(真正起到增强作用的)
  • 神经网络使用这些数据来预测哪些窗口包含活跃的增强子区域。

  • Grad-CAM技术可以帮助分析决策过程,有助于科学家们理解模型为什么会认为某个特定区域是一个增强子。

    • 这里其实是重点的一个部分

    • 使用在训练过程中计算出的梯度信息,这些信息表示了模型输出(如增强子的预测位置)对输入特征的敏感性

    • 可以看出哪些地方对决策贡献更大

    • 例如,如果Grad-CAM揭示了在某个4kb窗口内,H3K27ac的特定模式与模型预测增强子存在密切相关,那么我们可以得出结论,这种特定的组蛋白修饰模式对于识别增强子是重要的。

    • 这样的准则是更加通用的

如下图所示,Grad-CAM在弱监督学习中应用效果好。弱监督学习就比如只能告诉我们照片里有猫/狗,但是我们不知道具体位置

跟我们这里只知道增强子活动而不知其位置的道理是一样的

  • 卷积层中的激活图

    • 每个卷积核都会产还是呢个一个激活图,高亮了图像中相关特征的位置
  • 梯度相加

    • 对于所选的类别(如“狗”或“猫”),网络在最后一个卷积层的每个激活图上计算该类别相对于该激活图的梯度。
    • 这些梯度表示激活图对于识别该类别的重要性。
    • 梯度越大,越关键
  • 组合生成热图

    • 将这些梯度加权的激活图进行线性组合,得到最终的Grad-CAM热图
    • 通过ReLU函数处理,保留对类别有正贡献的特征,取消无关特征。
  • 在基因组学中

    • 通过Grad-CAM,可以理解模型在预测基因组上的特定区域为增强子时,哪些表观遗传标记起了决定性作用。这有助于解释模型的决策过程,并可以指导进一步的生物实验来验证这些预测。

5.3 Model performance

一个基因组学模型在不同细胞系和染色体上的交叉验证

  • 细胞系交叉验证
    • 模型使用一个或多个细胞系的数据进行训练,并在其他未使用的细胞系数据上进行测试。
    • 泛化到新的细胞系的能力。
  • 染色体交叉验证(Leave-One-Chromosome-Out Cross Validation):
    • 模型在除了一个染色体的所有染色体数据上进行训练,并在剩下的那个染色体上进行测试。
    • 验证模型是否能够泛化到基因组上新的位置。

左边的是预测出来增强子在的区域,并且给出了表观遗传标志和基因注释、预测标签

然后论文中该模型性能超过SOTA(这里不展示)

举例一下,关于神经祖细胞(NPC)的案例研究。

  • Grad-CAM技术分析

    • 左图:不同表观遗传标记在4kb基因组窗口内的重要性评分。预测贡献。
    • 右图:展示了窗口中每个位置的重要性评分。描绘出潜在增强子的精确位置。(就像检测猫在图中的哪个位置一样)
  • 预测统计

    • 总覆盖面积(Total Coverage):经过精细化的预测覆盖了更小的区域
    • TSS重叠(TSS overlap):显示精细化后的预测与TSS的重叠比例显著增加(从原始的数值增加到71.0%),表明预测与已知的基因表达起始区域更加吻合。
    • PhastCons得分:PhastCons是一种评估跨物种保守性的方法,得分增加(p-value < 0.001)表明经过精细化的预测区域在进化上更加保守,可能具有重要的生物学功能。
    • 稀有衍生等位基因频率(Rare Derived-Allele-Frequency, DAF)SNP富集:稀有DAF SNP的富集表明这些区域在同种内也是受到选择压力的,进一步暗示预测的增强子在功能上是重要的。

相关文章:

【Gene Expression Prediction】Part2 Enchancer discovery

文章目录 5. 第一个讲座&#xff1a;Enchancer discovery5.1 STARR-seq5.2 Enchancer detection with weakly supervised learning5.3 Model performance 来自Manolis Kellis教授&#xff08;MIT计算生物学主任&#xff09;的课 YouTube&#xff1a;(Gene Expression Predictio…...

【UEFI基础】EDK网络框架(UDP4)

UDP4 UDP4协议说明 UDP的全称是User Datagram Protocol&#xff0c;它不提供复杂的控制机制&#xff0c;仅利用IP提供面向无连接的通信服务。它将上层应用程序发来的数据在收到的那一刻&#xff0c;立即按照原样发送到网络。 UDP报文格式&#xff1a; 各个参数说明如下&…...

vivado使用注意事项

记得给constrs&#xff08;.xdc&#xff09;限制文件设置为目标文件&#xff08;set as Target Consraint File&#xff09;...

gin路由篇

1. 基本路由 gin 框架中采用的路由库是基于httprouter做的 import ("net/http""github.com/gin-gonic/gin" )func main() {// 1.创建路由r : gin.Default()// 2.绑定路由规则&#xff0c;执行的函数// gin.Context&#xff0c;封装了request和responser.…...

C++逆向分析--继承的本质

一.一些思考 继承是面向对象的三个特性之一。这篇文章我们从底层的角度去理解什么是继承。他的作用是什么。首先继承的出现是更好的避免代码的重复冗余。要理解一件事很重要&#xff0c;C其实是C的延申。那么C的出现是为了解决C语言上C祖师爷认为不友好的事情&#xff0c;也为…...

​LeetCode解法汇总2865. 美丽塔 I

目录链接&#xff1a; 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目&#xff1a; https://github.com/September26/java-algorithms 原题链接&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 描述&#xff1a; 给你一个长…...

pinia 的使用方法

使用方式&#xff08;选项式&#xff09; 1、在 mian.js 导入 pinia 里的 createPinia 函数。 2、app.use 这个 createPinia 函数的返回值。 // main.jsimport { createPinia } from pinia;app.use(createPinia()); 3、创建一个 js 文件&#xff08;该文件保存着共享的数据&…...

sky_take_out

day01&#xff1a; 前端网址通过nginx访问后端网址&#xff08;前后网址不一致&#xff09;&#xff0c;有三个好处&#xff1a; 一是提高访问速度&#xff0c;二是进行负载均衡&#xff0c;三是保障后端安全性 用md5加密了密码 后端使用knife4j调试,用Swagger生成接口文档&am…...

LC 2865. 美丽塔 I

2865. 美丽塔 I 难度 : 中等 题目大意 给你一个长度为 n 下标从 0 开始的整数数组 maxHeights 。 你的任务是在坐标轴上建 n 座塔。第 i 座塔的下标为 i &#xff0c;高度为 heights[i] 。 如果以下条件满足&#xff0c;我们称这些塔是 美丽 的&#xff1a; 1 < heights…...

代理设计模式JDK动态代理CGLIB动态代理原理

代理设计模式 代理模式&#xff08;Proxy&#xff09;&#xff0c;为其它对象提供一种代理以控制对这个对象的访问。如下图 从上面的类图可以看出&#xff0c;通过代理模式&#xff0c;客户端访问接口时的实例实际上是Proxy对象&#xff0c;Proxy对象持有RealSubject的引用&am…...

[陇剑杯 2021]webshell

[陇剑杯 2021]webshell 题目做法及思路解析&#xff08;个人分享&#xff09; 问一&#xff1a;单位网站被黑客挂马&#xff0c;请您从流量中分析出webshell&#xff0c;进行回答&#xff1a; 黑客登录系统使用的密码是_____________。 题目思路&#xff1a; 分析题目&…...

美易官方:小米汽车交付时间传闻被官方辟谣

在科技与互联网的快速发展浪潮中&#xff0c;各类信息传播速度之快令人咋舌。然而&#xff0c;信息的真实性却时常成为公众关注的焦点。近日&#xff0c;关于小米汽车交付时间的谣言再次引起市场的广泛关注。小米公司发言人迅速作出回应&#xff0c;明确指出这些关于小米汽车交…...

MySQL 简介

什么是MySQL&#xff1f;&#xff08;熟悉&#xff09; MySQL是一个开源的、使用标准SQL语言的、可运行于多个系统的、支持多语言的、支持大型数据库的关系型数据库管理系统。由瑞典 MySQL AB 公司开发&#xff0c;目前属于 Oracle 旗下产品。我们通常使用关系型数据库管理系统…...

动态规划最后一天(回文串)

目录 647. 回文子串 看到题目的第一想法 看到代码随想录之后的想法 自己实现过程中遇到的困难(看代码) 516.最长回文子序列 看到题目的第一想法 看到代码随想录之后的想法 自己实现过程中遇到的困难(看代码) 647. 回文子串 力扣题目链接…...

c语言之scanf函数

scanf函数语法格式与printf函数很相似&#xff0c;语法是scanf(格式控制,地址列表)组成 其中格式控制分为两部分&#xff0c;一部分由双引号括起来的&#xff0c;%和格式字符组成的格式字符串 普通字符串则是原样输出 地址列表是若干地址组成的表列&#xff0c;可以是变量的…...

ORM-02-JPA Java Persistence API 注解入门介绍

拓展阅读 The jdbc pool for java.(java 手写 jdbc 数据库连接池实现) The simple mybatis.&#xff08;手写简易版 mybatis&#xff09; JPA JPA是Java Persistence API的简称&#xff0c;中文名Java持久层API&#xff0c;是JDK 5.0注解或XML描述对象&#xff0d;关系表的映射…...

【MQ01】什么是消息队列?用哪个消息队列?

什么是消息队列&#xff1f;用哪个消息队列&#xff1f; 来了来了&#xff0c;消息队列系列总算来咯。对于搜索引擎相关的知识大家消化的怎么样呀&#xff1f;其实对于搜索引擎来说&#xff0c;我们学习的内容还是挺全面的&#xff0c;也算是比较深入了。而对于消息队列来说&am…...

2023年度AI盘点 AIGC|AGI|ChatGPT|人工智能大模型

前言 「作者主页」&#xff1a;雪碧有白泡泡 「个人网站」&#xff1a;雪碧的个人网站 2023年是人工智能大语言模型大爆发的一年&#xff0c;一些概念和英文缩写也在这一年里集中出现&#xff0c;很容易混淆&#xff0c;甚至把人搞懵。 文章目录 前言01 《ChatGPT 驱动软件开…...

【Flink-CDC】Flink CDC 介绍和原理概述

【Flink-CDC】Flink CDC 介绍和原理概述 1&#xff09;基于查询的 CDC 和基于日志的 CDC2&#xff09;Flink CDC3&#xff09;Flink CDC原理简述4&#xff09;基于 Flink SQL CDC 的数据同步方案实践4.1.案例 1 : Flink SQL CDC JDBC Connector4.2.案例 2 : CDC Streaming ETL…...

长城资产信息技术岗24届校招面试面经

本文介绍2024届秋招中&#xff0c;中国长城资产管理股份有限公司的信息技术岗岗位一面的面试基本情况、提问问题等。 10月投递了中国长城资产管理股份有限公司的信息技术岗岗位&#xff0c;所在部门为长城新盛信托有限责任公司。目前完成了一面&#xff0c;在这里记录一下一面经…...

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…...

idea大量爆红问题解决

问题描述 在学习和工作中&#xff0c;idea是程序员不可缺少的一个工具&#xff0c;但是突然在有些时候就会出现大量爆红的问题&#xff0c;发现无法跳转&#xff0c;无论是关机重启或者是替换root都无法解决 就是如上所展示的问题&#xff0c;但是程序依然可以启动。 问题解决…...

stm32G473的flash模式是单bank还是双bank?

今天突然有人stm32G473的flash模式是单bank还是双bank&#xff1f;由于时间太久&#xff0c;我真忘记了。搜搜发现&#xff0c;还真有人和我一样。见下面的链接&#xff1a;https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

服务器--宝塔命令

一、宝塔面板安装命令 ⚠️ 必须使用 root 用户 或 sudo 权限执行&#xff01; sudo su - 1. CentOS 系统&#xff1a; yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT&#xff0c;橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版&#xff1a;职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制

使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下&#xff0c;限制某个 IP 的访问频率是非常重要的&#xff0c;可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案&#xff0c;使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...

掌握 HTTP 请求:理解 cURL GET 语法

cURL 是一个强大的命令行工具&#xff0c;用于发送 HTTP 请求和与 Web 服务器交互。在 Web 开发和测试中&#xff0c;cURL 经常用于发送 GET 请求来获取服务器资源。本文将详细介绍 cURL GET 请求的语法和使用方法。 一、cURL 基本概念 cURL 是 "Client URL" 的缩写…...

在 Spring Boot 项目里,MYSQL中json类型字段使用

前言&#xff1a; 因为程序特殊需求导致&#xff0c;需要mysql数据库存储json类型数据&#xff0c;因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

论文阅读:LLM4Drive: A Survey of Large Language Models for Autonomous Driving

地址&#xff1a;LLM4Drive: A Survey of Large Language Models for Autonomous Driving 摘要翻译 自动驾驶技术作为推动交通和城市出行变革的催化剂&#xff0c;正从基于规则的系统向数据驱动策略转变。传统的模块化系统受限于级联模块间的累积误差和缺乏灵活性的预设规则。…...