当前位置: 首页 > news >正文

重测序基因组:Pi核酸多样性计算

如何计算核酸多样性 Pi

本期笔记分享关于核酸多样性pi计算的方法和相关技巧,主要包括原始数据整理、分组文件设置、计算原理、操作流程、可视化绘图等步骤。


alt

基因组Pi核酸多样性(Pi nucleic acid diversity)是一种遗传学研究中用来描述种群内核酸序列多样性的指标,通常用π(pi)符号表示。

它衡量了在一组生物个体的基因组中,不同核苷酸位置上的多态性水平,这种多样性是通过比较不同个体之间的DNA或RNA序列来测定的。

需要输入什么样的数据?

  • 样品分组数据

一般在计算pi的时候,需要根据不同亚群或分组来计算,比如高个子和矮个子分成两组,或者按照表性差异、起源地点等分成若干组。

需要将组的样品ID保存为一个txt文档,每行放一个样品ID,不同组的样品放在不同txt文件中。

cat pop1.txt
sample001
sample002
sample006
...
cat pop2.txt
sample012
sample054
sample269
  • 基因型数据

需要的基因型数据是VCF格式(常规存储变异信息的一种格式,通常由测序上游分析GATK标准流程获得),其中包含了区间内每个SNP在每个样品的基因型。

alt

如何进行计算?

# 首先加载所需要的R包
library(tidyverse)
library(vcfR)
library(scales)
# 备注:请提前安装vcftools并添加到环境变量

设置参数

# VCF <- "xxx.vcf"
# QTL <- "Gene1"
# SNP <- "MY_SNP_ID"
# mycol <- c("#eb6f51","#20b694","#3560a3","#f8c06f","#004b1c","#5c2d91")

mycol参数可以设置想要的颜色,最终绘图时会根据此参数调整折现颜色。VCF、QTL、SNP根据实际情况进行修改。

group_list <- c("pop1","pop2","pop...")

group_list列表存储亚群或者分组信息,每个亚群分别计算pi然后再合并绘图。

这里可以用任意分组规则,只要能把样品分成一堆一堆就可以,目的是为了研究不同分组之间的差异,还有同一组内的变化趋势。

计算Pi核酸多样性

for (i in group_list){
  shell_cmd <- str_c("vcftools",
                     "--vcf",VCF,
                     "--keep",str_c(i,".txt"), # 这里会自动读取每个分组文件
                     "--window-pi","100000"# 100kb窗口
                     "--window-pi-step","10000"# 10kb步长
                     "--out",str_c("out_pi/",i),
                     "",sep = " ")
  print(shell_cmd)
  system(shell_cmd)
}

这段R语言代码是一个循环,用于执行一系列的系统命令。以下是逐步解释:

for (i in group_list):

遍历名为group_list的列表中的每个元素,将当前元素赋值给变量i,然后执行循环体中的操作。

shell_cmd <- str_c(...):

在每次循环中,创建一个字符串变量shell_cmd,其中包括一系列参数依次进行调用,自动生成命令代码。

print(shell_cmd):

打印当前循环中生成的shell_cmd字符串,以便查看每次循环生成的命令。

system(shell_cmd):

使用system函数执行生成的shell_cmd命令,这将在系统上运行相应的vcftools命令,执行一些与VCF文件处理相关的任务,如计算窗口内的π值。

总之,这段代码的作用是循环遍历group_list中的元素,每次循环生成一个用于运行vcftools命令的字符串shell_cmd,然后执行该命令。

结果可视化

以下R语言代码的目的是创建一个包含数据框(data frame)的列表,并将一些数据加载到这些数据框中,最后将它们合并成一个大的数据框,用于ggplot绘图。

df_plot <- list()
# 创建空列表,并读取数据
for (i in group_list){
  df_plot[[i]] <- read_table(str_c("out_pi/",i,".windowed.pi"))
  df_plot[[i]][,2] <- df_plot[[i]][,2]/1000000 # 转换物理位置为MB
  df_plot[[i]][,6] <- i
  colnames(df_plot[[i]])[6] <- "Group"
}
df_plot_all <- bind_rows(df_plot)

以下是每行代码的具体解释信息:

df_plot <- list():首先创建一个空列表df_plot,用于存储数据框。

for (i in group_list):通过for循环遍历group_list中的元素,其中i代表当前循环的元素。

df_plot[[i]] <- read_table(...):在每次循环中,创建一个数据框,并将其存储在df_plot列表中的以i命名的位置。read_table函数用于读取数据文件,文件路径由str_c("out_pi/",i,".windowed.pi")构建,i是当前group_list中的元素。这个数据框包含了从指定文件中读取的数据。

df_plot[[i]][,2] <- df_plot[[i]][,2]/1000000:将df_plot列表中的第i个数据框的第2列数据(可能是物理位置)除以1000000,将其转换为兆字节(MB)。

df_plot[[i]][,6] <- i:在第i个数据框中添加一列,该列的所有值都设置为当前循环的i值,这列通常用于标识数据来源的组。

colnames(df_plot[[i]])[6] <- "Group":将第i个数据框的第6列的列名更改为"Group",以便更清晰地表示这一列的含义。

df_plot_all <- bind_rows(df_plot):最后,使用bind_rows函数将df_plot列表中的所有数据框合并成一个大的数据框df_plot_all,这个数据框包含了来自不同组的数据,每个组的数据位于不同的行中,且具有"Group"列来标识它们所属的组。
绘图

下面这段代码使用ggplot2包创建一个散点拟合曲线图并将图形保存为PDF文件。

p1 <- ggplot(df_plot_all)+
  geom_smooth(aes(BIN_START,PI,color=Group),
     method = "loess",span = 0.1 ,se = F,linewidth = 1 )+
  # geom_line(aes(BIN_START,PI,color=Group),linewidth=1)+
  scale_color_manual(values = mycol)+
  xlab(str_c("Physical Postion "))+
  ylab("Pi")+
  ylim(0,0.01)+
  theme_bw()+
  theme(legend.position = "none")
ggsave(filename = str_c("out_plot/pi_10MB/",QTL,"_",SNP,"_pi_BG_100kwindow_10kstep.pdf"),
       plot = p1,width = 8,height = 4)

以下是每行代码的详细解释:

p1 <- ggplot(df_plot_all) +:创建一个ggplot2的图形对象,基于数据框df_plot_all。

geom_smooth(aes(BIN_START, PI, color = Group), method = "loess", span = 0.1, se = F, linewidth = 1):在图形上添加平滑曲线。使用BIN_START列作为x轴,PI列作为y轴,根据不同的Group组别进行着色。曲线平滑方法为loess,span参数控制平滑度,se = F表示不要显示置信区间,linewidth = 1设置曲线的线宽。

scale_color_manual(values = mycol):自定义颜色映射,将mycol中的颜色赋予不同的组别。

xlab(str_c("Physical Position"):设置x轴标签为"Physical Position"

ylab("Pi"):设置y轴标签为"Pi"

ylim(0, 0.01):限制y轴的范围,从0到0.01。

theme_bw():应用白底主题,使图形背景为白色。

theme(legend.position = "none"):隐藏图例,因为legend.position设置为"none"

ggsave(filename = str_c("out_plot/pi_10MB/",QTL,"_",SNP,"_pi_BG_100kwindow_10kstep.pdf"), plot = p1, width = 8, height = 4):最后一行代码保存图形为PDF文件。文件名根据变量QTL和SNP动态生成,保存在指定路径下

以上就是计算核酸多样性并可视化的方法,欢迎您看到这里,如果感觉有用请转发收藏,以备不时之需。

本文由 mdnice 多平台发布

相关文章:

重测序基因组:Pi核酸多样性计算

如何计算核酸多样性 Pi 本期笔记分享关于核酸多样性pi计算的方法和相关技巧&#xff0c;主要包括原始数据整理、分组文件设置、计算原理、操作流程、可视化绘图等步骤。 基因组Pi核酸多样性&#xff08;Pi nucleic acid diversity&#xff09;是一种遗传学研究中用来描述种群内…...

C++学习之多态详解

目录 多态的实现 例题 重载 重写 重定义的区别 抽象类 多态实现原理 多态的实现 C中的多态是指&#xff0c;当类之间存在层次结构&#xff0c;并且类之间是通过继承关联时&#xff0c;就会用到多态。多态意味着调用成员函数时&#xff0c;会根据调用函数的对象的类型来执…...

项目经理之识别项目干系人

项目干系人管理是项目管理中的重要一环&#xff0c;识别和管理好项目干系人是成功实施项目的关键之一。本文将介绍4321项目干系人识别方法、干系人等级册以及五步判断法等工具&#xff0c;帮助项目经理更好地识别和管理项目干系人。同时&#xff0c;本文还将介绍干系人能量方格…...

文件列表创建工具 Nifty File Lists mac中文版功能特色

Nifty File Lists mac是一款文件列表创建工具&#xff0c;全面的元数据支持&#xff0c;涵盖了从基本文件信息&#xff0c;如文件名、路径、大小、创建和修改日期等等内容。 Nifty File Lists mac功能特色 全面的 元数据支持强大的多线程元数据提取系统涵盖了从基本文件信息&a…...

人人自媒体的时候,Ai绘画还值得踏入吗?

前言 先说结论&#xff0c;如果你不打算涉足自媒体&#xff0c;平时也从不上网发什么内容去展示自己的话&#xff0c;其实AI绘画对你来说意义不大。但如果你对自媒体感兴趣&#xff0c;会涉及发作品&#xff0c;发内容&#xff0c;甚至去设计图片&#xff0c;那么AI绘画值得你…...

最近学习内容(2023-10-21)

最近学习内容 Linux编译链接命令一条有用的删除可执行文件的bash命令gcc 在macos 的编译选项&#xff0c;其中-g会生成一个.dSYM文件夹to long don’t read 工具的使用gnu bintuils 的使用&#xff0c;但是很可惜macos上的是Mach-O&#xff0c;不是ELFaxel多线程下载器和其余的…...

Java设计模式 | 基于订单批量支付场景,对策略模式和简单工厂模式进行简单实现

基于订单批量支付场景&#xff0c;对策略模式和简单工厂模式进行简单实现 文章目录 策略模式介绍实现抽象策略具体策略1.AliPayStrategy2.WeChatPayStrategy 环境 使用简单工厂来获取具体策略对象支付方式枚举策略工厂接口策略工厂实现 测试使用订单实体类对订单进行批量支付结…...

【组件专题介绍】什么是组件?

组件定义 卡耐基梅隆大学&#xff1a; 一个不透明的功能实体&#xff0c;能够被第三方组装&#xff0c;且符合一个构件模型。 计算机百科全书&#xff1a; 是软件系统中具有相对独立功能、接口由契约指定、和语境有明显依赖关系、可独立部署、可组装的软件实体。 软件构件…...

Mybatis拦截器

MyBatis插件介绍 MyBatis提供了一种插件(plugin)的功能&#xff0c;虽然叫做插件&#xff0c;但其实这是拦截器功能。 MyBatis允许使用者在映射语句执行过程中的某一些指定的节点进行拦截调用&#xff0c;通过织入拦截器&#xff0c;在不同节点修改一些执行过程中的关键属性&…...

【项目设计】网络对战五子棋(上)

想回家过年… 文章目录 一、项目前置知识1. websocketpp库1.1 http1.0/1.1和websocket协议1.2 websocketpp库接口的前置认识1.3 搭建一个http/websocket服务器 2. jsoncpp库3. mysqlclient库 二、 项目设计1. 项目模块划分2. 实用工具类模块2.1 日志宏封装2.2 mysql_util2.3 j…...

【Overload游戏引擎细节分析】鼠标键盘控制摄像机原理

在上文中分析了摄像机类的实现&#xff0c;在计算投影视图矩阵时需要给摄像机输入其位置及转动四元数。这两个量一般通过鼠标键盘来控制&#xff0c;从而达到控制摄像机的目的。本文分析一下其控制原理。 Overload的摄像机控制实现在类CameraController中&#xff0c;其有三个个…...

VScode运行SVN拉下来的项目

安装依赖包 pnpm install 启动程序 查看package.json文件中的serve&#xff0c;根据这个启动 pnpm dev 在浏览器使用http://localhost:8848/访问...

jmeter集成kafka测试

Kafka的使用 查看kafka的topic ./kafka-topics --bootstrap-server 10.1.9.84:9092 --list 查看topic信息 ./kafka-topics --bootstrap-server 10.1.9.84:9092 --describe --topic topic_example_1 创建topic 创建topic名为test&#xff0c;分区数为8&#xff0c;副本数为…...

Java面试题-UDP\TCP\HTTP

UDP UDP特性 &#xff08;1&#xff09;UDP是无连接的&#xff1a;发送数据之前不需要像TCP一样建立连接&#xff0c;也不需要释放连接&#xff0c;所以减少了发送和接收数据的开销 &#xff08;2&#xff09;UDP 使用尽最大努力交付&#xff1a;即不保证可靠交付 &#xff0…...

使用WPF模仿Windows记事本界面

本次仅模仿Windows记事本的模样&#xff0c;并未实现其功能。 所有代码如下&#xff1a; <Window x:Class"控件的基础使用.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/…...

【目标检测】Co-DETR:ATSS+Faster RCNN+DETR协作的先进检测器(ICCV 2023)

论文&#xff1a;DETRs with Collaborative Hybrid Assignments Training 代码**&#xff1a;https://github.com/Sense-X/Co-DETR 文章目录 摘要一、简介二、本文方法2.1.概述2.2.协同混合分配训练2.3. 定制的正 Query 生成2.4. Co-DETR为何有效1、丰富编码器的监督2、通过减少…...

iOS QQ登录SDK升级后报错Duplicate interface definition for class ‘TencentOAuth‘修复

起因 最近发现QQ登录SDK sdk-Lite3.3.8 TencentOpenAPI 在部分手机上会崩溃到初始化位置_tencentOAuth [[TencentOAuth alloc] initWithAppId:appid andDelegate:self];&#xff0c; 比如&#xff1a;iPhone6p 版本12.5.4&#xff0c;iPhone8p 版本14.1&#xff0c;iPad版本1…...

laravel中锁以及事务的简单使用

一、首先来说一下什么是共享锁&#xff1f;什么是排他锁&#xff1f; 共享&#xff1a;我可以读 写 加锁 , 别人可以 读 加锁。 排他&#xff1a;只有我 才 可以 读 写 加锁 , 也就是说&#xff0c;必须要等我提交事务&#xff0c;其他的才可以操作。 二、简单例子实现加锁 锁…...

Vue+openlayers+projs4实现坐标转换

一、背景 有一堆点数据&#xff0c;需要在地图上标记&#xff0c;只知参考北京54坐标系或西安80坐标系&#xff0c;但具体是哪种不清楚&#xff0c;这时候就需要坐标转换。ps&#xff1a;EPSG&#xff1a;3857&#xff08;openlayers参照的坐标系&#xff09; 二、思路 1、研…...

09 创建型模式-建造者模式

1.建造者模式介绍&#xff1a; 建造者模式 (builder pattern), 也被称为生成器模式 , 是一种创建型设计模式 定义: 将一个复杂对象的构建与表示分离&#xff0c;使得同样的构建过程可以创建不 同的表示。 2.建造者模式要解决的问题 建造者模式可以将部件和其组装过程分开&am…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装&#xff1b;只需暴露 19530&#xff08;gRPC&#xff09;与 9091&#xff08;HTTP/WebUI&#xff09;两个端口&#xff0c;即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)

🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

Map相关知识

数据结构 二叉树 二叉树&#xff0c;顾名思义&#xff0c;每个节点最多有两个“叉”&#xff0c;也就是两个子节点&#xff0c;分别是左子 节点和右子节点。不过&#xff0c;二叉树并不要求每个节点都有两个子节点&#xff0c;有的节点只 有左子节点&#xff0c;有的节点只有…...

力扣-35.搜索插入位置

题目描述 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...

如何更改默认 Crontab 编辑器 ?

在 Linux 领域中&#xff0c;crontab 是您可能经常遇到的一个术语。这个实用程序在类 unix 操作系统上可用&#xff0c;用于调度在预定义时间和间隔自动执行的任务。这对管理员和高级用户非常有益&#xff0c;允许他们自动执行各种系统任务。 编辑 Crontab 文件通常使用文本编…...

NPOI操作EXCEL文件 ——CAD C# 二次开发

缺点:dll.版本容易加载错误。CAD加载插件时&#xff0c;没有加载所有类库。插件运行过程中用到某个类库&#xff0c;会从CAD的安装目录找&#xff0c;找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库&#xff0c;就用插件程序加载进…...

关于easyexcel动态下拉选问题处理

前些日子突然碰到一个问题&#xff0c;说是客户的导入文件模版想支持部分导入内容的下拉选&#xff0c;于是我就找了easyexcel官网寻找解决方案&#xff0c;并没有找到合适的方案&#xff0c;没办法只能自己动手并分享出来&#xff0c;针对Java生成Excel下拉菜单时因选项过多导…...

Kubernetes 节点自动伸缩(Cluster Autoscaler)原理与实践

在 Kubernetes 集群中&#xff0c;如何在保障应用高可用的同时有效地管理资源&#xff0c;一直是运维人员和开发者关注的重点。随着微服务架构的普及&#xff0c;集群内各个服务的负载波动日趋明显&#xff0c;传统的手动扩缩容方式已无法满足实时性和弹性需求。 Cluster Auto…...

绕过 Xcode?使用 Appuploader和主流工具实现 iOS 上架自动化

iOS 应用的发布流程一直是开发链路中最“苹果味”的环节&#xff1a;强依赖 Xcode、必须使用 macOS、各种证书和描述文件配置……对很多跨平台开发者来说&#xff0c;这一套流程并不友好。 特别是当你的项目主要在 Windows 或 Linux 下开发&#xff08;例如 Flutter、React Na…...