当前位置: 首页 > article >正文

PLINK实战:用--indep-pairwise和R脚本搞定GWAS杂合率质控(附完整代码)

PLINK实战指南GWAS杂合率质控全流程解析与代码实现在基因组关联分析(GWAS)中数据质量直接影响研究结果的可靠性。杂合率异常可能暗示样本污染或近亲繁殖等问题而PLINK作为GWAS分析的瑞士军刀配合R语言的数据处理能力可以高效完成这一关键质控步骤。本文将手把手带你完成从SNP筛选到异常样本剔除的全流程并提供可直接复用的代码模板。1. 理解杂合率质控的核心逻辑杂合率指个体中杂合基因型的比例。健康人群的杂合率通常处于特定范围过高可能表明DNA样本污染如不同个体混合过低则可能反映近亲繁殖。GWAS分析中我们通常剔除杂合率偏离群体平均值±3个标准差的个体。但直接计算全基因组SNP的杂合率存在一个问题连锁不平衡(LD)会导致结果偏差。因此需要先筛选出一组近似独立的SNP作为计算基础。这就是--indep-pairwise参数的核心作用——通过滑动窗口法去除高LD区域的SNP得到相对独立的SNP集合。关键概念连锁不平衡(LD)指相邻SNP间非随机关联的现象会导致统计检验效力下降。质控阶段需要控制LD的影响。2. 环境准备与数据检查开始前确保已安装以下工具PLINK 1.9或更高版本R语言环境建议4.0基础Linux工具awk/sed等检查数据格式是否符合PLINK二进制文件要求ls -l # 应看到.bed/.bim/.fam三组文件 # 如只有ped/map文件需先转换 plink --file yourdata --make-bed --out newname3. 独立SNP筛选--indep-pairwise详解执行LD修剪获取独立SNP集合plink --bfile yourdata \ --indep-pairwise 50 5 0.2 \ --out pruned参数解析50滑动窗口大小单位SNP个数5每次滑动的步长SNP个数0.2LD阈值r² 0.2的SNP将被剔除典型问题排查窗口太小如20可能导致保留过多相关SNP步长过大如10可能遗漏局部LD区域r²阈值过严如0.1会大幅减少可用SNP数量执行后会生成两个文件pruned.prune.in保留的SNP列表pruned.prune.out剔除的SNP列表4. 杂合率计算与可视化基于独立SNP计算杂合率plink --bfile yourdata \ --extract pruned.prune.in \ --het \ --out het_results生成的het_results.het文件包含6列FID 家系IDIID 个体IDO(HOM) 观测纯合数E(HOM) 期望纯合数N(NM) 非缺失SNP数F 近交系数用R进行数据可视化和异常值筛选# 读取数据 het - read.table(het_results.het, headerTRUE) # 计算杂合率 het$HET_RATE - (het$N.NM. - het$O.HOM.)/het$N.NM. # 绘制分布直方图 pdf(heterozygosity_distribution.pdf) hist(het$HET_RATE, breaks30, collightblue, xlabHeterozygosity Rate, mainSample Heterozygosity Distribution) abline(vmean(het$HET_RATE) 3*sd(het$HET_RATE), colred, lty2) abline(vmean(het$HET_RATE) - 3*sd(het$HET_RATE), colred, lty2) dev.off() # 筛选异常样本 het_fail - subset(het, HET_RATE mean(HET_RATE)-3*sd(HET_RATE) | HET_RATE mean(HET_RATE)3*sd(HET_RATE)) # 保存结果 write.table(het_fail[,1:2], het_fail_ind.txt, row.namesFALSE, col.namesFALSE, quoteFALSE)5. 剔除异常样本与数据清理使用PLINK剔除杂合率异常的样本plink --bfile yourdata \ --remove het_fail_ind.txt \ --make-bed \ --out cleaned_data验证处理效果# 计算处理后数据的杂合率 plink --bfile cleaned_data \ --extract pruned.prune.in \ --het \ --out postqc_het # 比较处理前后异常样本数 wc -l het_fail_ind.txt6. 高级技巧与问题排查场景1群体分层影响当研究群体存在明显亚结构时建议分群体计算杂合率阈值。可以先进行PCA分析确定亚群再分别计算各亚群的杂合率阈值。场景2数据量特别大时的优化对于超大规模数据可以增加LD修剪的严格程度plink --bfile bigdata \ --indep-pairwise 100 10 0.1 \ --out strict_pruned常见错误处理错误No valid SNPs left after filtering原因LD阈值过严或初始数据质量差解决放宽r²阈值如0.2→0.5或检查原始数据警告Fewer than 100 SNPs used for heterozygosity calculation原因保留的独立SNP过少解决调整--indep-pairwise参数或检查原始数据密度7. 完整流程自动化脚本将上述步骤整合为可重复使用的bash脚本#!/bin/bash # GWAS杂合率质控自动化脚本 # 用法./het_qc.sh input_prefix output_prefix INPUT$1 OUTPUT$2 # 步骤1LD修剪 plink --bfile ${INPUT} \ --indep-pairwise 50 5 0.2 \ --out ${OUTPUT}_pruned # 步骤2杂合率计算 plink --bfile ${INPUT} \ --extract ${OUTPUT}_pruned.prune.in \ --het \ --out ${OUTPUT}_het # 步骤3R分析 Rscript -e het - read.table(paste0(${OUTPUT}_het.het), headerTRUE) het$HET_RATE - (het$N.NM. - het$O.HOM.)/het$N.NM. fail_samples - subset(het, HET_RATE mean(HET_RATE)-3*sd(HET_RATE) | HET_RATE mean(HET_RATE)3*sd(HET_RATE)) write.table(fail_samples[,1:2], ${OUTPUT}_het_fail_ind.txt, row.namesFALSE, col.namesFALSE, quoteFALSE) # 步骤4剔除异常样本 plink --bfile ${INPUT} \ --remove ${OUTPUT}_het_fail_ind.txt \ --make-bed \ --out ${OUTPUT}_clean echo 质控完成清洁数据保存在 ${OUTPUT}_clean.*将此脚本保存为het_qc.sh后运行chmod x het_qc.sh ./het_qc.sh mydata cleaned_data在实际项目中我发现将杂合率与样本缺失率分析结合能更有效识别问题样本。例如同时偏离杂合率和缺失率阈值的样本很可能是实验操作问题导致的低质量样本应优先剔除。

相关文章:

PLINK实战:用--indep-pairwise和R脚本搞定GWAS杂合率质控(附完整代码)

PLINK实战指南:GWAS杂合率质控全流程解析与代码实现 在基因组关联分析(GWAS)中,数据质量直接影响研究结果的可靠性。杂合率异常可能暗示样本污染或近亲繁殖等问题,而PLINK作为GWAS分析的瑞士军刀,配合R语言的数据处理能力&#xf…...

老系统别大意:手把手复现JBoss CVE-2015-7501反序列化漏洞(附Docker靶场搭建)

老系统安全警钟:实战复现JBoss反序列化漏洞与防御思考 老旧系统就像企业网络中的"定时炸弹",看似平静却暗藏危机。2015年曝光的JBoss反序列化漏洞(CVE-2015-7501)至今仍在不少企业的内网系统中存在,成为攻击…...

OptiSystem应用:光放大器EDFA的仿真

Optisystem可以设计和模拟光纤放大器和光纤激光器。此处展示的案例可在Optisystem安装文件夹samplesOptical amplifiers中找到。该教程将会介绍光放大器库这一部分。光放大器全局参数使用Optisystem的第一步是设置全局参数。我们都知道,主要的一个参数是time window…...

2025届必备的AI学术神器实际效果

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 旨在识别学术文本里由人工智能生成内容的维普AIGC检测系统,能给高校、期刊以及科…...

从手机投屏到桌面扩展:深入拆解LT9711芯片如何让一根Type-C线实现‘全能’

从手机投屏到桌面扩展:深入拆解LT9711芯片如何让一根Type-C线实现‘全能’ 你是否曾好奇,为什么一根看似普通的Type-C线能同时完成4K视频传输、高速数据同步和100W快充?这背后隐藏着一颗名为LT9711的"全能芯片"。它就像数字世界的同…...

2026最权威的五大AI论文方案推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在借助人工智能来生成文本之际,指令的精准程度会直接对输出质量产生影响&#xf…...

从AM/FM收音机到5G手机:IQ调制技术是如何一步步成为通信标配的?

从AM/FM收音机到5G手机:IQ调制技术是如何一步步成为通信标配的? 上世纪30年代,当AM广播首次将音乐和新闻送入千家万户时,很少有人能预见这种模拟调制技术会演变成今天5G手机里复杂的数字信号处理。而连接这两个时代的核心技术纽带…...

HEPTv2:基于LSH与Transformer的高效粒子轨迹重建

1. 项目概述:HEPTv2的诞生背景与技术定位在粒子物理实验领域,带电粒子轨迹重建一直是个令人头疼的计算难题。想象一下,当质子束在大型强子对撞机(LHC)中以接近光速对撞时,每次碰撞会产生数百个带电粒子&…...

你的模型‘虚胖’了吗?聊聊PyTorch中可训练参数与总参数量的区别及优化思路

你的模型‘虚胖’了吗?聊聊PyTorch中可训练参数与总参数量的区别及优化思路 在深度学习模型开发中,我们常常会关注两个关键指标:总参数量(Params)和可训练参数量(Trainable Params)。这两个数字…...

保姆级教程:在Ubuntu20.04上从零跑通TurtleBot3的SLAM仿真(避坑ROS Noetic环境配置)

从零到一:Ubuntu 20.04下TurtleBot3 SLAM仿真实战指南 第一次接触ROS和SLAM时,面对复杂的依赖关系和晦涩的错误提示,很多初学者往往在环境配置阶段就放弃了。本文将带你穿越这片"雷区",用最直观的方式在Ubuntu 20.04上搭…...

别再只用平均值了!用Python的sklearn QuantileRegressor做分位数回归,预测区间更靠谱

分位数回归实战:用QuantileRegressor构建更可靠的预测区间 当我们在电商平台上预测下个季度的销售额时,传统线性回归给出的"平均预测值"往往让人心里没底——那些突然爆款的商品和滞销的长尾商品会让预测误差大得惊人。这时候,分位…...

KART-RERANK模型解析:深入理解Transformer在重排序任务中的应用

KART-RERANK模型解析:深入理解Transformer在重排序任务中的应用 如果你对搜索技术感兴趣,可能听说过BM25、TF-IDF这些传统排序算法。它们就像图书馆的老式卡片目录,能帮你找到相关书籍,但很难理解“深度学习在自然语言处理中的应…...

通义千问VL-Reranker-8B效果展示:短视频创作平台脚本+分镜+成片排序

通义千问VL-Reranker-8B效果展示:短视频创作平台脚本分镜成片排序 你是不是也遇到过这样的烦恼?在短视频创作平台上,面对海量的用户投稿——从文字脚本、分镜草图到最终成片——想快速找到最符合主题、质量最高的内容,简直像大海…...

AD19 新手避坑指南:从原理图到PCB出图的10个高效操作技巧

AD19 新手避坑指南:从原理图到PCB出图的10个高效操作技巧 刚接触AD19的工程师常会遇到这样的困境:明明按照教程操作,却总在某个步骤卡住;好不容易完成设计,输出Gerber时又报错连连。这些问题往往源于软件默认设置的&qu…...

用Multisim 14.2复刻一个非典型模10计数器:从1、3、5、7、9到0、2、4、6、8的循环显示

用Multisim 14.2实现非典型模10计数器:奇数与偶数的交替循环 在数字电路设计中,计数器是最基础也最富创造性的组件之一。大多数教材都会介绍经典的0-9十进制计数器,但今天我们要挑战一个更有趣的变体:一个按照1、3、5、7、9、0、2…...

别再当‘炼丹黑盒侠’了!用LRP给你的PyTorch/TensorFlow模型做个‘X光’检查

从"炼丹黑盒"到透明决策:LRP技术实战指南 当模型预测结果出现偏差时,大多数开发者只能像面对黑盒一样束手无策。这种困境在计算机视觉和自然语言处理领域尤为常见——你知道模型出错了,却不知道究竟是输入数据的哪个部分导致了错误…...

QtCharts实战:除了圆点和方块,教你用QPainterPath画出五角星散点图(附完整源码)

QtCharts高级定制:用QPainterPath实现品牌化散点图设计 在数据可视化领域,标准化的圆点和方块已经无法满足现代UI设计的需求。当我们需要在医疗报告中呈现特殊标记,或在商业仪表盘中嵌入品牌元素时,自定义图形绘制技术就成为刚需。…...

别再死记硬背了!用Fluent做流体仿真,这5个核心参数设置对了才算入门

别再死记硬背了!用Fluent做流体仿真,这5个核心参数设置对了才算入门 刚接触Fluent的工程师和学生常常会陷入一个误区:试图记住所有理论模型和参数的细节。但真实工程场景中,80%的仿真问题往往源于20%的关键参数设置不当。本文将聚…...

Ubuntu 20.04 装 ROS Noetic,我为什么建议你跳过 rosdep 这一步?

Ubuntu 20.04 安装 ROS Noetic:为什么你可以安全跳过 rosdep 初始化? 在机器人操作系统(ROS)的安装文档中,rosdep init 和 rosdep update 这两个步骤总是被列为必选项。但作为一个在三个不同国家的机器人实验室工作过的…...

告别黑白终端:用C++转义序列为你的ROS_INFO和ROS_WARN消息添加高亮颜色(附完整代码示例)

告别黑白终端:用C转义序列为ROS日志注入视觉活力 在机器人操作系统(ROS)开发中,日志输出是我们与系统对话的重要窗口。想象一下,当你的机器人正在执行复杂任务时,终端里滚动着密密麻麻的黑白文字——重要错…...

Docker+Python+openGauss:5分钟搭建你的第一个数据库Web应用原型

DockerPythonopenGauss:从零构建学生成绩管理系统原型 在当今快速迭代的软件开发环境中,能够迅速验证想法并构建最小可行产品(MVP)的能力变得至关重要。对于全栈开发初学者而言,掌握如何将数据库、后端服务和前端展示无缝衔接是一项基础但关键…...

机械转行自学嵌入式,我用正点原子IMX6ULL复刻了一个智能仓储项目(附完整代码)

机械工程师的嵌入式转型之路:基于IMX6ULL的智能仓储实战 记得第一次拿起电烙铁时,我的手抖得像筛糠——这和我熟悉的游标卡尺、数控机床完全是两个世界。作为在汽车制造厂做了五年机械设计的工程师,我从未想过有一天会对着电路板调试UART通信…...

LT8619C芯片深度评测:对比其他方案,在智能投影仪里用它到底香不香?

LT8619C芯片深度评测:智能投影仪核心方案的终极对决 当你在深夜用投影仪观看4K电影时,是否曾因画面卡顿、色彩失真而瞬间出戏?作为智能投影仪的心脏,视频处理芯片的选择直接决定了用户体验的上限。LT8619C这颗被多家旗舰投影仪采用…...

智能送餐车的设计(有完整资料)

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:T1632305M设计简介:本设计是基于STM32的智能送餐桌,主要实现以下功能:1.实现送餐车的移动、菜品点餐,菜品上…...

避开浮点数精度坑:用Python和C++两种语言实现一元三次方程求根(竞赛向)

避开浮点数精度坑:Python与C实现一元三次方程求根实战 引言 在算法竞赛和科学计算领域,一元三次方程求解是一个经典问题。然而,许多开发者往往忽略了浮点数精度问题,导致在OJ平台提交代码时频繁出现"Wrong Answer"。本文…...

程序员学英语:从‘revoke API’到‘supervise进程’,这些技术文档高频词原来有共同基因

程序员学英语:解码技术文档中的拉丁词根密码 技术文档里那些看似晦涩的英文术语,其实藏着程序员专属的"密码本"。当你在Kubernetes日志里看到revoke permissions时,是否想过为什么撤销操作要用revoke?当调试多进程程序遇…...

地平线XJ3开发实战:如何用Docker容器隔离环境并实时同步宿主机代码(以Samples为例)

地平线XJ3开发实战:Docker容器环境隔离与实时代码同步的最佳实践 在AI算法和嵌入式开发领域,环境配置往往是项目启动的第一道门槛。想象一下这样的场景:你刚刚拿到地平线XJ3开发套件,准备大展身手,却发现团队成员的开发…...

别再只懂LRU了!用Caffeine的W-TinyLFU算法,轻松应对突发热点流量

突破传统缓存瓶颈:Caffeine的W-TinyLFU如何重塑高并发系统性能 在电商大促的流量洪峰中,服务器集群的缓存系统往往成为第一个崩溃的环节。当每秒数十万请求涌来时,传统的LRU缓存就像用漏勺接水——看似在运作,实际命中率惨不忍睹。…...

信息论安全多方计算协议突破

某机构Tal Rabin荣获分布式计算领域Dijkstra奖 该奖项旨在表彰某机构首席首席科学家、宾夕法尼亚大学教授提出的一项协议,该协议实现了信息论安全多方计算的理论极限。 作者:Larry Hardesty 2024年2月8日 6分钟阅读 安全多方计算简介 安全多方计算&#…...

3天从零掌握《经济研究》LaTeX排版:让学术论文格式不再是你的绊脚石

3天从零掌握《经济研究》LaTeX排版:让学术论文格式不再是你的绊脚石 【免费下载链接】Chinese-ERJ 《经济研究》杂志 LaTeX 论文模板 - LaTeX Template for Economic Research Journal 项目地址: https://gitcode.com/gh_mirrors/ch/Chinese-ERJ 还在为《经济…...