当前位置: 首页 > article >正文

RNA-seq新手必看:raw_count、tpm、fpkm、rpkm到底怎么选?附实战代码示例

RNA-seq数据标准化方法全解析从理论到实战的精准选择指南刚接触RNA-seq分析的生物信息学研究者往往会被各种标准化方法搞得晕头转向。实验室前辈可能随口甩出一句用TPM就行而文献中又频繁出现raw count结合DESeq2的分析流程。更让人困惑的是不同标准化方法得出的结果有时差异显著直接影响后续生物学结论。本文将彻底拆解raw count、TPM、FPKM和RPKM的本质区别并通过实际案例演示如何根据分析目标做出明智选择。1. 四大标准化方法的核心原理剖析1.1 raw count最原始的转录本定量raw count直接反映测序reads比对到基因组的数量是RNA-seq分析中最基础的数据形式。主流工具如HTSeq、STAR和RSEM生成的count矩阵中每个数值代表比对到特定基因外显子区域的reads数。关键特性未进行任何标准化处理受基因长度和测序深度双重影响绝对数值在不同样本间不可直接比较# 使用HTSeq获取raw count的典型命令 htseq-count -f bam -r pos -s no -t exon -i gene_id \ sample1.bam genome.gtf sample1_counts.txt1.2 TPM最推荐的标准化方法TPM(Transcripts Per Million)通过两步标准化解决了raw count的两个主要局限基因长度归一化消除基因长度对reads数的影响测序深度归一化使不同样本间表达量可比计算过程TPM (reads数/基因长度) / Σ(reads数/基因长度) × 10^6注意TPM值在同一样本内不同基因间可直接比较不同样本间相同基因也可直接比较1.3 FPKM/RPKM已被淘汰的历史方法尽管FPKM(Fragments Per Kilobase Million)和RPKM(Reads Per Kilobase Million)曾广泛使用但现在已被学界普遍弃用主要原因包括比较维度TPMFPKM/RPKM标准化顺序先基因长度后测序深度先测序深度后基因长度样本间比较可直接比较比较存在偏差样本内总和恒定百万不恒定2. 不同分析场景下的方法选择策略2.1 差异表达分析的最佳实践差异表达分析应当首选raw count结合专用工具链# DESeq2标准分析流程 library(DESeq2) dds - DESeqDataSetFromMatrix(countData count_data, colData sample_info, design ~ condition) dds - DESeq(dds) res - results(dds)为什么不用TPM做差异分析差异分析软件内置的标准化方法更可靠TPM会丢失原始计数分布的统计特性主流方法(DESeq2, edgeR)都针对count数据优化2.2 跨样本比较与可视化场景当需要直接比较不同样本间基因表达水平时TPM是最佳选择# 计算TPM的Python实现 def calculate_tpm(counts, gene_lengths): rpk counts / (gene_lengths / 1000) scaling_factor np.sum(rpk) / 1e6 return rpk / scaling_factor适用场景包括热图展示多样本表达模式样本间特定基因表达水平比较与qPCR等实验数据直接对照2.3 绝对定量与代谢流分析某些特殊分析如代谢通量计算需要绝对定量数据此时可以考虑使用spike-in对照标准化结合RNA-seq与质谱数据校准采用RSEM的expected counts作为折中方案3. 实战案例乳腺癌数据集分析对比我们以TCGA乳腺癌RNA-seq数据为例比较不同标准化方法的结果差异3.1 数据预处理流程# 使用Salmon进行准定量 salmon quant -i transcriptome_index -l A \ -1 sample1_1.fastq -2 sample1_2.fastq \ -p 8 --gcBias -o quants/sample13.2 标准化方法比较结果对ER阳性与阴性样本的差异分析显示方法差异基因数(FDR0.05)与qPCR一致性raw countDESeq21,54289%log2(TPM1)limma1,20782%FPKMedgeR98776%3.3 可视化效果对比# 绘制MA图的代码示例 plotMA(res, ylimc(-2,2), mainDESeq2 results) abline(hc(-1,1), coldodgerblue, lwd2)4. 进阶技巧与常见陷阱规避4.1 多组学数据整合策略当整合RNA-seq与其他组学数据时推荐流程对RNA-seq使用TPM标准化对蛋白质组数据使用LFQ强度使用ComBat等工具去除批次效应进行跨组学相关性分析4.2 单细胞RNA-seq的特殊考量单细胞数据由于存在大量零值和技术噪音需要特殊处理使用SCTransform替代常规标准化考虑UMI count而非raw read count采用专门的差异分析工具如MAST4.3 必须避免的典型错误将FPKM/RPKM用于差异分析对TPM值直接进行t检验忽略批次效应的影响不同标准化方法结果混用关键提醒标准化方法的选择应当基于具体的生物学问题和分析目标而非简单地追随实验室传统或个人偏好。

相关文章:

RNA-seq新手必看:raw_count、tpm、fpkm、rpkm到底怎么选?附实战代码示例

RNA-seq数据标准化方法全解析:从理论到实战的精准选择指南 刚接触RNA-seq分析的生物信息学研究者,往往会被各种标准化方法搞得晕头转向。实验室前辈可能随口甩出一句"用TPM就行",而文献中又频繁出现raw count结合DESeq2的分析流程。…...

Transformer位置编码的另一种思路:手把手教你实现Relative Position Representations

Transformer位置编码新实践:Relative Position Representations技术解析与实现 在自然语言处理领域,Transformer架构彻底改变了序列建模的范式。但当我们深入其核心机制时,一个关键问题浮现:如何让模型理解词语之间的相对位置关系…...

Matplotlib图表想用思源黑体或霞鹜文楷?手把手教你添加自定义字体并应用到Jupyter Notebook

在Matplotlib中优雅使用思源黑体与霞鹜文楷的完整指南 每次看到学术论文或技术博客中那些千篇一律的默认字体图表,总感觉缺少了些许个性与专业感。作为数据可视化的重要工具,Matplotlib默认的字体配置往往无法满足对美学有更高要求的用户。本文将带你从零…...

一文讲清,精益生产与管理是什么意思?精益生产与管理核心解读

精益生产与管理是现代制造业实现卓越运营的核心路径,很多企业都在探索精益生产与管理的落地模式。精益生产与管理并非简单的工具堆砌,而是一种以客户价值为导向、以消除浪费为核心、以持续改善为动力的系统性管理哲学。理解精益生产与管理,关…...

HarmonyOS6 半年磨一剑 —— RcSearch 三方库插件样式系统与形状尺寸配置深度剖析

文章目录前言一、形状系统:round 与 square1.1 两种基础形状1.2 圆角的精细控制二、尺寸系统2.1 高度与字号的协同配置2.2 内边距的灵活配置三、颜色体系3.1 六维颜色配置3.2 品牌色定制示例四、边框系统4.1 边框颜色与透明效果五、输入对齐方式5.1 三种对齐模式总结…...

2026 - 解决Typora文档内快捷键失效(与其他软件快捷键冲突)

前言突然有一个我的Typora快捷键失效了,比如我想快速设置一个段落对应的快捷键都存在,但是我怎么按都无效,接下来开始慢慢排查。解决方法一、修改配置文件文件->偏好设置-> 最底下有个高级设置,选择 打开高级设置 &#xff…...

国泰君安国际荣获2025年度离岸中资基金大奖“货币市场基金 - 港币(1年)”冠军

近日,香港中资基金业协会(HKCAMA)与彭博联合宣布2025年度“离岸中资基金大奖”获奖名单。国泰海通集团下属公司国泰君安国际控股有限公司(“国泰君安国际”或“公司”,股份代号:1788.HK)旗下国泰…...

SITS2026正式发布:2024年唯一经Gartner交叉验证的生成式AI应用成熟度评估框架

第一章:SITS2026正式发布:生成式AI应用图谱 2026奇点智能技术大会(https://ml-summit.org) SITS2026(Semantic Intelligence & Trustworthy Systems 2026)正式发布,标志着生成式AI正从单点模型能力跃迁至系统化、…...

生成式AI模型即代码(MaaC)实践白皮书:将LLM微调、评估、安全扫描、合规审查全部纳入GitOps驱动的CI/CD流水线

第一章:生成式AI应用CI/CD流水线 2026奇点智能技术大会(https://ml-summit.org) 生成式AI应用的持续集成与持续交付(CI/CD)面临模型版本不可控、推理环境不一致、评估指标难量化等独特挑战。传统软件流水线需扩展以支持大语言模型权重、提示…...

雨云(Rainyun)优惠全攻略:新用户 5 折、优惠券领取与使用指南

雨云(rainyun)是 2018 年成立的云计算服务平台,主营云服务器、游戏云服务器、裸金属物理机、对象存储、域名注册、SSL 证书等业务,面向个人开发者、中小企业与游戏玩家提供稳定实惠的云服务。平台针对新用户推出专属优惠&#xff…...

【2026内容生产力分水岭】:为什么92%的AI写作工具失败了?SITS2026揭示故事生成的3个隐藏阈值

第一章:SITS2026演讲:AI故事创作应用 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026主会场,来自Narrative Labs的研究团队现场演示了StoryWeaver——一款面向专业作家与教育工作者的开源AI故事创作框架。该系统不依赖封闭大模型…...

基于COZE平台GLM5.1开发简易3D导演台布局,10分钟速成傻瓜式教学(小白也能搭建)

基于COZE平台GLM5.1开发简易3D导演台布局,10分钟速成傻瓜式教学(小白也能搭建) 前言 这次想分享一个很有意思的实战项目:复刻一个网页版 3D 导演台。 先说结论: 我以前并没有开发过 3D 导演台,甚至很多底…...

生成式AI用户反馈闭环设计:从单向上报到因果推演——基于127个真实场景的反馈归因模型(附可运行Python SDK)

第一章:生成式AI用户反馈闭环设计 2026奇点智能技术大会(https://ml-summit.org) 用户反馈闭环是生成式AI系统持续演进的核心机制,它将真实使用场景中的行为信号、显式评价与隐式偏好转化为可训练的监督信号,驱动模型迭代优化。一个健壮的闭…...

三菱FX5U控制三轴伺服定位:(BOM表、CAD电气图纸、PLC程序、人机界面)

三菱fx5U控制三轴伺服定位。 (BOM表,CAD电气图纸,plc程序,人机界面) 在工业自动化现场折腾过的小伙伴都知道,三轴伺服定位系统就像车间里的平衡术——轴与轴之间的配合但凡有点差错,整台设备就…...

MinerU 系列教程 第三课:多场景使用指南 -- CLI 参数详解与批量处理

MinerU 系列教程 第三篇 本篇教程作为 模块一:基础入门与架构概览 的第三课,全面剖析 mineru CLI 的完整参数体系。上一课我们完成了安装并成功运行了第一次解析,本课将深入每个参数的含义与使用场景,掌握批量处理、分页解析、语言…...

别再抄作业了!2026奇点大会首次公开AI学习助手的“动态知识图谱构建协议”——支持实时跨域推理的底层逻辑

第一章:2026奇点智能技术大会:AI学习助手 2026奇点智能技术大会(https://ml-summit.org) 核心定位与能力演进 AI学习助手是本届大会首次发布的开源智能体框架,聚焦教育场景中的个性化知识建模与实时认知反馈。它不再仅依赖预训练语言模型的…...

碳交易机制下需求响应的综合能源系统优化运行策略探索:实现双碳目标的路径与策略分析

碳交易机制下考虑需求响应的综合能源系统优化运行 综合能源系统是实现“双碳”目标的有效途径,为进一步挖掘其需求侧可调节潜力对碳减排的作用,提出了一种碳交易机制下考虑需求响应的综合能源系统优化运行模型。 首先,根据负荷响应特性将需求…...

基于SpringBoot+Vue小区报修系统的设计与实现(源码+论文+部署)

一. 系统介绍 本文以Spring Boot和Vue为技术基础,建立小区报修管理系统,实现系统管理、用户管理、维修类型管理、维修工具管理、报修管理、维修记录、评价反馈管理等功能模块。 代码实现下载地址:https://download.csdn.net/download/lv_so…...

面试官:LRU算法听过吗?如何改进?

上周群里看到有位小伙伴面试时,被问到这两个问题:咋一看,以为是在问操作系统的问题,其实这两个题目都是在问如何改进 LRU 算法。因为传统的 LRU 算法存在这两个问题:「预读失效」导致缓存命中率下降(对应第…...

浏览器首页永远乱七八糟?用 Fenrus 搭一个干净、高颜值、能自定义的导航页

前言 每天打开浏览器,默认主页要不是浏览器原生的壳,要不就是套了层广告的导航站,书签栏塞了几十条,找个常用网站要扫半天。有段时间试过好几个导航页工具,要么界面花里胡哨太碍眼,要么加载慢得要命点个链…...

猫抓插件:三步搞定网页视频音频下载的终极解决方案

猫抓插件:三步搞定网页视频音频下载的终极解决方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是否经常遇到这样的情况&#xff…...

新加坡榜鹅:从蛮荒之地到AI创新热土,自动驾驶与智慧小镇共筑科技新篇

【导语:新加坡东北部的榜鹅,曾是一片蛮荒之地,如今成为科技创新聚集地。4月初,文远知行与Grab在此启动自动驾驶出行服务公开运营,同时榜鹅数码园区也在积极建设,新加坡发展人工智能决心可见一斑。】榜鹅&am…...

3步解锁:Nucleus Co-Op带你体验单机游戏多人同屏的魔法

3步解锁:Nucleus Co-Op带你体验单机游戏多人同屏的魔法 【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 你是否曾经独自坐在电脑前&…...

不锈钢彩涂板哪家专业

老张最近愁坏了。他在沿海城市的新厂房刚封顶,正准备上屋面和外墙板,材料商推荐了一圈,什么“纳米防腐板”、“不锈钢彩涂板”、“高端镀铝锌板”,名字听着都高级,价格从每平米几十到几百的都有。他跑了几家厂子&#…...

AI写邮件不再翻车,SITS2026工具实测对比:12家主流平台中唯一支持合规审计追踪的生成系统

第一章:AI写邮件不再翻车,SITS2026工具实测对比:12家主流平台中唯一支持合规审计追踪的生成系统 2026奇点智能技术大会(https://ml-summit.org) 在金融、医疗与政务等强监管场景中,AI生成邮件不仅需语义准确,更须满足…...

ESXI里面虚拟机服务器始终保持免用户认证状态

最近安装了几个虚拟机,给第三方远程安装环境。打开虚拟机安装完,向日葵的时候,关闭控制台,虚拟机就自动注销用户关闭了,需要重新登录控制台。同事...

优先矩阵管理化技术中的优先矩阵计划优先矩阵实施优先矩阵验证

优先矩阵管理化技术:从计划到验证的高效实践 在现代项目管理中,优先矩阵管理化技术因其结构化、可视化的特点,成为优化资源分配和提升决策效率的重要工具。该技术以优先矩阵计划、优先矩阵实施和优先矩阵验证为核心,通过系统化的…...

口碑管理化技术中的社交媒体监控舆情分析与口碑营销

口碑管理化技术中的社交媒体监控舆情分析与口碑营销 在数字化时代,社交媒体已成为公众表达意见、分享体验的主要平台。品牌的口碑不再局限于传统渠道,而是通过社交媒体的传播迅速扩散。口碑管理化技术通过社交媒体监控、舆情分析和口碑营销,…...

UC Davis发现:AI评分系统理解个人偏好偏差超20个百分点研究突破

这项由加利福尼亚大学戴维斯分校(University of California, Davis)研究团队完成的工作,以预印本形式于2026年4月8日发布在arXiv平台,编号为arXiv:2604.07343v1,收录于计算机科学计算与语言(cs.CL&#xff…...

5步搞定Windows掌机控制器兼容性:HandheldCompanion终极解决方案

5步搞定Windows掌机控制器兼容性:HandheldCompanion终极解决方案 【免费下载链接】HandheldCompanion ControllerService 项目地址: https://gitcode.com/gh_mirrors/ha/HandheldCompanion 还在为Windows掌机控制器兼容性烦恼吗?HandheldCompanio…...