当前位置: 首页 > article >正文

TCGA数据实战:用UCSC Xena快速搞定乳腺癌差异表达分析(附完整R代码)

TCGA数据实战用UCSC Xena快速搞定乳腺癌差异表达分析附完整R代码在癌症研究领域TCGAThe Cancer Genome Atlas数据库无疑是一座金矿它包含了33种癌症类型的基因组、转录组和表观基因组数据。但对于刚接触生物信息学的临床研究人员或学生来说如何高效利用这些海量数据往往是个令人头疼的问题。本文将带你使用UCSC Xena平台——这个对新手极其友好的工具快速完成乳腺癌BRCA数据的获取、处理和差异表达分析全流程。不同于传统需要复杂命令行操作的TCGA数据获取方式UCSC Xena提供了预处理的标准化数据省去了大量数据清洗和格式转换的时间。我们将从零开始一步步完成从Xena平台下载乳腺癌RNA-seq数据使用R进行数据预处理和基因ID转换利用limma包进行差异表达分析生成专业级的火山图和热图可视化所有代码都经过实战检验可直接复制使用。即使你只有基础的R语言知识也能在2小时内完成整个分析流程。1. UCSC Xena平台简介与数据获取UCSC Xenahttps://xenabrowser.net/是由加州大学圣克鲁兹分校开发的基因组数据可视化分析平台它整合了TCGA、GTEx等多个大型项目的数据并对原始数据进行了标准化处理。对于初学者而言Xena有三大优势数据预处理完善原始TCGA数据往往需要复杂的标准化和批次校正而Xena已经完成了这些工作可视化界面友好不需要编程基础也能通过浏览器进行初步数据探索下载格式统一所有数据以相同结构存储便于后续程序化处理1.1 乳腺癌数据下载步骤我们以TCGA-BRCA乳腺癌项目的RNA-seq数据为例访问Xena主页选择GDC Hub数据集在搜索框输入BRCA找到TCGA-BRCA HTSeq-FPKM数据集点击Download获取表达矩阵文件通常为.tsv.gz格式同时下载基因注释文件gencode.v22.annotation.gene.probeMap注意Xena提供FPKM和counts两种表达量指标。对于差异表达分析理论上counts更适合但FPKM数据经过log2(fpkm1)转换后也可使用。本文以FPKM为例。下载完成后你会得到两个文件TCGA-BRCA.htseq_fpkm.tsv.gz表达矩阵gencode.v22.annotation.gene.probeMap基因ID对应表2. 数据预处理与基因ID转换拿到原始数据后我们需要用R进行清洗和转换。以下是完整代码及分步解释# 加载必要的R包 library(data.table) library(tidyverse) library(limma) # 读取表达数据约需1-2分钟 TCGA_BRCA - fread(TCGA-BRCA.htseq_fpkm.tsv.gz) %% as.data.frame() # 查看数据结构 dim(TCGA_BRCA) # 行是基因列是样本 TCGA_BRCA[1:5, 1:5] # 查看前5行5列 # 读取基因ID映射表 probeMap - read.delim(gencode.v22.annotation.gene.probeMap) # 将Ensembl ID转换为gene symbol TCGA_BRCA - TCGA_BRCA %% inner_join(probeMap, by c(Ensembl_ID id)) %% select(gene, starts_with(TCGA)) # 处理重复基因取平均值 TCGA_BRCA - as.data.frame( avereps(TCGA_BRCA[, -1], ID TCGA_BRCA$gene) ) # 再次检查数据 dim(TCGA_BRCA) # 基因数量应减少 TCGA_BRCA[1:5, 1:5]2.1 关键步骤解析数据导入使用data.table::fread()读取大型.tsv文件效率最高ID转换TCGA使用Ensembl基因ID而大多数分析需要更直观的gene symbol重复基因处理多个Ensembl ID可能对应同一gene symbol我们取这些探针的平均值专业提示对于重复基因除取平均值外也可保留表达量最高的探针。只需将avereps()替换为TCGA_BRCA - TCGA_BRCA %% group_by(gene) %% slice_max(rowMeans(across(starts_with(TCGA)))) %% ungroup()3. 样本分组与差异表达分析TCGA样本编号包含重要信息特别是第14-15位数字表示样本类型样本类型代码含义01-09肿瘤组织10-19正常组织3.1 构建分组信息# 根据样本编号创建分组 TCGA_group_list - ifelse( as.numeric(substring(colnames(TCGA_BRCA), 14, 15)) 10, Tumor, Normal ) %% factor(levels c(Normal, Tumor)) # 查看各组样本数 table(TCGA_group_list)3.2 使用limma进行差异分析虽然limma最初是为微阵列数据设计但其voom函数使其同样适用于RNA-seq数据# 创建设计矩阵 design - model.matrix(~0 TCGA_group_list) colnames(design) - levels(TCGA_group_list) # voom转换线性建模 dgelist - DGEList(counts TCGA_BRCA, group TCGA_group_list) %% calcNormFactors() v - voom(dgelist, design, plot TRUE, normalize quantile) fit - lmFit(v, design) # 设置对比组Tumor vs Normal contrast - makeContrasts( contrasts Tumor-Normal, levels design ) fit2 - contrasts.fit(fit, contrast) %% eBayes() # 提取差异表达结果 DEG - topTable(fit2, number Inf) %% na.omit() DEG - DEG[DEG$P.Value 0.05, ] # 筛选显著差异基因 # 添加调控方向标记 DEG$regulate - ifelse( DEG$logFC 1 DEG$P.Value 0.05, up, ifelse(DEG$logFC -1 DEG$P.Value 0.05, down, none) ) # 查看结果 head(DEG[order(DEG$P.Value), ], 10)4. 结果可视化火山图与热图可视化是差异表达分析的关键环节能直观展示整体差异模式和关键基因。4.1 火山图绘制火山图展示所有基因的log2倍变化与统计显著性关系library(ggplot2) library(ggrepel) # 标记top10上/下调基因 top_genes - DEG %% group_by(regulate) %% filter(regulate %in% c(up, down)) %% slice_min(P.Value, n 10) %% pull(gene) DEG_plot - DEG %% mutate( label ifelse(gene %in% top_genes, gene, NA), color case_when( regulate up ~ #E64B35, regulate down ~ #3182BD, TRUE ~ gray ) ) ggplot(DEG_plot, aes(x logFC, y -log10(P.Value), color color)) geom_point(alpha 0.6, size 2) geom_vline(xintercept c(-1, 1), linetype dashed) geom_hline(yintercept -log10(0.05), linetype dashed) scale_color_identity() labs(x log2 Fold Change, y -log10 P-value) theme_minimal(base_size 14) geom_text_repel( aes(label label), max.overlaps 20, box.padding 0.5 )4.2 差异基因热图热图展示关键差异基因在所有样本中的表达模式library(pheatmap) # 筛选显著差异基因 sig_genes - DEG %% filter(regulate %in% c(up, down)) %% pull(gene) # 提取表达矩阵Z-score标准化 expr_matrix - TCGA_BRCA[sig_genes, ] expr_matrix - t(scale(t(expr_matrix))) # 样本注释信息 annotation_col - data.frame( Group TCGA_group_list, row.names colnames(TCGA_BRCA) ) # 绘制热图 pheatmap( expr_matrix, annotation_col annotation_col, show_rownames FALSE, show_colnames FALSE, color colorRampPalette(c(blue, white, red))(100), main BRCA差异表达基因热图 )5. 分析结果解读与下游分析建议完成上述步骤后你已获得差异表达基因列表DEG数据框可视化图表火山图和热图5.1 结果解读要点火山图每个点代表一个基因x轴为log2倍变化肿瘤vs正常y轴为统计显著性。右上/左下角的点代表显著上/下调基因。热图行是差异基因列是样本。红色表示高表达蓝色表示低表达。观察肿瘤与正常样本是否形成明显聚类。5.2 常见问题解决方案问题1差异基因数量过少解决方案调整阈值如改用adj.P.Val代替P.Value或放宽logFC阈值问题2热图显示样本未按预期分组解决方案检查样本分组是否正确考虑是否有批次效应需要校正问题3关键基因未出现在预期位置解决方案确认基因ID转换是否正确检查原始表达量是否过低被过滤5.3 下游分析方向获得差异基因后可进一步开展功能富集分析GO、KEGG等通路分析蛋白互作网络使用STRING数据库构建关键基因网络生存分析结合临床数据评估关键基因的预后价值药物靶点预测利用CMap数据库寻找潜在治疗药物以下是一个简单的GO富集分析代码示例library(clusterProfiler) library(org.Hs.eg.db) # 转换gene symbol为ENTREZ ID entrez_ids - mapIds( org.Hs.eg.db, keys DEG$gene[DEG$regulate up], column ENTREZID, keytype SYMBOL, multiVals first ) # GO富集分析 go_enrich - enrichGO( gene na.omit(entrez_ids), OrgDb org.Hs.eg.db, ont BP, pAdjustMethod BH, pvalueCutoff 0.05, qvalueCutoff 0.2 ) # 可视化 dotplot(go_enrich, showCategory 20)通过本文的完整流程即使是生物信息学新手也能在短时间内完成专业的TCGA数据分析。UCSC Xena平台大大降低了数据获取门槛而R语言提供了灵活的分析能力。建议读者先完整复现本文流程再根据自身研究问题调整分析策略。

相关文章:

TCGA数据实战:用UCSC Xena快速搞定乳腺癌差异表达分析(附完整R代码)

TCGA数据实战:用UCSC Xena快速搞定乳腺癌差异表达分析(附完整R代码) 在癌症研究领域,TCGA(The Cancer Genome Atlas)数据库无疑是一座金矿,它包含了33种癌症类型的基因组、转录组和表观基因组数…...

避开Cache和MMU:Trace32里A、NC、ANC三种访问类型到底该怎么选?

Trace32内存访问类型实战指南:A/NC/ANC在ARM调试中的精准选择 调试嵌入式系统时,最令人头疼的莫过于明明代码逻辑正确,却因为内存访问路径问题导致数据异常。上周我在调试一块Cortex-A72开发板时,就遇到了这样的困境:通…...

自媒体做到第3个月,我发现“坚持更新”才是最大的坑

很多人做自媒体,听到最多的建议就是“要坚持更新”。我也是这么做的。日更30天,每天写到凌晨一两点,头发一把一把掉。结果呢?粉丝涨了不到200,阅读量始终在三位数徘徊。更崩溃的是,我停更一周后&#xff0c…...

OnmyojiAutoScript:阴阳师全自动托管脚本,每天为你节省2小时游戏时间!

OnmyojiAutoScript:阴阳师全自动托管脚本,每天为你节省2小时游戏时间! 【免费下载链接】OnmyojiAutoScript Onmyoji Auto Script | 阴阳师脚本 项目地址: https://gitcode.com/gh_mirrors/on/OnmyojiAutoScript 还在为阴阳师繁重的日常…...

从分布式计算考试题到实战:用Python模拟Ricart-Agrawala互斥算法(附完整代码)

从理论到实践:用Python实现Ricart-Agrawala分布式互斥算法 分布式系统中最具挑战性的问题之一是如何在多个进程间实现互斥访问共享资源。Ricart-Agrawala算法作为经典的分布式互斥解决方案,不仅理论优雅,更能通过代码实现直观展示其工作原理。…...

【AI】通用提示词模板(UPT)v2026.04

基于 2026 年开源 Skill 市场的最佳实践(OpenClaw、Claude Code、Codex CLI 等平台的 SKILL.md 标准),总结了一套通用提示词模板(Universal Prompt Template, UPT)。该模板融合了 CRISP、CO-STAR 等框架的精华&#xf…...

PCL 点云平均密度计算(版本一)【2026最新版】

目录 一、算法原理 1、计算过程 2、2024新增理解 二、代码实现 1、原始版本 2、2026新版 三、运行结果 四、pcl_isfinite 博客长期更新,本文最近一次更新时间为:2026年4月13日,添加该算法对应的最新论文和理解。 一、算法原理 1、计算过程 采样设备不同、设备距离场景远近…...

OpenSpec实战:从规范到代码的AI驱动开发工作流

1. OpenSpec实战:为什么我们需要规范驱动的开发 在传统开发流程中,最让人头疼的问题莫过于"代码写完了,但和需求文档对不上"。我见过太多项目在交付时才发现,开发人员理解的"用户登录功能"和产品经理描述的完…...

AIAgent从POC到规模化落地的最大陷阱:未做成本敏感性建模就选型——用Monte Carlo仿真预判3种架构路径的3年TCO差异

第一章:AIAgent从POC到规模化落地的最大陷阱:未做成本敏感性建模就选型 2026奇点智能技术大会(https://ml-summit.org) 许多团队在AI Agent项目中,将80%精力投入功能验证与流程编排,却忽略了一个决定性变量:单位请求…...

深入解析PX4开源飞控:从架构设计到固定翼实战开发的完整指南

深入解析PX4开源飞控:从架构设计到固定翼实战开发的完整指南 【免费下载链接】PX4-Autopilot PX4 Autopilot Software 项目地址: https://gitcode.com/gh_mirrors/px/PX4-Autopilot PX4开源飞控系统作为全球领先的无人机自主飞行解决方案,为开发者…...

从一次真实的炸板经历说起:隔离变压器、差分探头、拔地线,开关电源调试三件套到底怎么选?

开关电源调试安全指南:隔离变压器、差分探头与地线处理的工程决策 实验室里弥漫着焦糊味的那一刻,我才真正理解电源调试中的安全细节有多重要。那次为了赶进度跳过了标准操作流程,结果不仅损失了价值上万的开关电源模块,还差点危及…...

协议兼容性崩塌、语义理解断层、边缘响应延迟——AIAgent家居控制3大致命瓶颈,今天必须解决!

第一章:协议兼容性崩塌、语义理解断层、边缘响应延迟——AIAgent家居控制3大致命瓶颈,今天必须解决! 2026奇点智能技术大会(https://ml-summit.org) 当用户对AI家居代理说“把客厅调成适合看书的暖光”,系统却关闭了空调、调亮了…...

Jimeng LoRA快速上手:轻量测试台部署教程,支持多版本LoRA热切换

Jimeng LoRA快速上手:轻量测试台部署教程,支持多版本LoRA热切换 你有没有遇到过这样的场景?好不容易训练了几个不同阶段的LoRA模型,想对比一下哪个效果最好,结果每次测试都要重新加载一遍好几GB的基础模型&#xff0c…...

从手动记录到智能导出:我的原神成就管理进化之路

从手动记录到智能导出:我的原神成就管理进化之路 【免费下载链接】YaeAchievement 更快、更准的原神数据导出工具 项目地址: https://gitcode.com/gh_mirrors/ya/YaeAchievement 作为一名《原神》的资深玩家,我曾在成就管理的泥潭中挣扎了整整两年…...

回溯算法第一篇(子集树问题【三种思路】、0-1背包问题、最小重量机器设计问题)

目录 1. 子集树问题 解法一 解法二 解法三 2. 0-1背包问题(使用子集树解决) 3. 最小重量机器设计问题 1. 子集树问题 子集力扣链接 题目描述:给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集&am…...

ROS2 Nav2插件化实践:从零构建自定义全局与局部规划器

1. ROS2 Nav2插件化架构深度解析 第一次接触Nav2的插件系统时,我完全被它的灵活性震惊了。这就像乐高积木一样,你可以随意替换导航系统的各个模块,而不用重新编译整个框架。这种设计让我想起小时候玩的插卡游戏机,不同卡带插进去…...

回溯算法第二篇(全排列【基于排列树实现】、旅行售货员问题【基于排列树实现】、N皇后【基于子集树实现的】)

目录 1. 全排列 2. 旅行售货员问题 3. N 皇后 1. 全排列 全排列力扣链接 题目描述:给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出&#xff1…...

PPTist:重新定义浏览器端演示文稿编辑的技术架构与商业价值

PPTist:重新定义浏览器端演示文稿编辑的技术架构与商业价值 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowi…...

Shadcn-Vue完整指南:Vue开发者如何用开源代码构建专属组件库

Shadcn-Vue完整指南:Vue开发者如何用开源代码构建专属组件库 【免费下载链接】shadcn-vue Vue port of shadcn-ui 项目地址: https://gitcode.com/gh_mirrors/sh/shadcn-vue 你是否厌倦了传统UI库的限制?是否想要一个既美观又完全可控制的Vue组件…...

Python 编程最佳实践:`is` 与 `==` 的区别,以及为什么它可能在生产环境中“偷偷”酿成事故

Python 编程最佳实践:is 与 的区别,以及为什么它可能在生产环境中“偷偷”酿成事故 📌 引言:一个看似微小的语法选择,却能决定系统稳定性 客观来看,Python 作为“胶水语言”在 Web 开发、数据科学、自动…...

DANet性能优化实战:多GPU训练与推理加速技巧

DANet性能优化实战:多GPU训练与推理加速技巧 【免费下载链接】DANet Dual Attention Network for Scene Segmentation (CVPR2019) 项目地址: https://gitcode.com/gh_mirrors/da/DANet DANet(Dual Attention Network for Scene Segmentation&…...

如何快速构建私有化大语言模型:ggml与llama.cpp的终极集成指南

如何快速构建私有化大语言模型:ggml与llama.cpp的终极集成指南 【免费下载链接】ggml Tensor library for machine learning 项目地址: https://gitcode.com/GitHub_Trending/gg/ggml 在当今AI驱动的时代,构建私有化大语言模型已成为企业和开发者…...

身份管理化技术用户生命周期与权限回收

身份管理化技术:用户生命周期与权限回收的智能治理 在数字化时代,企业面临用户身份与权限管理的复杂挑战。身份管理化技术通过自动化流程,实现从用户入职到离职的全生命周期管控,确保权限分配精准、回收及时,成为企业…...

告别CANoe黑盒:用Python的can库+cantools手把手解析BLF日志(附完整代码)

开源CAN数据分析实战:Python替代方案解析BLF日志全流程 在汽车电子和工业控制领域,CAN总线数据的采集与分析是开发调试的关键环节。Vector公司的CANoe长期以来是行业标准工具,但其商业授权费用让许多个人开发者和初创团队望而却步。幸运的是&…...

TypeScript图算法教程:Dijkstra、Bellman-Ford等最短路径算法实战

TypeScript图算法教程:Dijkstra、Bellman-Ford等最短路径算法实战 【免费下载链接】TypeScript Algorithms and Data Structures implemented in TypeScript for beginners, following best practices. 项目地址: https://gitcode.com/gh_mirrors/type/TypeScript…...

如何在Vibe Kanban中创建和使用自定义标签:提升任务管理效率的完整指南

如何在Vibe Kanban中创建和使用自定义标签:提升任务管理效率的完整指南 【免费下载链接】vibe-kanban Get 10X more out of Claude Code, Codex or any coding agent 项目地址: https://gitcode.com/GitHub_Trending/vi/vibe-kanban Vibe Kanban是一款高效的…...

终极指南:dots.ocr高级配置 - 自定义像素范围和预处理参数的完整教程

终极指南:dots.ocr高级配置 - 自定义像素范围和预处理参数的完整教程 【免费下载链接】dots.ocr Multilingual Document Layout Parsing in a Single Vision-Language Model 项目地址: https://gitcode.com/gh_mirrors/do/dots.ocr dots.ocr是一款强大的多语…...

深入解析YOLOv8检测头:从DFL原理到实现细节

1. YOLOv8检测头的核心创新:DFL设计原理 第一次看到YOLOv8的检测头代码时,我盯着那个reg_max16的参数看了好久。这个看似简单的数字背后,藏着YOLOv8在目标检测精度上突飞猛进的秘密武器——Distribution Focal Loss(DFL&#xff0…...

Windows 11性能优化革命:Tiny11Builder如何让老旧硬件重获新生

Windows 11性能优化革命:Tiny11Builder如何让老旧硬件重获新生 【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 在数字化转型加速的今天,企…...

如何用pyvideotrans实现视频翻译与AI配音:一站式跨语言内容创作指南

如何用pyvideotrans实现视频翻译与AI配音:一站式跨语言内容创作指南 【免费下载链接】pyvideotrans Translate the video from one language to another and embed dubbing & subtitles. 项目地址: https://gitcode.com/gh_mirrors/py/pyvideotrans 在全…...