生存预后不显著?最佳阈值来帮你!| 附完整代码 + 注释
大家在进行生存预后分析时发现结果不显著,是不是当头一棒!两眼一黑!难不成这就代表我们的研究没意义吗?NONONO!别慌!说不定还有救!快来看看最佳阈值能不能捞你一把!
对生存分析感兴趣的小伙伴可以查看:看完不会来揍我 | 生存分析详解 | 从基础概念到生存曲线绘制 | 代码注释 + 结果解读
生存分析不显著怎么办
通常情况下,为了确定一个二分变量(例如基因表达高/低)的最佳阈值,我们可能会使用中位数作为阈值,将样本分为两组,然后对生存曲线进行比较。但有时候使用中位数作为阈值可能并不足以找到显著的差异,这时可以考虑使用最佳阈值方法来寻找更加适合的阈值。来!咱们今天就一起去xio习一下!
老规矩!本文所用到的数据和代码,我已经上传到了GitHub,有需要的话,大家可以在公众号后台回复
最佳阈值
即可获得存放数据的链接,很多需要注意的问题也会在代码注释中进行详细说明。不过我在分享过程中也会把每一步的输入数据和输出结果进行展示,大家可以作为参考并调整自己的数据格式,然后直接用自己的数据跑,也是没有任何问题的!
# 生存预后不显著?最佳阈值来帮你!# 加载包,没安装的记得安装一下哟!
library(survival)
library(survminer)# 加载数据
best_threshold_data <- read.csv("./best_threshold_data.csv")
head(best_threshold_data)
# sample risk_score OS OS.time
# 1 TCGA-06-0878-01 2.538694 0 218
# 2 TCGA-26-5135-01 3.736050 1 270
# 3 TCGA-06-5859-01 3.701219 0 139
# 4 TCGA-06-2563-01 3.318001 0 932
# 5 TCGA-41-2571-01 5.102783 1 26
# 6 TCGA-28-5207-01 6.899652 1 343# 数据包含了四列:样本名称(sample)、风险评分(risk_score)、生存状态(OS)和生存时间(OS.time)。# 使用中位数作为阈值来将样本分为高风险组和低风险组
# 如果风险评分大于等于中位数,则标记为"High Risk",否则标记为"Low Risk"
best_threshold_data$group <- ifelse(best_threshold_data$risk_score >= median(best_threshold_data$risk_score), "High Risk", "Low Risk")# 创建生存对象(Surv对象),包含生存时间和生存状态信息
surv_obj <- Surv(time = best_threshold_data$OS.time, event = best_threshold_data$OS)# 使用survfit()函数拟合生存曲线
surv_fit <- survfit(surv_obj ~ best_threshold_data$group)# 绘制生存曲线
ggsurvplot(surv_fit, data = best_threshold_data, surv.median.line = "hv",pval = TRUE, # 显示p值xlab = "Time (days)", ylab = "Survival Probability", # x轴和y轴标签legend.title = "", # 图例标题为空break.x.by = 1000, # x轴刻度间隔color = "strata", # 根据分组着色palette = c("#bc5148", "#3090a1")) # 自定义颜色
哎!最恶毒的诅咒莫过于“祝你P > 0.05”!!!这不显著可咋整,咱这分析不就没意义了嘛!
且慢!我们的救兵来啦!下面请欣赏它的表演!
最佳阈值选择
目前比较常见的方法有:
- 使用
survminer
包中的surv_cutpoint
函数实现 - 使用
cutoff
包中的logrank
函数实现 - 基于X-Tile软件实现
下面,咱们就挨个介绍!
survminer
包的surv_cutpoint
函数
# survminer包的surv_cutpoint函数
# 使用survminer包的surv_cutpoint函数来寻找最佳阈值
best_threshold_surv <- surv_cutpoint(best_threshold_data,time = "OS.time", # 生存时间列名event = "OS", # 生存事件列名variables = "risk_score", # 需要寻找阈值的变量列名minprop = 0.3, # 最小比例,防止找到的阈值过于极端progressbar = TRUE) # 显示进度条# 查看找到的最佳阈值的摘要统计信息
summary(best_threshold_surv)
# cutpoint statistic
# risk_score 4.420631 1.748393# 我们这里只计算了一个变量的最佳阈值,还可以计算多个变量的最佳阈值,只需将`variables`参数设为`c("变量1, "变量2", "变量3")`。# 根据找到的最佳阈值对数据进行分组
best_threshold_data <- surv_categorize(best_threshold_surv)# 创建生存对象(Surv对象),包含生存时间和生存状态信息
surv_obj <- Surv(time = best_threshold_data$OS.time, event = best_threshold_data$OS)# 使用survfit()函数拟合生存曲线
surv_fit <- survfit(surv_obj ~ best_threshold_data$risk_score)# 绘制生存曲线
ggsurvplot(surv_fit, data = best_threshold_data, surv.median.line = "hv",pval = TRUE, # 显示p值xlab = "Time (days)", ylab = "Survival Probability", # x轴和y轴标签legend.title = "", # 图例标题为空break.x.by = 1000, # x轴刻度间隔color = "strata", # 根据分组着色palette = c("#bc5148", "#3090a1")) # 自定义颜色
是不是比上面显著多啦!
cutoff
包的logrank
函数
# cutoff包的logrank函数# 重新加载数据
best_threshold_data <- read.csv("./best_threshold_data.csv")# 加载cutoff包
library(cutoff)# 使用cutoff包的logrank函数来寻找最佳阈值
best_threshold_surv_2 <- logrank(data = best_threshold_data,time = "OS.time", # 生存时间列名y = "OS", # 生存事件列名x = "risk_score", # 需要寻找阈值的变量列名cut.numb = 1, # 截点个数n.per = 0.2, # 分组后每组样本量占总样本量的最小比例y.per = 0.1, # 分组后每组中较少结果的最小比例p.cut = 0.1, # p值截断round = 5) # 保留几位小数# 打印找到的最佳阈值及相关信息
best_threshold_surv_2[order(best_threshold_surv_2$pvalue, decreasing = F), ]
# cut1 n n.per y y.per pvalue p.adjust
# 1 4.420631 103/51 0.66883/0.33117 76/47 0.73786/0.92157 0.07617 7.08378 # 根据找到的最佳阈值对数据进行分组
best_threshold_data$Group = ifelse(best_threshold_data$risk_score >= best_threshold_surv_2[order(best_threshold_surv_2$pvalue, decreasing = F), ][1, 1],"High Risk","Low Risk")# 创建生存对象(Surv对象),包含生存时间和生存状态信息
surv_obj <- Surv(time = best_threshold_data$OS.time, event = best_threshold_data$OS)# 使用survfit()函数拟合生存曲线
surv_fit <- survfit(surv_obj ~ best_threshold_data$Group)# 绘制生存曲线
ggsurvplot(surv_fit, data = best_threshold_data, surv.median.line = "hv",pval = TRUE, # 显示p值xlab = "Time (days)", ylab = "Survival Probability", # x轴和y轴标签legend.title = "", # 图例标题为空break.x.by = 1000, # x轴刻度间隔color = "strata", # 根据分组着色palette = c("#bc5148", "#3090a1")) # 自定义颜色
虽然不如刚刚那个,但也比原来好多啦是不!
X-Tile
这个我就不详细介绍啦!有兴趣的小伙伴们可以去点点点试试!
官网:https://medicine.yale.edu/lab/rimm/research/software/
教程:https://cloud.tencent.com/developer/news/283239
小小总结
- survminer包的surv_cutpoint函数
- 基于
maxstat
包的maxstat.test
函数计算出Maximally Selected Rank Statistics,通过最大化差异来确定最佳阈值。 - 可以同时计算多个变量的最佳截断值。
- 一次只能找到一个最佳截断值,无法同时找到多个截断值。
- 基于
- cutoff包的logrank函数
- 在自由度固定的情况下,计算log-rank卡方值,通过检验分组之间的差异来确定最佳阈值。
- 提供了不同的函数用于计算多种模型的截断点,例如cox、linear、logit等,每种模型都使用对应的统计检验来确定阈值。
- 一次只能找到一个最佳截断值。
- X-tile软件
- 基于log-rank卡方值来确定最佳截断值,将数据分为不同组,可以选择找到一个或两个最佳截断值,以将数据分成两组或三组。
- 一次只能计算一个变量的最佳阈值。
大家自行选择哟!依据个人经验,俺更推荐survminer
包的surv_cutpoint
函数,它在多数情况下表现都还不戳!个人观点,仅供参考!最终解释权归小蛮要所有!
文末碎碎念
那今天的分享就到这里啦!我们下期再见哟!
最后顺便给自己推荐一下嘿嘿嘿!
如果我的分享对你有用的话,欢迎关注点赞在看转发分享阿巴阿巴阿巴阿巴巴巴!这可是我的第一原动力!
蟹蟹你们的喜欢和支持!!!
啊对!如果小伙伴们有需求的话,也可以加入我们的交流群:一定要知道 | 永久免费的生信交流群终于来啦!
还有兴趣的话,也可以看看我掏心掏肺的干货满满 | 给生信小白的入门小建议 | 掏心掏肺版!绝对干货满满!
如果有小伙伴对付费分析有需求的话,可以看看这里:个性化科研服务 | 付费分析试营业正式启动啦!定制你的专属生信分析!可提供1v1答疑!
入群链接后续可能会不定期更新,主要是因为群满换码或是其他原因,如果小伙伴点开它之后发现,咦,怎么失效啦!不要慌!咱们辛苦一下动动小手去主页的要咨询
那里,点击进交流群
即可入群!
参考资料
- https://cloud.tencent.com/developer/article/1875291
- https://mp.weixin.qq.com/s/pOgbzHZNQC8z7KdrrrNd1A
- https://mp.weixin.qq.com/s/TB43jWO7CX8_o2eUXWl1Fw
相关文章:

生存预后不显著?最佳阈值来帮你!| 附完整代码 + 注释
大家在进行生存预后分析时发现结果不显著,是不是当头一棒!两眼一黑!难不成这就代表我们的研究没意义吗?NONONO!别慌!说不定还有救!快来看看最佳阈值能不能捞你一把! 对生存分析感兴趣…...

kangle一键安装脚本
Kangle一键脚本,是一款可以一键安装KangleEasypanelMySQLPHP集合的Linux脚本。 脚本本身集成:PHP5.38.2、MYSQL5.68.0,支持极速安装和编译安装2种模式,支持CDN专属安装模式。同时也对Easypanel面板进行了大量优化。 脚本特点 ◎…...
C#写入和调用方法
一、编写方法 在C#中,方法是在类或结构体内部定义的代码块,用于执行特定的操作。方法通常包括以下几个要素: 访问修饰符:指定方法的访问级别,如 public、private、protected 等。返回类型:指定方法返回的…...
Qt的定时器QTimer
定时器Qtimer:用于重复执行或延迟执行函数的类。它可以在一定的时间间隔内发出信号。 使用它,只需要创建一个QTimer类对象,然后调用start()函数开启定时器即可。 定时器的信号 当定时器超时后,就会发出一个timeout的信号函数。 …...

Python 导入Excel三维坐标数据 生成三维曲面地形图(面) 4-4、线条平滑曲面(修改颜色)去除无效点
环境和包: 环境 python:python-3.12.0-amd64包: matplotlib 3.8.2 pandas 2.1.4 openpyxl 3.1.2 scipy 1.12.0 代码: import pandas as pd import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D from scipy.interpolate import griddata fro…...
某小厂java后端初面,记录一下
好吧,,,,,本人很菜,再接再励吧,继续刷。简单记录一下面试题,未亡羊补牢呗。 1.lift join ;inner join ;right join 的区别 2. union 和union all的区别 3.like查询会走索引吗&#x…...

Unity制作马赛克效果
大家好,我是阿赵。 之前在玩怒之铁拳4里面,看到了马赛克场景转换的效果,觉得很有趣,于是也来做一下。 一、2D版本的马赛克转场效果 先看看视频效果: 马赛克转场 这里我是直接写shader实现的,我这里是把…...

【零基础学习04】嵌入式linux驱动中信号量功能基本实现
大家好,为了进一步提升大家对实验的认识程度,每个控制实验将加入详细控制思路与流程,欢迎交流学习。 今天给大家分享一下,linux系统里面信号量操作的具体实现,操作硬件为I.MX6ULL开发板。 第一:信号量基本简介 信号量是同步的一种方式,linux内核也提供了信号量…...

SQL中常见的DDL操作及示例,数据库操作及表操作
目录 一、数据库操作 1、创建数据库 2、查看所有数据库 3、使用数据库 4、删除数据库 二、表操作: 1、创建表 2、查看表结构 3、修改表结构 3.1 添加列 3.2 修改列数据类型 3.3 修改列名 3.4 删除列 3.5 修改表名 3.6 删除表 注意: 在数…...
python 基础练习题
目录 1、定义两个变量,交换两个变量【使用多种方式】 2、给定成绩,判断用户成绩的档次 3. 作业:下列哪一项是“4是奇数或-9为正数”的否定( ) 4. 作业:判断一个整数是奇数还是偶数 5. 求矩形的面积和周…...

前端请求到 SpringMVC 的处理流程
1. 发起请求 客户端通过 HTTP 协议向服务器发起请求。 2. 前端控制器(DispatcherServlet) 这个请求会先到前端控制器 DispatcherServlet,它是整个流程的入口点,负责接收请求并将其分发给相应的处理器。 3. 处理器映射…...

Redis(5.0)
1、什么是Redis Redis是一种开源的、基于内存、支持持久化的高性能Key-Value的NoSQL数据库,它同时也提供了多种数据结构来满足不同场景下的数据存储需求。 2、安装Redis(Linux) 2.1、去官网(http://www.redis.cn/)下…...

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的木材表面缺陷检测系统(深度学习+Python代码+UI界面+训练数据集)
摘要:开发高效的木材表面缺陷检测系统对于提升木材加工行业的质量控制和生产效率至关重要。本篇博客详细介绍了如何运用深度学习技术构建一个木材表面缺陷检测系统,并提供了完整的实现代码。该系统采用了强大的YOLOv8算法,并对YOLOv7、YOLOv6…...
Rust 的 into_owned() 方法
into_owned 是 Rust 语言中 std::borrow::Cow 枚举的一个方法。Cow 是一个“克隆在写时”(Copy on Write)的智能指针,它可以包含对数据的引用或数据的实际所有权。这种设计模式在需要避免不必要的数据复制时特别有用,尤其是当数据…...

stimulsoft report for js vue3使用
项目后端使用的java,试验过积木报表(web界面类型的)、JasperReport(.jasper报表文件)、stimulsoft web版本(.mrt报表文件) 我们的项目是前后端分离的,用积木报表(开箱即…...
JavaScript yield关键字使用举例
yield是JavaScript中的一个关键字,用于定义生成器函数(generator function)中的暂停点。它允许函数在执行过程中暂停,并在下一次调用时从暂停点继续执行。下面是一个使用yield的例子: function* generator() {yield Hello;yield World; }const gen = generator();console…...

18. 查看帖子详情
文章目录 一、建立路由二、开发GetPostDetailHandler三、编写logic四、编写dao层五、编译测试运行 一、建立路由 router/route.go v1.GET("/post/:id", controller.GetPostDetailHandler)二、开发GetPostDetailHandler controller/post.go func GetPostDetailHand…...

【算法刷题】Day30
文章目录 1. 汉诺塔问题题干:算法原理:代码: 2. 合并两个有序链表题干:算法原理:代码: 3. 反转链表题干:算法原理:代码: 4. 最大子数组和题干:算法原理&#…...

docker容器镜像管理+compose容器编排(持续更新中)
目录 一、 Docker的基本组成 二、 容器和镜像的关系 2.1 面向对象角度 2.2 从镜像容器角度 三、 容器命令 3.1 使用Ubuntu 3.1.1 下载镜像 3.1.2 新建和启动容器 run 3.1.3交互式 compose编排与部署 1. docker-compose部署 2. docker-compose.yml模板 …...

【Greenhills】MULTIIDE集成第三方的编辑器进行源文件编辑工作
【更多软件使用问题请点击亿道电子官方网站查询】 1、 文档目标 在使用GHS进行工作的时候,可以集成第三方的编辑器进行源文件编辑工作 2、 问题场景 用于解决在GHS中进行项目开发时,对于GHS的编辑器使用不习惯,想要切换到其他第三方的编辑…...

国产高云FPGA实现视频采集转UDP以太网输出,FPGA网络摄像头方案,提供2套Gowin工程源码和技术支持
目录 1、前言工程概述免责声明 2、相关方案推荐我已有的所有工程源码总目录----方便你快速找到自己喜欢的项目国产高云FPGA基础教程国产高云FPGA相关方案推荐我这里已有的以太网方案 3、设计思路框架工程设计原理框图输入Sensor之-->OV7725摄像头输入Sensor之-->OV5640摄…...

什么是高考?高考的意义是啥?
能见到这个文章的群体,应该都经历过高考,突然想起“什么是高考?意义何在?” 一、高考的定义与核心功能 **高考(普通高等学校招生全国统一考试)**是中国教育体系的核心选拔性考试,旨在为高校选拔…...
将 tensorflow keras 训练数据集转换为 Yolo 训练数据集
以 https://www.kaggle.com/datasets/vipoooool/new-plant-diseases-dataset 为例 1. 图像分类数据集文件结构 (例如用于 yolov11n-cls.pt 训练) import os import csv import random from PIL import Image from sklearn.model_selection import train_test_split import s…...
Python爬虫-爬取各省份各年份高考分数线数据,进行数据分析
前言 本文是该专栏的第60篇,后面会持续分享python爬虫干货知识,记得关注。 本文,笔者将基于Python爬虫,爬取各省份历年以来的“各年份高考分数线”进行数据分析。 废话不多说,具体实现思路和详细逻辑,笔者将在正文结合完整代码进行详细介绍。接下来,跟着笔者直接往下看…...

【工具使用】STM32CubeMX-FreeRTOS操作系统-信号标志、互斥锁、信号量篇
一、概述 无论是新手还是大佬,基于STM32单片机的开发,使用STM32CubeMX都是可以极大提升开发效率的,并且其界面化的开发,也大大降低了新手对STM32单片机的开发门槛。 本文主要讲述STM32芯片FreeRTOS信号标志、互斥锁和信号…...

【无人机】无人机UAV、穿越机FPV的概念介绍,机型与工具,证书与规定
【无人机】无人机UAV、穿越机FPV的概念介绍,机型与工具,证书与规定 文章目录 1、无人机的定义、概念、技术栈1.1 无人机的概念1.2 无人机技术(飞控,动力,通信) 2、无人机机型2.1 DJI无人机 (航拍…...
抗辐照MCU在卫星载荷电机控制器中的实践探索
摘要:在航天领域,卫星系统的可靠运行对电子元件的抗辐照性能提出了严苛要求。微控制单元(MCU)作为卫星载荷电机控制器的核心部件,其稳定性与可靠性直接关系到卫星任务的成败。本文聚焦抗辐照MCU在卫星载荷电机控制器中的应用实践&…...

从零开始的python学习(七)P102+P103+P104+P105+P106+P107
本文章记录观看B站python教程学习笔记和实践感悟,视频链接:【花了2万多买的Python教程全套,现在分享给大家,入门到精通(Python全栈开发教程)】 https://www.bilibili.com/video/BV1wD4y1o7AS/?p6&share_sourcecopy_web&v…...
什么是「镜像」?(Docker Image)
🧊 什么是「镜像」?(Docker Image) 💡 人话解释: Docker 镜像就像是一个装好程序的“快照包”,里面包含了程序本体、依赖库、运行环境,甚至是系统文件。 你可以把镜像理解为&…...

QUIC——UDP实现可靠性传输
首先我们要知道TCP存在什么样的痛点问题 TCP的升级很困难TCP建立连接的延迟网络迁移需要重新建立连接TCP存在队头阻塞问题 QUIC就是为了解决以上的问题而诞生了, 下面我会介绍QUIC的一些特性和原理 QUIC对比TCP优势: 握手建连更快 QUIC内部包含了TLS, 它在自己的帧会携带TL…...