Nat. Med. | 基于遗传学原发部位未知癌症的分类和治疗反应预测
今天为大家介绍的是来自Alexander Gusev团队的一篇论文。原发部位未知癌症(Cancer of unknown primary,CUP)是一种无法追溯到其原发部位的癌症,占所有癌症的3-5%。CUP缺乏已建立的靶向治疗方法,导致普遍预后不佳。作者开发了OncoNPC,这是一个基于机器学习的分类器,使用来自三个机构的22种癌症类型中的36,445个肿瘤的定向次世代测序(NGS)数据进行训练。肿瘤NGS基础的原发癌类型分类器(OncoNPC)在保留的肿瘤样本上取得了加权F1分数为0.942的高置信度预测(≥ 0.9)。
当标准化的诊断流程,包括影像学和病理学评估,未能确定转移性癌症的原发部位时,将其诊断为原发部位未知的癌症(Cancer of Unknown Primary,CUP)。CUP在全球范围内占所有癌症的约3-5%,以其侵袭性进展和预后不良(生存期为6-16个月)为特点。原发部位的隐藏性质限制了治疗选择,因为临床对某些治疗的反应因患者的肿瘤类型而异。新兴的癌症治疗针对可操作的分子改变通常是针对特定癌症类型开发的,因此对于CUP患者意义不怎么大。因此,准确地确定CUP肿瘤的潜在原发部位,并证明针对特定部位的治疗在临床上的益处,可能会为CUP患者开启许多现有的治疗选择。
病理学评估在根据免疫组织化学(IHC)结果以及肿瘤形态学和临床发现确定恶性肿瘤的原发癌症类型方面发挥着关键作用。然而,高度转移性或分化差的肿瘤的病理诊断可能具有挑战性。对于已知的癌症类型,先前的研究显示基于IHC的诊断流程可以正确识别77-86%的原发肿瘤,而对于转移性肿瘤则降低到60-71%。对于CUP患者,表明单一原发诊断的IHC结果仅占肿瘤的25%。分子肿瘤分析已被提出作为原发部位分类的一种替代方法,可能适用于CUP肿瘤,因为其具有定量性质,并且在已知癌症类型的肿瘤中具有高准确性。这些工具依赖于微阵列DNA甲基化、全基因组测序、RNA测序数据或基因表达谱。然而,尽管它们是有效的,但这些测序技术尚未整合到标准护理中,而且往往成本较高。在最近的研究中,已经证明通过针对目标区域的下一代测序(NGS)可以进行准确的原发癌症类型分类,这些测序数据现在在许多癌症中心收集。然而,它在诊断和辅助CUP患者治疗方面的临床效用尚未得到系统地调查。在这里,作者使用了来自三个机构的36,445个肿瘤样本的NGS目标面板测序数据,以训练和评估一个机器学习分类器,用于预测给定肿瘤样本的原发癌症类型。
图 1
OncoNPC准确地分类了22种已知的癌症类型
图 2
作者开发了OncoNPC,这是一个基于多中心目标面板测序数据训练的分子癌症类型分类器(图1)。OncoNPC使用体细胞变异,包括突变(单核苷酸变异(SNVs)和插入/缺失突变),突变标记、拷贝数变异(CNAs)以及测序时的患者年龄和性别等特征,使用XGBoost算法进行癌症类型预测。OncoNPC在包括来自Dana-Farber癌症研究所(DFCI)、Memorial Sloan Kettering(MSK)癌症中心和Vanderbilt-Ingram癌症中心(VICC)的22种已知癌症类型的29,176个原发肿瘤和转移肿瘤样本的处理数据上进行了训练和验证。在所有22种癌症类型中,OncoNPC在测试样本上实现了0.784的加权F1分数,其中包括7,289个肿瘤样本(加权精度和召回率分别为0.789和0.791)。在13个癌症组中(根据部位和治疗选择分组;表1),OncoNPC实现了0.806的整体加权F1分数(加权精度和召回率分别为0.810和0.809)。尽管癌症类型之间存在明显的类别不平衡,OncoNPC在癌症类型(图2a)和癌症组(图2b)之间展现出良好的平衡精度。作者在以下四个不同的预测置信水平下评估了OncoNPC的性能,这些水平基于pmax(即在22种癌症类型中的最大预测概率):0.0(涵盖所有样本),0.5,0.7和0.9。基于pmax的阈值应用结果进一步改善了性能,当pmax≥0.5时,加权F1得分为0.830,当pmax≥0.9时,加权F1得分为0.942(图2c、2d)。虽然罕见的癌症类型通常具有较低的整体性能,但增加pmax阈值可以减小常见/罕见癌症类型之间的差异。特征去除研究证明,在仅保留基因组特征的前50%的情况下,OncoNPC仍然可以获得高性能(整体加权F1得分为0.757,而在pmax阈值为0和0.9时分别为0.777和0.950)。
应用OncoNPC于CUP肿瘤样本
作者将OncoNPC应用于对971例CUP肿瘤的分类,这些肿瘤样本来自于被送往DFCI(Dana-Farber癌症研究所)并作为常规临床护理的一部分进行了测序。与DFCI的3690个已知原发癌肿瘤(CKP)的OncoNPC分类相比,CUP肿瘤的预测概率平均较低(0.764与0.881相比),但与DFCI的8025个CKP,包括未在OncoNPC中建模的肿瘤类型,的预测概率相当(0.769)。这表明CUP肿瘤可能包含其他罕见的肿瘤类型。尽管如此,41.2%的CUP肿瘤(971个中的400个)仍然可以高度自信地分类(即,pmax ≥ 0.9),并且多个分类的肿瘤类型,包括NSCLC、BRCA、PAAD和PRAD,其预测概率分布与其对应的CKP相当(图3a)。有趣的是,尽管在训练集中这些类型的肿瘤样本数量很少(n = 359,占训练集的0.99%),但被预测为GINET的CUP仍然高度自信,这表明一些罕见的肿瘤类型可能仍然可以自信地识别出来。如图3b所示,最常见的CUP癌症类型是NSCLC、PAAD、BRCA、EGC和COADREAD。NSCLC、BRCA和COADREAD也是最常见的CKP类型。这与以前的研究结果大致一致,即通过尸检揭示的CUP的潜在原发癌中,最常见的包括肺癌、大肠癌和胰腺癌。最后,将OncoNPC应用于MSK癌症中心的581个CUP肿瘤时也观察到了类似的比率。
解释OncoNPC癌症类型预测
图 3
OncoNPC学习了输入体细胞变异和临床特征之间的复杂非线性关系,并提供可解释的原发癌症类型预测,其中每个输入特征对预测的影响通过SHAP值进行量化。作者调查了在CKP和CUP队列中预测每种癌症类型最有影响力的特征,以评估OncoNPC的有效性(有关CUP队列中前三个最常预测的癌症类型的信息,请参见图3d:NSCLC、BRCA和PAAD)。对于NSCLC,最重要的特征是EGFR突变和SBS4,这是与烟草吸烟相关的突变特征,分别用于预测CKP肿瘤样本和预测为NSCLC的CUP肿瘤样本,与肺癌的已知病因一致。EGFR基因的体细胞突变在NSCLC肿瘤中经常观察到,并且该基因本身是NSCLC患者的已知治疗靶点。烟草烟雾中的致癌物质已被认为是导致肺癌的原因。对于BRCA,对于CKP和CUP肿瘤样本,最重要的特征是性别,如预期的那样,其次是PIK3CA的体细胞突变和CCND1基因的变异,这些在乳腺癌中是已知的驱动基因和预后指标。对于PAAD,KRAS突变明显高于人群平均水平,并且是最重要的体细胞特征。KRAS基因的突变在胰腺癌患者中经常发生,并且已知具有预后意义。OncoNPC提供了直观的可视化,以解释个体级别的预测。
参考资料
Moon, I., LoPiccolo, J., Baca, S.C. et al. Machine learning for genetics-based classification and treatment response prediction in cancer of unknown primary. Nat Med 29, 2057–2067 (2023).
https://doi.org/10.1038/s41591-023-02482-6
相关文章:

Nat. Med. | 基于遗传学原发部位未知癌症的分类和治疗反应预测
今天为大家介绍的是来自Alexander Gusev团队的一篇论文。原发部位未知癌症(Cancer of unknown primary,CUP)是一种无法追溯到其原发部位的癌症,占所有癌症的3-5%。CUP缺乏已建立的靶向治疗方法,导致普遍预后…...
RocketMQ如何安全的批量发送消息❓
优点: 批量发送消息可以提高rocketmq的生产者性能和吞吐量。 使用场景: 发送大量小型消息时;需要降低消息发送延迟时;需要提高生产者性能时; 注意事项: 消息列表的大小不能超过broker设置的最大消息大小;消息列表…...
计算机视觉与深度学习 | 基于视觉惯性紧耦合的SLAM后端优化算法
===================================================== github:https://github.com/MichaelBeechan CSDN:https://blog.csdn.net/u011344545 ===================================================== 基于视觉惯性紧耦合的SLAM后端优化算法 引言视觉惯性联合初始化非线性优…...
GDI+ 绘制透明图
目录 一、GDI+ 准备工作 1、线程中添加GDI+支持 2、Gdiplus::Bitmap 1)、从文件创建位图...

【Java】IntelliJ IDEA使用JDBC连接MySQL数据库并写入数据
目录 0 准备工作1 创建Java项目2 添加JDBC 驱动程序3 创建数据库连接配置文件4 创建一个 Java 类来连接和操作数据库5 运行应用程序 在 IntelliJ IDEA 中连接 MySQL 数据库并将数据存储在数据表中,使用 Java 和 JDBC(Java Database Connectivity…...

Linux Hadoop平台伪分布式安装
Linux Hadoop 伪分布式安装 1. JDK2. Hadoop3. MysqlHive3.1 Mysql8安装3.2 Hive安装 4. Spark4.1 Maven安装4.2 Scala安装4.3 Spark编译并安装 5. Zookeeper6. HBase 版本概要: jdk: jdk-8u391-linux-x64.tar.gzhadoop:hadoop-3.3.1.tar.gzh…...

【STM32-DSP库的使用】基于Keil5 + STM32CubeMX 手动添加、库添加方式
STM32-DSP库的使用 一.CMSIS-DSP1.1 DSP库简介1.2 支持的函数类别1.3 宏定义 二、操作2.1 STM32CubeMX 配置基本工程2.2 Lib库的方式实现(推荐)2.3 手动添加DSP文件(可以下载官方最新库,功能齐全) 三、MFCC测试DSP加速效果 为验证语音识别MFC…...

createElement的用法
目录 一:介绍 二:语法与例子 1、语法 2、一些例子 例1: 例2: 例3: 3、第二种写法 一:介绍 document.createElement()是在对象中创建一个对象,要与appendChild() 或 insertBefore()方法…...

Mabitys总结
一、ORM ORM(Object/Relation Mapping),中文名称:对象/关系 映射。是一种解决数据库发展和面向对象编程语言发展不匹配问题而出现的技术。 使用JDBC技术时,手动实现ORM映射: 使用ORM时,自动关系映射: &am…...

JAVA安全之Log4j-Jndi注入原理以及利用方式
什么是JNDI? JDNI(Java Naming and Directory Interface)是Java命名和目录接口,它提供了统一的访问命名和目录服务的API。 JDNI主要通过JNDI SPI(Service Provider Interface)规范来实现,该规…...

Spring源码系列-框架中的设计模式
简单工厂 实现方式: BeanFactory。Spring中的BeanFactory就是简单工厂模式的体现,根据传入一个唯一的标识来获得Bean对象,但是否是在传入参数后创建还是传入参数前创建这个要根据具体情况来定。 实质: 由一个工厂…...

数据的读取和保存-MATLAB
1 序言 在进行数据处理时,经常需要写代码对保存在文件中的数据进行读取→处理→保存的操作,流程图如下: 笔者每次在进行上述操作时,都需要百度如何“选中目标文件”以及如何“将处理好的数据保存到目标文件中”,对这一…...
C++ 输入、输出和整数运算
【问题描述】 编写一个程序,读入两个整数,计算并输出他们的和、积、商和余数。 【输入形式】 程序运行到输入时,不要显示输入提示信息。 输入为两个整数(在问题描述中记作A和B,程序中请自定变量名),A和B使…...
Element Plus 解决组件显示英文问题
要解决Element Plus日历组件显示英文的问题,可以使用Element Plus提供的国际化功能,切换成中文语言。下面是一个简单的示例: 首先,在main.ts或者你的入口文件中引入Element Plus的中文语言包和Vue I18n: import { cr…...

sqlite3.NotSupportedError: deterministic=True requires SQLite 3.8.3 or higher
问题描述 sqlite3.NotSupportedError: deterministicTrue requires SQLite 3.8.3 or higher 解决方法 A kind of solution is changing the database from sqlite3 to pysqlite3. After acticate the virtualenv, install pysqlite. pip3 install pysqlite3 pip3 install …...
单线程介绍、ECMAScript介绍、操作系统Windows、Linux 和 macOS
目录 单线程介绍ECMAScript介绍操作系统Windows、Linux 和 macOS 👍 点赞,你的认可是我创作的动力! ⭐️ 收藏,你的青睐是我努力的方向! ✏️ 评论,你的意见是我进步的财富! 单线程介绍 单线…...

【Docker】iptables基本原理
在当今数字化时代,网络安全问题变得越来越重要。为了保护我们的网络免受恶意攻击和未经授权的访问,我们需要使用一些工具来加强网络的安全性。其中,iptables是一个强大而受欢迎的防火墙工具,它可以帮助我们控制网络流量并保护网络…...

微服务架构——笔记(3)Eureka
微服务架构——笔记(3) 基于分布式的微服务架构 本次笔记为 此次项目的记录,便于整理思路,仅供参考,笔者也将会让程序更加完善 内容包括:1.支付模块、2.消费者订单模块、支付微服务入驻Eureka、Eureka集群…...

网络编程套接字(2)——简单的TCP网络程序
文章目录 一.简单的TCP网络程序1.服务端创建套接字2.服务端绑定3.服务端监听4.服务端获取连接5.服务端处理请求6.客户端创建套接字7.客户端连接服务器8.客户端发起请求9.服务器测试10.单执行流服务器的弊端 二.多进程版的TCP网络程序1.捕捉SIGCHLD信号2.让孙子进程提供服务 三.…...
MySQL数据库的简单的面试题
1、MySQL有哪些锁机制 MySQL有以下几种机制: 行级锁:行极锁在mysql 中最常用的锁机制,它只针对表的某一行进行加锁不受影响。MySQL的行级锁分为共享锁和排他锁两种类型,共享锁和排它锁不能同时存在于一行。 表级锁:表…...
谷歌浏览器插件
项目中有时候会用到插件 sync-cookie-extension1.0.0:开发环境同步测试 cookie 至 localhost,便于本地请求服务携带 cookie 参考地址:https://juejin.cn/post/7139354571712757767 里面有源码下载下来,加在到扩展即可使用FeHelp…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...
Cursor实现用excel数据填充word模版的方法
cursor主页:https://www.cursor.com/ 任务目标:把excel格式的数据里的单元格,按照某一个固定模版填充到word中 文章目录 注意事项逐步生成程序1. 确定格式2. 调试程序 注意事项 直接给一个excel文件和最终呈现的word文件的示例,…...
椭圆曲线密码学(ECC)
一、ECC算法概述 椭圆曲线密码学(Elliptic Curve Cryptography)是基于椭圆曲线数学理论的公钥密码系统,由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA,ECC在相同安全强度下密钥更短(256位ECC ≈ 3072位RSA…...

Day131 | 灵神 | 回溯算法 | 子集型 子集
Day131 | 灵神 | 回溯算法 | 子集型 子集 78.子集 78. 子集 - 力扣(LeetCode) 思路: 笔者写过很多次这道题了,不想写题解了,大家看灵神讲解吧 回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...
线程同步:确保多线程程序的安全与高效!
全文目录: 开篇语前序前言第一部分:线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案 第二部分:synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块 第三部分ÿ…...
Java - Mysql数据类型对应
Mysql数据类型java数据类型备注整型INT/INTEGERint / java.lang.Integer–BIGINTlong/java.lang.Long–––浮点型FLOATfloat/java.lang.FloatDOUBLEdouble/java.lang.Double–DECIMAL/NUMERICjava.math.BigDecimal字符串型CHARjava.lang.String固定长度字符串VARCHARjava.lang…...

中医有效性探讨
文章目录 西医是如何发展到以生物化学为药理基础的现代医学?传统医学奠基期(远古 - 17 世纪)近代医学转型期(17 世纪 - 19 世纪末)现代医学成熟期(20世纪至今) 中医的源远流长和一脉相承远古至…...

SiFli 52把Imagie图片,Font字体资源放在指定位置,编译成指定img.bin和font.bin的问题
分区配置 (ptab.json) img 属性介绍: img 属性指定分区存放的 image 名称,指定的 image 名称必须是当前工程生成的 binary 。 如果 binary 有多个文件,则以 proj_name:binary_name 格式指定文件名, proj_name 为工程 名&…...

基于Java+MySQL实现(GUI)客户管理系统
客户资料管理系统的设计与实现 第一章 需求分析 1.1 需求总体介绍 本项目为了方便维护客户信息为了方便维护客户信息,对客户进行统一管理,可以把所有客户信息录入系统,进行维护和统计功能。可通过文件的方式保存相关录入数据,对…...