清华团队提出HistoCell,从组织学图像推断超分辨率细胞空间分布助力癌症研究|顶刊精析·25-03-02
小罗碎碎念
今天和大家分享一篇2025-02-21发表于nature communications的文章,内容涉及病理+空转+单细胞。
从组织学图像推断细胞空间分布对癌症研究意义重大,但现有方法存在标注工作量大、分辨率或特征挖掘不足等局限。研究旨在开发一种高效准确的方法。
本文提出弱监督深度学习方法 HistoCell,基于多种癌症组织学图像,解耦形态特征与转录组表达数据关联。经特征提取、分层编码等流程,利用多方法获取弱监督标签,预测细胞类型、状态和空间网络。

| 作者身份 | 姓名 | 单位 |
|---|---|---|
| 第一作者 | Peng Zhang、Chaofei Gao | 清华大学自动化系生物信息学教研室/生物信息学教育部重点实验室/清华信息科学与技术国家实验室(筹) |
| 通讯作者 | Shao Li | 清华大学自动化系生物信息学教研室/生物信息学教育部重点实验室/清华信息科学与技术国家实验室(筹) |
在多种癌症组织数据上,HistoCell 性能超越现有方法且稳健。在空间转录组分析、组织架构注释、临床指标识别和生物标志物筛选等方面有应用潜力,虽有局限,但为空间生物学和临床医学研究提供了重要工具。
推文速览
一、文献概述
二、HistoCell概述
三、数据收集与预处理
四、HistoCell 复现流程概述
(注意,完整的项目复现流程,请关注后续的推送,本期推送只是介绍大致流程)

知识星球
如需获取推文中提及的各种资料,欢迎加入我的知识星球!
一、文献概述
“Systematic inference of super-resolution cell spatial profiles from histology images”发表于Nature Communications,提出了一种名为HistoCell的弱监督深度学习方法,能从组织学图像中推断超分辨率细胞空间分布,为癌症研究提供了有力工具。
- 研究背景:从组织学图像推断细胞空间分布对癌症诊疗意义重大。现有方法存在局限性,如完全监督模型需大量人工标注,基于空间转录组学的方法分辨率和细胞特征挖掘不足。
- HistoCell方法框架:基于弱监督学习,通过解耦组织学形态特征与空间转录组表达数据的关联,对9种癌症类型分别建立预训练模型。利用多方法获取弱监督标签,提取图像形态和拓扑特征并编码,最终预测细胞类型、状态和空间网络。
- 实验结果
- 基准分析:在多种癌症组织数据上,HistoCell预测细胞类型和状态的性能优异,超越现有方法,且对训练数据量、图像分辨率等变化稳健。
- 应用分析:在空间转录组数据分析中,HistoCell能增强细胞类型反卷积准确性;可准确注释组织架构,发现细微结构;能识别多种癌症的临床相关空间组织指标,用于预测化疗反应和预后;还能筛选与胃癌恶性转化风险相关的细胞群和指标。
- 研究结论:HistoCell可从组织学图像准确推断超分辨率细胞空间分布,在多方面有应用潜力。但该模型也存在局限,如受细胞分割影响、拓扑分析有局限等。总体而言,HistoCell为空间生物学和临床医学研究提供了重要工具 。
二、HistoCell概述
2-1:HistoCell的示意图
HistoCell是一种弱监督和无需注释的组织学图像分析方法,用于推断包含细胞类型、细胞状态及其在单个核水平的空间网络的超分辨率细胞空间剖面。

这张图展示了HistoCell方法的工作流程:
- 输入数据:针对九种不同的癌症类型,使用组织学图像作为输入。
- 处理过程:通过特征提取,获取细胞核形态特征和空间拓扑特征,再经过分层编码,依次确定细胞区室、细胞类型和细胞状态,从而得出细胞空间图谱。
- 应用方向:得到的细胞空间图谱可用于组织架构注释、识别临床相关的空间特征,以及基于图像的细胞标记物筛选 。
作为HistoCell方法合理性的提案,在本研究中引入了一个观点,即可以从以下三个角度确定组织学图像中每个核的细胞信息:
- 1)分割核本身的形态特征;
- 2)核与其空间邻域之间的拓扑特征;
- 3)核的细胞层次分类,包括细胞类型所属的组织区域以及细胞类型中的细胞状态或细胞亚群组成。
2-2:HistoCell的模型架构
作为预训练输入,HistoCell需要共注册高分辨率组织学图像的ST数据,以及匹配的scRNA-seq数据作为细胞类型和细胞状态解卷积的参考数据。

数据输入及前期处理
细胞分割(Cell segmentation):对组织学图像(Histology image)进行处理,将其分割成大小为256×256像素的小块,便于后续分析。
特征提取
- 图块特征提取(Tile feature extraction):利用ResNet - 18网络对分割后的图像图块提取特征。
- 细胞特征嵌入和拓扑特征提取:
- 细胞特征嵌入(Cell feature embedding):同样使用ResNet - 18网络对单个细胞图像进行特征提取和嵌入。
- 拓扑特征提取(Topological feature extraction):通过图注意力网络(GAT),基于细胞间的空间关系,提取细胞的拓扑特征,捕捉细胞之间的相互作用。
分层编码与弱监督学习
- 分层编码(Hierarchical encoding):将提取到的特征通过长短期记忆网络(LSTM)进行分层编码,整合不同层次的信息。
- 弱监督(Weak supervision):在整个过程中利用弱监督学习的方式,减少对大量标注数据的依赖。
线性投影与输出
- 线性投影(Linear projection):编码后的特征经过线性投影层,分别预测组织层面信息、细胞类型(Cell type)和细胞状态(Cell state)。
反卷积分析
- 结合空间数据(Spatial data)中的基因表达(Gene expression)信息,以单细胞RNA测序(scRNA - seq)数据作为参考,通过细胞类型反卷积(Cell - type deconvolution)和细胞状态反卷积(Cell - state deconvolution),得到不同细胞类型和状态的比例,进一步分析细胞组成和状态信息。
HistoCell从组织学图像瓦片中提取单个分割细胞核的形态和拓扑特征,并生成单核水平的细胞层次信息,以解卷积结果作为弱监督标签。GAT图注意力变换器,LSTM长短期记忆。
三、数据收集与预处理
3-1:空间转录组数据
本研究为了进行模型的预训练和内部验证,从公开可获取的数据资源中收集了一系列与高分辨率组织学图像共注册的空间转录组学(ST)数据集(补充表1)。

表中还提供了数据链接,此处仅选择一个作为演示。

共收集了9种癌症类型的99个样本,以及152,168个点,其中25个样本来自甲醛固定石蜡包埋(FFPE)组织,其余74个样本来自冷冻组织。
此外,为了训练与胃癌发生相关的模型,作者对两个早期恶性肿瘤FFPE样本进行了空间转录组测序(10× Genomics),这些样本中同时存在低级别异型增生灶(GSE287979),从而生成了一个与高分辨率病理图像共注册的胃癌相关ST数据集。
在反卷积之前,移除了基因表达水平低的点(总计数<3),并将原始表达矩阵进行了归一化和对数转换。
收集的点位水平ST数据的详细信息总结在补充表1中。

数据集作者也已经上传,界面如下。

为了评估HistoCell在单核水平细胞类型预测和独立ST数据反卷积增强方面的性能,作者还收集了来自10× Xenium平台的乳腺癌ST数据(GSE243280),该数据集包含共注册的高分辨率组织学图像和单细胞水平表达数据。
通过Xenium分析仪,在整个组织切片上以单细胞分辨率构建了空间转录组图谱,通过解码目标基因的光学特征。
在复制1中检测到167,780个细胞,在复制2中检测到118,752个细胞,两者均包含313个测序基因。每个单细胞的类型根据标志基因进行注释。
3-2:单细胞RNA测序数据
为了对点位水平ST数据在模型预训练过程中进行细胞类型反卷积分析,共收集了9个与ST数据匹配的单细胞RNA测序(scRNA-seq)数据集作为参考。
每个数据集,作者导出表达矩阵作为反卷积分析的输入,并收集相应研究中注释的细胞类型。同样,作者也进行了表达归一化,并移除了总表达计数低于3的细胞。
收集的scRNA-seq数据集的详细信息总结在补充表2中。

3-3:组织学图像数据
在本研究中,为了进行模型评估和应用分析,从多个来源收集了高分辨率的组织学图像,主要为全切片图像(WSI),包括公开可获取的图像数据资源(TCGA, PanNuke, Camelyon16)以及与ST数据共注册的图像(10× Visium和10× Xenium)。
通常,来自公开可获取图像数据资源的组织学图像可以分为三类:
- 带有切片级别标签/表型的图像(TCGA)
- 带有组织区域注释的图像(Camelyon16)
- 带有单核水平手动注释的图像(PanNuke)
对于TCGA数据集,作者收集了HistoCell涉及的8种癌症类型(BRCA, COAD, OVC, PRAD, PDAC, LIHC, KIRC和LUSC)的组织学图像及相应的临床结果,以进行泛癌症细胞核形态学特征分析和临床相关的空间组织指标(SOIs)的识别。
Camelyon16是一个淋巴结组织学图像数据集,包含每个浸润性乳腺癌区域的 manual annotations。因此,作者从训练集中分别收集了100个转移性和100个正常样本,以进行组织结构注释和转移相关SOIs的识别。
至于PanNuke数据集,从19种组织类型中收集了7961个256×256像素的图像块,所有图像块均手动注释了单核水平细胞类型,包括肿瘤细胞、炎症细胞、连接/软组织细胞、死细胞、上皮细胞和背景。
在本研究中,作者使用了跨9种癌症类型的5002个图像块作为模型评估的外部验证数据集。
四、HistoCell 复现流程概述
4-1:项目概述
目标
通过弱监督深度学习,仅利用组织病理学图像解析 层次化空间细胞信息,包括:
- 组织区域划分(如肿瘤、间质)、
- 单细胞类型(如癌细胞、免疫细胞)、
- 细胞状态(如代谢活跃状态)。
弱监督来源
使用空间转录组(ST)数据解卷积得到的细胞组成作为监督信号,无需单细胞级别的标注。
优势
支持全切片图像(WSI)处理,可生成超分辨率空间细胞图谱。
4-2:环境配置
依赖项
通过 pip install -r requirements.txt 安装,需确保 Python 环境(未指定版本,建议 ≥3.8)。
硬件建议
GPU 加速(WSI 处理及模型训练均需高性能计算)。
4-3:数据准备与预处理
数据要求
训练阶段
输入数据:
- 配对的 scRNA-seq 和 ST 数据:用于解卷积获取细胞组成。
- 高分辨率组织病理图像:需根据 ST 数据的坐标切割为小块(代码示例见
./tutorial/tutorial.ipynb)。
解卷积工具:
支持 CARD、RCTD、Tangram、Cell2location 等方法,用户可自行选择。
推理阶段
输入数据:仅需组织病理图像,支持两种格式:
- WSI 文件(.svs/.tif):需用 CLAM 工具分割为 256x256 像素的块。
- 分块图像(任意格式):直接输入。
关键预处理步骤
- 细胞分割:
- 推荐工具:HoVerNet,输出 JSON 格式的细胞轮廓、中心点、类型概率等信息。
- 替代方案:Mask R-CNN、Cerbebrus 等。
- 数据格式:
- 分块图像、JSON 分割结果、解卷积的细胞比例需对齐。
4-4:模型预训练
- 核心脚本:
train.py(需配置configs.py参数)。 - 参数示例:
python train.py \ --model Breast_Benchmark_H1 \ # 模型名称 --tissue BRCA \ # 组织类型(如乳腺癌) --deconv RCTD \ # 解卷积方法 --k_class 6 \ # 细胞类型/状态类别数 --tissue_compartment ./tcs/tissue_compartment_addtype.json # 组织区域定义文件 - 扩展功能:
- 交叉验证:
train_cv.py(需指定折数--folder 10)。 - 细胞状态预测:
train_state.py和train_state_cv.py。
- 交叉验证:
- 注意:训练代码暂未公开,需等待论文发表。
4-5:模型推理
- 预训练模型与数据:需从 Google Drive 下载并置于
./demo。 - 运行命令:
python infer.py \ --model Breast_Benchmark_H1 \ # 预训练模型名称 --epoch 30 \ # 训练轮次 --omit_gt # 忽略真实标签(仅推理) - 输出:预测结果以字典形式存储为
.pkl文件,包含细胞类型/状态的像素级分布。
4-6:结果与应用
可视化展示(见
tutorial.ipynb)
- 组织区域划分:区分肿瘤、间质等区域(图
tissue_compartment.jpg)。 - 单细胞类型:癌细胞(红)、间质细胞(蓝)、巨噬细胞(绿)的空间分布(图
cell_type1.jpg)。 - 细胞状态:代谢或功能状态的可视化(图
cell_state.jpg)。
应用场景
- 精细组织注释:聚类细胞生成亚区域,识别微小病灶(图
segmentation.jpg)。 - 细胞类型解卷积:结合形态学与表达数据提升精度(图
deconvolution1.jpg)。 - 空间生物标志物:通过细胞空间网络关联临床预后(图
biomarker.jpg)。
4-7:注意事项与潜在问题
- 数据获取:
- scRNA-seq 和 ST 数据需与病理图像空间对齐,需自行处理坐标匹配。
- 硬件限制:
- WSI 处理需高性能 GPU,内存需求较高(建议 ≥16GB 显存)。
- 代码依赖:
- 当前训练代码未公开,推理需依赖预训练模型。
- 解卷积方法选择:
- 不同方法(如 RCTD vs. Tangram)可能影响监督信号质量,需实验验证。
- 结果分析:
.pkl文件需自行解析,官方未提供可视化工具。
结束语
本期推文的内容就到这里啦,如果需要获取医学AI领域的最新发展动态,请关注小罗的推送!如需进一步深入研究,获取相关资料,欢迎加入我的知识星球!
相关文章:
清华团队提出HistoCell,从组织学图像推断超分辨率细胞空间分布助力癌症研究|顶刊精析·25-03-02
小罗碎碎念 今天和大家分享一篇2025-02-21发表于nature communications的文章,内容涉及病理空转单细胞。 从组织学图像推断细胞空间分布对癌症研究意义重大,但现有方法存在标注工作量大、分辨率或特征挖掘不足等局限。研究旨在开发一种高效准确的方法。 …...
分布式锁—2.Redisson的可重入锁一
大纲 1.Redisson可重入锁RedissonLock概述 2.可重入锁源码之创建RedissonClient实例 3.可重入锁源码之lua脚本加锁逻辑 4.可重入锁源码之WatchDog维持加锁逻辑 5.可重入锁源码之可重入加锁逻辑 6.可重入锁源码之锁的互斥阻塞逻辑 7.可重入锁源码之释放锁逻辑 8.可重入锁…...
html+js 轮播图
<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>轮播图示例</title><style>/* 基本样式…...
vue3:初学 vue-router 路由配置
承上一篇:nodejs:express js-mdict 作为后端,vue 3 vite 作为前端,在线查询英汉词典 安装 cnpm install vue-router -S 现在讲一讲 vue3:vue-router 路由配置 cd \js\mydict-web\src mkdir router cd router 我还…...
23种设计模式之《备忘录模式(Memento)》在c#中的应用及理解
程序设计中的主要设计模式通常分为三大类,共23种: 1. 创建型模式(Creational Patterns) 单例模式(Singleton):确保一个类只有一个实例,并提供全局访问点。 工厂方法模式࿰…...
Python 爬取唐诗宋词三百首
你可以使用 requests 和 BeautifulSoup 来爬取《唐诗三百首》和《宋词三百首》的数据。以下是一个基本的 Python 爬虫示例,它从 中华诗词网 或类似的网站获取数据并保存为 JSON 文件。 import requests from bs4 import BeautifulSoup import json import time# 爬取…...
C语言408考研先行课第一课:数据类型
由于408要考数据结构……会有算法题…… 所以,需要C语言来进行一个预备…… 因为大一贪玩,C语言根本没学进去……谁能想到考研还用得到呢?【手动doge(bushi) 软件用的是Clion,可以自行搜索教程下载使用。…...
03 HarmonyOS Next仪表盘案例详解(二):进阶篇
温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! 文章目录 前言1. 响应式设计1.1 屏幕适配1.2 弹性布局 2. 数据展示与交互2.1 数据卡片渲染2.2 图表区域 3. 事件处理机制3.1 点击事件处理3.2 手势…...
探秘基带算法:从原理到5G时代的通信变革【四】Polar 编解码(一)
文章目录 2.3 Polar 编解码2.3.1 Polar 码简介与发展背景2.3.2 信道极化理论基础对称容量与巴氏参数对称容量 I ( W ) I(W) I(W)巴氏参数 Z ( W ) Z(W) Z(W)常见信道信道联合信道分裂信道极化 本博客为系列博客,主要讲解各基带算法的原理与应用,包括&…...
基础篇(一)强化学习是什么?从零开始理解智能体的学习过程
强化学习是什么?从零开始理解智能体的学习过程 你是否曾好奇过,人工智能是如何在复杂的环境中学会做出决策的?无论是打游戏的AI,还是自动驾驶的汽车,还是最近很火的DeepSeek它们的背后都离不开一种强大的技术——强化…...
如何直接导出某个conda环境中的包, 然后直接用 pip install -r requirements.txt 在新环境中安装
1. 导出 Conda 环境配置 conda list --export > conda_requirements.txt这将生成一个 conda_requirements.txt 文件,其中包含当前环境中所有包的列表及其版本信息。 2. 转换为 requirements.txt 文件 grep -v "^#" conda_requirements.txt | cut -d …...
基于 HTML、CSS 和 JavaScript 的智能九宫格图片分割系统
目录 1 前言 2 技术实现 2.1 HTML 结构 2.2 CSS 样式 2.3 JavaScript 交互 3 代码解析 3.1 HTML 部分 3.2 CSS 部分 3.3 JavaScript 部分 4 完整代码 5 运行结果 6 总结 6.1 系统特点 6.2 使用方法 1 前言 在当今数字化的时代,图片处理需求日益增长。…...
委托者模式(掌握设计模式的核心之一)
目录 问题: 举例: 总结:核心就是利用Java中的多态来完成注入。 问题: 今天刷面经,刷到装饰者模式,又进阶的发现委托者模式,发现还是不理解,特此记录。 举例: 老板…...
MySQL-高级查询
查询处理 排序(默认不是按主键排序的) order by 字段1[,字段2] [asc|desc] 默认是升序排序也可以指定 select 列表中列的序号进行排序如果是多个字段,那么在上一个字段排序完的基础上排序下一个 限制数量 limit 行数࿰…...
R JSON 文件
R JSON 文件 引言 在当今的数据分析和处理领域,R语言作为一种功能强大的统计计算和图形展示工具,被广泛应用于各种数据分析任务中。随着大数据时代的到来,数据的格式和结构变得越来越多样化。JSON(JavaScript Object Notation&a…...
Apache Kafka单节点极速部署指南:10分钟搭建开发单节点环境
Apache Kafka单节点极速部署指南:10分钟搭建开发单节点环境 Kafka简介: Apache Kafka是由LinkedIn开发并捐赠给Apache基金会的分布式流处理平台,现已成为实时数据管道和流应用领域的行业标准。它基于高吞吐、低延迟的设计理念,能够…...
Redis7——进阶篇(一)
前言:此篇文章系本人学习过程中记录下来的笔记,里面难免会有不少欠缺的地方,诚心期待大家多多给予指教。 基础篇: Redis(一)Redis(二)Redis(三)Redis&#x…...
点云配准技术的演进与前沿探索:从传统算法到深度学习融合(4)
4、点云配准面临的挑战与应对策略 4.1 点云配准面临的主要挑战 在点云配准的实际应用中,尽管已经取得了显著的研究成果,但仍然面临着诸多复杂而严峻的挑战,这些挑战严重制约了点云配准技术在更多领域的广泛应用和深入发展。 在自动驾驶场景…...
Linux·数据库INSERT优化
在业务中,我们经常会要对数据进行存储,对于少量数据插入时,我们可以直接使用 INSERT 插入数据,但是当我们需要插入的数据比较多时,使用 INSERT 插入的话时间消耗是很大的,具体而言单次插入600时,…...
Sourcetrail 代码分析工具
Sourcetrail 概述 Sourcetrail 是一个代码分析工具,它旨在帮助开发人员理解和导航复杂的代码库。它可以创建代码库的可视化图形,显示代码中的类、函数、变量、依赖关系等信息,从而帮助开发人员更好地理解代码结构和关系,降低维护…...
从数据到决策,永洪科技助力良信电器“智”领未来
在数字经济浪潮汹涌的时代,数字化转型已成为企业增强竞争力、实现可持续发展的必由之路。良信电器,作为国内知名的电气设备制造企业,积极响应时代号召,携手永洪科技,共同开启了数字化转型的新篇章。 上海良信电器股份有…...
Python-04BeautifulSoup网络爬虫
2025-03-04-BeautifulSoup网络爬虫 记录BeautifulSoup网络爬虫的核心知识点 文章目录 2025-03-04-BeautifulSoup网络爬虫 [toc]1-参考网址2-学习要点3-核心知识点1. 安装2. 导入必要的库3. 发送 HTTP 请求4. 创建 BeautifulSoup 对象5. 解析 HTML 内容5.1 查找标签5.2 根据属性…...
Spring框架自带的定时任务:Spring Task详解
文章目录 一、基本使用1、配置:EnableScheduling2、触发器:Scheduled 二、拓展1、修改默认的线程池2、springboot配置 三、源码分析参考资料 一、基本使用 1、配置:EnableScheduling import org.springframework.context.annotation.Config…...
深入探索像ChatGPT这样的大语言模型
参考 【必看珍藏】2月6日,安德烈卡帕西最新AI普及课:深入探索像ChatGPT这样的大语言模型|Andrej Karpathy fineweb知乎翻译介绍 fineweb-v1原始连接 fineweb中文翻译版本 Chinese Fineweb Edu数据集 查看网络的内部结果,可以参…...
week 3 - More on Collections - Lecture 3
一、Motivation 1. Java支持哪种类型的一维数据结构? Java中用于在单一维度中存储数据的数据结构,如arrays or ArrayLists. 2. 如何在Java下创建一维数据结构?(1-dimensional data structure) 定义和初始化这些一…...
机器学习11-经典网络解析
机器学习11-经典网络解析 AlexNetImageNet 大规模视觉识别挑战赛一、赛事背景与目的二、数据集与任务设置三、参赛规则与流程四、评审标准与机制五、历史与影响六、中国团队的表现 贡献解析CONV1层MaxP00L1层NORM1层CONV2层 CONV3、CONV4层CONV4,Max POOL3 层FC6、F…...
【AI深度学习基础】NumPy完全指南入门篇:核心功能与工程实践(含完整代码)
NumPy系列文章 入门篇进阶篇终极篇 一、NumPy简介 NumPy(Numerical Python)是Python中科学计算的核心库,提供了高性能的多维数组对象和各种用于数组操作的函数。它是Python数据分析和科学计算的基础,被广泛应用于机器学习、数据…...
【数据结构】链表与顺序表的比较
链表和顺序表是两种常见的数据结构,各有优缺点,适用于不同的场景。 ### 顺序表(数组) 顺序表在内存中连续存储元素,支持随机访问。 **优点:** 1. **随机访问**:通过索引直接访问元素…...
【JavaScript—前端快速入门】JavaScript 基础语法
JavaScript 基础语法 1. 变量 创建变量(变量定义 / 变量声明 / 变量初始化),JS 声明变量有3种方式 2. 通过打印日志,查看变量类型 JavaScript 是一门动态弱类型语言,变量可以存放不同类型的值(动态) 接下来,我们通过使用 log 指令…...
deepseek助力运维和监控自动化
将DeepSeek与Agent、工作流及Agent编排技术结合,可实现IT运维与监控的智能化闭环管理。以下是具体应用框架和场景示例: 一、智能Agent体系设计 多模态感知Agent 日志解析Agent:基于DeepSeek的NLP能力,实时解析系统日志中的语义&a…...
