当前位置：首页 > news >正文

组织病理学结合人工智能之后，如何实际应用于临床？｜顶刊精析·24-06-06

news 2026/4/5 14:57:13

小罗碎碎念

今天这篇文章选自21年5月发表的nature medicine，标题名为——Deep learning in histopathology: the path to the clinic，这篇文章也是我规划的病理组学文献精析的第三篇，如果你能坚持把七篇都看完，相信你脑海中一定会搭建起一个关于病理组学的完整架构，这对于你以后从事多模态多组学的研究至关重要！！

人工智能在病理组学中的发展历程概述｜24年6月·顶刊速递·06-04

先别急着滑走，不要想着现在是2024年，不稀罕看三年前的文章。经典的文章值得反复品味，尤其是高质量的文章解读，这和你读史书是一个道理。小罗六点起床写了两个多小时，你看完可能只需要半个小时，就能大概拿下这篇文章，血赚啊。

一、引言

在过去的五年里，人工智能（AI）领域的突破对全球社会产生了重大影响。

在医学领域，特别是在诊断学科（如放射学和病理学）中，将AI应用于患者数据的初步结果是非常有希望的1-3。诊断学科通常严重依赖于医生对数据（如图像）中模式的识别，以及将这些模式在患者更广泛的背景中的解释。然而，对于许多诊断任务，医生之间的复现性并不理想4,5。

此外，由于治疗方案的增加，需要更准确的诊断以满足精准医疗的要求，这可能会超出人类视觉检查的能力6。因此，使用AI检测并准确量化医疗数据中的模式可以辅助诊断过程，使其更加高效和可复现，并提高准确性和精确性。

在病理学组织切片分析方面，AI的应用特别有吸引力，目前这需要专业的医生、病理学家仔细评估（有时是大量）千兆像素大小的图像。病理学家根据各种组织特征（例如，组织结构的紊乱，特定细胞特征的存在或缺失，例如炎症细胞的丰富）诊断和分级疾病，如癌症和炎症性疾病。随着病理学家的短缺情况日益严重，他们的工作量因病例数量的增加而增加，需要更广泛的诊断来确定对患者的最佳治疗方案。

使用AI分析组织切片通常被称为计算病理学（CPATH）7,8（见Box 1），目前的运用主要依赖于深度神经网络（所谓的深度学习）。

Box 1 提供了与深度学习和计算病理学（CPATH）相关的关键术语的定义。

以下是对这些术语的分析：

深度学习 (Deep learning):
- 这是一种机器学习方法，通过将多层人工神经网络暴露于大量训练数据中来训练特定任务的算法，无需手动提取数据特征。
- 结果是算法学习到数据的层次化表示，这可以用于分类、检测或分割等任务。
- "深度"一词指的是使用许多层构建的人工神经网络，即深度神经网络。
数字病理学 (Digital pathology):
- 这是通过使用全切片扫描仪和计算机屏幕来数字化传统的显微镜分析细胞和组织的诊断过程。
计算病理学 (Computational pathology):
- 这是对通过扫描细胞和组织切片获得的数字图像进行计算分析。
放射组学/病理组学 (Radiomics/pathomics):
- 这些技术使用计算算法从放射学或组织病理学数字图像中提取大量特征。
- 这些特征随后用于为临床相关的终点（如预后）提供信息的预测模型。
端到端训练 (End-to-end training):
- 在机器学习模型的上下文中，端到端训练指的是同时学习模型所有参数的最优值，而不是顺序地（即一步一步地）进行。
全切片图像 (Whole-slide images):
- 这是通过使用高分辨率扫描仪数字化完整的组织病理学玻片获得的数字图像。
卷积神经网络 (Convolutional neural networks):
- 这是一种深度学习方法，由一系列卷积层组成，用于处理数据（通常是二维的）从输入到输出。
- 每层实现输入数据和一组滤波器（即小矩阵）之间的卷积操作，其数值在端到端训练过程中自动学习。
图形处理单元 (Graphics processing units):
- 这是一种专门为同时处理许多数据样本（如数字图像的部分或从图像中提取的特征）而设计的微处理器。
图像分割 (Image segmentation):
- 这是将图像的语义内容分解为多个部分的操作，其中每个部分包含属于同一语义类别的像素（例如，肿瘤区域）。
U-Net模型 (U-Net models):
- 这是一款基于两个卷积神经网络的深度学习模型，一个用于将输入图像编码为一组特征，另一个用于将这些特征解码以产生分割输出。
- 名字来源于2015年Ronneberger等人引入的两个卷积神经网络形成的U形，其中编码器和解码器通过跳跃连接相连。
数据增强 (Data augmentation):
- 这是人工修改输入数据的某些属性（例如，图像对比度、方向、颜色等）的操作，目的是用同一数据的多个变体来喂养计算模型。
模型正则化 (Model regularization):
- 在机器学习中，这指的是约束模型参数到较小值的过程，以阻止复杂模型，从而减少过度拟合训练数据的风险。

这些定义为理解深度学习在组织病理学图像分析中的应用提供了基础，涵盖了从数据预处理到模型训练和验证的整个流程。

计算病理学（CPATH）领域的研究始于20世纪60年代，最初是将图像分析算法应用于细胞图像。

例如，可以根据定量细胞特征（如大小、形状和染色质分布）将血液涂片中的单个细胞分类到亚型，以分析血液组成并帮助诊断多种疾病9。

早期的CPATH应用试图实施计算特征，这些特征与生物过程或形状痛苦地匹配，后来被使用纹理描述符（即图像纹理特征的定量描述，如方向、对比度等）的放射组学或病理组学方法所取代10，这些方法假设复杂的分类器最终可以在这些特征之间找到特定分类任务（例如，ref. 11）的复杂关系。

例如，Kather等人表明，结合五种不同类型的纹理描述符，得到了一个可以以98.6%的准确度识别结直肠组织切片中的肿瘤和间质的分类器12。

几乎完全从特征工程过渡到深度学习的原因。

对于医学成像，因此也包括CPATH，也许最重要的原因是，通过训练而不是显式编程或使用预定义的滤波器构建算法（几乎）完全，可以得到强大的、分层的特征表示，在大多数情况下，这超过了更传统的图像分析方法3。

因此，为了获得好的结果，需要领域知识的必要性减少了，因为特征工程需要定义特定问题的特征，而在深度学习中，网络会从数据中自主学习有意义的特征。从数据中自动学习特征也减少了实施时间。

在特征工程中，为手头的数据制作有意义的特征通常需要每个特征进行多次迭代，有时还需要与病理学家进行长时间的反复讨论，以了解他们在诊断过程中使用的线索。在深度学习时代，这样的轨迹可以减少到几个月，有时甚至几周，同时在诊断性能方面打破界限。

二、计算病理学（CPATH）的发展趋势

计算病理学（CPATH）在过去十年中取得了实质性进展，这得益于显微镜扫描设备的显著改进、计算硬件的发展和成本降低，以及人工智能（AI）的进步——这些改进使得获取全切片图像（WSIs）成为可能。

该领域遵循了计算机视觉社区之前经历的趋势，后者专注于对自然图像（即现实世界的照片和视频）的计算分析。

2011年关于使用图形处理单元（GPUs）15有效地训练卷积神经网络（CNNs）的初步报告，这是一种特殊的深度学习算法，导致了更深层CNN的设计，这些网络在自然图像分类方面超越了当时的先进水平（主要使用基于手工制作特征的机器学习）。特别是在ImageNet挑战中，要求将一百万张照片分类到一千个不同的类别中，从特定品种的狗到飞机和汽车，这些新的深度神经网络在短短三年内将错误率从25%降低到4%。

CPATH研究人员注意到了在计算机视觉中应用CNN的成功，最初提出的方法仅专注于分析WSIs的小裁剪区域，如细胞分裂计数16。随后，使用整个WSIs的方法被用于诸如乳腺癌分割17、胶质瘤分类18、非酒精性脂肪肝病19、肾移植活检评估20和前列腺癌检测21等应用。

随着在组织病理学中更先进AI模型的发展，要解决的任务的复杂性和公开可用数据集的大小开始增长。

2016年，提出了CAMELYON挑战，旨在开发CPATH解决方案，以检测乳腺癌转移在哨卫淋巴结中的存在。

CAMELYON数据集的引入是CPATH领域的一个游戏规则改变者，因为它首次使研究人员能够访问到最大的（n=1,399）完全手动注释的乳腺癌患者哨兵淋巴结的WSIs集合。挑战赛的参与者必须解决两个旨在模仿病理诊断中常规任务的任务：在每个淋巴结中找到肿瘤区域，并因此预测在WSI层面上肿瘤的存在。

三、计算病理学（CPATH）在临床实践中的应用

CAMELYON挑战为研究人员和行业提供了一个关注CPATH应用在病理临床实践实际影响的刺激。

当前的应用包括肿瘤检测和分类（通常按亚型23,25–39）、图像分割40–50、细胞检测和计数51–55、有丝分裂检测56–60、肾移植活检分析20和肿瘤分级61–63等。

图1展示了一个使用U-Net模型组合进行自动组织分割的CPATH应用示例，以及相应的真实情况。

图1a显示了周期性酸–希夫染色的肾活检的放大区域，其中可以识别出肾小球、肾小管、毛细血管等。

在图1b中，展示了用于验证CPATH解决方案输出（紫色，肾小球；蓝色，近端肾小管；橙色，远端肾小管；绿色，萎缩肾小管等）的专家注释。

图1c显示了CPATH模型的输出，与人类注释非常吻合。

在临床实践的背景下，自动化重复性和耗时的任务，如对活检和切除淋巴结获得的组织样本的分析，可以极大地影响病理学家的临床工作负荷的优化。

由于人口筛查计划，大量采集乳腺、结肠和宫颈的组织样本，每位患者在手术中切除大量淋巴结，导致病理学家需要检查大量（大多数为阴性）的切片。在这些情况下，AI算法可以标记可疑区域或切片以供检查，或在未来自主评估病例。

除了自动化当前的诊断任务外，CPATH方法还可以通过提供额外信息来支持病理学家：

显示乳腺癌WSIs中需要用于肿瘤分级的有丝分裂细胞的2平方毫米热点；
使用不同颜色突出显示前列腺癌的不同格里森分级4,66
通过CPATH方法突出显示肺癌症生长模式，按腺癌亚型分类38,67

此外，分割、检测和分类方法的结合可以使临床实践中使用的已建立生物标志物的客观量化成为可能。一个例子是肿瘤浸润淋巴细胞的评估68，这可以通过分割切片的间质区域并通过苏木精和伊红（H&E）染色53,69或免疫组化（IHC）52检测间质内淋巴细胞来实现。

使用这种方法，可以发现肿瘤浸润淋巴细胞的存在的与肺腺癌的复发和基因突变相关70。其他生物标志物的例子包括与肿瘤内间质量相关的标志物71，如肿瘤-间质比率72，这可以通过计算通过图像分割获得的肿瘤与肿瘤相关间质的比率来进行评估，以及程序性死亡配体1（PD-L1）阳性细胞的量化，这用于对患者进行免疫治疗分层，可以通过检测阳性（和可能的阴性）细胞，通过分割PD-L1阳性和PD-L1阴性区域73或甚至从H&E切片预测74来实现。

四、大规模数据集在计算病理学中的应用

早期CPATH应用的结果令人鼓舞，数据集的大小不断增加，导致越来越多的多中心努力来应对不同实验室之间在染色、图像质量、扫描特性和组织准备方面的巨大变异性。

例如，在前列腺癌检测中使用AI的一个方法，2016年开发时使用了一个包含254个前列腺组织样本的数据集，而2019年提出的一个方法使用了包含超过24,000个前列腺组织样本的数据集75。随着数据集规模的增大，CPATH方法开始接近甚至超过病理学家的表现4,5,76。

然而，尽管收集大量WSIs对于病理实验室和医疗中心来说是一项可管理的任务，但收集注释仍然是CPATH算法扩展的障碍。注释可能意味着图像区域的手动注释（例如，识别组织区域或特定细胞类型的位置）和临床注释（例如，评估分子亚型、治疗反应和生存期）。

获取图像的手动注释是一项繁琐的任务，需要专业知识，通常由（住院）病理学家执行。相比之下，临床注释需要访问病理报告和电子患者记录，可以从医院（以获取关于等级、分子亚型或治疗反应的信息）或从区域或国家登记处（以获取关于生存期的信息）获取，并且只能由授权的临床研究人员或数据管理员提供。与手动注释相比，临床注释更容易实现，并且在一些研究中已经导致了大规模数据集的产生（例如，前列腺癌75、肺癌26和结直肠癌77）。

然而，仅使用临床注释来构建CPATH模型对于组织病理学中的每个应用都不可能或有效。例如，如果对某个诊断至关重要的特征仅存在于WSI的非常小的区域中，可能需要大量的案例，CPATH模型才能学会执行该任务。因此，仍然需要手动注释，这需要开发技术以促进这些注释的高效生产。

为了解决大规模数据集中对手动注释的需求，已经提出了几种方法。

一种直接的方法是简单地通过涉及大量专家来增加注释者的数量。这种方法保证了高质量的注释，但由于涉及大量有经验的医生，因此非常昂贵。

2020年的一项研究采用了这种方法，其中12名资深病理学家参与了详尽地手动注释超过2,000张胃癌WSIs；所有参与专家的一致性被用作参考标准78。TUPAC挑战赛在2016年也采用了类似的方法，通过结合一组病理学家的意见来定义有丝分裂检测的参考标准56。

另一种方法是使用不同专业知识水平的人员集进行手动注释，范围从医学生到初级和资深病理学家53,79,80。以前使用这种方法的研究通过Mechanical Turk等基于网络的平台众包了手动注释79,80。然而，在所有情况下，手动注释最终都由（住院）病理学家审查和批准。

诸如IHC之类的染色技术，其中抗体可用于靶向特定类型的组织或细胞，也可能为手动注释提供宝贵的支持

CAMELYON挑战赛在乳腺癌转移至淋巴结的手动注释中采用了这种策略，其中两个连续切片分别用细胞角蛋白（CK）和H&E染色，并使用CK指导手动注释过程22。

这种方法的优势在于为注释者提供强烈的监督，并避免在注释参考标准中的假阴性和假阳性。另一种有用的技术是重新染色，它提供了与连续切片相比的替代方案，并使同一切片随后用例如H&E和IHC染色，并通过注册算法对两个数字化切片进行对齐。

这种技术保证了两个切片中恰好存在相同的细胞和组织隔室，并且IHC中的阳性标记可以转移到H&E，实际上为自动生成准确的注释提供了坚实的基础。这种方法已被用于使用磷组蛋白H3作为参考标准的有丝分裂细胞的检测57，使用CK作为参考标准的前列腺上皮的分割81，以及使用CK和Ki67（ref. 82）检测乳腺癌中的上皮细胞。

重新染色技术使案例数量可以在相对较低的成本和最少的人类专家互动的情况下扩展，从而减少了由于观察者间不一致性导致的变异性，这是在诸如有丝分裂细胞检测57等应用中的一个众所周知局限性。

五、弱监督学习在计算病理学中的应用

为了减少手动注释的负担，另一种方法是考虑使用弱监督的CPATH算法。

在图像分割的背景下，弱监督可以以稀疏手动注释的形式出现（例如，使用点或涂鸦标注仅小的区域，而不是通过密集注释进行完全监督——图像的所有像素都需要手动标记）83,84。

多个研究团队已经证明，结合模型开发中的高级学习策略，弱监督可以接近完全监督系统的性能，尤其是在稀疏和密集注释相结合的情况下。基于这一理念，弱监督已经用于解决CPATH方法中的分割和检测问题43,50,60,85–87。

在弱监督的WSI分类（例如，对整个WSI进行单一预测）中，对于模型开发只提供每个图像的一个标签（即切片级标签），不再适用于基于手动注释的方法。

这种设置在可扩展性方面具有吸引力，因为临床注释中包含的信息通常足以定义图像级别的目标（例如，WSI中是否存在癌症），而不需要对癌症区域进行手动注释。

此外，临床注释通常可以从病理报告和健康记录中提取88,89，开辟了一条新的途径，用于自动分析这些报告和提取标签，有可能扩展到数千个案例，这是不可能通过手动注释实现的。例如，这种类型的挑战被作为2016年TUPAC竞赛的一个任务提出，参赛者被要求根据临床注释（例如分子测试）预测乳腺癌WSI中的增殖评分，这在WSI中是无法通过手动注释确定的56。

从技术上讲，WSI分类与计算机视觉中的图像分类没有区别——后者利用CNN端到端训练以预测自然图像中类别存在的图像级别标签。

然而，端到端训练的方法不能直接应用于WSI分类，主要是因为千兆像素的WSI太大，无法适应现代GPU的内存。即使切换到中央处理器计算也无法解决这个问题，因为单个WSI在完整分辨率下可能需要数十GB的内存。

研究人员试图通过不同的方法创新来克服这一限制。

一种简单的方法是假设WSI中的所有补丁都包含与WSI级别标签相关的形态信息；例如，从包含肿瘤的WSI中提取的所有补丁也包含肿瘤。尽管这个假设很简单，但它对于某些应用是有效的26,90，尽管在需要找到罕见或小型物体时（例如，淋巴结中的小型转移），它将不起作用91。

可以通过采用多实例学习方法来细化这个假设，其中至少图像中的一个小型区域被认为包含用于分类图像的所需形态信息；例如，图像中存在一个包含癌症的小型区域足以将整个WSI标记为包含癌症75,93,94。

另一种使WSI的端到端训练成为可能的方法是直接解决大型WSI作为主要限制的问题，目标是使输入大小变小，以便WSI可以被现代硬件处理。最近的一些方法基于这个想法，依赖于使用神经网络对WSI进行压缩95，假设可以在整个WSI的压缩版本中保留语义信息，然后可以用于下游分类任务，同时减少数据大小。

近年来，提出了一系列CPATH方法（其中一些使用端到端学习），通过提供目前仅通过仅视觉检查组织病理学切片无法捕获的信息，进一步提高了病理学家的表现，例如预测化疗或免疫治疗的反应，甚至预测未来的事件，如复发或生存期97–104，以及基因突变的存在95,105–110或分子亚型30,111,112。

这些CPATH技术可能在发现预测和预后生物标志物方面发挥作用，也可能有助于了解肿瘤生长机制。

六、目前面临的挑战

尽管在过去五年中，计算病理学（CPATH）在算法性能和新型方法论的开发方面取得了重大进展，但仍然存在许多挑战，例如缺乏真正代表临床实践的公共数据集、CPATH算法工作原理的可解释性不够……

在本节中，小罗将归纳一些重要的挑战，并概述已经完成的工作，如何解决上述面临的这些问题。

6-1：计算病理学（CPATH）算法在临床实践中的泛化能力

尽管在过去几年中用于开发CPATH算法的数据集大小已经显著增加，但许多数据集仍缺乏一个重要特征，即它们并不代表临床实践中遇到的数据类型114——临床实践中遇到的数据包含的变异源比研究论文中使用的数据要多得多。

尽管目前的工作试图通过包括来自不同实验室的数据来考虑不同扫描器或染色技术引起的变异，但纳入的实验室数量通常太小，无法对泛化能力进行真正的评估115。需要纳入的实验室数量将取决于诊断问题，到目前为止，CPATH在这一方面尚未得到充分研究。

其他变异源尚未在CPATH中得到考虑，例如不同中心或国家之间患者人群的差异，尽管它们在其他领域，如放射学中已经开始受到关注116。这种变异可能会在CPATH算法中引入微妙的偏差，如在其他情况下所见117。

这些泛化问题在CPATH算法在源数据上表现最佳，但在其他数据源上表现（有时显著）较差这一众所周知的现象中得到了突出体现。例如，将用于检测前列腺癌的训练模型应用于同一数据集中，但使用不同WSI扫描器重新扫描的WSI时，曲线下的面积减少了2.65%，而当应用于外部数据集的WSI时，模型性能下降了5.84%75。在存在外部测试数据的情况下，其他研究中也发现了性能下降的例子61,118,119。算法的泛化能力有限可能是CPATH技术在临床中大规模实施的主要障碍。

为了使CPATH算法尽可能地对真实实践中可能遇到的变异具有鲁棒性，建立一个包含尽可能多变异的训练集至关重要，包括来自不同染色批、扫描器和医疗中心的数据。

可以通过数据增强技术引入额外的（人工）变异，特别是关注颜色增强，以模仿不同病理学实验室之间的染色差异：在训练过程中，可以通过应用随机旋转、翻转、添加噪声、模糊和颜色变换等方式，在用于训练之前对图像补丁进行转换。

另一种方法是使用图像标准化到共同标准来处理不同数据源之间的变异118,121–124。假设如果可以去除变异，并将所有（未来的）目标图像转换到明确定义的标准（主要是颜色规范），那么即使是在狭窄的训练图像集上构建的CPATH算法也会表现一致良好。这种方法的成本是，在应用CPATH模型之前需要对每个目标图像进行转换，这可能会计算上代价高昂。数据增强和图像标准化都是提高深度学习模型泛化能力的关键要求120，因此在开发任何CPATH方法时都应予以考虑。

另一个需要解决的重要问题是，CPATH算法只会识别它被训练去识别的模式。

例如，如果一个用于检测淋巴结中乳腺癌转移的算法遇到淋巴瘤，结果将是不确定的。如果这样的算法被用于过滤出明显阴性的WSI（无淋巴结转移），这些WSI不需要由病理学家检查，那么严重的疾病可能会被遗漏。

一种可能的解决方案是训练算法以识别所有可能的病理学；然而，在大多数情况下，这种方法可能是不切实际的，甚至是不可能的。

另一种方法是开发CNN技术，除了网络输出之外，还产生一个表达CNN对特定输出的确定性的分数125,126，这将使CNN能够实质上声明“我不知道”。

6-2：计算病理学算法的验证

关于使用深度学习开发和验证计算病理学（CPATH）算法的详细流程图。

这个流程图通过不同颜色的盒子垂直展示了验证的不同级别，包括训练期间的验证、内部和外部验证，以及前瞻性验证/临床试验。

典型的深度学习工作流程中的连续活动以深色盒子显示，相应的产出则在左侧的白色盒子中展示。箭头指示了哪些产出是活动输入。

以下是流程图中主要步骤的分析：

数据收集：这是算法开发的起点，需要收集用于训练和验证的大量数据集。
地面真实性生成（Ground truth generation）：在训练模型之前，需要创建一个地面真实性数据集，这通常涉及专家对图像进行注释，以确定模型应该学习识别的目标。
深度学习模型训练（Deep learning model training）：使用收集的数据和生成的地面真实性来训练深度学习模型。
内部验证（Internal validation）：在模型训练过程中，使用一部分数据（验证集）来监控模型性能，确保模型不会过度拟合训练数据。
性能统计（Performance statistics）：评估模型在内部验证集上的性能，这通常涉及计算准确率、召回率、F1分数等统计指标。
强/弱图像标签（Strong/weak image labels）：这指的是在训练和验证过程中使用的图像标签的强度，强标签提供更多细节，而弱标签提供较少信息。
外部验证（External validation）：在模型完成内部验证后，使用来自不同数据源的独立数据集对模型进行外部验证，以测试其泛化能力。
前瞻性验证/临床试验（Prospective validation/clinical trial）：这是算法开发和验证流程中的最后阶段，模型将在实际临床环境中进行测试，以评估其实际应用价值。
模型开发（Model development）：根据训练和验证的结果，进一步调整和优化模型。

流程图中的箭头显示了不同步骤之间的依赖关系，即每个步骤的产出是如何作为下一个步骤的输入。这个流程图强调了在CPATH算法开发过程中，需要经过多个阶段的验证，以确保算法的准确性、可靠性和临床适用性。通过这样的流程，研究人员可以确保算法在真实世界的应用中能够提供高质量的诊断支持。

通常，CPATH算法在开发过程中会通过多种方式进行验证。作为算法构建的实际部分，训练过程会使用一组被分离出来的案例进行监控，这些案例不用于模型训练（通常被称为验证集，通常相对较小）。训练数据和验证集之间结果的偏差可能表明过拟合，并提示需要进一步行动（例如，使用额外的技术，如数据增强或模型正则化，或减少深度学习架构的复杂性）。

许多CPATH研究使用完全独立的案例集（测试集）来随后评估最终模型的性能。

在大多数研究中，这些案例来自同一数据源（称为内部验证），因此与用于训练的案例具有非常相似的特征。

如果训练数据集较小，有时会使用交叉验证而不是完全独立的留出集。在交叉验证中，使用不同非重叠子集的案例训练多个模型，用于测试和训练，并给出平均性能得分。使用与数据集其余部分分离但未用于模型训练的案例进行性能评估是到达算法实际工作效果的第一步的好做法，但应被视为评估其在临床实践中的有用性的第一步。

下一步，已在几项研究中使用4,71,75,103，是使用与训练数据完全分离的案例集（称为外部验证；见图2）来验证CPATH算法。这种验证可以揭示算法在新诊断情况下的表现，并可能发现泛化能力的问题128,129。公开可访问的基准数据集5,56对于此目的可能非常有帮助，因为它们允许不同CPATH算法之间的公平比较115。此类数据集也可能支持监管审批130。

然而，即使在外部数据集上表现良好，也不能证明算法的临床有用性，也不应被视为或报告为临床有用性131。关于AI在医疗领域承诺的炒作实际上可能来自对外部验证研究结果过于乐观的解释。正如任何医疗创新一样，需要进行精心设计的前瞻性研究，以提供理解CPATH深度学习算法真正附加价值的证据，并为临床实施铺平道路115,131。

随着CPATH解决方案自主性的增加，也将需要更严格的临床验证和监管审批132。

可能影响诊断决策的技术（而不是仅仅提高效率）可能需要在随机临床试验中进行研究，这对于AI应用来说仍然非常罕见133。理想情况下，此类试验将使用临床结果作为终点，以证明长期效果115，并应用如TRIPOD-AI134等标准化报告方法，该方法目前正在开发中。

另一个需要考虑的重要问题是，在评估CPATH算法时所应用的质量衡量标准——也就是说，**何时算法足够好？**通常，CPATH算法旨在产生与病理学家使用的诊断相媲美的诊断，并将CPATH算法与病理学家面板的得分进行比较，通常得出结论，如果性能接近病理学家的平均水平，则算法可以应用于临床实践。

然而，正如Campanella和同事所争论的75，一个临床上有用的决策支持系统应该考虑，在现实环境中，病理学家并不是孤立地评估图像，而是可以选择使用IHC和与同事的咨询作为诊断工作的部分。(PS：现在知道为什么要卷多模态/多组学了吧，因为病理学家就是这么干的)

Campanella和同事得出结论，实现“100%的敏感性，可接受的假阳性率”应该是实现临床级别的CPATH算法的目标。而不是定义临床有用性的阈值，关于CPATH真正临床价值的结论只能从包括整个诊断过程的前瞻性试验中得出，包括使用现有的报告标准115,131。在可以证明这种有用性之前，关于CPATH对诊断的影响的广泛结论应该避免，因为它们可能导致过于乐观的看法。

七、未来发展方向

尽管在许多研究中显示了深度学习CPATH算法的有希望的结果，但区分希望与炒作还为时尚早。

尽管希望是由不断增加的准确性的CPATH算法推动的，这些算法在病理学领域的许多领域具有潜在的帮助病理学家在临床实践中工作的能力，但炒作往往导致一个问题，即AI是否会取代病理学家。

鉴于这个问题，重要的是要意识到病理学家执行任务的广泛性：病理学家不仅仅是在显微镜下分析一块组织；他们还将来自不同临床数据源的信息整合起来，结合他们对疾病的理解、诊断过程和患者的特定情况，然后与临床医生和其他医生，以及越来越多的患者解释分析结果。

因此，重要的是要强调病理学家不太可能很快被AI算法取代。

相对较快可以实现的是，AI算法与病理学家合作，而不是作为独立解决方案，以消除需要费力、重复的工作。

例如识别淋巴结转移5，或者提高诊断分级的质量4,66——在这种情况下，重要的是要区分高收入国家，如美国或荷兰，以及低收入或中等收入国家，如中国或印度。

前者通常有足够的病理学家来应对他们目前的工作量（尽管预计在不久的将来工作量将成为一个问题），而在后者中，获得病理学专业知识可能具有挑战性，有时甚至是不可能的。在没有病理学家的情况下，算法可以提供急需的数据来指导诊断，这将是一个重要的进步。

显然，在一些环境中，特别是在低收入和中等收入国家的农村医院，数字病理学的基础设施将带来挑战，并值得注意的是，最近的一些倡议正在解决这一限制，这些倡议不需要完整的数字病理学基础设施即可访问CPATH算法135。

7-1：可解释的人工智能（XAI）

基于深度学习模型的CPATH解决方案通常被描述为“黑箱”，这表明由于这些系统的性质（通过训练而非显式编程），人类很难理解系统的具体底层功能113。因此，纠正某些错误行为可能更困难，人类（以及监管审批）的接受程度可能受到阻碍114。

这个问题促使了对可解释人工智能的研究，开发了能够更好地理解深度学习模型功能的技术。目前可以照亮“黑箱”的技术状态已被广泛审查136。有趣的是，那份调查的作者136得出的结论是，对于“可解释”一词的确切含义没有共识，因为它在不同的上下文和利益相关者中具有不同的要求。

尽管提高AI可解释性的技术将支持社区的接受，但对于在CPATH解决方案集成到病理诊断的临床工作流程中时，应该更注重对技术机制的精确理解，而不是对系统在实际使用中的整体功能，这一点是有争议的。

严格的验证和质量保证以及检查程序对于证明CPATH解决方案的正确功能至关重要，无论是最初的市场进入，还是未来的更新。这一主题对食品和药物管理局等监管机构非常重要，后者最近提出了一项监管框架138，以实施预定的变更控制计划，其中制造商必须解释他们打算通过学习改变哪些方面，以及算法如何学习并在保持安全有效的同时发生变化，以及减轻性能损失的策略。

7-2：伦理问题

患者数据的利用以及辅助诊断的机器（甚至可能以（部分）自主方式）的使用引发了一系列伦理关注。

CPATH解决方案的开发需要大量数据（包括图像和相关元数据）。在一般的健康护理研究和产品开发中使用人类数据会产生伦理和法律挑战，这些挑战必须得到妥善处理。尊重患者隐私和获得数据使用批准是遵守法规的重要要求。

不幸的是，从实际角度来看，这些要求可能会减少AI开发中现有数据的重复使用选项，并可能导致达到所需案例数量的增加成本。需要谨慎平衡隐私保护和数据驱动创新的好处139，这需要所有利益相关者的参与。

此外，为了CPATH开发所需的规模收集数据（成千上万的案例），这可能会被公开，使情况变得更加复杂。除了数据泄露的危险外，大量数据的收集可能会使研究人员能够发现以前不可能的联系，即使数据以匿名方式收集，也可能使患者隐私面临风险114,139。

建立大型、多中心的数据集用于机器学习的一个替代方案是应用所谓的联邦学习策略。

联邦学习将机器学习模型的训练过程调整，使其能够处理位于不同位置的数据，避免了将数据聚集在一起的需求，从而规避了上述一些问题141,142。

2018年，欧盟委员会的一个特别专家小组发布了一套关于可信AI的伦理指南143，详细描述了一个框架，以帮助实现合法、伦理和稳健的AI解决方案。该指南的一个重要结论是，“可信AI不仅仅是关于勾选框，而是关于持续识别和实施要求，评估解决方案，确保在整个AI系统的生命周期中改进结果，并让所有利益相关者参与其中”143。如何建立数据集可能会导致偏见，如果用于AI开发，可能会放大社会中的不公正，这一问题已经得到了广泛的描述115,117。

算法偏见并不是AI模型开发的直接后果，而是此类模型的广泛部署可能会加剧“社会经济地位、种族、民族背景、宗教、性别、残疾或性取向”方面的现有不平等117。由于不可能在数据收集前预先识别不平等，欧盟委员会建议持续与所有利益相关者进行讨论143，这一点尤为重要。

八、总结

将人工智能应用于组织病理学图像的初步成果引发了大量的科学研究，现在导致了一系列的CPATH解决方案，这些解决方案在几个特定的诊断任务上与病理学家的表现相当。

除了使用AI来执行人类专家的诊断任务外，我们在使用AI进行预测性特征的发现、治疗成功的预测或疾病形态表型与基因型之间的关系评估方面才刚刚开始。虽然许多技术挑战已经被克服，但临床实用性尚未得到证明，仍需克服许多障碍。

除了收集足够大的注释WSI集合的挑战之外，还需要进行前瞻性研究，以展示AI在组织病理学诊断中的真正益处。关于可解释性、伦理和监管的问题也研究不足，将在未来需要更多的关注。

尽管该领域尚未完全成熟，我们预计CPATH将在未来组织病理学中发挥主导作用，使诊断更加高效和准确，帮助病理学家满足日益增长的病人数量和更广泛、更准确的病理学评估需求，以支持治疗多种疾病日益增多的治疗方案。