Multi Scale Supervised 3D U-Net for Kidney and Tumor Segmentation
目录
- 摘要
- 1 引言
- 2 方法
- 2.1 预处理和数据增强
- 2.2 网络的体系结构
- 2.3 训练过程
- 2.4 推理与后处理
- 3 实验与结果
- 4 结论与讨论
摘要
U-Net在各种医学图像分割挑战中取得了巨大成功。一些新的、带有花里胡哨功能的架构可能在某些数据集中在使用最佳超参数时取得成功,但它们的泛化性能无法保证。在这项工作中,我们专注于基本的U-Net架构,并提出了一种多尺度监督的3D U-Net,用于KiTS19挑战中的分割任务。为了提高性能,我们的工作可以总结为三个方面:首先,在解码器路径中使用多尺度监督,可以鼓励网络从深层预测正确的结果;其次,为了缓解肾脏和肿瘤样本不平衡的不良影响,我们采用了指数对数损失;第三,设计了一种基于连通组件的后处理方法,以去除明显错误的体素。在已发布的 KiTS19 训练数据集(共210名患者)中,我们将42名患者分为测试数据集,并最终获得了分别为0.969和0.805的肾脏和肿瘤的DICE分数。在挑战赛中,我们最终在106支团队中取得第7名,综合DICE分数为0.8961,即肾脏为0.9741,肿瘤为0.8181。
关键词:医学图像分割;3D U-Net;多尺度监督
1 引言
自动语义分割为探索肿瘤形态与其相应的手术结果之间的关系以及开发先进的手术规划技术提供了一个有前途的工具[1,2,3],但由于形态异质性,要实现良好的性能仍然具有挑战性。
KiTS19挑战[4]旨在加速可靠的肾脏和肾脏肿瘤语义分割方法的开发。它拥有300名独特的肾癌患者的CT扫描图像,其中有210张用于模型的训练和验证,另外的90名患者的扫描图像将保留作为测试数据集。提交模型的最终性能是基于肾脏和肿瘤分割的平均DICE系数来衡量的。
深度卷积神经网络(CNNs)已被公认为各种图像分类和分割任务的最先进方法。带有编码器-解码器架构的U-Net [5] 是医学图像分割的一个稳定成功的网络。由于体积数据在生物医学数据分析中比2D图像更丰富,因此为了充分利用像CT和MRI这样的3D图像的空间信息,提出了3D卷积并认为它更加有效。Fabian[6] 对基于3D U-Net [7] 进行了轻微修改(nnunet),并在许多医学图像分割挑战中获得了冠军或前几名,这证明了经过优化的U-Net具有比许多其他新架构更好性能的潜力。
受到[6]的启发,我们还放弃了一些常见的架构技巧,如残差块[8]、稠密块[9]、注意机制[10]、特征金字塔网络[11]和特征重校准[12]。在我们看来,医学图像远不如自然图像多样化,因此它们不需要太深的卷积层或太多的连接。只有5层的基本U-Net足以表示或学习用于分类的特征。
在遵循这些建议的基础上,我们将工作重点放在更好地训练3D U-Net并更有效地利用有限的训练数据集上。由于最终的全分辨率预测是从更深的低分辨率层上采样的,因此保证在深层次预测的准确性非常重要。因此,我们设计了多尺度监督的3D U-Net,以鼓励网络不仅在最后一层进行正确的预测,而且在每个分辨率级别都进行正确的预测,从而显著提高了最后一层的性能。为了减轻由于不平衡的类别数据带来的负面影响,我们使用了增强的焦点损失[13]和指数对数损失[14]。最后,我们的后处理方法会去除与肾脏未附着的分散的肾脏或肿瘤。
2 方法
在这一部分,我们将详细介绍我们的方法,不仅包括网络架构,还包括预处理、数据增强、训练过程、推断和后处理,因为这些因素对于实现3D U-Net应有的性能非常重要。
2.1 预处理和数据增强
为了去除可能来自某些金属物体的异常强度值,我们将CT图像的强度值截取到它们的0.5和99.5百分位数之间。然后按照惯例,我们使用全局前景均值和标准差进行数据归一化,这是由于典型的权重初始化方法。需要强调的是,3D数据的各向异性会破坏3D卷积的优势,因为它无法学习具有相同感受野的不同体素空间数据的统一表示。因此,如果数据不在同一体素空间中,我们会对其进行重新采样。
异常值去除:某些CT图像中可能包含异常强度值,这些异常值可能来自于金属物体的存在或其他因素。这些异常值可能会对后续的图像处理和分析造成干扰,因此需要将它们去除,以确保数据的质量和准确性。
数据范围限制:将强度值限制在0.5和99.5百分位数之间意味着去除了图像中最极端的1%强度值。这可以帮助确保大多数像素的强度值在一个相对较小的范围内,使数据更加一致和易于处理。
数据标准化:截取后,通常会对图像进行标准化,以使其具有零均值和单位方差。这有助于训练深度学习模型时,确保数据的尺度一致,从而更容易进行模型训练和收敛。
总之,通过将CT图像的强度值截取到0.5和99.5百分位数之间,可以去除异常值,限制数据范围,并为后续的数据处理和分析提供更稳定和一致的数据。这有助于提高图像处理和分析的准确性和可靠性。
处理3D数据(三维数据,如医学图像中的CT或MRI扫描)时的一个重要问题,即数据的各向异性问题。
"3D数据的各向异性"指的是数据在三维空间中不同方向上的分辨率和性质可能不同。这意味着,对于同一个3D图像,横向、纵向和纵深方向的信息可能有所不同。这种不同可能是由于扫描仪的特性、扫描过程中的图像畸变、采样间距不均匀等因素引起的。
"3D卷积的优势"指的是使用卷积神经网络(CNN)中的三维卷积操作来处理3D数据的潜在好处。3D卷积可以捕获3D图像中的空间信息,有助于更好地理解和分割体积性数据,比如医学图像中的器官或肿瘤。
然而,如果数据存在各向异性,即不同方向上的特征和分辨率差异较大,那么传统的3D卷积可能不够有效。因为它无法充分学习到不同方向上的特征,不能提供统一的表示。这可能会导致模型在某些方向上的性能不佳,因为模型无法有效地处理各向异性数据。
为了解决这个问题,一种方法是将数据进行等间距的重新采样,以使不同方向上的分辨率一致,从而允许3D卷积更好地学习统一的表示。这可以提高模型对各向异性数据的处理能力。所以,原文提到的"3D数据的各向异性会破坏3D卷积的优势" 意味着如果不处理各向异性,模型可能无法充分利用3D卷积的优势。
手动标注医学图像通常很繁琐,因此带标签的数据集通常有限。我们采用了强大的数据增强方法,以避免模型过拟合,包括随机旋转、随机缩放、随机弹性变形、伽马校正增强以及镜像等。
2.2 网络的体系结构
U-Net [5] 是一种经典的编码-解码分割网络,在近年来引起了很多关注。编码器路径类似于典型的分类网络,逐层提取更高层次的语义特征。然后,解码器路径恢复每个体素的本地化信息并利用特征信息对其进行分类。为了利用编码器中嵌入的位置信息,我们在同一阶段的层之间构建了直接连接。
我们的网络是基于3D U-Net [7] 设计的。该框架如图1所示。这个多尺度监督网络从解码器路径的不同层面进行预测,不同于传统的3D U-Net只从最后一层进行预测。这些分割结果将与相应分辨率的标签进行比较,然后用于计算最终的损失函数。这种监督鼓励网络从低分辨率特征图中进行正确的预测,这些特征图将被上采样为完整分辨率的特征图。
图1. 我们的多尺度监督3D U-Net的结构(最好在彩色中查看)。实际架构是3D的,但出于简化,我们在这里使用2D。根据我们的经验,我们采用步进卷积而不是池化操作,并用转置卷积代替三线性插值进行上采样。为了减小模型的体积,我们将基本特征数设置为30
- 步进卷积(strided convolution)是卷积神经网络(CNN)中的一种卷积操作。它与常规卷积操作相似,但在应用卷积核(滤波器)时,会跳过输入数据的一定数量的像素,以减小输出特征图的尺寸(常规卷积也就是stride=1的步进卷积)
- 转置卷积(Transpose Convolution),也称为反卷积(Deconvolution),是一种卷积神经网络(CNN)中的操作,用于将特征图的尺寸从较小的空间分辨率上采样到较大的空间分辨率。与标准卷积操作相反,转置卷积允许扩大特征图的尺寸,从而实现上采样操作
2.3 训练过程
由于GPU内存的限制,我们选择将 patch 大小设置为192×192×48,并在2个GPU上(Tesla,32GB)使用数据并行方式将 batch size 设置为8。patch 是随机抽样的,我们将一个epoch定义为250次迭代。我们使用Adam作为优化器。学习率初始化为3×10^-4,如果训练损失在30个epoch内没有进一步改善,学习率将减小0.2倍。
在CT图像中进行肾脏和肿瘤分割时,背景样本的数量远远超过肾脏和肿瘤体素的数量。此外,由于肿瘤形态的多样性,肿瘤更难分类。为了减轻这种不平衡,我们使用了指数对数损失[14]。这种损失强调了困难样本的影响,并通过使损失变得非线性,使它们具有更大的权重。同时,我们手动为背景、肾脏和肿瘤分配了不同的权重。
我们结合了Soft Dice和交叉熵来训练我们的模型。我们的最终损失格式可以总结如下:
Soft Dice Coefficient 是 Dice Coefficient的变体,用于度量两个集合之间的相似性。在图像分割中,这两个集合通常分别表示真实分割结果和模型预测的分割结果。
Dice Coefficient(或F1 Score)通常定义为:
其中,X 是真实分割结果的像素集合,Y 是模型预测的分割结果的像素集合,|X ∩ Y| 表示两者的交集的像素数量,|X| 和 |Y|分别表示它们的像素数量。
在 Soft Dice 中,与传统的 Dice Coefficient不同,它将真实分割结果和模型预测的分割结果的像素值视为连续值(soft values),而不是二进制(0或1)。这允许 Soft Dice在像素级别度量两个分割结果的相似性,而不仅仅是匹配或不匹配。
通常,Soft Dice 范围在0到1之间,其中1表示完美的重叠,0表示没有重叠。模型的目标是最大化 Soft Dice 分数,以获得更好的分割结果。这使 Soft Dice成为一种重要的评估指标,尤其是在医学图像分割中,其中精确的分割结果对于诊断和治疗规划至关重要。
2.4 推理与后处理
在进行病例预测时,我们采用滑动窗口方法,使预测之间存在重叠。为提高准确性,我们将原始数据和镜像数据的预测结果进行组合。
一些常见的人类知识可以帮助进一步提高分割模型的性能。例如,一个病人最多只有两个肾脏,而肿瘤应该紧贴在肾脏上。因此,我们设计了一个基于连通组件的简单后处理方法来移除明显错误的预测。其效果如图2所示。
图2. 我们后处理方法的效果。左图是经过后处理之前的图像,虚线框中的区域包含一些明显错误的体素。右图是经过后处理之后的图像,额外的体素已经被移除。
3 实验与结果
共有210例患者的CT扫描数据用于训练模型。我们将其中的42例划分为测试数据集,使用其他图像来训练我们的模型。训练过程耗时约5天,运行在2块GPU上(Tesla 32GB)。训练期间的损失曲线如图3所示。可以观察到我们提出的损失持续稳定下降,这个过程大约持续了700个时期,直到学习率达到我们忍耐的极限。
图3. 训练过程中损失的变化情况。红线和蓝线分别表示验证损失和训练损失。绿线是一个滑动验证损失度量,用于选择最佳的检查点。
图4. 我们的分割输出的两个示例。从上到下的行分别为2D中的矢状面、冠状面、横断面和3D视图(最佳在彩色视图中查看)。从左到右的列分别是一个常见案例的真实情况和预测情况,以及最糟糕情况。
我们的分割结果样本如图4所示。我们观察了来自不同视图的2D切片和3D视图以分析性能。显然,在CT图像中,肾脏的分割效果非常好。预测结果与真实情况非常接近。然而,一些肿瘤太小以致于难以获得良好的Dice系数,并且也难以找到。一些具有小肿瘤大小的病例会显著降低平均Dice系数。
我们的测试数据集的箱线图如图5所示。测试数据集的平均Dice系数分别为0.969和0.805,用于肾脏和肿瘤的分割。此外,肾脏的方差非常小,表明我们的算法在肾脏分割方面非常稳定。
图5. 划分测试数据集中42名患者的分割结果的箱线图。
4 结论与讨论
在本论文中,我们展示了我们的模型及其在KiTS19数据集中的性能。我们的方法基于经典的3D U-Net,并通过多尺度监督、指数对数损失和基于连通组件的后处理进行了增强。在已发布的数据上测试,我们的方法分别实现了肾脏和肿瘤的平均Dice系数为0.969和0.805。
在挑战中,我们获得了综合Dice系数为0.8961,其中肾脏的Dice系数为0.9741,肿瘤为0.8181,排名在所有106支队伍中的第7位。尽管肾脏分割的Dice系数略低于最高0.9743,但肿瘤分割的Dice系数超过了顶尖团队的表现。由于我们遵循了Fabian [6]的精神,我们在这里没有使用太多架构技巧,而是侧重于训练过程。肿瘤由于其严重的形态异质性,总是难以进行良好的分割。在未来,我们计划尝试肿瘤分割的两阶段方法,即首先提出感兴趣区域,然后使用可变形卷积而不是传统卷积来适应肿瘤特征。
相关文章:

Multi Scale Supervised 3D U-Net for Kidney and Tumor Segmentation
目录 摘要1 引言2 方法2.1 预处理和数据增强2.2 网络的体系结构2.3 训练过程2.4 推理与后处理 3 实验与结果4 结论与讨论 摘要 U-Net在各种医学图像分割挑战中取得了巨大成功。一些新的、带有花里胡哨功能的架构可能在某些数据集中在使用最佳超参数时取得成功,但它们…...

《操作系统真象还原》第一章 部署工作环境
ref:https://www.bilibili.com/video/BV1kg4y1V7TV/?spm_id_from333.999.0.0&vd_source3f7ae4b9d3a2d84bf24ff25f3294d107 https://www.bilibili.com/video/BV1SQ4y1A7ZE/?spm_id_from333.337.search-card.all.click&vd_source3f7ae4b9d3a2d84bf24ff25f32…...

SpringCloud-Config
一、介绍 (1)服务注册中心 (2)管理各个服务上的application.yml,支持动态修改,但不会影响客户端配置 (3)一般将application.yml文件放在git上,客户端通过http/https方式…...

劣币驱良币的 pacing 之殇
都说 pacing 好 burst 孬(参见:为啥 pacing),就像都知道金币好,掺铁金币孬一样。可现实中掺铁的金币流通性却更好,劣币驱良币。劣币流通性好在卖方希望收到别人的良币而储存,而自己作为买方只使用劣币。 burst 和 pac…...

Gin 中的 Session(会话控制)
Session 介绍 session和cookie实现的底层目标是一致的,但是从根本而言实现的方法是不同的; session 是另一种记录客户状态的机制, 不同的是 Cookie 保存在客户端浏览器中,而 session保存 在服务器上 ; Session 的工作流程 当客户端浏览器第一次访问服务器并发送请求时,服…...

ChatGPT AIGC 实现数据分析可视化三维空间展示效果
使用三维空间图展示数据有以下一些好处: 1可视化复杂性:三维图可以展示三个或更多的变量,一眼就能看出数据各维度之间的关系,使复杂数据的理解和分析变得更为直观。 2检测模式和趋势:通过三维图,用户可以…...

Stable Diffusion 动画animatediff-cli-prompt-travel
基于 sd-webui-animatediff 生成动画或者动态图的基础功能,animatediff-cli-prompt-travel突破了部分限制,能让视频生成的时间更长,并且能加入controlnet和提示词信息控制每个片段,并不像之前 sd-webui-animatediff 的一套关键词控制全部画面。 动图太大传不上来,凑合看每…...

fatal error C1083: 无法打开包括文件: “ta_libc.h”: No such file or directory
用python做交易数据分析时,可以用talib库计算各类指标,这个库通过以下命令安装: pip install TA-Lib -i https://pypi.tuna.tsinghua.edu.cn/simple windows安装时可能出现本文标题所示的错误,可按如下步骤解决: 1、去…...

c 语言基础题目:L1-034 点赞
微博上有个“点赞”功能,你可以为你喜欢的博文点个赞表示支持。每篇博文都有一些刻画其特性的标签,而你点赞的博文的类型,也间接刻画了你的特性。本题就要求你写个程序,通过统计一个人点赞的纪录,分析这个人的特性。 …...

SaaS人力资源管理系统的Bug
SaaS人力资源管理系统的Bug Bug1【18】 这里我是直接把代码复制过来的,然后就有一个空白 这是因为它的代码有问题,原本的代码如下所示 <el-table-column fixed type"index" label"序号" width"50"></el-table…...

GPTQ 和 AWQ:LLM 量化方法的比较
大语言模型(LLM)在自然语言处理(NLP)任务中取得了显著的进展。然而,LLM 通常具有非常大的模型大小和计算复杂度,这限制了它们在实际应用中的部署。 量化是将浮点数权重转换为低精度整数的过程,…...

JVM:虚拟机类加载机制
JVM:虚拟机类加载机制 什么是JVM的类加载 众所周知,Java是面向对象编程的一门语言,每一个对象都是一个类的实例。所谓类加载,就是JVM虚拟机把描述类的数据从class文件加载到内存,并对数据进行校验,转换解析和初始化&a…...

PHP筆記
前言因緣際會下還是開始學習php了。經歷了風風雨雨終於在今年暑假要去加拿大留學了,php會是第二年的其中一門必修課程,加上最近前端也真的蠻心累,也許有一門精進的後端語言,日後轉職會有更寬廣的道路,對自己說加油&…...

IDEA启动报错Failed to create JVM. JVM path的解决办法
今天启动IDEA时IDEA报错,提示如下。 if you already hava a JDK installed, define a JAVA_HOME variable in Computer > Systen Properties > System Settings > Environment Variables.Failed to create JVM. JVM path:D:\ideaIU2023.2.3\IntelliJ IDE…...

源码解析FlinkKafkaConsumer支持周期性水位线发送
背景 当flink消费kafka的消息时,我们经常会用到FlinkKafkaConsumer进行水位线的发送,本文就从源码看下FlinkKafkaConsumer.assignTimestampsAndWatermarks指定周期性水位线发送的流程 FlinkKafkaConsumer水位线发送 1.首先从Fetcher类开始,…...

Nginx:动静分离(示意图+配置讲解)
示意图: 动静分离 动静分离是指将动态内容和静态内容分开处理的一种方式。通常,动态内容是指由服务器端处理的,例如动态生成的网页、数据库查询等。静态内容是指不需要经过服务器端处理的,例如图片、CSS、JavaScript文件等。通过…...

通讯网关软件024——利用CommGate X2Access实现Modbus TCP数据转储Access
本文介绍利用CommGate X2ACCESS实现从Modbus TCP设备读取数据并转储至ACCESS数据库。CommGate X2ACCESS是宁波科安网信开发的网关软件,软件可以登录到网信智汇(http://wangxinzhihui.com)下载。 【案例】如下图所示,实现从Modbus TCP设备读取数据并转储…...

vim工具的使用
目录 vi/vim键盘图 1、vim的基本概念 2、vim的基本使用 3、vim命令模式命令集 4、vim底行模式命令集 5、参考资料 vi/vim键盘图 1、vim的基本概念 vi和vim的区别:vi和vim的区别简单点来说,它们都是多模式编辑器,不同的是vim是vi…...

Docker学习_存储篇
当以默认的方式创建容器时,容器中的数据无法直接和其他容器或宿主机共享。为了解决这个问题需要学习一些Docker 存储卷的知识。 Docker提供了三种存储的方式。 bind mount共享宿主机文件目录volume共享docker存储卷tmpfs mount共享内存 volume* volume方式是容器…...

微信小程序获取当前日期时间
一、直接使用方式 在小程序中获取当前系统日期和时间,可直接拿来使用的常用的日期格式 //1. 当前日期 YYYY-MM-DDnew Date().toISOString().substring(0, 10)new Date().toJSON().substring(0, 10)//2. 当前日期 YYYY/MM/DDnew Date().toLocaleDateString()//3.…...

Unity关键词语音识别
一、背景 最近使用unity开发语音交互内容的时候,遇到了这样的需求,就是需要使用语音关键字来唤醒应用程序,然后再和程序做交互,有点像智能音箱的意思。具体的技术方案方面,也找了一些第三方的服务,比如百度…...

SpringBoot的配置文件——.yml和.properties
目录 1. Spring Boot 配置文件的使用场景 2. 配置文件的两种格式 2.0 特殊说明: 2.1 .properties 2.1.1 格式 2.2.2 缺陷 2.2.3 解决中文乱码的问题 2.2 .yml 2.2.3 格式 配置数据库连接 注意转义字符 编辑 编辑 配置null 配置对象 从.yml读取文件举例 Stud…...

Retrieve Anything To Augment Large Language Models
简介 论文主要介绍了一套通过对比学习和蒸馏学习的方法,来增强学习了embedding向量,然后能够在知识增强,长上下文建模,ICL和工具学习等方面来增强大模型能力。...

什么是面向对象编程
面向对象编程(Object-oriented programming,简称OOP)是一种编程范型,通过将数据和方法(即属性和行为)组织在一个单元中,以模拟现实世界中的实体或概念。在面向对象编程中,数据和方法…...

c++视觉处理----固定阈值操作:Threshold()函数,实时处理:二值化,反二值化,截断,设为零,反向设为零
固定阈值操作: Threshold()函数 cv::threshold() 函数是OpenCV中用于执行固定阈值二值化操作的函数。它可以用来将图像中的像素值根据用户定义的阈值转换为二进制值(0或255),以便进行图像分割、物体检测和特征提取等任务。 cv::…...

KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx(8)
接前一篇文章:KWin、libdrm、DRM从上到下全过程 —— drmModeAddFBxxx(7) 上一回讲到了drm_internal_framebuffer_create函数中的framebuffer_check函数中的drm_get_format_info函数,讲解了该函数的第一部分暨前一部分,本文讲解后一部分。为了便于理解以及理清脉络和当前所…...

【问题解决】Ubuntu 安装 SeisSol 依赖 easi 报错解决: undefined reference to `H5free_memory‘
兼职帮客户安装 SeisSol 时问题解决,安装 easi 这个报错卡了很久(搞了一天),记录下,以备后用~ # 编译器问题 rootubuntu:/opt/easi# make -j install [ 4%] Building CXX object CMakeFiles/easi.dir/src/component/…...

循环小数(Repeating Decimals, ACM/ICPC World Finals 1990, UVa202)rust解法
输入整数a和b(0≤a≤3000,1≤b≤3000),输出a/b的循环小数表示以及循环节长度。例如a5,b43,小数表示为0.(116279069767441860465),循环节长度为21。 解法 就是模拟竖式除法 use std::{collecti…...

[GAMES101]透视投影变换矩阵中为什么需要改变z值
一、问题提出 在GAMES101-Lecture4 Transformation Matrices 一节中,闫老师介绍了正交投影和透视投影。 在讲透视投影变换矩阵 M p e r s p → o r t h o M_{persp→ortho} Mpersp→ortho时,同学们对矩阵中的z分量是变化的还是不变的有很多争论。即下…...

sklearn处理离散变量的问题——以决策树为例
最近做项目遇到的数据集中,有许多高维类别特征。catboost是可以直接指定categorical_columns的【直接进行ordered TS编码】,但是XGboost和随机森林甚至决策树都没有这个接口。但是在学习决策树的时候(无论是ID3、C4.5还是CART)&am…...