当前位置: 首页 > news >正文

传知代码-多示例AI模型实现病理图像分类

代码以及视频讲解

本文所涉及所有资源均在传知代码平台可获取

概述

本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有天然的优势,因为多示例学习(Multiple Instance Learning 简称 MIL)是由监督型学习算法演变出的一种方法,定义“”为多个示例的集合,具有广泛的应用。学习者不是接收一组单独标记的实例,而是接收一组带标签的包,每个包拥有多个实例。在多实例二进制分类的简单情况下,如果包中的所有实例都是否定的,则可以将包标记为否定。另一方面,如果包中只要至少有一个是正面的,则包被标记为阳性。所以这与将组织病理学图像WSI就可以认为是一个包;而从WSI切分下来的patch就可以认为是一个个示例
在这里插入图片描述

EPLA框架解读

EPLA原文是用来预测结直肠癌微卫星不稳定性MSI的,但是在摘要部分明确说明了可以用来预测其他数据集,这也得益于多示例模型处理病理学图像的天然优势。下面就来看一下论文整体的框架结构图
在这里插入图片描述

数据预处理

在原文中拿到组织病理学图像WSI后,首先要对WSI中的肿瘤区域进行标注,然后进行切成小patch,这是因为:

聚焦关键区域:病理图像通常非常大,包含大量的背景信息(如正常组织、脂肪组织等),这些信息对肿瘤检测和分类没有帮助。通过对肿瘤区域进行标注,可以引导模型关注关键的病变区域,从而提高模型的训练效率和性能。
减小计算复杂度:病理学图像(特别是全切片图像,WSI)通常非常大,直接处理整张图像需要消耗大量的计算资源和内存。将大图像切片成小块(patch)不仅降低了计算的复杂性,还能有效利用现有的计算资源进行模型训练。
数据增强和多样性:通过将图像切成多个patch,可以大大增加可用于训练的数据量。这些patch代表了同一图像中的不同局部区域,能够让模型在学习时看到更多的变异性,提升模型的泛化能力。
平衡正负样本比例:在病理图像中,肿瘤区域通常占比较小。通过切片成patch并对肿瘤区域进行标注,能够更好地平衡肿瘤区域(正样本)和非肿瘤区域(负样本)的比例,防止模型过拟合于背景信息。
捕捉局部细节:病理图像中有许多重要的微观结构,例如细胞形态、细胞核大小、密度等。切成patch后,模型可以更专注于局部特征的学习,从而更好地捕捉与疾病相关的细节。
提高训练效率:小尺寸的patch在计算上更快,易于并行处理。这样不仅能够加快模型的训练速度,还能更好地利用硬件资源(如GPU)。

在patch级别的预测中,使用残差卷积神经网络(ResNet-18)进行训练,通过MIL框架计算patch的预测概率,其中每个patch被分配了WSI的标签。网络的优化采用了二元交叉熵(BCE)损失函数,使用小批量梯度下降法进行训练。

词袋模型

BoW方法中,每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI。然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。具体可以理解为:

在BoW方法中,首先把大图像切成小块(patch),然后通过一种叫做TF-IDF的技术,把每个小块的特征转化为数值。TF-IDF原本是用在文本分析中的,可以帮助我们理解哪些词在一篇文章里更重要。这里,我们用类似的方法来判断每个小块图像的重要性
接着,把这些数值组合成一个特征向量,用来代表整张大图像。然后,使用传统的机器学习算法,比如朴素贝叶斯,来对这些特征进行训练,最终的目标是预测这张大图像的微卫星状态(即判断图像是否有微卫星不稳定性,和癌症相关)。

PALHI模型

在PALHI方法中,先对大图像(WSI)进行分割成小块(patch),然后为每个小块进行预测,得出这些小块的预测概率。接着,将这些小块的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示,这个特征就用来表示整个大图像(WSI)。
之后,利用一种叫做极端梯度提升(xgboost)的机器学习分类器,来处理这些直方图特征,并通过训练预测该大图像的微卫星状态(即判断图像是否表现出微卫星不稳定性)。xgboost是一种非常强大的分类器,它通过结合多个决策树模型来提高分类性能。

聚合

最后通过一定的比例将BoW模型和PALHI模型按照一定的比例进行聚合,从而做出最终的预测。

论文复现

数据集介绍

Spanhol等人(2016)发布BreakHis (breast cancer histopathological database )数据集包含了来自82位患者7909幅乳腺组织病理图像。BreakHis对乳腺的病变给出了细粒度的临床分型标注信息包括良性病变中的乳腺病(adenosis, A)、纤维腺瘤(fibroadenoma, F)、叶状瘤( phyllodes tumor, PT)管状腺瘤(tubular adenoma, TA) ,以及恶性病变中的导管癌(ductal carcinoma, DC)、小叶癌(lobular carcinoma, LC),黏液癌(mucinous carcinoma, MC)和乳头状癌(papillary carcinoma, PC)。这让BreakHis数据集不仅能推进良恶性二分类算法研究,还可以推进临床意义更重大的病理分型算法(多分类)研究。本文只针对良性和恶行进行二分类。
在这里插入图片描述
在这里插入图片描述

数据集处理

由于整张WSI的处理过程中涉及到肿瘤区域的标注,但是在实际情况中难以找到专业的病理学家为我们标注数据,因此,我们选用了已经数据预处理好的BreaKHis_v1数据集进行复现。
除此之外需要将切分好的数据集处理成csv文件:路径和标签两列。如下图:
在这里插入图片描述

以上是patch级别的标签,它继承了WSI的标签,为了获取WSI级别的预测结果也需要wsi级别的标签,如下:
在这里插入图片描述

环境配置

* torch 1.1.0
* torchvision 0.2.1
* numpy 1.15.2
* pandas 1.0.3
* xgboost 0.90
* pillow 5.3.0
* sklearn 0.23.1
* logging 0.5.1.2
* joblib 0.15.1
* pickle 4.0

运行步骤

  1. 特征提取
python dnnPatchClser_rst.py  # dnnPatchClser_rst.py为**附件**中的脚本,主要作用是**提取图像特征**。
def build_model_on(device):model_ft = models.resnet18(pretrained=True)#model_ft = torch.load(model_path,map_location=device)#num_ftrs = model_ft.fc.in_features#model_ft.fc = nn.Linear(num_ftrs, 2)#model_ft = model_ft.to(device)return model_ft

这里可以使用经过该数据集训练过的模型进行提取特征会更准确。比如使用ResNet网络对该数据集提取特征后保存的权重文件,重新加载到这个脚本中。这个脚本运行完成后会产生两个特征文件,train和test
2. PALHI模型

python PALHI.py     # PALHI.py 为**附件**中的脚本,主要作用是**得到patch的重要性**。

该脚本会加载 dnnPatchClser_rst.py产生的两个文件。

  1. BoW模型
python BoW.py  #  BoW.py 为**附件**中的脚本,主要作用是**WSI级别的概率**。

该脚本同样会加载 dnnPatchClser_rst.py产生的两个文件。

  1. 模型聚合
python ensemble.py       #  ensemble.py 为**附件**中的脚本,主要作用是**聚合上述两个结果**。

该脚本同样会加载 PALHI和BoW模型产生的两个文件。从而产生最终的预测结果

模型特点与改进建议

该模型能够从最基础的提取图像特征,得到每一个patch的特征值,然后将这些patch的预测概率用直方图的形式汇总,直方图记录了每种概率值出现的频率,从而形成一个特征表示。改进建议是可以采用其他的汇总方式得到的结果来表征WSI。接着使用词袋模型将每个patch被映射为一个TF-IDF浮点变量,并计算TF-IDF特征向量来表示WSI,然后使用传统机器学习分类器对这些特征向量进行训练,以预测每个WSI的MS状态。改进建议那么这里可以使用具有针对性的分类器,也可以进行相应的分类器的调参,提高预测准确率。

源码下载

相关文章:

传知代码-多示例AI模型实现病理图像分类

代码以及视频讲解 本文所涉及所有资源均在传知代码平台可获取 概述 本文将基于多示例深度学习EPLA模型实现对乳腺癌数据集BreaKHis_v1的分类。EPLA模型是处理组织病理学图像的经典之作。EPLA模型是基于多示例学习来进行了,那么多示例学习模型对处理病理学图像具有…...

Java知识点小结3:内存回收

文章目录 对象引用强引用软引用(SoftReference)弱引用(WeakReference)考一考 虚引用(PhantomReference)总结 垃圾回收新生代老年代永生代 内存管理小技巧尽量使用直接量使用StringBuilder和StringBuffer进行…...

LeetCode746:使用花费最小爬楼梯

题目链接&#xff1a;746. 使用最小花费爬楼梯 - 力扣&#xff08;LeetCode&#xff09; 代码如下 class Solution { public:int minCostClimbingStairs(vector<int>& cost) {int m cost.size();if(m 1) return min(cost[1], cost[0]);if(m 0) return cost[0]…...

列表、数组排序总结:Collections.sort()、list.sort()、list.stream().sorted()、Arrays.sort()

列表类型 一.Collections.sort() Collections.sort()用于List类型的排序&#xff0c;其提供了两个重载方法&#xff1a; 1.sort(List<T> list) &#xff08;1&#xff09;List指定泛型时只能指定引用数据类型&#xff0c;也就是说无法用于基本数据类型的排序。 &am…...

【资料分析】刷题日记3

第一套 √ 考点&#xff1a;基期比重差很温柔的题 普通专科女生 占比 52.5% - 1.7% 50.8% 成人本专科女生 占比 57.8% - 4.6% 53.2% 相比降低了2.4% 知比重和部分量&#xff0c;求整体在花生老师的解法中体会啥叫适当约分 0.1899 / 47.8% / 87.5% 》0.19 / &#xff08;4…...

基于SpringBoot+Vue的商场停车场管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…...

4. 密码协议

4. 密码协议 (1) 协议的基本概念 协议是一种在两个或多个参与者之间进行通信的规范,它定义了参与者之间的交互方式、消息格式和通信过程。协议的目的是确保通信的可靠性和安全性,防止信息被篡改、伪造或泄露。 (2) 密码协议分类及基本密码协议 密码协议是用于加密和解密数…...

基于嵌入式的智能物流柜( 触摸屏/0.96寸oled屏)

演示 智能物流柜&#xff08;基础版&#xff09; 智能物流柜&#xff08;升级版&#xff09; 前言 这是本人在大二在学校接的一个简单的实验室项目&#xff0c;之前发布了一个&#xff0c;由于那是在暑假&#xff0c;家里器材有限&#xff0c;代码敲完之后&#xff0c;用面包板…...

VSCode创建C++项目和编译多文件

前言 在刚安装好VSCode后&#xff0c;我简单尝试了仅main.cpp单文件编译代码&#xff0c;没有问题&#xff0c;但是当我尝试多文件编译时&#xff0c;就出现了无法识别cpp文件。 内容 创建项目 首先点击左上角“文件”&#xff1b;在菜单中选择“打开文件夹”&#xff1b;在…...

7个提升网站分页体验的 CSS 和 JavaScript 代码片段

文章目录 前言正文1.简洁直观的悬停分页效果2.实时显示页码的分页3.适合响应式设计的多功能分页4.专为移动设备优化的分页5.无数字的极简分页设计6.触屏友好的分页7.结合无限滚动与分页的设计 总结 前言 分页是内容丰富的网站中不可缺少的导航工具&#xff0c;能帮助用户更轻松…...

C++——用带有默认参数的函数实现,求两个整数或三个整数中的最大数。

没注释的源代码 #include <iostream> using namespace std; int max(int a,int b,int c0); int main() { int a,b,c; cout<<"请输入三个整数&#xff1a;"; cin>>a>>b>>c; cout<<"三个整数的最大值是&am…...

对商品分类系统的若干问题的思考

科学研究的目的就是研究事物的特征&#xff0c;并根据共同的特征加以分类 商品分类是商业&#xff0c;制造业中最普遍的活动&#xff0c;几乎所有的企业&#xff0c;电商平台都要对销售的商品&#xff0c;使用的原材料&#xff08;BOM&#xff09;进行分类和编号。 商品分类貌似…...

javascript中Number 类型 在实际开发中常用的一些操作方法

在 JavaScript 中&#xff0c;Number 类型是非常基础的数据类型之一&#xff0c;用于表示整数和浮点数。除了基本的算术运算外&#xff0c;还有许多内置的方法可以帮助你处理数字。下面列举了一些在实际开发中常用的 Number 类型的操作方法&#xff1a; 1. 转换方法 Number()…...

部分解决FDTD安装后,matlab指令fopen报错

今天在新的win11电脑上安装FDTD时&#xff0c;发现在C:\Program Files目录中并没有Lumerical文件夹&#xff0c;把激活文件粘贴过去后虽然能正常启动&#xff0c;但对于matlab link FDTD过程中无法响应以下代码&#xff1a; setenv(PATH, [getenv(PATH) ;C:\Program Files\Lum…...

[python3] 处理函数的重试

tenacity是一个 Python 库&#xff0c;用于简化重试逻辑的实现。它提供了装饰器和工具函数&#xff0c;使得在函数执行失败时可以自动重试。以下是对tenacity库的详细介绍&#xff1a; 一、安装 可以使用pip安装tenacity&#xff1a; pip install tenacity二、主要概念和功能…...

鸿蒙开发之ArkTS 界面篇 一

建好一个工程后&#xff0c;右侧可以预览&#xff0c;看到效果&#xff0c;效率十分可以&#xff0c;如图: State message: string 鸿蒙开发入门篇; 这个字符串改成什么&#xff0c;右侧就显示什么 Entry是类装饰器&#xff0c;可以简单的理解为程序入口的必须的装饰器&…...

嵌入式Linux学习笔记(6)-线程处理、线程同步、线程池(c语言实现)

一、概述 线程是一种轻量级的并发执行的机制。线程是进程中的一个实体&#xff0c;它执行在同一进程的上下文中&#xff0c;共享同一内存空间&#xff0c;但拥有独立的栈空间。 C语言的线程使用pthread库实现&#xff0c;通过包含头文件 pthread.h 来使用相关的函数和数据类型 …...

【HTTP】请求“报头”(Host、Content-Length/Content-Type、User-Agent(简称 UA))

Host 表示服务器主机的地址和端口号 URL 里面不是已经有 Host 了吗&#xff0c;为什么还要写一次&#xff1f; 这里的 Host 和 URL 中的 IP 地址、端口什么的&#xff0c;绝大部分情况下是一样的&#xff0c;少数情况下可能不同当前我们经过某个代理进行转发。过程中&#xf…...

【刷题日记】43. 字符串相乘

43. 字符串相乘 其实就是大数乘法题&#xff0c;这道题用草稿纸演练一下&#xff0c;其实很好找到方法&#xff0c;模拟大数乘法即可。需要注意的是进位和迭代值&#xff0c;还有注意向下取整和去除前导0&#xff08;容易遗漏&#xff09;。去除前导0的时候还要注意如果全是0&…...

Verilog学习之旅~

记录Verilog的学习日常~ 第一阶段&#xff1a;牛客网刷题 1.Verilog快速入门 基础语法 VL1:四选一多路器&#xff1a;case语句、条件表达符&#xff1b; VL2:异步复位的串联T触发器:T触发器的基本功能及代码实现、异步复位的概念&#xff1b; VL3:奇偶校验&#xff1a;缩…...

(十)学生端搭建

本次旨在将之前的已完成的部分功能进行拼装到学生端&#xff0c;同时完善学生端的构建。本次工作主要包括&#xff1a; 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑 一、学生端 在主界面可以选择自己的用户角色 选择学生则进入学生登录界面…...

CMake基础:构建流程详解

目录 1.CMake构建过程的基本流程 2.CMake构建的具体步骤 2.1.创建构建目录 2.2.使用 CMake 生成构建文件 2.3.编译和构建 2.4.清理构建文件 2.5.重新配置和构建 3.跨平台构建示例 4.工具链与交叉编译 5.CMake构建后的项目结构解析 5.1.CMake构建后的目录结构 5.2.构…...

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现(服务端执行命令请求的过程 - 初始化服务器)

服务端执行命令请求的过程 【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生 初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

什么是库存周转?如何用进销存系统提高库存周转率?

你可能听说过这样一句话&#xff1a; “利润不是赚出来的&#xff0c;是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业&#xff0c;很多企业看着销售不错&#xff0c;账上却没钱、利润也不见了&#xff0c;一翻库存才发现&#xff1a; 一堆卖不动的旧货…...

Neo4j 集群管理:原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...

Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)

引言&#xff1a;为什么 Eureka 依然是存量系统的核心&#xff1f; 尽管 Nacos 等新注册中心崛起&#xff0c;但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制&#xff0c;是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

css3笔记 (1) 自用

outline: none 用于移除元素获得焦点时默认的轮廓线 broder:0 用于移除边框 font-size&#xff1a;0 用于设置字体不显示 list-style: none 消除<li> 标签默认样式 margin: xx auto 版心居中 width:100% 通栏 vertical-align 作用于行内元素 / 表格单元格&#xff…...

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象&#xff0c;只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意&#xff1a;它移动的位置必须是相连的有内容的单元格…...

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中&#xff0c;新增了一个本地验证码接口 /code&#xff0c;使用函数式路由&#xff08;RouterFunction&#xff09;和 Hutool 的 Circle…...

【VLNs篇】07:NavRL—在动态环境中学习安全飞行

项目内容论文标题NavRL: 在动态环境中学习安全飞行 (NavRL: Learning Safe Flight in Dynamic Environments)核心问题解决无人机在包含静态和动态障碍物的复杂环境中进行安全、高效自主导航的挑战&#xff0c;克服传统方法和现有强化学习方法的局限性。核心算法基于近端策略优化…...