当前位置：首页 > news >正文

图像分割模型LViT-- (Language meets Vision Transformer)

news 2025/7/13 7:56:55

参考：LViT：语言与视觉Transformer在医学图像分割-CSDN博客

背景

标注成本过高而无法获得足够高质量标记数据
医学文本注释被纳入以弥补图像数据的质量缺陷
半监督学习：引导生成质量提高的伪标签
医学图像中不同区域之间的边界往往是模糊的，边界附近的灰度值差很小，很难提取出高精度的分割边界

贡献

指数伪标签迭代机制(EPI)：帮助像素级注意模块(PLAM)----在半监督LViT设置下保持局部图像特征
LV (Language-Vision)损失被设计用来直接使用文本信息监督未标记图像的训练
构建了包含x射线和CT图像的三个多模态医学分割数据集(图像+文本)
模型
- CNN (卷积神经网络)：处理输入的图像，提取局部特征。
- ViT (视觉Transformer)：利用Transformer结构，处理从CNN提取的特征，并结合来自文本嵌入的特征。
- BERT-Embed (BERT嵌入)：利用BERT模型对输入的文本进行嵌入，提取语义信息。
如何利用已有的图像-文本信息提高分割性能
- 使用嵌入层代替文本编码器获得文本特征向量（减少模型中参数的数量）
- 具有像素级注意模块(PLAM)的混合CNNTransformer结构能够更好地合并文本信息（CNN：局部特征；transformer：全局特征）
如何充分利用文本信息，保证伪标签的质量
- 伪标签迭代机制(Exponential Pseudo label Iteration mechanism, EPI)
  - 利用标记数据的标签信息和未标记数据的潜在信息
  - EPI间接结合文本信息，以指数移动平均线(EMA)的方式逐步完善伪标签[10]
- LV (Language-Vision) loss的设计目的是直接利用文本信息来监督未标记医学图像的训练。

模型

双u型结构：u型CNN支路+u型Transformer支路

左面的红方框是Transformer支路，右面的红方框是CNN支路。

CNN分支作为信息输入源和预测输出的分割头
ViT分支用于图像和文本信息的合并（Transformer处理跨模态信息的能力）
u型CNN分支的跳接位置设置一个像素级注意模块(PLAM)----保留图像的局部特征信息

U形CNN分支

每个CNN模块：Conv、BatchNorm(BN)和ReLU激活层
Maxpool对图像特征进行下采样（老规矩了）
CNN-ViT交互模块：使用了上采样等方法来对齐来自ViT的特征。重构后的ViT特征通过残差与CNN特征连接，形成CNN-ViT交互特征。
提高局部特征的分割能力：跳接处设计了PLAM，将CNN-ViT交互特征输入到PLAM中，再将交互特征传递到UpCNN模块，逐层向上给出信息。

U形Vit分支

用于合并图像特征和文本特征
第一层DownViT模块接收BERT-Embed输入的文本特征和第一层DownCNN模块输入的图像特征。
BERT-Embed的预训练模型是BERT_12_768_12模型，它可以将单个单词转换为768维的单词向量。
跨模态特征合并操作
- CTBN块还包括Conv层、BatchNorm层和ReLU激活层，用于对齐 $x_{img}$ 、1和 $x_{text}$ 的特征维度。
- ViT由多头自注意组成
- LN表示归一化层
- 第2层、第3层和第4层的后续DownViT模块既接收上层DownViT模块的特征，又接收相应层的DownCNN模块的特征

PLAM

旨在保留图像的局部特征，并进一步融合文本中的语义特征
并行分支：Global Average Pooling (GAP)，Global Max Pooling (GMP)
- 加法操作：合并具有相似语义的相应通道特征并节省计算
- 连接操作：更直观地整合特征信息，并有助于保留每个部分的原始特征
使用MLP结构和乘法操作来帮助对齐特征大小
PLAM通过增强局部特征来缓解Transformer带来的对全局特征的偏好
PLAM采用通道注意和空间注意相结合的方式（我的理解是通道注意力机制：PLAM，空间注意力机制：Transformer）

指数伪标签迭代机制

更新后的伪标签将用于无标签数据的训练，使得无标签数据可以像有标签数据一样为模型提供监督信息。这种方式能够有效利用大量的无标签数据，提高模型的泛化能力和鲁棒性。

初始生成：
- 使用有标签数据训练初始模型，生成伪标签。初始模型可以通过图中的Down CNN和Up CNN部分进行训练。
预测和更新：
- 在每一轮训练中，使用当前模型（例如图中的LViT模型）对无标签数据进行预测，生成新的伪标签。
- 通过EPI机制更新伪标签，逐步提高其质量。这一过程在图中没有具体表示，但它是数据处理的一部分。
再训练：
- 使用更新后的伪标签对模型进行再训练。模型结构可以包括图中的Down ViT和Up ViT部分，以及中间的PLAM模块。

LV (Language-Vision) Loss

结构化的文本信息来形成相应的掩码(对比标签)
计算文本之间的余弦相似度
- $x_{text}$ , $p$ 表示伪标签对应的文本特征向量
- $x_{text}$ , $c$ 表示对比标签对应的文本特征向量

图像分割模型LViT-- (Language meets Vision Transformer)

参考：LViT：语言与视觉Transformer在医学图像分割-CSDN博客背景标注成本过高而无法获得足够高质量标记数据医学文本注释被纳入以弥补图像数据的质量缺陷半监督学习：引导生成质量提高的伪标签医学图像中不同区域之间的边界往往是模糊的&…...

编程日记 2024/5/29 6:19:59

CANDela studio之CDDT与CDD

CDDT有更高的权限，作为模板规范CDD文件。 CDD可修改的内容比CDDT少。 CDDT根据诊断协议提供诊断格式，主要就是分类服务和定义服务，一般是OEM释放，然后由供应商细化成自己零部件的CDD文件。在这里举个例子，OEM在CDDT…...

编程日记 2024/5/29 6:18:58

Java中的注解（Annotation）是什么？它们有什么用途？

技术难点在Java中，注解（Annotation）是一种元数据（metadata）的形式，用于为Java代码（类、方法、变量、参数和包等）提供额外的信息。这些信息在运行时可以通过反射机制进行读取和处理…...

编程日记 2024/5/29 6:17:56

【CUDA】Nsight profile驱动的CUDA优化

前置准备安装NVIDIA Nsight Compute。安装好后选择使用管理员权限启动下载官方 Demo 代码官方博客Shuffle warp 1. 任务介绍及CPU版本 1.1 任务介绍任务理解： 有一个 L x M 的矩阵 M 1 M_1 M1 对其每行取平均值得到 V 1 ∈ R L 1 V_1 \in \mathbb{R}^{…...

编程日记 2024/5/29 6:16:55

字符串的拼接

字符串拼接方式1 之前的算术运算符，只是用来数值类型进行数学运算的，而string不存在算术运算符不能计算，但是可以通过号来进行字符串拼接。 string str "123"; //用进行拼接 str str "456"; Console.WriteLine(str)…...

编程日记 2024/5/29 6:15:53

HIVE3.1.3+ZK+Kerberos+Ranger2.4.0高可用集群部署

目录一、集群规划二、介质下载三、基础环境准备 1、解压文件 2、配置环境变量四、配置zookeeper 1、创建主体 2、修改zoo.cfg 3、新增jaas.conf 4、新增java.env 5、重启ZK 6、验证ZK 五、配置元数据库六、安装HIVE 1、创建Hiver的kerberso主体 2…...

编程日记 2024/5/29 6:14:52

什么是Trace日志 Trace日志是指ANR目录下的一份txt文件 adb pull /data/anr/traces.txt Trace日志有什么用分析应用ANR无响应的问题， Trace怎么用 Cmd line: com.xx ABI: arm Build type: optimized Zygote loaded classes3682 post zygote classes3750 Intern…...

编程日记 2024/5/29 6:13:51

前端Ajax、Axios和Fetch的用法和区别笔记

前端 JavaScript 开发中，进行 HTTP 请求的三种主要方式是 Ajax、Axios 和 Fetch。这三种方式各有优缺点，并且适用于不同的场景。在合适的业务场景下使用，以下是它们的区别和使用举例。 1. Ajax Ajax（Asynchronous JavaScript an…...

编程日记 2024/5/29 6:12:50

Android的Framework（TODO）

（TODO）...

编程日记 2024/5/29 6:11:48

牛客小白月赛94 EF题解

题目描述注：此版本为本题的hard（困难版），与easy（简单版）唯一的不同之处只有数据范围。小苯有一个容量为 k 的背包，现在有 n 个物品，每个物品有一个体积 v 和价值 w&#xff0…...

编程日记 2024/5/29 6:10:46

大数据开发面试题【Flink篇】

148、flink架构 flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算特点： 高吞吐和低延迟：每秒数百万个事件，毫秒级延迟结果的准确性：提供了事件时间和处理时间语义，提供结果的一致…...

编程日记 2024/5/29 6:09:45

Java技术深度解析：高级面试问题与精粹答案（二）

Java 面试问题及答案 1. 什么是Java的垃圾回收机制？它是如何工作的？ 答案： Java的垃圾回收机制（Garbage Collection，GC）是Java运行时环境（JRE）中的一个功能，用于自动管…...

编程日记 2024/5/29 6:08:43

算数运算符

算术运算符是用于数值类型变量计算的运算符。它的返回结果是数值。赋值符号关键知识点：先看右侧，再看左侧，把右侧的值赋值给左侧的变量。附上代码： string myName "唐唐"; int myAge 18; float myHeight 177.5…...

编程日记 2024/5/29 6:07:42

闲话 .NET（3）：.NET Framework 的缺点

前言 2016 年，微软正式推出 .NET Core 1.0，并在 2019 年全面停止 .NET Framework 的更新。 .NET Core 并不是 .NET Framework 的升级版，而是一个从头开始开发的全新平台，一个跟 .NET Framework 截然不同的开源技术框架。微软为…...

编程日记 2024/5/29 6:06:40

WPF实现简单的3D图形

简述 Windows 演示基础 （WPF） 提供了一种功能，用于根据应用程序要求绘制、转换 3D 图形并为其添加动画效果。它不支持完整的3D游戏开发，但在某种程度上，您可以创建3D图形。通过组合 2D 和 3D 图形，您还可以…...

编程日记 2024/5/29 6:05:39

设计模式之创建型模式---原型模式(ProtoType)

文章目录概述类图原型模式优缺点优点缺点代码实现概述在有些系统中，往往会存在大量相同或者是相似的对象，比如一个围棋或者象棋程序中的旗子，这些旗子外形都差不多，只是演示或者是上面刻的内容不一样，若此时使用传…...

编程日记 2024/5/29 6:04:38

git命令新建远程仓库

今天记录一下使用git命令新建远程分支的操作，因为公司的代码管理仓库界面没找到新建分支的操作界面，无奈只能通过git命令来新建分支。 1、新建本地分支首先，你的至少应该已经有了一个master分支，然后你再master分支下面执行下面…...

编程日记 2024/5/29 6:03:36

Defog发布Llama-3-SQLCoder-8B，文本转SQL模型，性能比肩GPT-4，准确率超90%，消费级硬件可运行

前言在计算语言学领域，将自然语言转化为可执行的SQL查询是一个重要的研究方向。这对于让那些没有编程或SQL语法知识的用户也能轻松访问数据库信息至关重要。Defog团队近日发布了基于Llama-3的SQLCoder-8B模型，它在文本转SQL模型领域取得了显著突破&…...

编程日记 2024/5/29 6:02:35

防刷发送短信验证码接口的五种简单好用方法绝对够用

防刷发送短信验证码接口的五种简单好用方法，绝对够用前端增加图形验证码，点击发送按钮后增加60s倒计时，60s后才可以再次点击后端对接口次数校验，60s内同一电话号码只能发送一次 // 生成基于电话号码的重试锁定键 String repeat…...

编程日记 2024/5/29 6:01:34

ubuntu中idea创建spark项目步骤

1.前置条件 ubuntu中已经安装idea,jdk,scala,spark 2.打开idea，新建，选择Maven项目 3.在IDEA中，File-Setting-Plugin，下载Scala插件 4.File-project structure，导入插件 4.1在全局库中，选择导入刚才的sca…...

编程日记 2024/5/29 6:00:32

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2025/7/12 10:50:41

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

编程新知 2025/6/18 5:34:10

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

CSI-2 协议详细解析 (一） 1. CSI-2层定义（CSI-2 Layer Definitions） 分层结构 ：CSI-2协议分为6层： 物理层（PHY Layer） ： 定义电气特性、时钟机制和传输介质（导线&#…...

编程新知 2025/7/11 17:56:55

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2025/7/12 19:00:43

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/6/20 11:09:49

《基于Apache Flink的流处理》笔记

思维导图 1-3 章 4-7章 8-11 章参考资料源码： https://github.com/streaming-with-flink 博客 https://flink.apache.org/bloghttps://www.ververica.com/blog 聚会及会议 https://flink-forward.orghttps://www.meetup.com/topics/apache-flink https://n…...

编程新知 2025/7/13 5:17:50

Python 包管理器 uv 介绍

Python 包管理器 uv 全面介绍 uv 是由 Astral（热门工具 Ruff 的开发者）推出的下一代高性能 Python 包管理器和构建工具，用 Rust 编写。它旨在解决传统工具（如 pip、virtualenv、pip-tools）的性能瓶颈，同时…...

编程新知 2025/6/19 4:13:08

动态 Web 开发技术入门篇

一、HTTP 协议核心 1.1 HTTP 基础协议全称 ：HyperText Transfer Protocol（超文本传输协议） 默认端口 ：HTTP 使用 80 端口，HTTPS 使用 443 端口。请求方法 ： GET ：用于获取资源，…...

编程新知 2025/7/12 0:11:18

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看一个默认的页面，gobuster扫一下目录可以看到扫出的目录中得到了一个有价值的目录/wordpress，说明目标所使用的cms是wordpress，访问http://192.168.43.213/wordpress/然后查看源码能看到这…...

编程新知 2025/7/13 1:19:26

6.9-QT模拟计算器

源码: 头文件: widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMouseEvent>QT_BEGIN_NAMESPACE namespace Ui { class Widget; } QT_END_NAMESPACEclass Widget : public QWidget {Q_OBJECTpublic:Widget(QWidget *parent nullptr);…...

编程新知 2025/7/12 9:33:14

图像分割模型LViT-- (Language meets Vision Transformer)

背景

贡献

模型

U形CNN分支

U形Vit分支

PLAM

指数伪标签迭代机制

LV (Language-Vision) Loss

相关文章：

图像分割模型LViT-- (Language meets Vision Transformer)

CANDela studio之CDDT与CDD

Java中的注解（Annotation）是什么？它们有什么用途？

【CUDA】Nsight profile驱动的CUDA优化

字符串的拼接

HIVE3.1.3+ZK+Kerberos+Ranger2.4.0高可用集群部署

Android ANR Trace日志阅读分析技巧

前端Ajax、Axios和Fetch的用法和区别笔记

Android的Framework（TODO）

牛客小白月赛94 EF题解

大数据开发面试题【Flink篇】

Java技术深度解析：高级面试问题与精粹答案（二）

算数运算符

闲话 .NET（3）：.NET Framework 的缺点

WPF实现简单的3D图形

设计模式之创建型模式---原型模式(ProtoType)

git命令新建远程仓库

Defog发布Llama-3-SQLCoder-8B，文本转SQL模型，性能比肩GPT-4，准确率超90%，消费级硬件可运行

防刷发送短信验证码接口的五种简单好用方法绝对够用

ubuntu中idea创建spark项目步骤

深度学习在微纳光子学中的应用

ssc377d修改flash分区大小

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

Matlab | matlab常用命令总结

《基于Apache Flink的流处理》笔记

Python 包管理器 uv 介绍

动态 Web 开发技术入门篇

vulnyx Blogger writeup

6.9-QT模拟计算器