MiniGPT-Med 通用医学视觉大模型:生成医学报告 + 视觉问答 + 医学疾病识别
MiniGPT-Med 通用医学视觉大模型:生成医学报告 + 视觉问答 + 医学疾病识别
- 提出背景
- 解法拆解
论文:https://arxiv.org/pdf/2407.04106
代码:https://github.com/Vision-CAIR/MiniGPT-Med
提出背景
近年来,人工智能(AI)的进步引发了医疗保健领域的重大突破,特别是在精细化诊断程序方面。
然而,先前的研究往往局限于有限的功能。
本文介绍了MiniGPT-Med,一种从大规模语言模型中派生并专为医疗应用量身定制的视觉-语言模型。
MiniGPT-Med在各种成像模态(包括X射线、CT扫描和MRI)中展示了卓越的多功能性,提升了其实用性。
该模型能够执行医学报告生成、视觉问答(VQA)和医学图像中的疾病识别等任务。
其对图像和文本临床数据的集成处理显著提高了诊断准确性。
我们的实证评估证实了MiniGPT-Med在疾病定位、医学报告生成和VQA基准测试中的优异表现,代表了在辅助放射学实践方面的一大进步。
此外,它在医学报告生成方面取得了最先进的性能,比之前的最佳模型高出19%的准确率。
MiniGPT-Med有望成为放射学诊断的一般界面,提升各种医学影像应用中的诊断效率。

这张图展示了MiniGPT-Med模型在医学影像处理和疾病诊断方面的多样能力。图中主要包含以下信息:
-
模型简介:
- 名称:MiniGPT-Med
- 功能:能够处理所有医疗模态,包括X射线、CT扫描和MRI图像。
- 疾病检测:可以检测超过14种疾病,如肺炎、水肿、脑肿瘤、肺癌等。
- 数据集:在五个医疗数据集上进行训练,包括MIMIC、RSNA、NLST、RadVQA和SLAKE。
-
模型任务:
- 视觉语言任务:模型能够执行6种不同的视觉语言任务,包括疾病检测、图像描述(Captioning)、视觉问答(VQA)、定位(Grounding)、引用表达理解(Refer)和识别(Identify)。
-
基准对比:
- 图表列出了MiniGPT-Med与其他几种模型(LLaVA-Med、RadFM、XrayGPT、CheXagent、MedKLIP、BioViL)在这些任务上的表现对比。
- MiniGPT-Med:在所有任务(检测、描述、VQA、定位、引用、识别)上都表现出色,均为对号(✔)。
- 其他模型:各模型在不同任务上的表现有所不同。例如:
- LLaVA-Med只在VQA任务上表现较好。
- RadFM在VQA和定位任务上表现不错。
- MedKLIP在检测和识别任务上表现良好。
总结:MiniGPT-Med是一个功能全面的医学影像处理模型,能够在多个任务上提供优异的性能,相比其他模型更为全面和高效。
解法拆解

这张图展示了MiniGPT-Med的架构概览,具体包括以下几个关键部分:
-
视觉编码器(Vision Encoder):
- 输入的医学图像(如CT扫描图像)首先通过视觉编码器进行处理。
- 使用预训练的EVA视觉编码器将图像转换为视觉语义特征。
- 视觉编码器在整个训练过程中保持参数不变(冻结状态)。
-
线性投影层(Linear Projection Layer):
- 从视觉编码器输出的特征被连接成单一的视觉标记。
- 线性投影层将这些视觉标记映射到大型语言模型的特征空间中。
-
大型语言模型(Large Language Model):
- 使用LLaMA2-chat作为主要语言模型。
- 语言模型处理经过投影的视觉标记,并结合文本指令生成输出。
- 图中展示了指令示例:[INST] [refer] What part of the image indicates cancer? [/INST]。
-
输出:
- 语言模型生成对输入图像的描述或回答问题。
- 在图中,输出的结果是一个带有病灶区域边界框的图像,病灶的坐标格式为<nodule (<29><43><42><56>)>。
图示解说了MiniGPT-Med模型如何处理单个医学图像,将其转换为视觉语义特征,然后通过线性投影层和大型语言模型生成详细的诊断报告或回答医学相关的问题。
在整个训练过程中,视觉编码器的参数保持不变,而对大型语言模型和线性投影层进行微调。
目的:高效的医学视觉语言模型├── 子解法1:采用EVA作为视觉编码器│ └── 特征:处理复杂图像结构和变化├── 子解法2:采用LLaMA2-chat作为语言模型│ └── 特征:生成医学报告,定位肿瘤├── 子解法3:采用MiniGPT-v2架构,连接视觉标记│ └── 特征:提高处理高分辨率图像的效率├── 子解法4:添加任务特定标记│ └── 特征:减少多任务环境中的幻想和混淆└── 子解法5:文本表示边界框└── 特征:增强模型对图像空间信息的理解
相关文章:
MiniGPT-Med 通用医学视觉大模型:生成医学报告 + 视觉问答 + 医学疾病识别
MiniGPT-Med 通用医学视觉大模型:生成医学报告 视觉问答 医学疾病识别 提出背景解法拆解 论文:https://arxiv.org/pdf/2407.04106 代码:https://github.com/Vision-CAIR/MiniGPT-Med 提出背景 近年来,人工智能(AI…...
如何判断ip地址在同一个网段:技术解析与实际应用
在网络世界中,IP地址就像每个人的身份证一样,是识别和定位网络设备的关键。然而,仅仅知道IP地址还不足以完全理解其背后的网络结构和通信方式。特别是当我们需要判断两个或多个IP地址是否位于同一网段时,就需要借助子网掩码这一概…...
linux高级编程(TCP)(传输控制协议)
TCP与UDP: TCP: TCP优点: 可靠,稳定 TCP的可靠体现在TCP在传递数据之前,会有三次握手来建立连接,而且在数据传递时,有确认、窗口、重传、拥塞控制机制,在数据传完后,还会断开连接用来节约系统…...
【常见开源库的二次开发】一文学懂CJSON
简介: JSON(JavaScript Object Notation)是一种轻量级的数据交换格式。它基于JavaScript的一个子集,但是JSON是独立于语言的,这意味着尽管JSON是由JavaScript语法衍生出来的,它可以被任何编程语言读取和生成…...
点云下采样有损压缩
转自本人博客:点云下采样有损压缩 点云下采样是通过一定规则对原点云数据进行再采样,减少点云个数,降低点云稀疏程度,减小点云数据大小。 1. 体素下采样(Voxel Down Sample) std::shared_ptr<PointClo…...
AutoHotKey自动热键(六)转义符号
转义符号 符号说明,, (原义的逗号). 注意: 在命令最后一个参数中的逗号不需要转义, 因为程序知道把它们作为原义处理. 对于 MsgBox 所有参数同样如此, 因为它会智能的处理逗号.%% (原义的百分号) (原义的重音符; 即两个连续的转义符产生单个原义字符);; (原义的分号). 注意: 仅…...
第16章 主成分分析:四个案例及课后习题
1.假设 x x x为 m m m 维随机变量,其均值为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ。 考虑由 m m m维随机变量 x x x到 m m m维随机变量 y y y的线性变换 y i α i T x ∑ k 1 m α k i x k , i 1 , 2 , ⋯ , m y _ { i } \alpha _ { i } ^ { T } …...
股票分析系统设计方案大纲与细节
股票分析系统设计方案大纲与细节 一、引言 随着互联网和金融行业的迅猛发展,股票市场已成为重要的投资渠道。投资者在追求财富增值的过程中,对股票市场的分析和预测需求日益增加。因此,设计并实现一套高效、精准的股票分析系统显得尤为重要。本设计方案旨在提出一个基于大…...
.gitmodules文件
.gitmodules文件在Git仓库中的作用 .gitmodules 文件是 Git 版本控制系统中用来跟踪和管理子模块的配置文件。子模块允许你将一个 Git 仓库嵌套在另一个仓库中,这样可以方便地管理多个项目之间的依赖关系。 在 .gitmodules 文件中,通常会记录每个子模块…...
STM32 SPI世界:W25Q64 Flash存储器的硬件与软件集成策略
摘要 在嵌入式系统设计中,选择合适的存储解决方案对于确保数据的安全性和系统的可靠性至关重要。W25Q64 Flash存储器因其高性能和大容量成为STM32微控制器项目中的热门选择。本文将深入探讨STM32与W25Q64 Flash存储器的硬件连接、软件集成以及SPI通信的最佳实践。 …...
【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验17 开放最短路径优先OSPF
一、实验目的 1.验证OSPF协议的作用; 二、实验要求 1.使用Cisco Packet Tracer仿真平台; 2.观看B站湖科大教书匠仿真实验视频,完成对应实验。 三、实验内容 1.构建网络拓扑; 2.验证OSPF协议的作用。 四、实验步骤 1.构建网…...
ChatGPT对话:python程序模拟操作网页弹出对话框
【编者按】单击一网页中的按钮,弹出对话框网页,再单击其中的“Yes”按钮,对话框关闭,请求并获取新网页。 可能ChatGPT第一次没有正确理解描述问题的含义,再次说明后,程序编写就正确了。 1问:pyt…...
利用亚马逊云科技云原生Serverless代码托管服务开发OpenAI ChatGPT-4o应用
今天小李哥继续介绍国际上主流云计算平台亚马逊云科技AWS上的热门生成式AI应用开发架构。上次小李哥分享了利用谷歌云serverless代码托管服务Cloud Functions构建Gemini Pro API,这次我将介绍如何利用亚马逊的云原生服务Lambda调用OpenAI的最新模型ChatGPT 4o。…...
Selenium 切换 frame/iframe
环境: Python 3.8 selenium3.141.0 urllib31.26.19说明: driver.switch_to.frame() # 将当前定位的主体切换为frame/iframe表单的内嵌页面中 driver.switch_to.default_content() # 跳回最外层的页面# 判断元素是否在 frame/ifame 中 # 126 邮箱为例 # …...
VOI(Virtual Operating System Infrastructure,虚拟操作系统基础架构)
VOI(Virtual Operating System Infrastructure,虚拟操作系统基础架构)架构在桌面虚拟化领域具有其独特的优势,使得它在某些场景下表现尤为出色。以下是几个具体场景: 1. 重载性能需求场景 表现: 高效利用…...
迭代器模式(大话设计模式)C/C++版本
迭代器模式 C #include <iostream> #include <string> #include <vector>using namespace std;// 迭代抽象类,用于定义得到开始对象、得到下一个对象、判断是否到结尾、当前对象等抽象方法,统一接口 class Iterator { public:Iterator(){};virtu…...
vue学习day04-计算属性、computed计算属性与methods方法、计算属性完整写法
10、计算属性 (1)概念: 基于现有的数据,计算出来的新属性。依赖于数据变化,自动重新计算。 (计算属性->可以将一段求值的代码进行封装) (2)语法: 1&a…...
关于力扣150题目——逆波兰表达式求值Java实现的三种解法
题目介绍 逆波兰表达式是一种后缀表达式,其运算符位于操作数之后。力扣150题目要求我们实现一个函数,计算给定逆波兰表达式的值。本文将介绍三种不同的Java实现方法来解决这个问题。 解法一:使用栈 这是最直观和常见的解法,使用…...
FTP与TFTP
1、TFTP(简单文件传输协议) TFTP是TCP/IP协议族中一个用来在客户机与服务器之间进行简单文件传输的协议,提供不复杂、开销不大的文件传输服务。 基于UDP协议 端口号:69 特点:简单、轻量级、易于实现 传输过程&…...
【Linux】System V信号量详解以及semget()、semctl()和semop()函数讲解
💐 🌸 🌷 🍀 🌹 🌻 🌺 🍁 🍃 🍂 🌿 🍄🍝 🍛 🍤 📃个人主页 :阿然成长日记 …...
Qwen3-VL-8B-Instruct-GGUF效果分享:100张用户实测图平均响应时间<1.8s(A10 GPU)
Qwen3-VL-8B-Instruct-GGUF效果分享:100张用户实测图平均响应时间<1.8s(A10 GPU) 1. 模型效果实测:速度与精度的双重惊喜 当我第一次看到Qwen3-VL-8B-Instruct-GGUF的测试结果时,确实被惊艳到了。这个模型在A10 G…...
Winhance中文版:Windows系统优化终极指南,让你的电脑飞起来!
Winhance中文版:Windows系统优化终极指南,让你的电脑飞起来! 【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. PowerShell GUI application designed to optimize and customize your Windows experience. 项目地址: https…...
通义千问3-Reranker-0.6B部署教程:模型服务SLA保障(P95延迟<800ms)调优
通义千问3-Reranker-0.6B部署教程:模型服务SLA保障(P95延迟<800ms)调优 1. 为什么你需要关注这个模型? 如果你正在做搜索系统、智能客服或者文档问答,肯定遇到过这样的问题:用户输入一个问题ÿ…...
ComfyUI-VideoHelperSuite:AI视频工作流的全栈解决方案
ComfyUI-VideoHelperSuite:AI视频工作流的全栈解决方案 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 1. 核心价值解析:图像序列到视频的…...
OrangePi 镜像烧录全攻略:从工具选择到实战避坑
1. 烧录工具选择与对比 第一次接触OrangePi开发板时,最让我头疼的就是镜像烧录工具的选择。市面上工具五花八门,每个教程推荐的软件都不一样。经过多次实测,我总结出三款最靠谱的烧录工具,它们各有特点: Win32DiskImag…...
conda安装cudnn避坑指南:为什么你的CUDA环境总是报错?
Conda环境下的CUDA与cuDNN版本管理实战指南 每次在终端看到CUDA相关的报错信息时,那种感觉就像是在解一道没有标准答案的数学题。特别是当深度学习框架因为CUDA版本不兼容而拒绝运行时,连最简单的import tensorflow都能变成一场噩梦。本文将带你深入理解…...
Scratch3.0离线编辑器安装指南:一步步教你轻松搞定
1. 为什么你需要Scratch3.0离线编辑器 Scratch作为全球最受欢迎的少儿编程工具,它的在线版本虽然方便,但经常会遇到网络不稳定、加载缓慢的问题。我去年给小学生上课时就遇到过这种情况——全班40个孩子同时登录在线编辑器,结果服务器直接卡死…...
YOLOv12涨点改进| TGRS 2025 | 全网独家创新、涨点上采样改进篇| 引入LSE-FPN拉普拉斯增强特征金字塔,有效提升各层特征的表达,含A2C2f_LSE二次创新,小目标检测高效涨点
一、本文介绍 🔥本文给大家介绍利用 LSE-FPN拉普拉斯增强特征金字塔 改进YOLOv12网络模型, 通过在特征金字塔中加入局部语义增强机制并改进多尺度特征融合方式,有效提升了各层特征的表达能力。该模块能够强化低层特征的语义信息,使模型在小目标检测和复杂场景下表现更优,…...
【stm32_2.1】【快速入门】自举模式、Flash闪存、LED点灯——对二极管PN结解析
目录 当前MCU概述 固化程序到单片机 自举模式 自举配置 Flash闪存 二极管的原理 当前MCU概述 MCU名称stm32F407ZET6处理器主频168MHz 闪存容量 512KB静态随机访问存储器SRAM192KBMCU引脚数量144pin 固化程序到单片机 写好的程序要固化到单片机,就必须学习怎…...
CTF新手必看:用Audacity搞定音频隐写题的保姆级指南(附频谱图实战)
CTF音频隐写实战:用Audacity从频谱图中挖出Flag的终极技巧 第一次参加CTF比赛时,我盯着那道音频隐写题整整半小时毫无头绪——直到一位前辈轻描淡写地说:"试试把频谱图调成对数刻度"。这个简单操作瞬间让隐藏在8kHz频率的Flag清晰可…...
