当前位置: 首页 > news >正文

借助医疗保健专用的 LLM提高诊断支持与准确性

概述

最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言模型)。这些模型对提示设计很敏感,只要设计适当的提示,就能有效纠正医生的错误回答。

然而,在临床实践中实施大规模语言模型仍面临挑战。例如,复杂任务需要先进的提示技术。此外,虽然现有研究侧重于大规模语言模型的独立使用,但在实际医疗实践中,人类决策者(如医生)需要做出最终决定。要确保系统的实用性和可靠性,了解医生在获得人工智能代理协助时如何进行交互至关重要。

本文深入探讨了大规模语言模型如何有效地应用于医疗领域。特别是,本文探讨了医生在发表意见后由大规模语言模型向其提问的情况,并试图说明大规模语言模型如何在不质疑专家意见的情况下提供高质量的答案。它还探讨了提示的设计如何纠正医生的错误并促进医学推理,以及如何根据医生的输入调整大规模语言模型。

研究首先介绍了二进制 PubMedQA 数据集,该数据集以 GPT4 生成的有效正确答案和误解答案为特征,并具体展示了其有效性。其次,它强调了提示设计对于加强大规模语言模型与医学专业人员互动的重要性,提示设计可以纠正医生的错误、解释医学推理、根据医生的输入进行调整,并最终显示其对提高大规模语言模型性能的影响。在此过程中,它为 大规模语言模型如何在医疗实践中更有效地发挥作用提供了重要见解。
论文地址:https://arxiv.org/abs/2403.20288

算法框架

本文研究了大规模语言模型在医疗领域问题解答任务中的有效性。在有医生提供答案和解释和没有答案和解释的情况下,都对大规模语言模型的性能进行了评估。以往的研究表明,提示语的设计对大规模语言模型的反应有重大影响,本研究通过模拟真实医疗场景和与专家互动的多个学习场景来检验这种影响。这些场景包括

  • 基线:基本问答(QA),医生不提供意见
  • 案例 1:医生回答 “是/否”,并根据其准确性运行四种不同的情景。
    • 案例 1a:医生总是给出正确的答案。
    • 案例 1b:医生总是给出错误的答案。
    • 案例 1c:医生总是回答 “是”。
    • 案例 1d:医生总是回答 “不”。
  • 病例 2:医生回答 “是/否”,并附加文字说明、根据准确度的不同,有四种不同的情况实施
    • 案例 2a:医生总是给出正确的答案。
    • 案例 2b:医生总是给出错误的答案。
    • 案例 2c:医生总是回答 “是”。
    • 案例 2d:医生总是回答 “不”。
  • 案例 3:医生回答 “是/否”,给出正确答案的概率会波动。
    • 模拟不同概率(70%、75%、80%、85%、90%、95%)的医生专业知识差异

下图显示了提示模板。

例如,在案例 1 中,首先要明确大规模语言模型的任务指令,如下图所示。

接下来,医生和大规模语言模型将进行模拟对话,如下图所示。

这些对话的顺序随不同场景中例子的顺序而变化。最后的提示由包含具体问题、上下文和医生回答的测试输入完成。

如下图所示,案例 2 还使用 GPT-4 API 为每个问题生成正确或错误的解释。例如,在案例 2a 中,医生总是给出正确答案,GPT-4 据此生成正确的解释。而在案例 2c 中,医生总是回答 “是”,GPT-4 会根据问题的正确答案是 "是 "还是 "否 "生成合理的正确或错误解释。通过模仿医生的解释,这增强了真实医疗互动的真实性。

实验和结果

本文件旨在回答以下问题

  • 问题 1:大规模语言模型能否在必要时纠正医生的决定?
  • 问题 2:大规模语言模型能否解释其自身答案的依据?
  • 问题 3:大规模语言模型能否根据医生提供的论据纠正答案?
  • 问题 4:基于医生提供的答案的大规模语言模型能否比自己或医生表现得更好?

该实验使用 “PubMedQA 数据集”。这是一个从 PubMed 摘要中生成的生物医学问答数据集,通常回答为 “是/否/可能”。在当前的实验中,该数据集被转换成二进制格式(只回答 “是/否”),并提供了 445 个测试示例。利用这些数据,GPT-4 需要为每个问题生成合理的正确答案和错误答案。

使用的模型包括最新的人工智能模型 Meditron-7B、对话式人工智能 Llama2-7B Chat 和 Mistral7B-Instruct(Jiang 等人,2023 年)。这些实验也是通过 Harness 框架进行的,其源代码可在线获取。

关于及时设计重要性的验证结果。结果如下表所示。提示设计对大规模语言模型的性能有重大影响。特别是在纠正医生的错误回答时,精心设计的提示能让大规模语言模型有效地纠正医生的错误回答。例如,在案例 1d 中,Mistral 模型在医生总是回答 "不 "的情况下取得了很高的准确率,尽管实际 "不 "的回答率只有 38%。Llama2 和 Meditron 对提示变化也很敏感,在某些情况下表现更好。

解释能力验证结果。结果如下表所示。此外,还对大规模语言模型能够解释其回答理由的程度进行了评估。具体来说,我们发现 Meditron 能够保持高质量的解释,不受医生简短回答的影响。另一方面,在医生给出正确答案的情况下,Llama2 的 ROUGE-L 分数往往较低,而 Mistral 则在多个场景中始终提供了出色的解释。这些结果表明,在适当的结构化提示下,大规模语言模型可以提供可靠的解释。

对医生论据的不同依赖程度的研究结果。很明显,大规模语言模型在多大程度上依赖于医生提供的论据。特别是,如果医生在答案中添加了论据,大规模语言模型对这些论据的依赖程度就会更高。在案例研究 2a 中,当医生持续提供准确的答案和解释时,Meditron 的准确率达到了 100%。这表明 Meditron 倾向于关注提示的最新例子,在某些情况下表现显著。

另一方面,LLama2 在所有场景中都非常依赖医生提供的论据,而 Mistral 的表现则更加稳健,而且提示变化较少。特别是在案例 2d 中,Mistral 在所有场景中都保持了 75% 以上的准确率,这证明它有能力在医生提供错误答案和论据时对其进行有效纠正。

下一组验证结果与解释的质量和一致性有关。对案例 2 中各模型的 ROUGE_L 分数的分析表明,LLama2 和 Mistral 根据包含医生意见的提示生成了更有效、更广泛的解释。相比之下,Meditron 严重依赖医生的意见,而医生的意见又在很大程度上决定了解释的质量。此外,每个模型提供的答案在一致性方面也存在差异,LLama2 和 Mistral 倾向于提供合理的解释,而与医生的立场无关。

此外,研究还表明,虽然包含专家回复的大规模语言模型可以提高其性能,但很难超过专家自身的能力。对案例研究 3 数据的分析(如下表)表明,虽然大规模语言模型的基本性能在不同场景下没有显著差异,但在某些条件下有明显的改进。例如,在医生准确率超过 80% 的场景 2 中,Meditron 能够超过基本性能;在医生准确率超过 85% 的所有场景中,LLama2 也超过了基本性能。

然而,在案例 3 中,医生的回答对 Mistral 模型的影响很大,往往会降低其性能。这表明大规模语言模型的性能取决于医生所提供信息的质量。

此外,当根据医生的回答对更大的模型(如 70B 模型)进行性能测试时,结果很差。当使用相同的提示时,观察到的性能下降,这表明更大的模型并不一定能保证更好的结果。特别是,LLama2-70B 模型在 MEDQA 多选数据集上的准确率不足 55%,这表明模型的大小可能并不是提高性能的关键。

总结

本文的见解表明,提示语的设计对大规模语言模型的性能有重大影响,模型对提示语的变化非常敏感,同时能通过适当的说明和示例有效纠正错误的医生回答。

此外,如果提示语经过精心设计,大规模语言模型就会显示出解释回答的能力。此外,大规模语言模型往往是医生为其回答提供论据的依据,而且受例子顺序的影响很大,尤其是在少数情况下。

研究还强调,大型模型(70B)并不总能保证取得优异成绩,提示质量是提高成绩的关键。研究结果要求进一步研究提示设计及其影响。本研究强调了提示在医疗人工智能发展中的作用,以及其对大规模语言模型和医疗专业人员之间互动的影响。

相关文章:

借助医疗保健专用的 LLM提高诊断支持与准确性

概述 最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言…...

微前端(qiankun)

微前端 特点:独立开发、独立部署,独立运行,增量升级 解决的问题:日常开发过程中,可能有很多老项目需要迭代,但是可能新的一些可能需要使用的依赖或者新的一些框架,老项目已经不满足,…...

速通c++(周二)

前言 Hello,大家好啊,我是文宇,不是文字,是文宇哦。 今天是速通c第二期。 运算符 c里的运算符种类有很多,因为这个教程是入门教程,所以只介绍其中我们会用到的几种。 算数运算 c中的算数运算有九个&a…...

拓扑未来物联网平台简介

拓扑未来物联网平台是基于Thingsboard二次开发的面向产业互联和智慧生活应用的物联网PaaS平台,支持适配各种网络环境和协议类型,可实现各种传感器和智能硬件的快速接入。有效降低物联网应用开发和部署成本,满足物联网领域设备连接、智能化改造…...

软件测试经理工作日常随记【7】-接口+UI自动化(多端集成测试)

软件测试经理工作日常随记【7】-UI自动化(多端集成测试) 自动化测试前篇在此 前言 今天开这篇的契机是,最近刚好是运维开发频繁更新证书的,每次更新都在0点,每次一更新都要走一次冒烟流程。为了不让我的美容觉被阉割…...

软考:软件设计师 — 9.数据流图

九. 数据流图 数据流图是下午场考试中第一个题目,分值 15 分。通常会考察实体名、存储名、加工名的补充,以及找到缺失的数据流并改正等。 1. 数据平衡原则 数据流的分析依赖于数据平衡原则。 父图与子图之间的平衡 父图与子图之间平衡是指任何一张 …...

收银系统源码-门店折扣活动应该怎么做

系统概况: 专门为零售行业的连锁店量身打造的收银系统,适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通,线下收银的数据与小程序私域商城中的数据完全同步&#…...

Python数值计算(12)——线性插值

1. 概述 插值是根据已知的数据序列(可以理解为你坐标中一系列离散的点),找到其中的规律,然后根据找到的这个规律,来对其中尚未有数据记录的点进行数值估计的方法。最简单直观的一种插值方式是线性插值,它是…...

TypeScript(switch判断)

1.switch 语法用法 switch是对某个表达式的值做出判断。然后决定程序执行哪一段代码 case语句中指定的每个值必须具有与表达式兼容的类型 语法switch(表达式){ case 值1: ​ 执行语句块1 break; case 值2: ​ 执行语句块3 break; dfault: //如…...

血细胞自动检测与分类系统:深度学习与UI界面的结合

一、项目概述 项目背景 在医学实验室中,血细胞的检测和分类是诊断和研究的重要环节。传统方法依赖于人工显微镜检查,费时且容易出现误差。通过深度学习技术,特别是目标检测模型YOLO,可以实现自动化、快速且准确的血细胞检测和分…...

鸿蒙Flex布局

效果: 代码: 换行代码参数设置: wrap:FlexWrap.Wrap Entry Component struct FlexCase {State message: string Hello World;build() {Flex({direction:FlexDirection.Row,justifyContent:FlexAlign.SpaceAround,alignItems:ItemAlign.Cen…...

开发自己的 Web 框架

开发自己的 Web 框架 开发Web服务器主体程序开发Web框架程序使用模板来展示响应内容开发框架的路由列表功能采用装饰器的方式添加路由电影列表页面的开发案例 接收web服务器的动态资源请求,给web服务器提供处理动态资源请求的服务。根据请求资源路径的后缀名进行判断…...

用于自动驾驶的基于立体视觉的语义 3D 对象和自我运动跟踪

Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving 论文 摘要: 我们提出了一种基于立体视觉的方法,用于在动态自动驾驶场景中跟踪相机自我运动和 3D 语义对象。我们建议使用易于标记的 2D 检测和离散视点分类以及…...

Spring@Autowired注解

Autowired顾名思义,就是自动装配,其作用是为了消除代码Java代码里面的getter/setter与bean属性中的property。当然,getter看个人需求,如果私有属性需要对外提供的话,应当予以保留。 因此,引入Autowired注解…...

32.x86游戏实战-使用物品call

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…...

Prometheus+Alertmanager+邮件告警

参考node_exporter-CSDN博客,球球不要断更!!!! 大致流程 1.部署promethus 可以写一个自定义的 systemd 服务启动文档,详情见自定义的 systemd 服务启动方式-CSDN博客 [rootlocalhost system]# sudo tee /e…...

upload-labs漏洞靶场~文件上传漏洞

寻找测试网站的文件上传的模块,常见:头像上传,修改上传,文件编辑器中文件上传,图片上传、媒体上传等,通过抓包上传恶意的文件进行测试,上传后缀名 asp php aspx 等的动态语言脚本,查…...

PostgreSQL 高阶函数详解:全面深入的功能与实用示例

PostgreSQL 高阶函数详解 PostgreSQL 是一款功能强大的开源关系数据库管理系统,以其丰富的功能和高扩展性著称。在数据处理和分析方面,PostgreSQL 提供了一系列高阶函数,可以极大地简化和优化各种复杂操作。本文将详细介绍 PostgreSQL 的高阶…...

Redis——集合 SET

目录 1. 添加元素 SADD 2. 查看元素 SMEMBERS 3. 判断元素是否存在该集合 SISMEMBER 4. 删除元素 SREM 集合 SET 是一种无序集合;因此其与列表有以下区别: (1)列表是有序的,集合是无序的; &#xff0…...

openEuler安装docker

1.下载地址 搜索docker 寻找docker-ce 复制地址 2.配置仓库 [rootlocalhost yum.repos.d]# pwd /etc/yum.repos.d [rootlocalhost yum.repos.d]# vim docker-ce.repo [docker-ce] namedocker baseurlhttps://mirrors.aliyun.com/docker-ce/linux/rhel/9/x86_64/stable/ gpgche…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

Lombok 的 @Data 注解失效,未生成 getter/setter 方法引发的HTTP 406 错误

HTTP 状态码 406 (Not Acceptable) 和 500 (Internal Server Error) 是两类完全不同的错误,它们的含义、原因和解决方法都有显著区别。以下是详细对比: 1. HTTP 406 (Not Acceptable) 含义: 客户端请求的内容类型与服务器支持的内容类型不匹…...

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载 在Kubernetes(简称K8s)中,Ingress是一个API对象,它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress,你可…...

三维GIS开发cesium智慧地铁教程(5)Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点&#xff1a; 路径验证&#xff1a;确保相对路径.…...

Linux简单的操作

ls ls 查看当前目录 ll 查看详细内容 ls -a 查看所有的内容 ls --help 查看方法文档 pwd pwd 查看当前路径 cd cd 转路径 cd .. 转上一级路径 cd 名 转换路径 …...

大语言模型如何处理长文本?常用文本分割技术详解

为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异&#xff0c;它们的数据同步要求既要保持数据的准确性和一致性&#xff0c;又要处理好性能问题。以下是一些主要的技术要点&#xff1a; 数据结构差异 数据类型差异&#xff…...

【AI学习】三、AI算法中的向量

在人工智能&#xff08;AI&#xff09;算法中&#xff0c;向量&#xff08;Vector&#xff09;是一种将现实世界中的数据&#xff08;如图像、文本、音频等&#xff09;转化为计算机可处理的数值型特征表示的工具。它是连接人类认知&#xff08;如语义、视觉特征&#xff09;与…...

iOS性能调优实战:借助克魔(KeyMob)与常用工具深度洞察App瓶颈

在日常iOS开发过程中&#xff0c;性能问题往往是最令人头疼的一类Bug。尤其是在App上线前的压测阶段或是处理用户反馈的高发期&#xff0c;开发者往往需要面对卡顿、崩溃、能耗异常、日志混乱等一系列问题。这些问题表面上看似偶发&#xff0c;但背后往往隐藏着系统资源调度不当…...

安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖

在Vuzix M400 AR智能眼镜的助力下&#xff0c;卢森堡罗伯特舒曼医院&#xff08;the Robert Schuman Hospitals, HRS&#xff09;凭借在无菌制剂生产流程中引入增强现实技术&#xff08;AR&#xff09;创新项目&#xff0c;荣获了2024年6月7日由卢森堡医院药剂师协会&#xff0…...