当前位置: 首页 > news >正文

借助医疗保健专用的 LLM提高诊断支持与准确性

概述

最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言模型)。这些模型对提示设计很敏感,只要设计适当的提示,就能有效纠正医生的错误回答。

然而,在临床实践中实施大规模语言模型仍面临挑战。例如,复杂任务需要先进的提示技术。此外,虽然现有研究侧重于大规模语言模型的独立使用,但在实际医疗实践中,人类决策者(如医生)需要做出最终决定。要确保系统的实用性和可靠性,了解医生在获得人工智能代理协助时如何进行交互至关重要。

本文深入探讨了大规模语言模型如何有效地应用于医疗领域。特别是,本文探讨了医生在发表意见后由大规模语言模型向其提问的情况,并试图说明大规模语言模型如何在不质疑专家意见的情况下提供高质量的答案。它还探讨了提示的设计如何纠正医生的错误并促进医学推理,以及如何根据医生的输入调整大规模语言模型。

研究首先介绍了二进制 PubMedQA 数据集,该数据集以 GPT4 生成的有效正确答案和误解答案为特征,并具体展示了其有效性。其次,它强调了提示设计对于加强大规模语言模型与医学专业人员互动的重要性,提示设计可以纠正医生的错误、解释医学推理、根据医生的输入进行调整,并最终显示其对提高大规模语言模型性能的影响。在此过程中,它为 大规模语言模型如何在医疗实践中更有效地发挥作用提供了重要见解。
论文地址:https://arxiv.org/abs/2403.20288

算法框架

本文研究了大规模语言模型在医疗领域问题解答任务中的有效性。在有医生提供答案和解释和没有答案和解释的情况下,都对大规模语言模型的性能进行了评估。以往的研究表明,提示语的设计对大规模语言模型的反应有重大影响,本研究通过模拟真实医疗场景和与专家互动的多个学习场景来检验这种影响。这些场景包括

  • 基线:基本问答(QA),医生不提供意见
  • 案例 1:医生回答 “是/否”,并根据其准确性运行四种不同的情景。
    • 案例 1a:医生总是给出正确的答案。
    • 案例 1b:医生总是给出错误的答案。
    • 案例 1c:医生总是回答 “是”。
    • 案例 1d:医生总是回答 “不”。
  • 病例 2:医生回答 “是/否”,并附加文字说明、根据准确度的不同,有四种不同的情况实施
    • 案例 2a:医生总是给出正确的答案。
    • 案例 2b:医生总是给出错误的答案。
    • 案例 2c:医生总是回答 “是”。
    • 案例 2d:医生总是回答 “不”。
  • 案例 3:医生回答 “是/否”,给出正确答案的概率会波动。
    • 模拟不同概率(70%、75%、80%、85%、90%、95%)的医生专业知识差异

下图显示了提示模板。

例如,在案例 1 中,首先要明确大规模语言模型的任务指令,如下图所示。

接下来,医生和大规模语言模型将进行模拟对话,如下图所示。

这些对话的顺序随不同场景中例子的顺序而变化。最后的提示由包含具体问题、上下文和医生回答的测试输入完成。

如下图所示,案例 2 还使用 GPT-4 API 为每个问题生成正确或错误的解释。例如,在案例 2a 中,医生总是给出正确答案,GPT-4 据此生成正确的解释。而在案例 2c 中,医生总是回答 “是”,GPT-4 会根据问题的正确答案是 "是 "还是 "否 "生成合理的正确或错误解释。通过模仿医生的解释,这增强了真实医疗互动的真实性。

实验和结果

本文件旨在回答以下问题

  • 问题 1:大规模语言模型能否在必要时纠正医生的决定?
  • 问题 2:大规模语言模型能否解释其自身答案的依据?
  • 问题 3:大规模语言模型能否根据医生提供的论据纠正答案?
  • 问题 4:基于医生提供的答案的大规模语言模型能否比自己或医生表现得更好?

该实验使用 “PubMedQA 数据集”。这是一个从 PubMed 摘要中生成的生物医学问答数据集,通常回答为 “是/否/可能”。在当前的实验中,该数据集被转换成二进制格式(只回答 “是/否”),并提供了 445 个测试示例。利用这些数据,GPT-4 需要为每个问题生成合理的正确答案和错误答案。

使用的模型包括最新的人工智能模型 Meditron-7B、对话式人工智能 Llama2-7B Chat 和 Mistral7B-Instruct(Jiang 等人,2023 年)。这些实验也是通过 Harness 框架进行的,其源代码可在线获取。

关于及时设计重要性的验证结果。结果如下表所示。提示设计对大规模语言模型的性能有重大影响。特别是在纠正医生的错误回答时,精心设计的提示能让大规模语言模型有效地纠正医生的错误回答。例如,在案例 1d 中,Mistral 模型在医生总是回答 "不 "的情况下取得了很高的准确率,尽管实际 "不 "的回答率只有 38%。Llama2 和 Meditron 对提示变化也很敏感,在某些情况下表现更好。

解释能力验证结果。结果如下表所示。此外,还对大规模语言模型能够解释其回答理由的程度进行了评估。具体来说,我们发现 Meditron 能够保持高质量的解释,不受医生简短回答的影响。另一方面,在医生给出正确答案的情况下,Llama2 的 ROUGE-L 分数往往较低,而 Mistral 则在多个场景中始终提供了出色的解释。这些结果表明,在适当的结构化提示下,大规模语言模型可以提供可靠的解释。

对医生论据的不同依赖程度的研究结果。很明显,大规模语言模型在多大程度上依赖于医生提供的论据。特别是,如果医生在答案中添加了论据,大规模语言模型对这些论据的依赖程度就会更高。在案例研究 2a 中,当医生持续提供准确的答案和解释时,Meditron 的准确率达到了 100%。这表明 Meditron 倾向于关注提示的最新例子,在某些情况下表现显著。

另一方面,LLama2 在所有场景中都非常依赖医生提供的论据,而 Mistral 的表现则更加稳健,而且提示变化较少。特别是在案例 2d 中,Mistral 在所有场景中都保持了 75% 以上的准确率,这证明它有能力在医生提供错误答案和论据时对其进行有效纠正。

下一组验证结果与解释的质量和一致性有关。对案例 2 中各模型的 ROUGE_L 分数的分析表明,LLama2 和 Mistral 根据包含医生意见的提示生成了更有效、更广泛的解释。相比之下,Meditron 严重依赖医生的意见,而医生的意见又在很大程度上决定了解释的质量。此外,每个模型提供的答案在一致性方面也存在差异,LLama2 和 Mistral 倾向于提供合理的解释,而与医生的立场无关。

此外,研究还表明,虽然包含专家回复的大规模语言模型可以提高其性能,但很难超过专家自身的能力。对案例研究 3 数据的分析(如下表)表明,虽然大规模语言模型的基本性能在不同场景下没有显著差异,但在某些条件下有明显的改进。例如,在医生准确率超过 80% 的场景 2 中,Meditron 能够超过基本性能;在医生准确率超过 85% 的所有场景中,LLama2 也超过了基本性能。

然而,在案例 3 中,医生的回答对 Mistral 模型的影响很大,往往会降低其性能。这表明大规模语言模型的性能取决于医生所提供信息的质量。

此外,当根据医生的回答对更大的模型(如 70B 模型)进行性能测试时,结果很差。当使用相同的提示时,观察到的性能下降,这表明更大的模型并不一定能保证更好的结果。特别是,LLama2-70B 模型在 MEDQA 多选数据集上的准确率不足 55%,这表明模型的大小可能并不是提高性能的关键。

总结

本文的见解表明,提示语的设计对大规模语言模型的性能有重大影响,模型对提示语的变化非常敏感,同时能通过适当的说明和示例有效纠正错误的医生回答。

此外,如果提示语经过精心设计,大规模语言模型就会显示出解释回答的能力。此外,大规模语言模型往往是医生为其回答提供论据的依据,而且受例子顺序的影响很大,尤其是在少数情况下。

研究还强调,大型模型(70B)并不总能保证取得优异成绩,提示质量是提高成绩的关键。研究结果要求进一步研究提示设计及其影响。本研究强调了提示在医疗人工智能发展中的作用,以及其对大规模语言模型和医疗专业人员之间互动的影响。

相关文章:

借助医疗保健专用的 LLM提高诊断支持与准确性

概述 最近的研究表明,大规模语言模型在医疗人工智能应用中非常有效。它们在诊断和临床支持系统中的有效性尤为明显,在这些系统中,它们已被证明能为各种医疗询问提供高度准确的答案(例如,医生在诊断过程中需要用到语言…...

微前端(qiankun)

微前端 特点:独立开发、独立部署,独立运行,增量升级 解决的问题:日常开发过程中,可能有很多老项目需要迭代,但是可能新的一些可能需要使用的依赖或者新的一些框架,老项目已经不满足,…...

速通c++(周二)

前言 Hello,大家好啊,我是文宇,不是文字,是文宇哦。 今天是速通c第二期。 运算符 c里的运算符种类有很多,因为这个教程是入门教程,所以只介绍其中我们会用到的几种。 算数运算 c中的算数运算有九个&a…...

拓扑未来物联网平台简介

拓扑未来物联网平台是基于Thingsboard二次开发的面向产业互联和智慧生活应用的物联网PaaS平台,支持适配各种网络环境和协议类型,可实现各种传感器和智能硬件的快速接入。有效降低物联网应用开发和部署成本,满足物联网领域设备连接、智能化改造…...

软件测试经理工作日常随记【7】-接口+UI自动化(多端集成测试)

软件测试经理工作日常随记【7】-UI自动化(多端集成测试) 自动化测试前篇在此 前言 今天开这篇的契机是,最近刚好是运维开发频繁更新证书的,每次更新都在0点,每次一更新都要走一次冒烟流程。为了不让我的美容觉被阉割…...

软考:软件设计师 — 9.数据流图

九. 数据流图 数据流图是下午场考试中第一个题目,分值 15 分。通常会考察实体名、存储名、加工名的补充,以及找到缺失的数据流并改正等。 1. 数据平衡原则 数据流的分析依赖于数据平衡原则。 父图与子图之间的平衡 父图与子图之间平衡是指任何一张 …...

收银系统源码-门店折扣活动应该怎么做

系统概况: 专门为零售行业的连锁店量身打造的收银系统,适用于常规超市、生鲜超市、水果店、便利店、零食专卖店、服装店、母婴用品、农贸市场等类型的门店使用。同时线上线下数据打通,线下收银的数据与小程序私域商城中的数据完全同步&#…...

Python数值计算(12)——线性插值

1. 概述 插值是根据已知的数据序列(可以理解为你坐标中一系列离散的点),找到其中的规律,然后根据找到的这个规律,来对其中尚未有数据记录的点进行数值估计的方法。最简单直观的一种插值方式是线性插值,它是…...

TypeScript(switch判断)

1.switch 语法用法 switch是对某个表达式的值做出判断。然后决定程序执行哪一段代码 case语句中指定的每个值必须具有与表达式兼容的类型 语法switch(表达式){ case 值1: ​ 执行语句块1 break; case 值2: ​ 执行语句块3 break; dfault: //如…...

血细胞自动检测与分类系统:深度学习与UI界面的结合

一、项目概述 项目背景 在医学实验室中,血细胞的检测和分类是诊断和研究的重要环节。传统方法依赖于人工显微镜检查,费时且容易出现误差。通过深度学习技术,特别是目标检测模型YOLO,可以实现自动化、快速且准确的血细胞检测和分…...

鸿蒙Flex布局

效果: 代码: 换行代码参数设置: wrap:FlexWrap.Wrap Entry Component struct FlexCase {State message: string Hello World;build() {Flex({direction:FlexDirection.Row,justifyContent:FlexAlign.SpaceAround,alignItems:ItemAlign.Cen…...

开发自己的 Web 框架

开发自己的 Web 框架 开发Web服务器主体程序开发Web框架程序使用模板来展示响应内容开发框架的路由列表功能采用装饰器的方式添加路由电影列表页面的开发案例 接收web服务器的动态资源请求,给web服务器提供处理动态资源请求的服务。根据请求资源路径的后缀名进行判断…...

用于自动驾驶的基于立体视觉的语义 3D 对象和自我运动跟踪

Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving 论文 摘要: 我们提出了一种基于立体视觉的方法,用于在动态自动驾驶场景中跟踪相机自我运动和 3D 语义对象。我们建议使用易于标记的 2D 检测和离散视点分类以及…...

Spring@Autowired注解

Autowired顾名思义,就是自动装配,其作用是为了消除代码Java代码里面的getter/setter与bean属性中的property。当然,getter看个人需求,如果私有属性需要对外提供的话,应当予以保留。 因此,引入Autowired注解…...

32.x86游戏实战-使用物品call

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…...

Prometheus+Alertmanager+邮件告警

参考node_exporter-CSDN博客,球球不要断更!!!! 大致流程 1.部署promethus 可以写一个自定义的 systemd 服务启动文档,详情见自定义的 systemd 服务启动方式-CSDN博客 [rootlocalhost system]# sudo tee /e…...

upload-labs漏洞靶场~文件上传漏洞

寻找测试网站的文件上传的模块,常见:头像上传,修改上传,文件编辑器中文件上传,图片上传、媒体上传等,通过抓包上传恶意的文件进行测试,上传后缀名 asp php aspx 等的动态语言脚本,查…...

PostgreSQL 高阶函数详解:全面深入的功能与实用示例

PostgreSQL 高阶函数详解 PostgreSQL 是一款功能强大的开源关系数据库管理系统,以其丰富的功能和高扩展性著称。在数据处理和分析方面,PostgreSQL 提供了一系列高阶函数,可以极大地简化和优化各种复杂操作。本文将详细介绍 PostgreSQL 的高阶…...

Redis——集合 SET

目录 1. 添加元素 SADD 2. 查看元素 SMEMBERS 3. 判断元素是否存在该集合 SISMEMBER 4. 删除元素 SREM 集合 SET 是一种无序集合;因此其与列表有以下区别: (1)列表是有序的,集合是无序的; &#xff0…...

openEuler安装docker

1.下载地址 搜索docker 寻找docker-ce 复制地址 2.配置仓库 [rootlocalhost yum.repos.d]# pwd /etc/yum.repos.d [rootlocalhost yum.repos.d]# vim docker-ce.repo [docker-ce] namedocker baseurlhttps://mirrors.aliyun.com/docker-ce/linux/rhel/9/x86_64/stable/ gpgche…...

测试微信模版消息推送

进入“开发接口管理”--“公众平台测试账号”,无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。 获取access_token: 自定义模版消息: 关注测试号:扫二维码关注测试号。 发送模版消息: import requests da…...

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外,K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案,全安装在K8S群集中。 具体可参…...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...

大话软工笔记—需求分析概述

需求分析,就是要对需求调研收集到的资料信息逐个地进行拆分、研究,从大量的不确定“需求”中确定出哪些需求最终要转换为确定的“功能需求”。 需求分析的作用非常重要,后续设计的依据主要来自于需求分析的成果,包括: 项目的目的…...

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:

在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

Objective-C常用命名规范总结

【OC】常用命名规范总结 文章目录 【OC】常用命名规范总结1.类名(Class Name)2.协议名(Protocol Name)3.方法名(Method Name)4.属性名(Property Name)5.局部变量/实例变量(Local / Instance Variables&…...

mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包

文章目录 现象:mysql已经安装,但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时,可能是因为以下几个原因:1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

图表类系列各种样式PPT模版分享

图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

Python ROS2【机器人中间件框架】 简介

销量过万TEEIS德国护膝夏天用薄款 优惠券冠生园 百花蜂蜜428g 挤压瓶纯蜂蜜巨奇严选 鞋子除臭剂360ml 多芬身体磨砂膏280g健70%-75%酒精消毒棉片湿巾1418cm 80片/袋3袋大包清洁食品用消毒 优惠券AIMORNY52朵红玫瑰永生香皂花同城配送非鲜花七夕情人节生日礼物送女友 热卖妙洁棉…...

JavaScript基础-API 和 Web API

在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...