当前位置: 首页 > news >正文

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT + LSTM 自动补全医院紧急部门主诉

    • 问题:针对在紧急部门中自动补全主诉的问题
      • 子问题1: 提高主诉记录的准确性
      • 子问题2: 加快主诉记录的速度
      • 子问题3: 统一医疗术语的使用
      • 子问题4: 减少打字错误和误解
      • 子问题5: 提高非特定主诉的处理能力
    • 解法
      • 数据预处理
      • 神经网络方法
      • 迁移学习方法
      • 提示调整:少量样本技术

 


论文:https://arxiv.org/pdf/2401.06088.pdf

 

问题:针对在紧急部门中自动补全主诉的问题

在医院紧急部门中:

  1. 急诊科:处理各种突发医疗情况,如创伤、心脏病发作等。
  2. 创伤中心:专门处理严重的创伤案例,如车祸伤害。
  3. 心脏急救中心:专注于心脏相关的紧急状况。
  4. 中风中心:专门处理中风患者的紧急护理。
  5. 儿科急诊:专门处理儿童的紧急医疗需求。

主诉自动补全系统可以帮助这些部门的医护人员快速准确地记录患者的病情描述,从而提高紧急医疗响应的效率和质量。

子问题1: 提高主诉记录的准确性

  • 子解法1: 使用NLP技术自动识别和补全主诉文本
    • 之所以使用NLP技术,是因为: 它能够理解和处理自然语言,自动识别医疗术语和患者描述的症状,从而提高记录的准确性。

举例: 如果一个患者描述了一系列模糊的症状,如“胸痛、呼吸困难”,NLP技术可以根据这些描述自动建议相关的、更具体的医疗术语,帮助护理人员快速准确地完成主诉记录。

子问题2: 加快主诉记录的速度

  • 子解法2: 实现自动补全和预测功能
    • 之所以实现自动补全和预测功能,是因为: 这可以减少医护人员输入完整词汇或句子所需的时间,特别是在忙碌的ED环境中,快速记录是非常必要的。

举例: 当医护人员开始输入“头痛”,系统就能提供一系列可能的补全选项,如“头痛持续时间”、“头痛性质”等,从而加速记录过程。

子问题3: 统一医疗术语的使用

  • 子解法3: 促进标准化术语的采用
    • 之所以促进标准化术语的采用,是因为: 在医疗记录中使用统一的标准术语可以减少误解和错误,确保不同的医护人员能够准确理解患者的状况。

举例: 如果系统能够识别医护人员输入的非标准术语,并自动建议对应的标准术语,比如将“心脏痛”自动更正为“胸痛”,这将有助于保持医疗记录的一致性和准确性。

子问题4: 减少打字错误和误解

  • 子解法4: 提供拼写检查和语义理解支持
    • 之所以提供拼写检查和语义理解支持,是因为: 打字错误和语言歧义是记录过程中常见的问题,通过技术手段减少这些错误可以提高记录的质量。

举例: 当医护人员输入“心绞痛”时,如果误输入为“新绞痛”,系统的拼写检查功能可以即时识别并更正错误,同时,语义理解支持能够确保使用正确的医学术语,减少因误解而导致的诊断错误。

子问题5: 提高非特定主诉的处理能力

  • 子解法5: 引入上下文理解和预测分析
    • 之所以引入上下文理解和预测分析,是因为: 非特定主诉(如“感觉不适”)需要根据上下文和患者的其他描述来准确理解和记录,NLP技术可以分析整个对话或记录的上下文,提供更准确的补全建议。

举例: 对于一个表达为“感觉不适”的主诉,系统可以根据患者之前提供的信息(如年龄、已知的健康状况)和当前的描述(如“最近旅行史”),自动建议可能相关的具体症状或需要询问的进一步信息,帮助医护人员快速定位问题。

 


解法

针对“在紧急部门中自动补全主诉(Chief Complaints, CC)”的问题,本文介绍了一系列解决步骤和方法。

在这里插入图片描述
主诉(CC)数据集经过预处理步骤,然后用来训练一个LSTM模型和微调BioGPT模型。

也对GPT-4.0的提示进行了调整。输入是一个不完整的主诉句子,随后通过LSTM模型或BioGPT模型处理,利用OpenAI API对GPT-4.0的提示进行操作。输出是生成的主诉句子。

数据预处理

问题: 如何处理和优化主诉数据以便于模型学习?

  • 解决方法: 数据预处理
    • 特征1: 使用Python NLP库Stanza分割主诉文本为句子
    • 特征2: 基于句子长度过滤,丢弃少于4个词的句子
    • 特征3: 将数据集分为训练集、验证集和测试集,比例为80%、10%和10%

文本清洗(去除无关字符,标准化术语)

句子分割(区分主诉和医疗历史)

关键词提取(提取症状、疾病名称等)
在这里插入图片描述

展示了如何将CC条目分割成“投诉”和“历史”部分,进一步分割成单独的句子,然后分割成种子序列以供模型处理。百分比表示种子序列包含原始句子的多少,如30%或50%。

神经网络方法

问题: 如何构建模型以自动补全主诉?

  • 解决方法: LSTM模型应用
    • 特征1: 嵌入层转换输入文本为密集词向量
    • 特征2: LSTM层捕获文本长期依赖
    • 特征3: 密集层输出序列中下一个词的概率分布

在这里插入图片描述
研究中使用的LSTM模型的架构。

它由一个输入层、一个将单词映射到100维向量空间的嵌入层、一个具有100个单元的LSTM层来处理序列和一个具有softmax激活的密集层组成,用于预测下一个词。

迁移学习方法

问题: 如何利用预训练模型提高自动补全的准确性?

  • 解决方法: BioGPT模型应用
    • 特征1: 选择已经在生物医学文献上预训练的模型,如BioGPT,因为它已经对医疗专业术语和上下文有了初步的理解。
    • 特征2: 使用特定的主诉数据集进一步训练(细调)BioGPT模型,这样可以让模型更好地理解和生成针对特定医疗环境的文本。
    • 特征3: 利用特殊令牌和标识句子的开始和结束,这些标记帮助模型识别文本的开始和结束,对处理多句子文本尤其重要。

提示调整:少量样本技术

问题: 如何通过少量示例提高模型对特定任务的适应性?

  • 解决方法: GPT-4模型的提示调整
    • 特征1: 利用OpenAI API,采用少量样本(Few-Shot)技术
    • 特征2: 通过提供有限数量的任务演示在推理阶段进行条件化
    • 特征3: 创建包含100个示例的提示以“编程”GPT模型

相关文章:

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT LSTM 自动补全医院紧急部门主诉 问题:针对在紧急部门中自动补全主诉的问题子问题1: 提高主诉记录的准确性子问题2: 加快主诉记录的速度子问题3: 统一医疗术语的使用子问题4: 减少打字错误和误解子问题5: 提高非特定主诉的处理能力 解法数据预处理神经网络方…...

HCIE-Datacom证书有效期多久?HCIE考试有哪些内容?

如今越来越多的人开始关注并参与到华为认证的学习中来。 其中,华为认证数据通信专家(HCIE-Datacom)作为华为认证体系中的高级认证,备受瞩目。 那么,关于HCIE-Datacom证书的有效期以及HCIE考试的内容,你知道多少呢?下…...

OpenCV中的边缘检测技术及实现

边缘检测是在电脑如何理解图片这一问题中的一环,它帮助电脑找出照片里的轮廓和分界线。想象一下你在看一幅黑白漫画,轮廓线定义了每一个角色和物体,而电脑要做的,就是通过边缘检测来找出这些线条。这在很多像是图像分析这样的领域…...

机器学习基础(一)理解机器学习的本质

导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试&#xf…...

Eclipse - Makefile generation

Eclipse - Makefile generation References right mouse click on the project -> Properties -> C/C Build -> Generate Makefiles automatically 默认会在 Debug 目录下创建 Makefile 文件。 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...

Sora:新一代实时音视频通信框架

一、Sora简介 Sora是一个开源的实时音视频通信框架,旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术,支持跨平台、跨浏览器的实时音视频通信,并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…...

龟兔赛跑算法

一、题目 给定一个长度为 n1 的数组nums,数组中所有的数均在 1∼n1 的范围内,其中 n≥1。 请找出数组中任意一个重复的数。 样例 给定 nums [2, 3, 5, 4, 3, 2, 6, 7]。返回 2 或 3。 二、解析 解决这个问题的一种有效方法是使用快慢指针&#xf…...

Yii2项目使用composer异常记录

问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…...

【蓝桥杯 2021】图像模糊

图像模糊 题目描述 小蓝有一张黑白图像,由 nm 个像素组成,其中从上到下共 n 行,每行从左到右 m 列。每个像素由一个 0 到 255 之间的灰度值表示。 现在,小蓝准备对图像进行模糊操作,操作的方法为: 对于…...

【leetcode】贪心算法介绍

详细且全面地分析贪心算法常用的解题套路、数据结构和代码逻辑如下: 找最值型: 每一步选择都是局部最优解,最后得到的结果就是全局最优解。常用于找零钱问题、区间覆盖问题等。一般情况下,可以通过排序将数据进行处理,…...

com.alibaba.fastjson.JSONException: toJSON error的原因

问题: 导出接口报错,显示json格式化异常 发现问题: 第一个参数为HttpResponse,转换成json的时候报错 修改方法: 1.调换两个参数的位置 2.在aop判断里边 把ServletAPI过滤掉 Before("excudeWebController()")pub…...

华为配置旁挂二层组网直接转发示例

配置旁挂二层组网直接转发示例 组网图形 图1 配置旁挂二层组网直接转发示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff…...

OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要 语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中&#…...

单例模式双端检测详解

正确写出doublecheck的单例模式_double check单例模式-CSDN博客...

秦PLUS荣耀版7.98万元起震撼上市,拉开“电比油低”大幕

2月19日,秦PLUS荣耀版正式上市,五大颠覆、三大焕新刷新A轿体验新高度。DM-i版本5款车型,官方指导价7.98万元——12.58万元;EV版本5款车型,官方指导价10.98万元——13.98万元。正式开启“电比油低”新时代。 电比油低&a…...

学习总结19

# 奶牛的耳语 ## 题目描述 在你的养牛场&#xff0c;所有的奶牛都养在一排呈直线的牛栏中。一共有 n 头奶牛&#xff0c;其中第 i 头牛在直线上所处的位置可以用一个整数坐标 pi(0< pi < 10^8) 来表示。在无聊的日子里&#xff0c;奶牛们常常在自己的牛栏里与其它奶牛交…...

rancher v2.8.1 如何成功注册已有 k8s 集群

需要加入的集群为rke2部署的双节点集群 $ kubectl get node NAME STATUS ROLES AGE VERSION rke-master01 Ready control-plane,etcd,master,worker 94d v1.26.8rke2r1 rke-master02 Ready control-plane,etcd,mast…...

Vue中$root的使用方法

查看本专栏目录 关于作者 还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#x…...

redis 异步队列

//produceMessage.ts 模拟生产者 import Redis from ioredis; const redis new Redis(); // 生产者&#xff1a;将消息推送到队列 async function produceMessage(queueName:string, message:string) {try {await redis.rpush(queueName, message);console.log(Produced messa…...

SpringBoot + Nacos 实现动态化线程池

1.背景 在后台开发中&#xff0c;会经常用到线程池技术&#xff0c;对于线程池核心参数的配置很大程度上依靠经验。然而&#xff0c;由于系统运行过程中存在的不确定性&#xff0c;我们很难一劳永逸地规划一个合理的线程池参数。 在对线程池配置参数进行调整时&#xff0c;一…...

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分&#xff1a; 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析&#xff1a; CTR…...

【决胜公务员考试】求职OMG——见面课测验1

2025最新版&#xff01;&#xff01;&#xff01;6.8截至答题&#xff0c;大家注意呀&#xff01; 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:&#xff08; B &#xff09; A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

网络编程(UDP编程)

思维导图 UDP基础编程&#xff08;单播&#xff09; 1.流程图 服务器&#xff1a;短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码

目录 一、&#x1f468;‍&#x1f393;网站题目 二、✍️网站描述 三、&#x1f4da;网站介绍 四、&#x1f310;网站效果 五、&#x1fa93; 代码实现 &#x1f9f1;HTML 六、&#x1f947; 如何让学习不再盲目 七、&#x1f381;更多干货 一、&#x1f468;‍&#x1f…...

【7色560页】职场可视化逻辑图高级数据分析PPT模版

7种色调职场工作汇报PPT&#xff0c;橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版&#xff1a;职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...

JVM虚拟机:内存结构、垃圾回收、性能优化

1、JVM虚拟机的简介 Java 虚拟机(Java Virtual Machine 简称:JVM)是运行所有 Java 程序的抽象计算机,是 Java 语言的运行环境,实现了 Java 程序的跨平台特性。JVM 屏蔽了与具体操作系统平台相关的信息,使得 Java 程序只需生成在 JVM 上运行的目标代码(字节码),就可以…...

学习一下用鸿蒙​​DevEco Studio HarmonyOS5实现百度地图

在鸿蒙&#xff08;HarmonyOS5&#xff09;中集成百度地图&#xff0c;可以通过以下步骤和技术方案实现。结合鸿蒙的分布式能力和百度地图的API&#xff0c;可以构建跨设备的定位、导航和地图展示功能。 ​​1. 鸿蒙环境准备​​ ​​开发工具​​&#xff1a;下载安装 ​​De…...

如何配置一个sql server使得其它用户可以通过excel odbc获取数据

要让其他用户通过 Excel 使用 ODBC 连接到 SQL Server 获取数据&#xff0c;你需要完成以下配置步骤&#xff1a; ✅ 一、在 SQL Server 端配置&#xff08;服务器设置&#xff09; 1. 启用 TCP/IP 协议 打开 “SQL Server 配置管理器”。导航到&#xff1a;SQL Server 网络配…...

C++_哈希表

本篇文章是对C学习的哈希表部分的学习分享 相信一定会对你有所帮助~ 那咱们废话不多说&#xff0c;直接开始吧&#xff01; 一、基础概念 1. 哈希核心思想&#xff1a; 哈希函数的作用&#xff1a;通过此函数建立一个Key与存储位置之间的映射关系。理想目标&#xff1a;实现…...

Linux 内存管理调试分析:ftrace、perf、crash 的系统化使用

Linux 内存管理调试分析&#xff1a;ftrace、perf、crash 的系统化使用 Linux 内核内存管理是构成整个内核性能和系统稳定性的基础&#xff0c;但这一子系统结构复杂&#xff0c;常常有设置失败、性能展示不良、OOM 杀进程等问题。要分析这些问题&#xff0c;需要一套工具化、…...