当前位置: 首页 > news >正文

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT + LSTM 自动补全医院紧急部门主诉

    • 问题:针对在紧急部门中自动补全主诉的问题
      • 子问题1: 提高主诉记录的准确性
      • 子问题2: 加快主诉记录的速度
      • 子问题3: 统一医疗术语的使用
      • 子问题4: 减少打字错误和误解
      • 子问题5: 提高非特定主诉的处理能力
    • 解法
      • 数据预处理
      • 神经网络方法
      • 迁移学习方法
      • 提示调整:少量样本技术

 


论文:https://arxiv.org/pdf/2401.06088.pdf

 

问题:针对在紧急部门中自动补全主诉的问题

在医院紧急部门中:

  1. 急诊科:处理各种突发医疗情况,如创伤、心脏病发作等。
  2. 创伤中心:专门处理严重的创伤案例,如车祸伤害。
  3. 心脏急救中心:专注于心脏相关的紧急状况。
  4. 中风中心:专门处理中风患者的紧急护理。
  5. 儿科急诊:专门处理儿童的紧急医疗需求。

主诉自动补全系统可以帮助这些部门的医护人员快速准确地记录患者的病情描述,从而提高紧急医疗响应的效率和质量。

子问题1: 提高主诉记录的准确性

  • 子解法1: 使用NLP技术自动识别和补全主诉文本
    • 之所以使用NLP技术,是因为: 它能够理解和处理自然语言,自动识别医疗术语和患者描述的症状,从而提高记录的准确性。

举例: 如果一个患者描述了一系列模糊的症状,如“胸痛、呼吸困难”,NLP技术可以根据这些描述自动建议相关的、更具体的医疗术语,帮助护理人员快速准确地完成主诉记录。

子问题2: 加快主诉记录的速度

  • 子解法2: 实现自动补全和预测功能
    • 之所以实现自动补全和预测功能,是因为: 这可以减少医护人员输入完整词汇或句子所需的时间,特别是在忙碌的ED环境中,快速记录是非常必要的。

举例: 当医护人员开始输入“头痛”,系统就能提供一系列可能的补全选项,如“头痛持续时间”、“头痛性质”等,从而加速记录过程。

子问题3: 统一医疗术语的使用

  • 子解法3: 促进标准化术语的采用
    • 之所以促进标准化术语的采用,是因为: 在医疗记录中使用统一的标准术语可以减少误解和错误,确保不同的医护人员能够准确理解患者的状况。

举例: 如果系统能够识别医护人员输入的非标准术语,并自动建议对应的标准术语,比如将“心脏痛”自动更正为“胸痛”,这将有助于保持医疗记录的一致性和准确性。

子问题4: 减少打字错误和误解

  • 子解法4: 提供拼写检查和语义理解支持
    • 之所以提供拼写检查和语义理解支持,是因为: 打字错误和语言歧义是记录过程中常见的问题,通过技术手段减少这些错误可以提高记录的质量。

举例: 当医护人员输入“心绞痛”时,如果误输入为“新绞痛”,系统的拼写检查功能可以即时识别并更正错误,同时,语义理解支持能够确保使用正确的医学术语,减少因误解而导致的诊断错误。

子问题5: 提高非特定主诉的处理能力

  • 子解法5: 引入上下文理解和预测分析
    • 之所以引入上下文理解和预测分析,是因为: 非特定主诉(如“感觉不适”)需要根据上下文和患者的其他描述来准确理解和记录,NLP技术可以分析整个对话或记录的上下文,提供更准确的补全建议。

举例: 对于一个表达为“感觉不适”的主诉,系统可以根据患者之前提供的信息(如年龄、已知的健康状况)和当前的描述(如“最近旅行史”),自动建议可能相关的具体症状或需要询问的进一步信息,帮助医护人员快速定位问题。

 


解法

针对“在紧急部门中自动补全主诉(Chief Complaints, CC)”的问题,本文介绍了一系列解决步骤和方法。

在这里插入图片描述
主诉(CC)数据集经过预处理步骤,然后用来训练一个LSTM模型和微调BioGPT模型。

也对GPT-4.0的提示进行了调整。输入是一个不完整的主诉句子,随后通过LSTM模型或BioGPT模型处理,利用OpenAI API对GPT-4.0的提示进行操作。输出是生成的主诉句子。

数据预处理

问题: 如何处理和优化主诉数据以便于模型学习?

  • 解决方法: 数据预处理
    • 特征1: 使用Python NLP库Stanza分割主诉文本为句子
    • 特征2: 基于句子长度过滤,丢弃少于4个词的句子
    • 特征3: 将数据集分为训练集、验证集和测试集,比例为80%、10%和10%

文本清洗(去除无关字符,标准化术语)

句子分割(区分主诉和医疗历史)

关键词提取(提取症状、疾病名称等)
在这里插入图片描述

展示了如何将CC条目分割成“投诉”和“历史”部分,进一步分割成单独的句子,然后分割成种子序列以供模型处理。百分比表示种子序列包含原始句子的多少,如30%或50%。

神经网络方法

问题: 如何构建模型以自动补全主诉?

  • 解决方法: LSTM模型应用
    • 特征1: 嵌入层转换输入文本为密集词向量
    • 特征2: LSTM层捕获文本长期依赖
    • 特征3: 密集层输出序列中下一个词的概率分布

在这里插入图片描述
研究中使用的LSTM模型的架构。

它由一个输入层、一个将单词映射到100维向量空间的嵌入层、一个具有100个单元的LSTM层来处理序列和一个具有softmax激活的密集层组成,用于预测下一个词。

迁移学习方法

问题: 如何利用预训练模型提高自动补全的准确性?

  • 解决方法: BioGPT模型应用
    • 特征1: 选择已经在生物医学文献上预训练的模型,如BioGPT,因为它已经对医疗专业术语和上下文有了初步的理解。
    • 特征2: 使用特定的主诉数据集进一步训练(细调)BioGPT模型,这样可以让模型更好地理解和生成针对特定医疗环境的文本。
    • 特征3: 利用特殊令牌和标识句子的开始和结束,这些标记帮助模型识别文本的开始和结束,对处理多句子文本尤其重要。

提示调整:少量样本技术

问题: 如何通过少量示例提高模型对特定任务的适应性?

  • 解决方法: GPT-4模型的提示调整
    • 特征1: 利用OpenAI API,采用少量样本(Few-Shot)技术
    • 特征2: 通过提供有限数量的任务演示在推理阶段进行条件化
    • 特征3: 创建包含100个示例的提示以“编程”GPT模型

相关文章:

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT LSTM 自动补全医院紧急部门主诉 问题:针对在紧急部门中自动补全主诉的问题子问题1: 提高主诉记录的准确性子问题2: 加快主诉记录的速度子问题3: 统一医疗术语的使用子问题4: 减少打字错误和误解子问题5: 提高非特定主诉的处理能力 解法数据预处理神经网络方…...

HCIE-Datacom证书有效期多久?HCIE考试有哪些内容?

如今越来越多的人开始关注并参与到华为认证的学习中来。 其中,华为认证数据通信专家(HCIE-Datacom)作为华为认证体系中的高级认证,备受瞩目。 那么,关于HCIE-Datacom证书的有效期以及HCIE考试的内容,你知道多少呢?下…...

OpenCV中的边缘检测技术及实现

边缘检测是在电脑如何理解图片这一问题中的一环,它帮助电脑找出照片里的轮廓和分界线。想象一下你在看一幅黑白漫画,轮廓线定义了每一个角色和物体,而电脑要做的,就是通过边缘检测来找出这些线条。这在很多像是图像分析这样的领域…...

机器学习基础(一)理解机器学习的本质

导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试&#xf…...

Eclipse - Makefile generation

Eclipse - Makefile generation References right mouse click on the project -> Properties -> C/C Build -> Generate Makefiles automatically 默认会在 Debug 目录下创建 Makefile 文件。 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...

Sora:新一代实时音视频通信框架

一、Sora简介 Sora是一个开源的实时音视频通信框架,旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术,支持跨平台、跨浏览器的实时音视频通信,并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…...

龟兔赛跑算法

一、题目 给定一个长度为 n1 的数组nums,数组中所有的数均在 1∼n1 的范围内,其中 n≥1。 请找出数组中任意一个重复的数。 样例 给定 nums [2, 3, 5, 4, 3, 2, 6, 7]。返回 2 或 3。 二、解析 解决这个问题的一种有效方法是使用快慢指针&#xf…...

Yii2项目使用composer异常记录

问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…...

【蓝桥杯 2021】图像模糊

图像模糊 题目描述 小蓝有一张黑白图像,由 nm 个像素组成,其中从上到下共 n 行,每行从左到右 m 列。每个像素由一个 0 到 255 之间的灰度值表示。 现在,小蓝准备对图像进行模糊操作,操作的方法为: 对于…...

【leetcode】贪心算法介绍

详细且全面地分析贪心算法常用的解题套路、数据结构和代码逻辑如下: 找最值型: 每一步选择都是局部最优解,最后得到的结果就是全局最优解。常用于找零钱问题、区间覆盖问题等。一般情况下,可以通过排序将数据进行处理,…...

com.alibaba.fastjson.JSONException: toJSON error的原因

问题: 导出接口报错,显示json格式化异常 发现问题: 第一个参数为HttpResponse,转换成json的时候报错 修改方法: 1.调换两个参数的位置 2.在aop判断里边 把ServletAPI过滤掉 Before("excudeWebController()")pub…...

华为配置旁挂二层组网直接转发示例

配置旁挂二层组网直接转发示例 组网图形 图1 配置旁挂二层组网直接转发示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff…...

OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要 语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中&#…...

单例模式双端检测详解

正确写出doublecheck的单例模式_double check单例模式-CSDN博客...

秦PLUS荣耀版7.98万元起震撼上市,拉开“电比油低”大幕

2月19日,秦PLUS荣耀版正式上市,五大颠覆、三大焕新刷新A轿体验新高度。DM-i版本5款车型,官方指导价7.98万元——12.58万元;EV版本5款车型,官方指导价10.98万元——13.98万元。正式开启“电比油低”新时代。 电比油低&a…...

学习总结19

# 奶牛的耳语 ## 题目描述 在你的养牛场&#xff0c;所有的奶牛都养在一排呈直线的牛栏中。一共有 n 头奶牛&#xff0c;其中第 i 头牛在直线上所处的位置可以用一个整数坐标 pi(0< pi < 10^8) 来表示。在无聊的日子里&#xff0c;奶牛们常常在自己的牛栏里与其它奶牛交…...

rancher v2.8.1 如何成功注册已有 k8s 集群

需要加入的集群为rke2部署的双节点集群 $ kubectl get node NAME STATUS ROLES AGE VERSION rke-master01 Ready control-plane,etcd,master,worker 94d v1.26.8rke2r1 rke-master02 Ready control-plane,etcd,mast…...

Vue中$root的使用方法

查看本专栏目录 关于作者 还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#x…...

redis 异步队列

//produceMessage.ts 模拟生产者 import Redis from ioredis; const redis new Redis(); // 生产者&#xff1a;将消息推送到队列 async function produceMessage(queueName:string, message:string) {try {await redis.rpush(queueName, message);console.log(Produced messa…...

SpringBoot + Nacos 实现动态化线程池

1.背景 在后台开发中&#xff0c;会经常用到线程池技术&#xff0c;对于线程池核心参数的配置很大程度上依靠经验。然而&#xff0c;由于系统运行过程中存在的不确定性&#xff0c;我们很难一劳永逸地规划一个合理的线程池参数。 在对线程池配置参数进行调整时&#xff0c;一…...

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…...

生成 Git SSH 证书

&#x1f511; 1. ​​生成 SSH 密钥对​​ 在终端&#xff08;Windows 使用 Git Bash&#xff0c;Mac/Linux 使用 Terminal&#xff09;执行命令&#xff1a; ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" ​​参数说明​​&#xff1a; -t rsa&#x…...

Linux云原生安全:零信任架构与机密计算

Linux云原生安全&#xff1a;零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言&#xff1a;云原生安全的范式革命 随着云原生技术的普及&#xff0c;安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测&#xff0c;到2025年&#xff0c;零信任架构将成为超…...

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

2023赣州旅游投资集团

单选题 1.“不登高山&#xff0c;不知天之高也&#xff1b;不临深溪&#xff0c;不知地之厚也。”这句话说明_____。 A、人的意识具有创造性 B、人的认识是独立于实践之外的 C、实践在认识过程中具有决定作用 D、人的一切知识都是从直接经验中获得的 参考答案: C 本题解…...

C++:多态机制详解

目录 一. 多态的概念 1.静态多态&#xff08;编译时多态&#xff09; 二.动态多态的定义及实现 1.多态的构成条件 2.虚函数 3.虚函数的重写/覆盖 4.虚函数重写的一些其他问题 1&#xff09;.协变 2&#xff09;.析构函数的重写 5.override 和 final关键字 1&#…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

【LeetCode】算法详解#6 ---除自身以外数组的乘积

1.题目介绍 给定一个整数数组 nums&#xff0c;返回 数组 answer &#xff0c;其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积 。 题目数据 保证 数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位 整数范围内。 请 不要使用除法&#xff0c;且在 O…...

Vue3中的computer和watch

computed的写法 在页面中 <div>{{ calcNumber }}</div>script中 写法1 常用 import { computed, ref } from vue; let price ref(100);const priceAdd () > { //函数方法 price 1price.value ; }//计算属性 let calcNumber computed(() > {return ${p…...

如何做好一份技术文档?从规划到实践的完整指南

如何做好一份技术文档&#xff1f;从规划到实践的完整指南 &#x1f31f; 嗨&#xff0c;我是IRpickstars&#xff01; &#x1f30c; 总有一行代码&#xff0c;能点亮万千星辰。 &#x1f50d; 在技术的宇宙中&#xff0c;我愿做永不停歇的探索者。 ✨ 用代码丈量世界&…...