当前位置: 首页 > news >正文

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT + LSTM 自动补全医院紧急部门主诉

    • 问题:针对在紧急部门中自动补全主诉的问题
      • 子问题1: 提高主诉记录的准确性
      • 子问题2: 加快主诉记录的速度
      • 子问题3: 统一医疗术语的使用
      • 子问题4: 减少打字错误和误解
      • 子问题5: 提高非特定主诉的处理能力
    • 解法
      • 数据预处理
      • 神经网络方法
      • 迁移学习方法
      • 提示调整:少量样本技术

 


论文:https://arxiv.org/pdf/2401.06088.pdf

 

问题:针对在紧急部门中自动补全主诉的问题

在医院紧急部门中:

  1. 急诊科:处理各种突发医疗情况,如创伤、心脏病发作等。
  2. 创伤中心:专门处理严重的创伤案例,如车祸伤害。
  3. 心脏急救中心:专注于心脏相关的紧急状况。
  4. 中风中心:专门处理中风患者的紧急护理。
  5. 儿科急诊:专门处理儿童的紧急医疗需求。

主诉自动补全系统可以帮助这些部门的医护人员快速准确地记录患者的病情描述,从而提高紧急医疗响应的效率和质量。

子问题1: 提高主诉记录的准确性

  • 子解法1: 使用NLP技术自动识别和补全主诉文本
    • 之所以使用NLP技术,是因为: 它能够理解和处理自然语言,自动识别医疗术语和患者描述的症状,从而提高记录的准确性。

举例: 如果一个患者描述了一系列模糊的症状,如“胸痛、呼吸困难”,NLP技术可以根据这些描述自动建议相关的、更具体的医疗术语,帮助护理人员快速准确地完成主诉记录。

子问题2: 加快主诉记录的速度

  • 子解法2: 实现自动补全和预测功能
    • 之所以实现自动补全和预测功能,是因为: 这可以减少医护人员输入完整词汇或句子所需的时间,特别是在忙碌的ED环境中,快速记录是非常必要的。

举例: 当医护人员开始输入“头痛”,系统就能提供一系列可能的补全选项,如“头痛持续时间”、“头痛性质”等,从而加速记录过程。

子问题3: 统一医疗术语的使用

  • 子解法3: 促进标准化术语的采用
    • 之所以促进标准化术语的采用,是因为: 在医疗记录中使用统一的标准术语可以减少误解和错误,确保不同的医护人员能够准确理解患者的状况。

举例: 如果系统能够识别医护人员输入的非标准术语,并自动建议对应的标准术语,比如将“心脏痛”自动更正为“胸痛”,这将有助于保持医疗记录的一致性和准确性。

子问题4: 减少打字错误和误解

  • 子解法4: 提供拼写检查和语义理解支持
    • 之所以提供拼写检查和语义理解支持,是因为: 打字错误和语言歧义是记录过程中常见的问题,通过技术手段减少这些错误可以提高记录的质量。

举例: 当医护人员输入“心绞痛”时,如果误输入为“新绞痛”,系统的拼写检查功能可以即时识别并更正错误,同时,语义理解支持能够确保使用正确的医学术语,减少因误解而导致的诊断错误。

子问题5: 提高非特定主诉的处理能力

  • 子解法5: 引入上下文理解和预测分析
    • 之所以引入上下文理解和预测分析,是因为: 非特定主诉(如“感觉不适”)需要根据上下文和患者的其他描述来准确理解和记录,NLP技术可以分析整个对话或记录的上下文,提供更准确的补全建议。

举例: 对于一个表达为“感觉不适”的主诉,系统可以根据患者之前提供的信息(如年龄、已知的健康状况)和当前的描述(如“最近旅行史”),自动建议可能相关的具体症状或需要询问的进一步信息,帮助医护人员快速定位问题。

 


解法

针对“在紧急部门中自动补全主诉(Chief Complaints, CC)”的问题,本文介绍了一系列解决步骤和方法。

在这里插入图片描述
主诉(CC)数据集经过预处理步骤,然后用来训练一个LSTM模型和微调BioGPT模型。

也对GPT-4.0的提示进行了调整。输入是一个不完整的主诉句子,随后通过LSTM模型或BioGPT模型处理,利用OpenAI API对GPT-4.0的提示进行操作。输出是生成的主诉句子。

数据预处理

问题: 如何处理和优化主诉数据以便于模型学习?

  • 解决方法: 数据预处理
    • 特征1: 使用Python NLP库Stanza分割主诉文本为句子
    • 特征2: 基于句子长度过滤,丢弃少于4个词的句子
    • 特征3: 将数据集分为训练集、验证集和测试集,比例为80%、10%和10%

文本清洗(去除无关字符,标准化术语)

句子分割(区分主诉和医疗历史)

关键词提取(提取症状、疾病名称等)
在这里插入图片描述

展示了如何将CC条目分割成“投诉”和“历史”部分,进一步分割成单独的句子,然后分割成种子序列以供模型处理。百分比表示种子序列包含原始句子的多少,如30%或50%。

神经网络方法

问题: 如何构建模型以自动补全主诉?

  • 解决方法: LSTM模型应用
    • 特征1: 嵌入层转换输入文本为密集词向量
    • 特征2: LSTM层捕获文本长期依赖
    • 特征3: 密集层输出序列中下一个词的概率分布

在这里插入图片描述
研究中使用的LSTM模型的架构。

它由一个输入层、一个将单词映射到100维向量空间的嵌入层、一个具有100个单元的LSTM层来处理序列和一个具有softmax激活的密集层组成,用于预测下一个词。

迁移学习方法

问题: 如何利用预训练模型提高自动补全的准确性?

  • 解决方法: BioGPT模型应用
    • 特征1: 选择已经在生物医学文献上预训练的模型,如BioGPT,因为它已经对医疗专业术语和上下文有了初步的理解。
    • 特征2: 使用特定的主诉数据集进一步训练(细调)BioGPT模型,这样可以让模型更好地理解和生成针对特定医疗环境的文本。
    • 特征3: 利用特殊令牌和标识句子的开始和结束,这些标记帮助模型识别文本的开始和结束,对处理多句子文本尤其重要。

提示调整:少量样本技术

问题: 如何通过少量示例提高模型对特定任务的适应性?

  • 解决方法: GPT-4模型的提示调整
    • 特征1: 利用OpenAI API,采用少量样本(Few-Shot)技术
    • 特征2: 通过提供有限数量的任务演示在推理阶段进行条件化
    • 特征3: 创建包含100个示例的提示以“编程”GPT模型

相关文章:

【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉

BioGPT LSTM 自动补全医院紧急部门主诉 问题:针对在紧急部门中自动补全主诉的问题子问题1: 提高主诉记录的准确性子问题2: 加快主诉记录的速度子问题3: 统一医疗术语的使用子问题4: 减少打字错误和误解子问题5: 提高非特定主诉的处理能力 解法数据预处理神经网络方…...

HCIE-Datacom证书有效期多久?HCIE考试有哪些内容?

如今越来越多的人开始关注并参与到华为认证的学习中来。 其中,华为认证数据通信专家(HCIE-Datacom)作为华为认证体系中的高级认证,备受瞩目。 那么,关于HCIE-Datacom证书的有效期以及HCIE考试的内容,你知道多少呢?下…...

OpenCV中的边缘检测技术及实现

边缘检测是在电脑如何理解图片这一问题中的一环,它帮助电脑找出照片里的轮廓和分界线。想象一下你在看一幅黑白漫画,轮廓线定义了每一个角色和物体,而电脑要做的,就是通过边缘检测来找出这些线条。这在很多像是图像分析这样的领域…...

机器学习基础(一)理解机器学习的本质

导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试&#xf…...

Eclipse - Makefile generation

Eclipse - Makefile generation References right mouse click on the project -> Properties -> C/C Build -> Generate Makefiles automatically 默认会在 Debug 目录下创建 Makefile 文件。 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...

Sora:新一代实时音视频通信框架

一、Sora简介 Sora是一个开源的实时音视频通信框架,旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术,支持跨平台、跨浏览器的实时音视频通信,并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…...

龟兔赛跑算法

一、题目 给定一个长度为 n1 的数组nums,数组中所有的数均在 1∼n1 的范围内,其中 n≥1。 请找出数组中任意一个重复的数。 样例 给定 nums [2, 3, 5, 4, 3, 2, 6, 7]。返回 2 或 3。 二、解析 解决这个问题的一种有效方法是使用快慢指针&#xf…...

Yii2项目使用composer异常记录

问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…...

【蓝桥杯 2021】图像模糊

图像模糊 题目描述 小蓝有一张黑白图像,由 nm 个像素组成,其中从上到下共 n 行,每行从左到右 m 列。每个像素由一个 0 到 255 之间的灰度值表示。 现在,小蓝准备对图像进行模糊操作,操作的方法为: 对于…...

【leetcode】贪心算法介绍

详细且全面地分析贪心算法常用的解题套路、数据结构和代码逻辑如下: 找最值型: 每一步选择都是局部最优解,最后得到的结果就是全局最优解。常用于找零钱问题、区间覆盖问题等。一般情况下,可以通过排序将数据进行处理,…...

com.alibaba.fastjson.JSONException: toJSON error的原因

问题: 导出接口报错,显示json格式化异常 发现问题: 第一个参数为HttpResponse,转换成json的时候报错 修改方法: 1.调换两个参数的位置 2.在aop判断里边 把ServletAPI过滤掉 Before("excudeWebController()")pub…...

华为配置旁挂二层组网直接转发示例

配置旁挂二层组网直接转发示例 组网图形 图1 配置旁挂二层组网直接转发示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时&#xff…...

OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译

OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要 语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中&#…...

单例模式双端检测详解

正确写出doublecheck的单例模式_double check单例模式-CSDN博客...

秦PLUS荣耀版7.98万元起震撼上市,拉开“电比油低”大幕

2月19日,秦PLUS荣耀版正式上市,五大颠覆、三大焕新刷新A轿体验新高度。DM-i版本5款车型,官方指导价7.98万元——12.58万元;EV版本5款车型,官方指导价10.98万元——13.98万元。正式开启“电比油低”新时代。 电比油低&a…...

学习总结19

# 奶牛的耳语 ## 题目描述 在你的养牛场&#xff0c;所有的奶牛都养在一排呈直线的牛栏中。一共有 n 头奶牛&#xff0c;其中第 i 头牛在直线上所处的位置可以用一个整数坐标 pi(0< pi < 10^8) 来表示。在无聊的日子里&#xff0c;奶牛们常常在自己的牛栏里与其它奶牛交…...

rancher v2.8.1 如何成功注册已有 k8s 集群

需要加入的集群为rke2部署的双节点集群 $ kubectl get node NAME STATUS ROLES AGE VERSION rke-master01 Ready control-plane,etcd,master,worker 94d v1.26.8rke2r1 rke-master02 Ready control-plane,etcd,mast…...

Vue中$root的使用方法

查看本专栏目录 关于作者 还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#x…...

redis 异步队列

//produceMessage.ts 模拟生产者 import Redis from ioredis; const redis new Redis(); // 生产者&#xff1a;将消息推送到队列 async function produceMessage(queueName:string, message:string) {try {await redis.rpush(queueName, message);console.log(Produced messa…...

SpringBoot + Nacos 实现动态化线程池

1.背景 在后台开发中&#xff0c;会经常用到线程池技术&#xff0c;对于线程池核心参数的配置很大程度上依靠经验。然而&#xff0c;由于系统运行过程中存在的不确定性&#xff0c;我们很难一劳永逸地规划一个合理的线程池参数。 在对线程池配置参数进行调整时&#xff0c;一…...

Python爬虫实战:研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

微软PowerBI考试 PL300-选择 Power BI 模型框架【附练习数据】

微软PowerBI考试 PL300-选择 Power BI 模型框架 20 多年来&#xff0c;Microsoft 持续对企业商业智能 (BI) 进行大量投资。 Azure Analysis Services (AAS) 和 SQL Server Analysis Services (SSAS) 基于无数企业使用的成熟的 BI 数据建模技术。 同样的技术也是 Power BI 数据…...

FFmpeg 低延迟同屏方案

引言 在实时互动需求激增的当下&#xff0c;无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作&#xff0c;还是游戏直播的画面实时传输&#xff0c;低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架&#xff0c;凭借其灵活的编解码、数据…...

中南大学无人机智能体的全面评估!BEDI:用于评估无人机上具身智能体的综合性基准测试

作者&#xff1a;Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位&#xff1a;中南大学地球科学与信息物理学院论文标题&#xff1a;BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接&#xff1a;https://arxiv.…...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)

CSI-2 协议详细解析 (一&#xff09; 1. CSI-2层定义&#xff08;CSI-2 Layer Definitions&#xff09; 分层结构 &#xff1a;CSI-2协议分为6层&#xff1a; 物理层&#xff08;PHY Layer&#xff09; &#xff1a; 定义电气特性、时钟机制和传输介质&#xff08;导线&#…...

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型 项目截图 项目简介 社会医疗保险是国家通过立法形式强制实施&#xff0c;由雇主和个人按一定比例缴纳保险费&#xff0c;建立社会医疗保险基金&#xff0c;支付雇员医疗费用的一种医疗保险制度&#xff0c; 它是促进社会文明和进步的…...

为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?

在建筑行业&#xff0c;项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升&#xff0c;传统的管理模式已经难以满足现代工程的需求。过去&#xff0c;许多企业依赖手工记录、口头沟通和分散的信息管理&#xff0c;导致效率低下、成本失控、风险频发。例如&#…...

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题&#xff0c;无需引入&#xff0c;直接可…...

PostgreSQL——环境搭建

一、Linux # 安装 PostgreSQL 15 仓库 sudo dnf install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-$(rpm -E %{rhel})-x86_64/pgdg-redhat-repo-latest.noarch.rpm# 安装之前先确认是否已经存在PostgreSQL rpm -qa | grep postgres# 如果存在&#xff0…...

【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)

LeetCode 3309. 连接二进制表示可形成的最大数值&#xff08;中等&#xff09; 题目描述解题思路Java代码 题目描述 题目链接&#xff1a;LeetCode 3309. 连接二进制表示可形成的最大数值&#xff08;中等&#xff09; 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...