【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉
BioGPT + LSTM 自动补全医院紧急部门主诉
- 问题:针对在紧急部门中自动补全主诉的问题
- 子问题1: 提高主诉记录的准确性
- 子问题2: 加快主诉记录的速度
- 子问题3: 统一医疗术语的使用
- 子问题4: 减少打字错误和误解
- 子问题5: 提高非特定主诉的处理能力
- 解法
- 数据预处理
- 神经网络方法
- 迁移学习方法
- 提示调整:少量样本技术
论文:https://arxiv.org/pdf/2401.06088.pdf
问题:针对在紧急部门中自动补全主诉的问题
在医院紧急部门中:
- 急诊科:处理各种突发医疗情况,如创伤、心脏病发作等。
- 创伤中心:专门处理严重的创伤案例,如车祸伤害。
- 心脏急救中心:专注于心脏相关的紧急状况。
- 中风中心:专门处理中风患者的紧急护理。
- 儿科急诊:专门处理儿童的紧急医疗需求。
主诉自动补全系统可以帮助这些部门的医护人员快速准确地记录患者的病情描述,从而提高紧急医疗响应的效率和质量。
子问题1: 提高主诉记录的准确性
- 子解法1: 使用NLP技术自动识别和补全主诉文本
- 之所以使用NLP技术,是因为: 它能够理解和处理自然语言,自动识别医疗术语和患者描述的症状,从而提高记录的准确性。
举例: 如果一个患者描述了一系列模糊的症状,如“胸痛、呼吸困难”,NLP技术可以根据这些描述自动建议相关的、更具体的医疗术语,帮助护理人员快速准确地完成主诉记录。
子问题2: 加快主诉记录的速度
- 子解法2: 实现自动补全和预测功能
- 之所以实现自动补全和预测功能,是因为: 这可以减少医护人员输入完整词汇或句子所需的时间,特别是在忙碌的ED环境中,快速记录是非常必要的。
举例: 当医护人员开始输入“头痛”,系统就能提供一系列可能的补全选项,如“头痛持续时间”、“头痛性质”等,从而加速记录过程。
子问题3: 统一医疗术语的使用
- 子解法3: 促进标准化术语的采用
- 之所以促进标准化术语的采用,是因为: 在医疗记录中使用统一的标准术语可以减少误解和错误,确保不同的医护人员能够准确理解患者的状况。
举例: 如果系统能够识别医护人员输入的非标准术语,并自动建议对应的标准术语,比如将“心脏痛”自动更正为“胸痛”,这将有助于保持医疗记录的一致性和准确性。
子问题4: 减少打字错误和误解
- 子解法4: 提供拼写检查和语义理解支持
- 之所以提供拼写检查和语义理解支持,是因为: 打字错误和语言歧义是记录过程中常见的问题,通过技术手段减少这些错误可以提高记录的质量。
举例: 当医护人员输入“心绞痛”时,如果误输入为“新绞痛”,系统的拼写检查功能可以即时识别并更正错误,同时,语义理解支持能够确保使用正确的医学术语,减少因误解而导致的诊断错误。
子问题5: 提高非特定主诉的处理能力
- 子解法5: 引入上下文理解和预测分析
- 之所以引入上下文理解和预测分析,是因为: 非特定主诉(如“感觉不适”)需要根据上下文和患者的其他描述来准确理解和记录,NLP技术可以分析整个对话或记录的上下文,提供更准确的补全建议。
举例: 对于一个表达为“感觉不适”的主诉,系统可以根据患者之前提供的信息(如年龄、已知的健康状况)和当前的描述(如“最近旅行史”),自动建议可能相关的具体症状或需要询问的进一步信息,帮助医护人员快速定位问题。
解法
针对“在紧急部门中自动补全主诉(Chief Complaints, CC)”的问题,本文介绍了一系列解决步骤和方法。

主诉(CC)数据集经过预处理步骤,然后用来训练一个LSTM模型和微调BioGPT模型。
也对GPT-4.0的提示进行了调整。输入是一个不完整的主诉句子,随后通过LSTM模型或BioGPT模型处理,利用OpenAI API对GPT-4.0的提示进行操作。输出是生成的主诉句子。
数据预处理
问题: 如何处理和优化主诉数据以便于模型学习?
- 解决方法: 数据预处理
- 特征1: 使用Python NLP库Stanza分割主诉文本为句子
- 特征2: 基于句子长度过滤,丢弃少于4个词的句子
- 特征3: 将数据集分为训练集、验证集和测试集,比例为80%、10%和10%
文本清洗(去除无关字符,标准化术语)
句子分割(区分主诉和医疗历史)
关键词提取(提取症状、疾病名称等)

展示了如何将CC条目分割成“投诉”和“历史”部分,进一步分割成单独的句子,然后分割成种子序列以供模型处理。百分比表示种子序列包含原始句子的多少,如30%或50%。
神经网络方法
问题: 如何构建模型以自动补全主诉?
- 解决方法: LSTM模型应用
- 特征1: 嵌入层转换输入文本为密集词向量
- 特征2: LSTM层捕获文本长期依赖
- 特征3: 密集层输出序列中下一个词的概率分布

研究中使用的LSTM模型的架构。
它由一个输入层、一个将单词映射到100维向量空间的嵌入层、一个具有100个单元的LSTM层来处理序列和一个具有softmax激活的密集层组成,用于预测下一个词。
迁移学习方法
问题: 如何利用预训练模型提高自动补全的准确性?
- 解决方法: BioGPT模型应用
- 特征1: 选择已经在生物医学文献上预训练的模型,如BioGPT,因为它已经对医疗专业术语和上下文有了初步的理解。
- 特征2: 使用特定的主诉数据集进一步训练(细调)BioGPT模型,这样可以让模型更好地理解和生成针对特定医疗环境的文本。
- 特征3: 利用特殊令牌和标识句子的开始和结束,这些标记帮助模型识别文本的开始和结束,对处理多句子文本尤其重要。
提示调整:少量样本技术
问题: 如何通过少量示例提高模型对特定任务的适应性?
- 解决方法: GPT-4模型的提示调整
- 特征1: 利用OpenAI API,采用少量样本(Few-Shot)技术
- 特征2: 通过提供有限数量的任务演示在推理阶段进行条件化
- 特征3: 创建包含100个示例的提示以“编程”GPT模型
相关文章:
【医学大模型 补全主诉】BioGPT + LSTM 自动补全医院紧急部门主诉
BioGPT LSTM 自动补全医院紧急部门主诉 问题:针对在紧急部门中自动补全主诉的问题子问题1: 提高主诉记录的准确性子问题2: 加快主诉记录的速度子问题3: 统一医疗术语的使用子问题4: 减少打字错误和误解子问题5: 提高非特定主诉的处理能力 解法数据预处理神经网络方…...
HCIE-Datacom证书有效期多久?HCIE考试有哪些内容?
如今越来越多的人开始关注并参与到华为认证的学习中来。 其中,华为认证数据通信专家(HCIE-Datacom)作为华为认证体系中的高级认证,备受瞩目。 那么,关于HCIE-Datacom证书的有效期以及HCIE考试的内容,你知道多少呢?下…...
OpenCV中的边缘检测技术及实现
边缘检测是在电脑如何理解图片这一问题中的一环,它帮助电脑找出照片里的轮廓和分界线。想象一下你在看一幅黑白漫画,轮廓线定义了每一个角色和物体,而电脑要做的,就是通过边缘检测来找出这些线条。这在很多像是图像分析这样的领域…...
机器学习基础(一)理解机器学习的本质
导读:在本文中,将深入探索机器学习的根本原理,包括基本概念、分类及如何通过构建预测模型来应用这些理论。 目录 机器学习 机器学习概念 相关概念 机器学习根本:模型 数据的语言:特征与标签 训练与测试…...
Eclipse - Makefile generation
Eclipse - Makefile generation References right mouse click on the project -> Properties -> C/C Build -> Generate Makefiles automatically 默认会在 Debug 目录下创建 Makefile 文件。 References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/...
Sora:新一代实时音视频通信框架
一、Sora简介 Sora是一个开源的实时音视频通信框架,旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术,支持跨平台、跨浏览器的实时音视频通信,并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…...
龟兔赛跑算法
一、题目 给定一个长度为 n1 的数组nums,数组中所有的数均在 1∼n1 的范围内,其中 n≥1。 请找出数组中任意一个重复的数。 样例 给定 nums [2, 3, 5, 4, 3, 2, 6, 7]。返回 2 或 3。 二、解析 解决这个问题的一种有效方法是使用快慢指针…...
Yii2项目使用composer异常记录
问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…...
【蓝桥杯 2021】图像模糊
图像模糊 题目描述 小蓝有一张黑白图像,由 nm 个像素组成,其中从上到下共 n 行,每行从左到右 m 列。每个像素由一个 0 到 255 之间的灰度值表示。 现在,小蓝准备对图像进行模糊操作,操作的方法为: 对于…...
【leetcode】贪心算法介绍
详细且全面地分析贪心算法常用的解题套路、数据结构和代码逻辑如下: 找最值型: 每一步选择都是局部最优解,最后得到的结果就是全局最优解。常用于找零钱问题、区间覆盖问题等。一般情况下,可以通过排序将数据进行处理,…...
com.alibaba.fastjson.JSONException: toJSON error的原因
问题: 导出接口报错,显示json格式化异常 发现问题: 第一个参数为HttpResponse,转换成json的时候报错 修改方法: 1.调换两个参数的位置 2.在aop判断里边 把ServletAPI过滤掉 Before("excudeWebController()")pub…...
华为配置旁挂二层组网直接转发示例
配置旁挂二层组网直接转发示例 组网图形 图1 配置旁挂二层组网直接转发示例组网图 业务需求组网需求数据规划配置思路配置注意事项操作步骤配置文件扩展阅读 业务需求 企业用户通过WLAN接入网络,以满足移动办公的最基本需求。且在覆盖区域内移动发生漫游时ÿ…...
OLMo 以促进语言模型科学之名 —— OLMo Accelerating the Science of Language Models —— 全文翻译
OLMo: Accelerating the Science of Language Models OLMo 以促进语言模型科学之名 摘要 语言模型在自然语言处理的研究中和商业产品中已经变得无所不在。因为其商业上的重要性激增,所以,其中最强大的模型已经闭源,控制在专有接口之中&#…...
单例模式双端检测详解
正确写出doublecheck的单例模式_double check单例模式-CSDN博客...
秦PLUS荣耀版7.98万元起震撼上市,拉开“电比油低”大幕
2月19日,秦PLUS荣耀版正式上市,五大颠覆、三大焕新刷新A轿体验新高度。DM-i版本5款车型,官方指导价7.98万元——12.58万元;EV版本5款车型,官方指导价10.98万元——13.98万元。正式开启“电比油低”新时代。 电比油低&a…...
学习总结19
# 奶牛的耳语 ## 题目描述 在你的养牛场,所有的奶牛都养在一排呈直线的牛栏中。一共有 n 头奶牛,其中第 i 头牛在直线上所处的位置可以用一个整数坐标 pi(0< pi < 10^8) 来表示。在无聊的日子里,奶牛们常常在自己的牛栏里与其它奶牛交…...
rancher v2.8.1 如何成功注册已有 k8s 集群
需要加入的集群为rke2部署的双节点集群 $ kubectl get node NAME STATUS ROLES AGE VERSION rke-master01 Ready control-plane,etcd,master,worker 94d v1.26.8rke2r1 rke-master02 Ready control-plane,etcd,mast…...
Vue中$root的使用方法
查看本专栏目录 关于作者 还是大剑师兰特:曾是美国某知名大学计算机专业研究生,现为航空航海领域高级前端工程师;CSDN知名博主,GIS领域优质创作者,深耕openlayers、leaflet、mapbox、cesium,canvas&#x…...
redis 异步队列
//produceMessage.ts 模拟生产者 import Redis from ioredis; const redis new Redis(); // 生产者:将消息推送到队列 async function produceMessage(queueName:string, message:string) {try {await redis.rpush(queueName, message);console.log(Produced messa…...
SpringBoot + Nacos 实现动态化线程池
1.背景 在后台开发中,会经常用到线程池技术,对于线程池核心参数的配置很大程度上依靠经验。然而,由于系统运行过程中存在的不确定性,我们很难一劳永逸地规划一个合理的线程池参数。 在对线程池配置参数进行调整时,一…...
第19节 Node.js Express 框架
Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...
Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
MySQL中【正则表达式】用法
MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现(两者等价),用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例: 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...
GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决
Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决 问题背景 在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中,新增了一个本地验证码接口 /code,使用函数式路由(RouterFunction)和 Hutool 的 Circle…...
初学 pytest 记录
安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...
ABAP设计模式之---“简单设计原则(Simple Design)”
“Simple Design”(简单设计)是软件开发中的一个重要理念,倡导以最简单的方式实现软件功能,以确保代码清晰易懂、易维护,并在项目需求变化时能够快速适应。 其核心目标是避免复杂和过度设计,遵循“让事情保…...
20个超级好用的 CSS 动画库
分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...
【JVM面试篇】高频八股汇总——类加载和类加载器
目录 1. 讲一下类加载过程? 2. Java创建对象的过程? 3. 对象的生命周期? 4. 类加载器有哪些? 5. 双亲委派模型的作用(好处)? 6. 讲一下类的加载和双亲委派原则? 7. 双亲委派模…...
[ACTF2020 新生赛]Include 1(php://filter伪协议)
题目 做法 启动靶机,点进去 点进去 查看URL,有 ?fileflag.php说明存在文件包含,原理是php://filter 协议 当它与包含函数结合时,php://filter流会被当作php文件执行。 用php://filter加编码,能让PHP把文件内容…...
