当前位置: 首页 > article >正文

Pharma NLP:药品命名实体识别的代码工程实践

“把这几十万份 ADR(不良反应)报告里的药品名、不良事件、剂量信息都提取出来?现在全靠人工,一个人一天顶多 80 份,三年的报告积压在那儿了。”药品 NER 跟你在 CoNLL-2003 上跑的那个 NER,不是一个物种。通用 NER 里,"苹果"要么是水果要么是公司,上下文清晰,实体边界明确。但你见过这种原始文本吗:患者因急性上呼吸道感染就诊,医嘱予注射用头孢曲松钠(规格:1g/支) 静脉滴注,每日一次,连用3天,同时口服盐酸左西替利嗪片5mg QD, 用药第2日出现皮疹、瘙痒,考虑药物性皮炎,遂停用头孢曲松钠……这段文字里,光药品实体就有:注射用头孢曲松钠(药品全名)头孢曲松钠(同一药品的简称,出现在后文)盐酸左西替利嗪片(第二个药品)它们还有嵌套关系:头孢曲松钠是注射用头孢曲松钠的活性成分子实体。剂量1g、5mg分属两个药品。给药途径静脉滴注、口服各自对应不同药物。不良事件皮疹、瘙痒和药物性皮炎是同一事件的不同描述层级。这才是真实的药品文本——充满缩写、嵌套、指代、同义词,而且还要命地非结构化。代码实现:1 数据预处理# preprocess.py# 药品文本专用预处理管道# 已脱敏,去除所有公司/系统标识importrefromtypingimportList,Tuple,Optional# 药品文本中常见的噪声模式NOISE_PATTERNS=[r'\s*(详见说明书)\s*',r'\[.*?科室.*?\]',r'【.*?】',# 结构化字段标记r'(?!\d)\.(?!\d)',# 非小数点的孤立句号(部分OCR产物)]# 医学缩写展开表(节选,实际版本 ~2400 条)ABBREV_MAP={'QD':'每日一次','BID':'每日两次','TID':'每日三次','QID':'每日四次','PRN':'按需','SOS':'必要时','IV':'静脉注射','IVD':'静脉滴注','IM':'肌肉注射','SC':'皮下注射','PO':'口服','SL':'舌下含服',}# 剂量单位标准化映射UNIT_NORM={'MG':'mg','UG':'μg','MCG':'μg','G':'g','ML':'ml','L':'L','IU':'IU','U':'U','TAB':'片','CAP':'粒','CAPS':'粒',}defclean_adr_text(text:str)-str:""" ADR 报告专用清洗函数。 处理顺序很重要:先处理结构噪声,再做字符级标准化, 最后缩写展开(避免缩写展开后被噪声规则误匹配)。 """# Step 1: 移除已知噪声模式forpatterninNOISE_PATTERNS:text=re.sub(pattern,'',text)# Step 2: 全角转半角(药品名常混用)text=_full2half(text)# Step 3: 剂量单位大写标准化# 注意:只对独立的单位词做替换,避免误改药品名text=re.sub(r'(?=\d)('+'|'.join(UNIT_NORM.keys())+r')(?=[\s,,。;]|$)',lambdam:UNIT_NORM.get(m.group(0).upper(),m.group(0)),text,flags=re.IGNORECASE)# Step 4: 英文医学缩写展开(可配置是否展开)# 注意:展开后实体边界会变,需要与标注对齐# text = _expand_abbrev(text, ABBREV_MAP) # 根据业务场景决定是否启用# Step 5: 多余空白符合并text=re.sub(r'\s+',' ',text).strip()returntextdef_full2half(text:str)-str:"""全角字符转半角(保留中文字符)"""result=[]forcharintext:code=ord(char)if0xFF01=code=0xFF5E:# 全角可打印字符result.append(chr(code-0xFEE0))elifcode==0x3000:# 全角空格result.append(' ')else:result.append(char)return''.join(result)defsent_tokenize_medical(text:str)-List[str]:""" 医学文本分句。 医学文本的分句比通用文本更复杂: - "1.5mg" 里的句点不是句子边界 - "i.v." "p.o." 等缩写里的句点不是边界 - 中文句号、分号、顿号才是主要边界 """# 保护模式:先把不应该切的地方替换成占位符text=re.sub(r'(\d+)\.(\d+)',r'\1__DOT__\2',text)# 小数点text=re.sub(r'([a-zA-Z])\.([a-zA-Z])',r'\1__DOT__\2',text)# 英文缩写# 按医学文本常用边界切句sents=re.split(r'(?=[。!?;\n])',text)# 还原占位符sents=[s.replace('__DOT__','.').strip()forsinsents]# 过滤无效句子sents=[sforsinsentsiflen(s)

相关文章:

Pharma NLP:药品命名实体识别的代码工程实践

“把这几十万份 ADR(不良反应)报告里的药品名、不良事件、剂量信息都提取出来?现在全靠人工,一个人一天顶多 80 份,三年的报告积压在那儿了。” 药品 NER 跟你在 CoNLL-2003 上跑的那个 NER,不是一个物种。 通用 NER 里,"苹果"要么是水果要么是公司,上下文清…...

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码

扫地机器人,大厂扫地机器人 源代码,freertos实时操作系统,企业级应用源码,适合需要学习嵌入式以及实时操作系统的工程师,32端代码能实现延边避障防跌 落充电等功能。 硬件驱动包含 陀螺仪姿态传感器bmi160、电源管理bq…...

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示

Pi0机器人控制中心边缘计算效果展示:低延迟实时控制演示 1. 引言 想象一下,一个机器人能够像人类一样快速响应指令,几乎感觉不到任何延迟——你让它抬手,它瞬间抬手;你让它转向,它立即转向。这种流畅的实…...

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测

gte-base-zh语义去重方案:千万级UGC内容基于gte-base-zh的高效重复检测 1. 引言:当内容泛滥遇上重复难题 你有没有遇到过这样的场景?每天打开内容平台,推送的文章、视频、帖子看起来都差不多,好像总在重复。作为平台…...

EtherLab IGH1.6.5新版本发布:7年等待后的全面升级

1. 七年磨一剑:EtherLab IGH1.6.5的诞生背景 2017年10月发布的EtherLab IGH1.5.2版本,曾经是工业自动化领域的一个重要里程碑。这个开源EtherCAT主站解决方案,凭借其稳定性和灵活性,在机器人控制、数控机床、自动化生产线等场景中…...

影子货币:商家跑路,储值卡变成废纸

中国影子货币全图谱 目录 中国影子货币全图谱 一、第一类:银行表外影子货币(规模最大,约50万亿元) 1. 银行现金管理类理财产品(规模约18万亿元) 2. 银行非保本理财产品(规模约22万亿元) 3. 银行同业存单与同业理财(规模约10万亿元) 二、第二类:非银金融机构影子货币…...

Vue项目实战:基于Element-UI的El-Select-Tree树形下拉选择器封装指南

1. 为什么需要封装El-Select-Tree组件 在实际开发中,我们经常会遇到需要选择树形结构数据的场景。比如选择部门、分类目录或者地区信息时,传统的下拉选择器无法直观展示层级关系。Element-UI虽然提供了el-select和el-tree两个独立组件,但原生…...

H5年会抽奖实战:手机号与微信头像双模式实现

1. 为什么选择H5实现年会抽奖 每到年底,企业年会就成了大家最期待的活动之一。作为技术人,我们总想用些新花样让抽奖环节更有趣。去年我负责公司年会抽奖系统开发时,就遇到了一个典型需求:既要支持传统的手机号抽奖,又…...

ESP8266 OTA升级实战:基于巴法云的极简实现方案

1. ESP8266 OTA升级入门:为什么选择巴法云? 每次给ESP8266设备更新固件都要插USB线?太麻烦了!OTA(Over-The-Air)无线升级技术能让你像手机更新APP一样轻松升级设备固件。而巴法云平台的出现,把原…...

ESP居然能当 DNS 服务器用?内含NCSI欺骗和DNS劫持实现蓝

前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...

STM32定时器外部计数模式实战:高精度频率计设计与优化

1. 为什么选择外部计数模式做频率计 在嵌入式开发中,测量信号频率是个常见需求。我最初尝试用外部中断方式实现,发现当信号频率超过100kHz时,CPU中断响应就跟不上了。后来改用输入捕获模式,虽然精度提升到0.5%,但测量范…...

Codex使用教程:在PyTorch项目开发中借助AI编程助手提升效率

Codex使用教程:在PyTorch项目开发中借助AI编程助手提升效率 1. 为什么PyTorch开发者需要AI编程助手 如果你经常用PyTorch做深度学习开发,肯定遇到过这些情况:写数据加载器时总得翻文档查参数,模型定义部分重复写相似的层结构&am…...

libcrypt-dev安装指南:解决crypt.h缺失报错

1. 当你的代码突然喊"找不到crypt.h"时 第一次在Linux环境下编译加密相关的代码时,看到终端里跳出"crypt.h: No such file or directory"的红色报错,我差点把咖啡喷在键盘上。这个场景太常见了——你从GitHub克隆了个看起来很酷的开…...

Python爬虫实战:逆向解析央视频加密参数(附完整代码)

Python逆向工程实战:解密央视频加密体系的技术探索 在当今数字媒体蓬勃发展的时代,视频平台的内容保护机制日益复杂。作为开发者,理解这些保护机制不仅有助于合规获取公开数据,更能深入掌握现代Web应用的安全设计思路。本文将带您…...

Xinference-v1.17.1在计算机网络实验教学中的应用

Xinference-v1.17.1在计算机网络实验教学中的应用 1. 引言 计算机网络实验教学一直面临着设备成本高、实验环境复杂、协议分析困难等挑战。传统的实验方式需要学生手动配置网络设备、抓包分析协议,整个过程耗时耗力且容易出错。Xinference-v1.17.1的出现为计算机网…...

无需专业显卡!Qwen3-VL-4B Pro在普通电脑上的部署指南

无需专业显卡!Qwen3-VL-4B Pro在普通电脑上的部署指南 1. 从“看着眼馋”到“真正能用”:一个普通人的多模态AI体验 你有没有过这样的经历? 看到别人展示AI看图说话、识别表格、分析图表,觉得特别酷,自己也想试试。…...

FLUX.小红书极致真实V2工作台整合:与Notion/飞书/小红书后台联动

FLUX.小红书极致真实V2工作台整合:与Notion/飞书/小红书后台联动 1. 项目简介 你是否曾经遇到过这样的困扰:想要生成小红书风格的高质量图片,但要么需要昂贵的云端服务,要么本地部署的模型显存占用太大,普通显卡根本…...

StructBERT-中文-large部署指南:开源镜像免配置运行详解

StructBERT-中文-large部署指南:开源镜像免配置运行详解 1. 快速了解StructBERT文本相似度模型 StructBERT中文文本相似度模型是一个专门用于中文文本相似度计算的高性能模型。这个模型基于structbert-large-chinese预训练模型,经过大规模中文相似度数…...

深入解析ABB AC500与西门子S7-300的Profibus-DP通讯配置与优化

1. Profibus-DP通讯基础与硬件准备 在工业自动化领域,不同品牌PLC之间的通讯一直是工程师们需要面对的挑战。ABB AC500和西门子S7-300作为两大主流控制器,通过Profibus-DP实现数据交换是常见需求。Profibus-DP采用主从架构,最高传输速率可达1…...

ResMLP、gMLP怎么选?深入对比三大纯MLP视觉模型的优缺点与落地场景

ResMLP、gMLP与MLP-Mixer技术选型指南:三大纯MLP视觉模型实战对比 当计算机视觉领域还在为Transformer和CNN争论不休时,一匹黑马正悄然改变游戏规则——纯MLP架构。不同于传统认知,MLP-Mixer、ResMLP和gMLP这些仅由多层感知机构建的模型&…...

DIC分析中图像命名与种子点选择的实战技巧:以MultiDIC处理材料变形序列图为例

DIC分析中图像命名与种子点选择的实战技巧:以MultiDIC处理材料变形序列图为例 在材料力学性能研究中,数字图像相关技术(DIC)已成为测量物体表面位移和应变的重要工具。然而,许多研究者在实际操作中常常遇到分析结果不稳…...

从零开始:用Python手把手实现一个前馈神经网络(FNN)完整代码示例

从零开始:用Python手把手实现一个前馈神经网络(FNN)完整代码示例 在人工智能领域,前馈神经网络(Feedforward Neural Network, FNN)是最基础也最经典的模型之一。它不仅是深度学习入门的必经之路&#xff0c…...

别再只盯着代码行数了!用Tessy实测圈复杂度,教你一眼看穿函数有多“绕”

别再只盯着代码行数了!用Tessy实测圈复杂度,教你一眼看穿函数有多“绕” 在代码评审会上,你是否遇到过这样的场景:有人指着一段200行的函数说"太长了需要拆分",而另一段50行的嵌套逻辑却被所有人忽略&#x…...

Centos7防火墙高级策略:利用rich-rule实现精细化IP访问控制

1. 为什么需要精细化IP访问控制? 想象一下你家的防盗门——普通防火墙就像给大门装了一把锁,所有人都用同一把钥匙进出。而rich-rule则是给每个访客分配专属钥匙,还能规定谁可以进厨房、谁只能待在客厅。在企业服务器环境中,这种精…...

vscode-drawio:在VS Code中无缝集成专业图表设计的5大核心技术特性

vscode-drawio:在VS Code中无缝集成专业图表设计的5大核心技术特性 【免费下载链接】vscode-drawio This unofficial extension integrates Draw.io (also known as diagrams.net) into VS Code. 项目地址: https://gitcode.com/gh_mirrors/vs/vscode-drawio …...

从零构建MMRotate旋转检测实战:自定义数据集制作与模型调优全解析

1. 环境准备与MMRotate安装 第一次接触旋转目标检测时,我被各种坐标转换搞得头晕眼花。直到发现MMRotate这个神器,才让整个流程变得清晰可控。作为OpenMMLab家族成员,它封装了R3Det、Rotated Faster RCNN等主流旋转检测算法,特别适…...

SwiftUI DatePicker实战:打造一个旅行计划App(含完整代码)

SwiftUI DatePicker实战:构建旅行计划App的进阶技巧 每次规划旅行时,最让人头疼的莫过于安排行程日期。作为iOS开发者,我们可以用SwiftUI的DatePicker组件为用户打造流畅的日期选择体验。不同于基础教程,本文将带你深入实战&…...

Path of Building:流放之路玩家的终极离线Build规划指南

Path of Building:流放之路玩家的终极离线Build规划指南 【免费下载链接】PathOfBuilding Offline build planner for Path of Exile. 项目地址: https://gitcode.com/GitHub_Trending/pa/PathOfBuilding 你是否曾经在《流放之路》中花费数小时计算天赋点、装…...

GitHub 高效使用指南【实战篇】

1. GitHub 入门:从注册到创建第一个仓库 刚接触GitHub时,很多人会被各种专业术语吓到。其实GitHub就像是一个代码版的社交网络,你可以在这里分享代码、学习他人项目、参与开源贡献。我刚开始用GitHub时也犯过不少错误,比如把私钥文…...

终极指南:5分钟快速上手BiliTools哔哩哔哩工具箱

终极指南:5分钟快速上手BiliTools哔哩哔哩工具箱 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools 你是否…...