当前位置: 首页 > article >正文

Healthsea:基于spaCy的补剂效果分析管道

Healthsea用于探索健康补剂效果的端到端spaCy管道2021年12月15日 • 38分钟阅读博客spaCy, Prodigy | 命名实体识别 | 文本分类 | 生物医学利用机器学习和自然语言处理创造更好的健康获取方式。本文介绍了Healthsea的开发历程这是一个端到端的spaCy管道用于分析用户对补充产品的评论并提取其对健康的潜在影响。大家好我是Edward我是一名机器学习工程师。在团队的共同努力下我们一直在开发Healthsea以进一步扩展spaCy宇宙。在这篇博客中我将带大家了解训练不同NLP模型、创建自定义组件并将它们组装成spaCy v3管道的过程目录 第1节Healthsea介绍 第2节理解问题✨ 第3节命名实体识别 第4节Clausecat⚙️ 第5节生产环境中的Healthsea 第6节历程第1节Healthsea介绍1.1 创造更好的健康获取方式Healthsea分析与健康影响相关的补充剂用户评论。基于此分析为特定用户查询提供产品推荐。对于许多人来说补充剂是维持健康和实现个人目标的补充手段。由于越来越受欢迎消费者可以获得更多种类的产品。例如维生素D3胆钙化醇维生素D的四种形式之一当皮肤暴露在UVB光下时会自然产生。特别是在冬季和阳光不足的地方人们经常补充维生素D3以预防缺乏并支持健康生活方式。然而市场上大多数产品可能是多余的或者以“数量优先于质量”的方式生产以最大化利润。由此产生的产品白噪声使得很难找到合适的补充剂。1.2 预期内容本文介绍了一种分析用户评论的技术方法并作为概念验证。我们利用spaCy内置的命名实体识别和文本分类功能结合自定义创建的子句分割和实体掩码组件构建并训练了一个机器学习管道。重要提示Healthsea是一个实验性项目结果不应作为解决健康问题的基础。在谨慎解读的前提下探索这一领域的数据可能具有价值。第2节理解问题2.1 解构评论大多数情况下评论是衡量产品质量的良好指标。它们可以提供关于口味、服务、运输尤其是健康效果的有趣见解。基于此第一个挑战是检测并过滤与健康相关的评论。我们可以将“关节疼痛”作为一个指标因为它与健康问题相关联。可以安全地假设每次提到健康方面如关节疼痛都与描述该方面如何被产品影响的描述相关。2.2 健康方面为了找到健康方面我们需要定义它们。首先想到的概念是疾病和症状通常希望通过“减少”它们来改善。ICD-11国际疾病分类是一个包含各种疾病和症状健康信息的数据库。评论也可能包含更普遍的健康问题如“吃饭时疼痛”。我们将ICD-11分类术语和普遍健康问题这一组标记为Condition。我们还希望检测既不是疾病也不是症状的健康方面例如“让我的皮肤焕发光泽”、“现在睡眠好多了”、“提高了我的精力水平”。这些是通常希望“增加”的健康方面我们称之为Benefit。2.3 健康效果检测到Condition或Benefit实体后下一步是提取它们如何受到产品影响。我们可以使用“增加”和“减少”作为指标将健康效果分类为正向或负向“这增加了我的condition” → 负向“这减少了我的condition” → 正向“这增加了我的benefit” → 正向“这减少了我的benefit” → 负向如果健康方面既未增加也未减少则视为Neutral效果。我们还添加了一个Anamnesis既往史类作为一个临时缓存用于收集和链接相关信息。2.4 数据是一切我们使用来自某在线补剂市场的数据。数据集包含多达100万条匿名评论涵盖10,000种产品并包含有用的元信息如产品评分和有用计数。数据还包含产品成分使我们能够提供产品和成分推荐。在数据清洗方面我们过滤了所有非英语评论排除了词数低于一定阈值的评论并将它们格式化为utf-8。2.5 完整管道我们将分析分解为多个较小的处理步骤检测健康方面、分类健康效果、汇总所有信息等。因此我们将其实现为端到端管道可以添加只关注单一任务的模块化组件。第3节命名实体识别为了检测健康方面我们使用命名实体识别NER即识别文本中不重叠的跨度如专有名词和类似表达的任务。我们将使用spaCy内置的NER架构训练带有两个标签Condition和Benefit的模型。3.1 标注规则标注数据是训练模型的第一步事先考虑一致的标注规则至关重要。我们使用第2.2节中为健康方面定义的规则。标注过程中我们将确保考虑由多个词/数字组成的实体如“2型糖尿病”和缩写如“ADHD”。3.2 Prodigy本项目使用Prodigy进行数据标注。Prodigy是一个由主动学习驱动的强大标注工具支持各种NLP任务。其可视化界面使得标注和处理大量数据更加容易同时通过为当前任务提供特殊配方来提高效率。3.3 标注NER模型的标注包含5060个示例其中1893个示例提及一个或多个实体3167个无实体示例类型数量百分比有实体189337.41%无实体316762.59%总计5060100%3.4 训练spaCy v3引入了一个配置系统允许在单个文件中管理管道中的所有超参数和设置。管道目前包含一个Tok2Vec组件和一个EntityRecognizer组件。我们准备了三种配置进行评估Tok2Vec嵌入带预训练向量的Tok2Vec嵌入Transformer嵌入albert-base-v23.5 评估使用Weights Biases跟踪训练结果。预训练帮助模型表现稍好并在训练早期提高准确率。两者平均F1分数均接近0.8。Transformer表现更好但运行时间更慢。第4节Clausecat为了将健康效果分类为正向、负向、中性和既往史四类我们使用文本分类。目标是让模型学习哪些词表示“增加”、“减少”或都不表示。4.1 子句分割当句子包含多个健康方面时我们需要将句子分割成子句。例如“这对关节疼痛很好但也引起了皮疹。”分割后得到两个子句每个子句恰好包含一个健康方面。为了处理类似“这对关节疼痛很好但对髋部疼痛不好”的情况我们不进行简单分割而是创建同一句子的两个版本每个版本掩码不同的实体。掩码使用通用标记如_CONDITION_替换相关实体有助于模型更好地泛化。4.2 Benepar我们使用Benepar解析器实现子句分割这是一个执行成分句法分析的spaCy宇宙组件。成分句法分析提供了更多关于并列结构的细节。4.3 分割组件创建自定义spaCy组件ClauseSegmentation执行基于Benepar和NER结果的分割和掩码逻辑。组件将分割索引保存在自定义属性._.clauses中。4.4 Clausecat组件修改内置的textcat组件以支持掩码和分割逻辑命名为Clausecat。创建自定义Thinc模型将自定义掩码层链接到现有textcat模型。4.5 聚合组件聚合组件合并Clausecat的预测并创建患者信息缓存以链接健康方面和健康效果。当同一健康方面在评论中被多次提及时聚合多个预测为最终分类保存在._.health_effects中。4.6 标注在标注Clausecat数据之前我们以与训练时相同的方式预处理数据分割评论、掩码实体然后进行标注。4.7 训练最终管道包含以下组件sentencizer、tok2vec、ner、benepar、segmentation、clausecat、aggregation。4.8 评估预训练对clausecat性能的提升远大于对NER模型的提升。负向和既往史类由于样本不平衡表现较差但预训练显著提升了这两个类的准确率。第5节生产环境中的Healthsea管道构建完成后可通过spacy package打包并通过pip安装使用。5.1 端到端评估管道能正确处理简单评论也能处理复杂情况如“这对膝盖疼痛完美但对髋部疼痛无效” → 正确分割并分别预测为正向和中性。既往史类和工作 “医生诊断我患有失眠。服用产品后症状消失” → 正确识别为既往史后接正向。5.2 大规模分析使用Healthsea分析了100万条评论的完整数据集基于结果提供产品推荐。5.3 虚假评论通过检测可疑行为如每天写多条评论、许多5星或0星评论、完全相同内容的评论来识别虚假评论。约12%的客户被标记为“可疑”其评论将受到惩罚分数以降低影响。5.4 评分结果评分公式考虑了效果分数、评分分数、有用分数和可疑分数。产品分数还考虑了提及比例帮助评论较少但提及率高的产品获得更高分数。5.5 聚类健康方面使用预训练权重计算相似度在90%相似度阈值下对实体进行聚类以改善搜索。第6节历程成功构建了Healthsea管道现在可以根据评论者的反馈提供产品推荐。Healthsea的架构历经两年开发从简单的基于规则的完全不奏效的情感分析开始。未来计划应用关系抽取和共指消解识别文本中的产品提及将实体链接与ICD-11集成获取更多数据和标注使用图数据库和搜索引擎返回产品推荐FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享

相关文章:

Healthsea:基于spaCy的补剂效果分析管道

Healthsea:用于探索健康补剂效果的端到端spaCy管道 2021年12月15日 • 38分钟阅读 博客:spaCy, Prodigy | 命名实体识别 | 文本分类 | 生物医学 利用机器学习和自然语言处理创造更好的健康获取方式。本文介绍了Healthsea的开发历程,这是一个端…...

FP6291升压芯片:升压5V/7.4V/12V,适配智能门锁供电需求

在智能门锁硬件设计与实操过程中,常见的痛点是锂电池的常见电压(3.7V、3.2V)与门锁电机的工作电压需求(5V、7.4V、甚至12V)不匹配,电压不足直接导致电机无法正常驱动,进而影响门锁开关功能的实现…...

FreeMove:Windows目录迁移终极解决方案,98%成功率释放C盘空间

FreeMove:Windows目录迁移终极解决方案,98%成功率释放C盘空间 【免费下载链接】FreeMove Move directories without breaking shortcuts or installations 项目地址: https://gitcode.com/gh_mirrors/fr/FreeMove 你是否经常因为C盘空间不足而烦恼…...

GitHub汉化插件终极指南:3分钟告别英文困扰,畅游中文GitHub世界

GitHub汉化插件终极指南:3分钟告别英文困扰,畅游中文GitHub世界 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese …...

仅限首批23家制造企业内部流通的PHP网关诊断工具包(含Wireshark深度解码插件+PLC异常帧自动归因引擎)

第一章:工业PHP物联网数据网关开发概览工业物联网(IIoT)场景中,PHP虽常被视作Web层语言,但凭借其成熟的扩展机制、轻量级进程模型及丰富的串口/网络通信库支持,可构建高可靠、易维护的边缘数据网关。该网关…...

codex gpt-5.4 日卡200刀

一、配置 auth.jsonapikey如下:sk-8UvPchGMHwu8E8h7uuzzpk9Zv70SI8SU5cNNSnyy8nnv5mLV二、配置 config.tomlmodel_provider "codexeasy" model "gpt-5.4" model_reasoning_effort "high" disable_response_storage true[model_pr…...

SDMatte Web前端性能优化:大图片上传与预览的流畅体验实现

SDMatte Web前端性能优化:大图片上传与预览的流畅体验实现 1. 引言:大图片处理的用户体验痛点 在图像处理类Web应用中,用户上传大尺寸图片时常常面临几个典型问题:上传速度慢、页面卡顿、预览效果差。以SDMatte这样的智能抠图工…...

Flutter应用安全保护:代码混淆的重要性与Android/iOS混淆步骤详解

前言 本文将会和大家说下保护代码的重要性,和如何给程序加上混淆编译功能。 尽可能的不要在你的程序中写死各种服务秘钥,比如 oss 容易被盗用。 参考 https://docs.flutter.dev/deployment/obfuscatehttps://www.guardsquare.com/blog/obstacles-in-…...

2026年正规的geo推广合作投放,究竟能带来怎样的营销新突破?

在2026年,营销领域正经历着前所未有的变革,随着AI技术的飞速发展,传统营销方式逐渐显露出局限性,而GEO推广合作投放作为一种新兴的营销手段,正逐渐成为企业关注的焦点。那么,正规的GEO推广合作投放究竟能为…...

tao-8k嵌入模型惊艳体验:Xinference WebUI界面操作,效果一目了然

tao-8k嵌入模型惊艳体验:Xinference WebUI界面操作,效果一目了然 1. tao-8k模型核心能力展示 tao-8k是由Hugging Face开发者amu研发的开源文本嵌入模型,专注于将文本转换为高维向量表示。这款模型最引人注目的特点是支持长达8192个token的上…...

智能货架供应商哪家强?2026年综合实力深度评测

“智能货架用得好是效率引擎,用不好就是钢铁牢笼。”这是我在仓储物流行业摸爬滚打15年来最深的体会。当你的企业决定引入智能货架系统(穿梭车货架、自动化立体库货架)时,最核心的疑问只有一个:到底哪家供应商靠谱&…...

Pixel Fashion Atelier惊艳效果展示:512x768竖版高精度皮装图集

Pixel Fashion Atelier惊艳效果展示:512x768竖版高精度皮装图集 1. 像素艺术与时尚的完美融合 Pixel Fashion Atelier(像素时装锻造坊)将复古游戏美学与现代时尚设计相结合,创造出了独特的视觉体验。这款基于Stable Diffusion与…...

达摩院春联AI实战落地:中小企业春节营销内容智能生产方案

达摩院春联AI实战落地:中小企业春节营销内容智能生产方案 1. 引言:当春节营销遇上AI 春节,是中国人最重要的节日,也是商家营销的黄金时段。对于中小企业来说,如何在这个节点高效、低成本地创作出有年味、有创意的营销…...

PD诱骗取电芯片XSP28Q应用简介

PD快充是近几年非常流行的一种USB快充标准协议,主要使用USB Type-C接口作为传输途径。目前主流的快充协议主要是PD协议、QC协议、AFC协议、SCP协议、VOOC等。所有的快充协议有分为供电端和受电端(或者说取电端、用电端等),一般我们…...

DeepSeek-R1-Distill-Llama-8B在智能家居中的语音交互方案

DeepSeek-R1-Distill-Llama-8B在智能家居中的语音交互方案 1. 引言 智能家居正在改变我们的生活方式,但传统的语音助手常常让人感到"不够智能"——它们要么听不懂复杂的指令,要么无法理解上下文,要么反应迟钝。想象一下这样的场景…...

5分钟玩转nanobot:超轻量级AI助手的多场景使用体验

5分钟玩转nanobot:超轻量级AI助手的多场景使用体验 1. 初识nanobot:轻量级AI助手新选择 如果你正在寻找一个既强大又轻便的AI助手,nanobot绝对值得一试。这个基于Qwen3-4B-Instruct-2507模型的AI助手,整个系统仅需约4000行代码&…...

我没搞过前端、后端、安卓,但我用AI全部打通技术壁垒

用的cursor,直接给文字需求,实现了前端、后端、网站部署,再到直接生成安卓apk,我全程0代码编写。前后加起来搞了半个月,效果比10年顶级工程师写的还好。 效果预览:http://8.146.228.154/index.html...

PHP AI编程辅助工具校验体系(2024权威白皮书版):覆盖LLM幻觉、类型污染、RCE链三重防御

第一章:PHP AI编程辅助工具校验体系概览PHP AI编程辅助工具校验体系是一套面向开发效能与代码可信度双重目标的动态验证框架,旨在确保AI生成或增强的PHP代码在语法正确性、运行时安全性、框架兼容性及业务语义一致性等维度均满足生产级标准。该体系并非静…...

NVIDIA Profile Inspector终极指南:简单三步掌握显卡性能优化

NVIDIA Profile Inspector终极指南:简单三步掌握显卡性能优化 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 还在为游戏卡顿、画面撕裂而烦恼吗?NVIDIA Profile Inspector这款免…...

3步掌握RePKG工具:从Wallpaper Engine资源提取到项目重构的实战指南

3步掌握RePKG工具:从Wallpaper Engine资源提取到项目重构的实战指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 你是否曾经看着Wallpaper Engine中精美的动态壁纸&a…...

PMP刷题必备口诀-6(题库+答案详细解析)

刷题必背口诀范围说明书四件套,产品描述、可交付、验收标准、除外责核心项内容说明核心考点1. 产品范围描述交付物的核心特征、功能细节明确 “产品是什么”2. 可交付成果最终产出的实物、服务或清单明确 “要交出什么”3. 验收标准可交付物通过验收的硬性条件验收的…...

PMP刷题必备口诀-5(题库+答案详细解析)

刷题必背口诀变更泛滥先找根,干系没认全是祸根考点:项目出现大量变更请求,最核心的根源问题,往往是项目初期没有完整识别所有干系人(干系人登记册不完整)。没被识别到的干系人,不会参与前期需求…...

Bypass Paywalls Clean技术实现:浏览器扩展的付费内容访问完整方案

Bypass Paywalls Clean技术实现:浏览器扩展的付费内容访问完整方案 Bypass Paywalls Clean是一款基于Chrome扩展架构的智能内容访问工具,通过请求头优化、脚本注入和动态解析技术,为技术爱好者和进阶用户提供突破网站付费限制的深度解决方案&…...

Qwen3-14B航天领域探索:遥测数据解读、任务规划建议、故障预案生成

Qwen3-14B航天领域探索:遥测数据解读、任务规划建议、故障预案生成 1. 航天领域AI应用概述 航天工程是典型的高复杂度系统工程,涉及海量数据处理、精密任务规划和严苛安全要求。传统工作流程面临三大核心挑战: 遥测数据解读:卫…...

JiYuTrainer技术解构:从核心突破到场景落地的创新路径

JiYuTrainer技术解构:从核心突破到场景落地的创新路径 【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解 项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 技术内核:模块化架构的创新设计 跨层协同的四维架构…...

SDD基于规范编程-OpenSpec及SuperPowers狙

智能体时代的代码范式转移与 C# 的战略转型 传统的 C# 开发模式,即所谓的“工程导向型”开发,要求开发者创建一个复杂的项目结构,包括项目文件(.csproj)、解决方案文件(.sln)、属性设置以及依赖…...

**NumPy实战进阶:用向量化操作解锁高性能科学计算新姿势**在现代Python数据科学生态中,

NumPy实战进阶:用向量化操作解锁高性能科学计算新姿势 在现代Python数据科学生态中,NumPy不仅是基础库,更是性能优化的核心引擎。它通过底层C语言实现的数组运算,让原本繁琐的循环逻辑变成一行简洁高效的向量化表达式。本文将深入…...

Claude读论文系列(七)

SkillSieve 精读笔记 论文标题: SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills arXiv: 2604.06550 | 2026-04-09 作者: Yinghan Hou(Imperial College London) Zongyou Yang…...

GLM-4v-9B应用案例:电商商品图识别、文档图表解析,真实场景体验

GLM-4v-9B应用案例:电商商品图识别、文档图表解析,真实场景体验 1. 多模态模型的核心能力 1.1 高分辨率图像理解 GLM-4v-9B原生支持11201120高分辨率输入,能够清晰识别图像中的小字、表格和复杂细节。在实际测试中,即使是电商商…...

分享 种 .NET 桌面应用程序自动更新解决方案骋

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在不共享状…...