当前位置: 首页 > news >正文

英国皇家植物园采用机器学习预测植物抗疟性,将准确率从 0.46 提升至 0.67

内容一览:疟疾是严重危害人类生命健康的重大传染病,研究人员一直在致力于寻找新的植物源性抗疟疾化合物,以研发相关药物。近期英国皇家植物园利用机器学习 算法 有效预测了植物抗疟性,该研究成果目前已发表在《Frontiers in Plant Science》期刊上。
关键词:植物学 抗疟疾 支持向量

作者 | 缓缓
编辑 | 三羊

本文首发自 HyperAI 超神经微信公众平台~

疟疾是一种肆虐全球的寄生虫病,它通过蚊媒传播,其发病率以及致死率始终在虫媒传播疾病中居高不下。根据最新的《世界疟疾报告》,2021 年全球疟疾流行进一步加剧,全年共有 2.47 亿例新发病例,预计死亡病例 61.9 万人。

目前全球仍以药物治疗作为主要的疟疾防治手段,并且很多药物的抗疟疾活性天然分子都来源于植物之中,因此,研究人员们一直致力于寻找新的植物源性抗疟疾化合物,不过,为了达到这个目的,需要对大量的植物进行筛选和测试,这个过程非常耗时且昂贵。

近期,英国皇家植物园 (Royal Botanic Gardens, Kew) 及圣安德鲁斯大学 (University of St Andrews) 的研究人员证明了机器学习算法能够有效预测植物抗疟性,且准确率为 0.67,相较传统试验方法的 0.46,已有了明显提升。目前,该研究成果已发表在《Frontiers in Plant Science》期刊上,标题为《Machine learning enhances prediction of plants as potential sources of antimalarials》。

请添加图片描述

该研究成果已发表在《Frontiers in Plant Science》上

数据集及抽样偏差校正

本实验重要目标之一是评估是否可以用植物特征数据训练机器学习模型来预测植物抗疟活性。首先,研究人员提供了一个数据集,该数据集基于龙胆目的 3 个花卉植物科——夹竹桃科、马钱科和茜草科的 21,100 个植物物种。 这些植物已被发现含有许多生物碱,如抗疟生物碱奎中的奎宁以及其异构体奎尼丁等。

请添加图片描述

图 1:夹竹桃、马钱和茜草科中含有抗疟疾生物碱的实例

A:在夹竹桃科植物中发现的一种生物碱:Aspidocarpine。

B:在马钱子科植物中发现的一种生物碱:Strychnogucine。

C:在茜草科植物中发现的、现被广泛用于抗疟药物中的生物碱:Quinine(奎宁)。

数据集具体包括植物形态特征、生物化学特征、生长环境条件以及地理位置等信息,下图展现了这份数据集中二元特征之间(只有两种取值的特征,如有毒/无毒)的关系。

请添加图片描述

图 2:数据集中二元特征间的关系

X 轴:二元特征。
Y 轴:每个特征的平均值,其中每个特征代表了不同的植物属性,如是否有毒、是否被用作传统药物等。

如图所示,所有植物物种中有 10% 被用作传统药物,而有毒植物物种有 77% 被用作传统药物,研究人员将这种差异称为抽样偏差,并且提出抽样偏差是由民族植物法 (ethnobotanical approach) 造成的。

民族植物学是指通过寻找和研究当地居民用于治疗疾病的植物来寻找药用植物,但因为不同地区和不同文化之间存在差异, 就可能会出现某一种或几种具有抗疟性的植物频繁地在数据集里出现,而导致其他可能具有抗疟性的植物被忽略,这就是所谓的抽样偏差。

为了更好地训练模型,研究人员对抽样偏差进行了校正,**具体方式是对每个植物物种进行重新加权,即使用了反向概率加权 (Inverse Probability Weighting) ,**这样每个物种样本都能在模型训练中被平等对待,从而提高数据集的代表性和模型的性能。

实验成果展示

模型训练及验证

本次实验中,研究人员训练了基于支持向量 (SVC)、逻辑 回归 (Logit)、XGBoot (XGB) 以及贝叶斯神经网络 (BNN) 的 4 种机器学习模型,并将这些模型与 2 种民族植物学方法——寻找传统抗疟植物和寻找传统药用(不特定于疟疾)植物进行比较。

对于基于 Logit、SVC 和 XGB 的 3 个模型,**研究人员的训练方法是通过 GridSearchCV 算法对模型的超参数进行调整,并使用 F0.5 指标来评估模型性能。**其中,研究人员对基于 Logit、SVC 的两个模型调整了 正则化 参数 C 和 class_weight 参数;对基于 XGB 的模型,则调整了 max_depth 参数。

对于基于 BNN 的模型,研究人员使用了两层分别有 10 个和 5 个的神经网络以及 tahn 激活函数 (activation function),又通过 100,000 个马尔可夫链蒙特卡洛迭代 (Markov chain Monte Carlo iterations) 来训练模型。

在验证阶段,研究人员在两种情况(没有进行抽样偏差校正和进行抽样偏差校正)下采用 10 次迭代的 10 折分层交叉验证 (10 iterations of 10-fold stratified cross validation) 方法对模型性能进行评估。

实验结果

首先是没有进行抽样偏差校正情况下,研究人员对筛选植物源性抗疟化合物的实验结果如下:

请添加图片描述

图 3:没有进行偏差校正情况下机器学习模型与 2 种民族植物法对比

如图所示,总体来看,机器学习模型的平均得分比 2 种民族植物法都要高, 并且能从数据特征中预测抗疟活性 (BNN: 0.66,XGB: 0.66,Logit: 0.62,SVC:0.65,Ethno (M): 0.57,Ethno (G): 0.50)。

进行了偏差校正情况下,研究人员对筛选植物源性抗疟化合物的实验结果如下:

请添加图片描述
图 4:进行了偏差校正情况下机器学习模型与 2 种民族植物法对比

如图所示,虽然由于对训练和测试集增加了 权重 ,使得模型性能的方差较高,但机器学习模型表现仍然比民族植物学方法要好。 研究人员将传统植物选择法的准确率估计为 0.47,而机器模型的预测准确率则普遍高于这个数字 (BNN: 0.59,XGB: 0.63,Logit: 0.66,SVC: 0.67)。

不过,虽然此实验成果展示了机器学习模型可以相对准确地筛选出具有抗疟活性的植物,但研究人员称,该实验仍有需要改进的部分:

  • 增加训练数据: 目前训练数据集相对较小,需要增加更多的植物物种数据来进一步提高模型的性能。

  • 解决抽样偏差问题: 虽然本实验中已经试图解决抽样偏差问题,但仍需要发掘更多的偏差校正方法。

  • 优化特征选择:需要进行更多的植物特征选择和优化。

  • 进一步测试物种数量过少或样本分布不均衡的植物物种: 对于现有数据中代表性不足的物种,需要进行更多的测试,以获得更准确的结果。

英国皇家植物园:发现植物的力量

对于本项研究成果,英国皇家植物园院长表示:「我们的研究结果显示了植物在生产新药方面拥有巨大潜力。 据估计,目前已知的维管植物物种有 34,300 种,但很多并没有得到深入的科学研究。我们希望机器学习方法能够应用在这方面,以寻找新的药用化合物。 并且这些成果也凸显了保护生物多样性和可持续发展自然资源的重要性。」

闻名于世的英国皇家植物园 (Royal Botanic Gardens, Kew) 通常被简称为「邱园」(Kew Gardens) 。邱园是国际知名植物研究与教育机构,由英国政府环境食品和乡村事务部 (Department for Environment, Food and Rural Affairs, UK) 资助,它是一个非政府部门性质的公立团体。邱园的目标是:「保护生物多样性,研发基于自然的解决方案,来应对人类面临的全球性挑战。」

大约在几个月之前,有新闻报道致力于可持续发展的基金 Greensphere Capital 计划对邱园投资 1 亿英镑,该笔投资将用于可持续农业以及招聘新的研究人员来研究植物和真菌科学、栖息地保护、农业及林业等项目。

本文首发自 HyperAI 超神经微信公众平台~

相关文章:

英国皇家植物园采用机器学习预测植物抗疟性,将准确率从 0.46 提升至 0.67

内容一览:疟疾是严重危害人类生命健康的重大传染病,研究人员一直在致力于寻找新的植物源性抗疟疾化合物,以研发相关药物。近期英国皇家植物园利用机器学习 算法 有效预测了植物抗疟性,该研究成果目前已发表在《Frontiers in Plant…...

基于Locust实现MQTT协议服务的压测脚本

一、背景简介 业务背景大概介绍一下,就是按照国标规定,车辆需要上传一些指定的数据到ZF的指定平台,同时车辆也会把数据传到企业云端服务上,于是乎就产生了一些性能需求。 目前我们只是先简单的进行了一个性能场景的测试&#xf…...

AURIX TC3XX Cached PFLASH与Non-Cached PFLASH的区别

Cached ? Non-Cached? 在阅读TC3XX的用户手册时,在内存映射表中,有两个segment都是Program Flash,而且大小都一样是3M,一个是segment 8 另一个是segment10 这难免让人产生疑惑,二者区别在哪? …...

uniapp开发小程序-显示左滑删除效果

一、效果图&#xff1a; 二、代码实现&#xff1a; <template><view class"container"><view class"myorderList"><uni-swipe-action><uni-swipe-action-item class"swipe-action-item" :right-options"option…...

FPGA 的数字信号处理:Verilog 实现简单的 FIR 滤波器

该项目介绍了如何使用 Verilog 实现具有预生成系数的简单 FIR 滤波器。 绪论 不起眼的 FIR 滤波器是 FPGA 数字信号处理中最基本的模块之一&#xff0c;因此了解如何将具有给定抽头数及其相应系数值的基本模块组合在一起非常重要。因此&#xff0c;在这个关于 FPGA 上 DSP 基础…...

使用粒子群优化算法(PSO)辨识锂电池二阶RC模型参数(附MATLAB代码)

目录 一、原理部分 二、代码详解部分 三、结果及分析 一、原理部分 PSO算法由美国学者于 1995 年提出&#xff0c;因其算法简单、效果良好&#xff0c;而在很多领域得到了广泛应用。该算法的起源是模拟鸟群的觅食过程&#xff0c;形成一种群体智能搜索算法。 其核心是&#…...

如何利用地面控制点实现倾斜摄影三维模型数据的几何坐标变换和纠正?

如何利用地面控制点实现倾斜摄影三维模型数据的几何坐标变换和纠正&#xff1f; 倾斜摄影是一种在空中拍摄地表物体的技术&#xff0c;可以获得高分辨率、高精度的三维模型数据&#xff0c;广泛应用于城市规划、建筑设计、土地管理等领域。然而&#xff0c;由于航拍时无法避免姿…...

设计规则之里氏替换原则

tip: 作为程序员一定学习编程之道&#xff0c;一定要对代码的编写有追求&#xff0c;不能实现就完事了。我们应该让自己写的代码更加优雅&#xff0c;即使这会费时费力。 相关规则&#xff1a; 推荐&#xff1a;体系化学习Java&#xff08;Java面试专题&#xff09; 1.6大设…...

【叠高高】叠蛋糕游戏的微信小程序开发流程详解

记得小时候玩过的搭积木游戏吗&#xff0c;和叠高高游戏原理差不多的&#xff0c;与之类似的还有盖高楼游戏&#xff0c;就是看谁盖的&#xff08;叠的&#xff09;最高&#xff0c;这里讲一下比较基础的叠高高游戏小程序实现过程&#xff0c;对编程感兴趣的同学可以参考学习一…...

收集关键词的方法有哪些?(如何查找精准的行业流量关键词)

关键词的收集通常可以通过以下几种方法: 关键词收集方法 1.根据市场价值、搜索词竞争性和企业实际产品特征进行筛选&#xff1a;确定您的关键词列表之前&#xff0c;建议先进行市场分析&#xff0c;了解您的竞争对手、行业状况和目标受众等信息&#xff0c;以更好地了解所需的特…...

【GreenDao】RxQuery查询并修改GreenDao数据库,完成后更新UI

GreenDao是一个轻量级的ORM&#xff08;对象关系映射&#xff09;数据库&#xff0c;而RxJava是一个响应式编程库&#xff0c;可以帮助我们更轻松地处理异步事件。在 Android 应用程序中&#xff0c;您可以使用这两个库一起处理数据库查询和更新&#xff0c;并使用观察者模式来…...

Modifier ‘public‘ is redundant for interface methods错误

java中接口的方法默认是 public abstract 的 所以放心的删掉public即可&#xff0c;如果改为protected 或者 private还会报错 接口的方法及变量的默认修饰符 1.接口中每一个方法也是隐式抽象的,接口中的方法会被隐式的指定为 public abstract &#xff08;只能是 public abst…...

Redis缓存击穿及解决问题

缓存击穿的意思是对于设置了过期时间的key,缓存在某个时间点过期的时候&#xff0c;恰好这时间点对这个 Key有大量的并发请求过来&#xff0c;这些请求发现缓存过期- -般都会从后端DB加载数据并回设到缓存&#xff0c;这个时候大并发的请求可能会瞬间把DB压垮。 解决方案有两种…...

环境感知算法——2.CenterNet基于KITTI数据集训练

1. CenterNet简介 CenterNet采用了一种新的检测思路&#xff0c;即以目标中心点为基础&#xff0c;直接回归出目标的位置和大小。而传统的目标检测算法通常会先产生大量候选框&#xff08;Anchor&#xff09;&#xff0c;再通过分类器进行筛选&#xff0c;这种方法比较复杂。C…...

JUC 高并发编程基础篇

JUC 高并发编程基础篇 • 1、什么是 JUC • 2、Lock 接口 • 3、线程间通信 • 4、集合的线程安全 • 5、多线程锁 • 6、Callable 接口 • 7、JUC 三大辅助类: CountDownLatch CyclicBarrier Semaphore • 8、读写锁: ReentrantReadWriteLock • 9、阻塞队列 • 10、ThreadPo…...

【十二】设计模式~~~行为型模式~~~命令模式(Java)

命令模式-Command Pattern【学习难度&#xff1a;★★★☆☆&#xff0c;使用频率&#xff1a;★★★★☆】 1.1. 模式动机 在软件设计中&#xff0c;我们经常需要向某些对象发送请求&#xff0c;但是并不知道请求的接收者是谁&#xff0c;也不知道被请求的操作是哪个&#xf…...

可再生能源的不确定性和储能系统的时间耦合的鲁棒性和非预期性区域微电网的运行可行性研究(Matlab代码实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…...

Revit中如何使创建的族文件内存变小

族文件的大小直接影响到项目文件的大小和软件运行速度&#xff0c;如何将族文件做的最小并且满足项目需求呢? 方法一&#xff1a;清除未使用项 1. 族制作完成可以把族文件中未用到的外部载入族或其他多余数据删掉&#xff0c;点击“管理”选项卡下拉的“清除未使用项”命令; 2…...

ClassLoader源码

介绍 ClassLoader 顾名思义就是类加载器 ClassLoader 是一个抽象类 没有父类 作用 1.负责将 Class 加载到 JVM 中 2.审查每个类由谁加载&#xff08;父优先的等级加载机制&#xff09; 3.将 Class 字节码重新解析成 JVM 统一要求的对象格式 常量&变量 //注册本地方法…...

Kafka分区消息积压排查指南

针对某个TOPIC只有几个分区积压的场景&#xff0c;可以采用以下方法进行排查&#xff1a; 消息生产是否指定key&#xff1f; 如果指定了消息key&#xff0c;那么消息会指定生产到hash(key)的分区中。如果指定了key&#xff0c;那么有下列几种可能&#xff1a; 生产该key的消息体…...

YOLOE零样本迁移实战案例:从LVIS预训练模型快速适配安防监控场景

YOLOE零样本迁移实战案例&#xff1a;从LVIS预训练模型快速适配安防监控场景 1. 引言&#xff1a;当通用模型遇见专业场景 想象一下&#xff0c;你手里有一个能识别上千种物体的“全能”AI模型&#xff0c;现在需要它去盯监控&#xff0c;专门找“可疑人员”、“遗留包裹”和…...

手把手教学:用LongCat动物百变秀快速生成动物拟人化表情包和头像

手把手教学&#xff1a;用LongCat动物百变秀快速生成动物拟人化表情包和头像 1. 为什么选择LongCat动物百变秀 在当今社交媒体时代&#xff0c;个性化的动物表情包和头像已经成为网络交流的重要组成部分。LongCat动物百变秀是一款基于美团开源模型的本地化AI图像编辑工具&…...

VMware Unlocker:在非苹果硬件上运行macOS虚拟机的完整解决方案

VMware Unlocker&#xff1a;在非苹果硬件上运行macOS虚拟机的完整解决方案 【免费下载链接】unlocker 项目地址: https://gitcode.com/gh_mirrors/unloc/unlocker VMware Unlocker是一个开源工具&#xff0c;专门解决在非苹果硬件上使用VMware虚拟机运行macOS系统时的…...

Vulkan与OpenGL深度解析——现代图形渲染的技术演进

1. 从OpenGL到Vulkan&#xff1a;图形渲染的进化之路 还记得我第一次接触图形编程时&#xff0c;OpenGL就像一位和蔼的老教授&#xff0c;把复杂的GPU操作封装成简单的API调用。但随着项目复杂度提升&#xff0c;我逐渐发现这位"老教授"的教学方式有些过时——它隐藏…...

5G核心网UDR深度解析:从签约数据管理到策略数据存储的完整流程

5G核心网UDR深度解析&#xff1a;从签约数据管理到策略数据存储的完整流程 在5G核心网&#xff08;5GC&#xff09;架构中&#xff0c;统一数据仓储功能&#xff08;UDR&#xff09;扮演着数据中枢的角色。作为电信级网络的关键组件&#xff0c;UDR不仅需要处理海量用户数据的实…...

墨语灵犀开源模型生态:对接LangChain/RAG构建专属翻译知识库

墨语灵犀开源模型生态&#xff1a;对接LangChain/RAG构建专属翻译知识库 1. 引言&#xff1a;当古典美学遇见现代AI架构 在人工智能技术快速发展的今天&#xff0c;翻译工具已经从简单的词汇转换演变为理解文化语境和语义深度的智能系统。「墨语灵犀」作为基于腾讯混元大模型…...

遥感智能解译新纪元:GeoSeg破解地物识别效率瓶颈的技术革新

遥感智能解译新纪元&#xff1a;GeoSeg破解地物识别效率瓶颈的技术革新 【免费下载链接】GeoSeg UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery, ISPRS. Also, including other vision transformers and CN…...

AI助力:让快马平台智能生成排列组合列举与计算一体化工具

最近在做一个数据分析项目时&#xff0c;遇到了需要批量计算排列组合的需求。传统的手动计算不仅效率低&#xff0c;还容易出错。于是我开始寻找更智能的解决方案&#xff0c;发现InsCode(快马)平台的AI辅助开发功能正好能帮我快速实现这个工具。 需求分析 排列组合在概率统计、…...

陀螺匠企业助手-产品

1. 功能说明维护出售产品的基本信息数据&#xff0c;支持在添加商机/合同中进行选择。2. 进入产品页面路径&#xff1a;客户>产品管理>产品3. 新增产品功能说明&#xff1a;维护产品信息&#xff0c;添加完成的产品信息&#xff0c;可以在添加商机/合同中进行选择。新增产…...

效率提升:基于快马平台快速集成openclaw开发局域网协作工具

最近在团队协作开发中遇到了一个痛点&#xff1a;每次新成员加入局域网时&#xff0c;都需要手动配置设备信息才能互相访问&#xff0c;文件共享和实时沟通也依赖第三方工具&#xff0c;效率很低。于是尝试用openclaw结合InsCode(快马)平台快速搭建了一套本地化协作工具&#x…...