用于不平衡医疗数据分类的主动SMOTE
一、主动学习如何应用于不平衡数据的处理
首先,主动SMOTE不是像经典的SMOTE那样从训练集中随机选择一个样本作为生成合成样本的轴心点,而是通过不确定性和多样性采样来智能地进行样本选择,这是主动学习的两种技术。
在数据不平衡的情况下,可以使用主动学习来平衡训练样本,方法是从多数类中选择最具代表性的实例,从少数类中消除噪声样本,并降低总体不平衡比率。
主动学习的主要目的是应用动态数据采样来使训练数据沿着训练过程进行进化。主要问题是我们如何选择训练集的样本?什么样的样本会提高算法性能?起初,这个问题听起来可能与不平衡类问题无关。然而,在我们的例子中,问题是:我们首先需要从少数类中选择哪些点来生成合成样本,这样我们才能最终获得良好的模型性能?
基于主动学习的SMOTE,与传统采样不一样的是,我们如何为训练集选择样本?什么样的样本会提高算法的性能?
我们需要首先从少数类中选择哪些点来生成合成样本,以便我们最终能够拥有良好的模型性能?为此,我们选择了两种抽样方法:不确定性抽样和多样性抽样。
二、不确定性抽样
不确定性抽样是一组技术,用于识别决策边界附近具有最高不确定性的最低置信度样本,以插入新的训练样本。
测量不确定性的方法有很多,比如最小值、置信度和熵。





三、多样性抽样
它不同于单纯关注存在不确定性的边界样本(如不确定性采样所做的),而是选择彼此不同或差异较大的样本。
这种方法可以帮助识别模型在某些区域的知识盲区,因为这些区域缺乏足够的代表性样本。
相比于只选择靠近决策边界的样本,多样性采样会选择那些与现有训练数据不同的样本。这有助于减少现实世界中的采样偏差,让模型能更好地概括到未知区域。
多样性采样的选择与不确定性采样的选择是不同的。前者选择的样本彼此差异较大,而后者更关注位于决策边界附近的样本。
四、主动SMOTE
主动SMOTE旨在将SMOTE与主动学习相结合。
换句话说,我们不是从训练集中随机选择一个点作为生成合成样本的枢轴点,而是使用不确定性和多样性采样智能地选择点。
实际上,我们可以说新提出的算法有两个主要阶段。不确定性采样阶段和多样性采样阶段。
4.1、不确定性采样阶段

①首先,算法会训练一个机器学习模型,使用全部的训练数据。
②然后,算法会计算所有少数类样本属于少数类的概率。
③接下来,算法会根据某种不确定性度量来计算模型对这些少数类样本的预测不确定性。常用的不确定性度量有:
置信度边界(Margin):预测概率差值越小,说明模型越不确定。
熵(Entropy):预测概率分布越均匀,说明模型越不确定。
④ 最后,算法会选择一定比例的最不确定的少数类样本,这个比例是一个超参数
4.2、多样性采样阶段

多样性抽样阶段的目的是对所选的最不确定的样本进行多样性抽样。
首先,我们使用K-means将最不确定的项目划分为k个聚类
然后从每个聚类中分层抽样。k簇的数量是一个需要调整的超参数,以及我们将从每个簇中选择的项目数量。我们选择K-means作为聚类方法,因为它是最常用的聚类策略。
创新点:比较其他聚类方法优劣
4.3、算法流程

相关文章:
用于不平衡医疗数据分类的主动SMOTE
一、主动学习如何应用于不平衡数据的处理 首先,主动SMOTE不是像经典的SMOTE那样从训练集中随机选择一个样本作为生成合成样本的轴心点,而是通过不确定性和多样性采样来智能地进行样本选择,这是主动学习的两种技术。 在数据不平衡的情况下&…...
linux文件更新日期与系统日期比较
项目说明: 要获取linux系统中某目录下最新文件的修改时间并与当前系统时间进行比较,可以使用以下步骤: 使用 ls 命令获取最新文件的修改时间。 使用 date 命令获取当前时间。 计算时间差并打印结果。 实例脚本如下: #!/bin/…...
leetCode - - - 哈希表
目录 1.模拟行走机器人(LeetCode 874) 2.数组的度(LeetCode 697) 3.子域名访问次数(LeetCode 811) 4.字母异位词分组(LeetCode 49) 5.小结 1.常见的哈希表实现 2.遍历Map 1.模…...
NGINX自动清理180天之前的日志
需求描述 日志每天会以天为单位产生一个日志,不清理的话会越来越多。这里写一个Lua自定定时清理日志目录下的日志文件。 依赖安装 安装 lfs 模块 yum install luarocks yum install lua-develluarocks install luafilesystem 创建模拟旧文件 创建了一个1月的旧…...
jackson 轻松搞定接口数据脱敏
一、简介 实际的业务开发过程中,我们经常需要对用户的隐私数据进行脱敏处理,所谓脱敏处理其实就是将数据进行混淆隐藏,例如下图,将用户的手机号、地址等数据信息,采用*进行隐藏,以免泄露个人隐私信息。 如…...
Nginx 正则表达式与rewrite
目录 一、正则表达式 二、rewrite 2.1 rewrite简述 2.2 rewrite 跳转 2.3 rewrite 执行顺序 2.4 rewrite 语法格式 三、location 3.1 location 类别 3.2 location常用匹配规则 3.3 location优先级 3.4 示例说明 3.5 匹配规则总结 3.6 三个匹配规则定义 四、实战…...
tekton什么情况下在Dockerfile中需要用copy
kaniko配置如下 如果docker中的workDir跟tekton中的workDir不一致需要copy。也可以通过mv,cp达到类似效果...
第九届世界渲染大赛在哪里提交作品呢?
自第九届世界渲染大赛开放投稿以来,已经过去了10天。在这段时间里,众多CG爱好者已经完成了他们的动画创作。然而,许多参赛者对于如何提交他们的作品仍然感到困惑。接下来,让我们一起了解具体的投稿流程和入口,确保每位…...
fastjson(autoType)反序列化漏洞
1. 温少和他的fastjson 阿里巴巴的 FastJSON,也被称为 Alibaba FastJSON 或阿里巴巴 JSON,是一个高性能的 Java JSON 处理库,用于在 Java 应用程序中解析和生成 JSON 数据。FastJSON 以其卓越的性能和功能丰富的特点而闻名,并在…...
Java入门基础16:集合框架1(Collection集合体系、List、Set)
集合体系结构 Collection是单列集合的祖宗,它规定的方法(功能)是全部单列集合都会继承的。 collection集合体系 Collection的常用方法 package com.itchinajie.d1_collection;import java.util.ArrayList; import java.util.HashSet;/* * 目…...
Qt如何调用接口
在Qt中,你可以使用QNetworkAccessManager类来调用API。以下是一个简单的示例: cpp #include <QCoreApplication> #include <QNetworkAccessManager> #include <QNetworkRequest> #include <QNetworkReply> int main(int arg…...
Android14之解决编译libaaudio.so报错问题(二百二十七)
简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列…...
【专题】2024年7月人工智能AI行业报告合集汇总PDF分享(附原数据表)
原文链接:https://tecdat.cn/?p37350 随着人工智能技术的飞速发展,AI已经成为当今时代的重要驱动力。本报告将聚焦于人工智能AI行业的最新动态,涵盖客户服务、体验营销、资产管理以及国产AI大模型应用等多个领域。通过深入研究和分析,我们…...
干货分享|如何使用Stable Diffusion打造会说话的数字人?
数字人已不是什么新鲜名词了。在许多领域,尤其是媒体和娱乐领域,经常可以看到卡通形象的人物或逼真的虚拟主持人。在Stable Diffusion中,我们可以上传一段录制好的音频文件,然后使用SadTalker插件,将音频和图片相结合&…...
OrangePi AIpro学习4 —— 昇腾AI模型推理 C++版
目录 一、ATC模型转换 1.1 模型 1.2 ATC工具 1.3 实操模型转换 1.4 使用ATC工具时的一些关键注意事项 1.5 ATC模型转换命令举例 二、运行昇腾AI模型应用样仓程序 2.1 程序目录 2.2 下载模型和模型转换 2.3 下载图片和编译程序 2.4 解决报错 2.5 运行程序 三、运行…...
vue js 多组件异步请求解决方案
接口之间异步问题可以采用Promiseasyncawait 链接: https://blog.csdn.net/qq_39816586/article/details/103517416 使用场景: 1.保障用户必须完成自动登录,才调用后续逻辑 2.保障必须完成初始启动,才调用后续逻辑 3.保障先执行on…...
【Android】不同系统版本获取设备MAC地址
【Android】不同系统版本获取设备MAC地址 尝试实现 尝试 在开发过程中,想要获取MAC地址,最开始想到的就是WifiManager,但结果始终返回02:00:00:00:00:00,由于用得是wifi ,考虑是不是因为用得网线的原因,但…...
残差网络--NLP上的应用
在自然语言处理(NLP)领域,残差网络(ResNet)同样有着广泛的应用。虽然最初的残差网络设计是为了处理图像任务,但其核心思想也被成功地迁移到了自然语言处理任务中,以解决深层神经网络中的退化问题…...
1章4节:数据可视化, R 语言的静态绘图和 Shiny 的交互可视化演示(更新2024/08/14)
在数据科学的世界中,“一图胜千言”的古老谚语依然适用。数据可视化不仅仅是将数据以图形化的方式展现,更是帮助我们发现数据背后隐藏模式、趋势和异常的强大工具。R语言作为数据科学的主要编程语言之一,以其强大的可视化能力而闻名,许多数据科学家和分析师因此选择了R作为…...
浅谈个人用户如何玩转HTTP代理
今天,准备和大家聊聊我是如何玩转HTTP代理的,希望能给大家带来一些启发和帮助。 犹记得刚开始接触HTTP代理时,我对它还是一无所知。那时我总被各种网络限制所困扰,无法随心所欲地访问我想看的网站。直到HTTP代理的出现,…...
帆软报表嵌入避坑指南:5步解决重定向死循环与XSS防护矛盾
帆软报表深度嵌入实战:安全与功能平衡的5步架构方案 当企业级报表系统需要嵌入现有业务平台时,iframe方案往往成为首选,但随之而来的安全策略冲突让不少开发团队陷入两难——单点登录要求与XSS防护似乎水火不容。我曾为某省级政务平台实施帆软…...
解锁Ghidra:面向逆向工程师的二进制分析工具指南
解锁Ghidra:面向逆向工程师的二进制分析工具指南 【免费下载链接】ghidra_installer Helper scripts to set up OpenJDK 11 and scale Ghidra for 4K on Ubuntu 18.04 / 18.10 项目地址: https://gitcode.com/gh_mirrors/gh/ghidra_installer 剖析Ghidra核心…...
OpenPPL之二,优化器里面的算子融合
算子融合的执行时机 完整的时间线 模型加载阶段(一次) 运行时阶段(多次推理)↓ ↓ ┌─────────────────────┐ ┌─────────────┐ │ 1. 解析ON…...
5分钟搞定ollama+qwen2.5模型配置:从下载到对话测试全流程指南
5分钟极速部署ollama与qwen2.5:零基础打造本地AI对话系统 在AI技术平民化的今天,拥有一个本地运行的对话模型不再是专业开发者的专利。本文将带您用最短时间完成ollama服务部署与qwen2.5模型配置,无需复杂环境搭建,从零开始构建属…...
BM12O2321-A高集成H桥模块的9位UART驱动原理与Arduino库实践
1. 项目概述BM12O2321-A 是由 Basetron(BestModules)推出的高集成度 H 桥驱动模块,专为中小功率直流电机、电磁阀、LED 阵列等双向负载控制场景设计。该模块并非传统意义上的分立 H 桥芯片(如 L298N、TB6612FNG)&#…...
Newtonsoft.Json-for-Unity:Unity开发者的终极JSON解决方案指南
Newtonsoft.Json-for-Unity:Unity开发者的终极JSON解决方案指南 【免费下载链接】Newtonsoft.Json-for-Unity Newtonsoft.Json (Json.NET) 10.0.3, 11.0.2, 12.0.3, & 13.0.1 for Unity IL2CPP builds, available via Unity Package Manager 项目地址: https:…...
利用快马平台快速构建高清乱码生成器:编码错误可视化原型开发指南
最近在调试一个多语言网站时,遇到了各种编码问题导致的乱码现象。为了更直观地理解不同编码错误的表现形式,我尝试用InsCode(快马)平台快速搭建了一个高清乱码生成器,效果出乎意料地好。下面分享下这个项目的实现思路和具体操作: …...
如何快速部署Uvicorn ASGI服务器到AWS Lightsail:终极云服务器配置指南 [特殊字符]
如何快速部署Uvicorn ASGI服务器到AWS Lightsail:终极云服务器配置指南 🚀 【免费下载链接】uvicorn An ASGI web server, for Python. 🦄 项目地址: https://gitcode.com/GitHub_Trending/uv/uvicorn Uvicorn是一个轻量级、高性能的A…...
突破信息获取壁垒:智能内容解锁工具使用指南
突破信息获取壁垒:智能内容解锁工具使用指南 【免费下载链接】bypass-paywalls-chrome-clean 项目地址: https://gitcode.com/GitHub_Trending/by/bypass-paywalls-chrome-clean 你是否曾遇到这样的情况:一篇专业的技术文章、一份重要的研究报告…...
OBS高级计时器:提升直播专业度的时间管理工具
OBS高级计时器:提升直播专业度的时间管理工具 【免费下载链接】obs-advanced-timer 项目地址: https://gitcode.com/gh_mirrors/ob/obs-advanced-timer 在直播行业竞争日益激烈的今天,精准的时间控制是提升直播质量的关键因素之一。OBS高级计时器…...
