当前位置: 首页 > article >正文

改进SMOTE类不平衡故障诊断【附代码】

✅博主简介擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导毕业论文、期刊论文经验交流。✅ 如需沟通交流扫描文章底部二维码。1基于多数类样本分布的改进SMOTE算法MSMOTE针对传统SMOTE在边界样本处理上的不足提出MSMOTE算法。该算法首先识别每个少数类样本周围的多数类样本分布密度只有那些位于多数类稀疏区域的少数类样本才进行过采样。在生成新样本时不是单纯在少数类样本之间线性插值而是沿着与多数类分类超平面垂直的方向拓展使得合成样本尽可能远离多数类区域。在TE过程数据集的20类故障中利用MSMOTE增强后支持向量机分类器的G-mean值从0.72提升到0.89。2局部敏感判别分析与MSMOTE结合的类间不平衡处理将MSMOTE过采样后的数据输入到局部敏感判别分析降维LSDA在降维过程中同时保持同类样本局部邻域的紧凑性和异类样本的分离性。具体地构建类内图权重和类间图权重求解广义特征值问题得到投影矩阵。将原始特征从52维降至15维后使用最邻近分类器在TE过程故障9物料温度上升上的召回率从0.53提升到0.91。3基于聚类的改进SMOTE算法CISMOTE处理类内不平衡针对同一故障类别内部不同子簇样本量不均衡提出CISMOTE。首先对少数类样本进行K-means聚类K自动确定对每个簇计算样本稀疏度重点在样本稀疏的簇内进行过采样。过采样时不仅考虑簇内的样本对还从邻近簇中借用特征进行插值增加子簇间多样性。在TE过程故障5冷凝器冷却水入口温度变化中CISMOTE增强后决策树分类器的F1-score从0.61提升至0.88验证了对关键故障子模式的识别增强效果。import numpy as np from sklearn.cluster import KMeans from sklearn.neighbors import NearestNeighbors class MSMOTE: def __init__(self, k_neighbors5): self.k k_neighbors def fit_resample(self, X_min, X_maj): # 计算每个少数类样本的多数类密度 nbrs NearestNeighbors(n_neighborsself.k).fit(X_maj) densities [] for x in X_min: dist, _ nbrs.kneighbors(x.reshape(1,-1)) densities.append(dist[0].mean()) density_th np.percentile(densities, 50) selected X_min[np.array(densities) density_th] # 合成新样本 synthetic [] for i in range(len(selected)): neighbor_idx np.random.randint(len(selected)) diff selected[neighbor_idx] - selected[i] # 沿垂直多数类超平面的方向调整 synthetic.append(selected[i] np.random.rand() * diff) return np.vstack([X_min, np.array(synthetic)]) class CISMOTE: def __init__(self, n_clusters3): self.n_clusters n_clusters def fit_resample(self, X_min): kmeans KMeans(n_clustersself.n_clusters, random_state0) labels kmeans.fit_predict(X_min) clusters {c: X_min[labelsc] for c in range(self.n_clusters)} synthetic [] for c, data in clusters.items(): n_to_gen max(0, int(len(X_min)/self.n_clusters) - len(data)) for _ in range(n_to_gen): if len(data) 2: i1, i2 np.random.choice(len(data), 2, replaceFalse) new data[i1] np.random.rand() * (data[i2] - data[i1]) synthetic.append(new) return np.vstack([X_min, np.array(synthetic)]) if __name__ __main__: X_min np.random.rand(30, 10) X_maj np.random.rand(300, 10) ms MSMOTE() X_res ms.fit_resample(X_min, X_maj) print(fMSMOTE生成后样本数: {len(X_res)})如有问题可以直接沟通

相关文章:

改进SMOTE类不平衡故障诊断【附代码】

✅ 博主简介:擅长数据搜集与处理、建模仿真、程序设计、仿真代码、论文写作与指导,毕业论文、期刊论文经验交流。 ✅ 如需沟通交流,扫描文章底部二维码。(1)基于多数类样本分布的改进SMOTE算法MSMOTE:针对传…...

Chapter 5:深度章 - AI 编程思维转变

Chapter 5:深度章 - AI 编程思维转变 学习目标 理解从传统开发到 AI Engineering 的角色重塑 掌握 SDD(规格驱动开发)的核心理念 理解从"写代码"到"设计系统"的思维转变 能够用新思维指导日常工作 一、工程师角色的重塑 1.1 传统开发中的工程师角色 …...

桌面美化与效率结合,这款免费桌面工具能管理倒计时、宠物和加密

目录 软件介绍 总结 今天想和大家分享一款我近期在用的桌面小工具,叫“滴哦小精灵”。它是一个免费的桌面工具箱,集成了不少实用功能,界面比较干净,也没有什么广告,用起来挺省心的。 软件介绍 对我个人来说&#xf…...

Laravel 12原生AI扩展实战:5步实现智能表单验证、动态内容生成与实时代码补全

更多请点击: https://intelliparadigm.com 第一章:Laravel 12原生AI扩展的核心架构与设计哲学 Laravel 12 将 AI 集成从插件式实践升级为框架级原生能力,其核心架构围绕「可插拔智能层(Pluggable Intelligence Layer, PIL&#x…...

别再让维表Join拖慢你的Flink任务!手把手教你用Redis Connector实现高性能Lookup Join

突破Flink维表Join性能瓶颈:Redis Connector深度优化实战 当数据流速达到每秒数万条时,传统的维表Join操作往往成为整个Flink任务的性能瓶颈。本文将揭示如何通过Redis Connector的高级配置和优化技巧,将Lookup Join的吞吐量提升10倍以上。 1…...

从开发测试到等保三级认证:Dify细粒度权限管控全生命周期实施路线图(含策略模板+OpenPolicyAgent集成脚本)

更多请点击: https://intelliparadigm.com 第一章:Dify细粒度权限管控的架构演进与合规价值 Dify 作为开源 LLM 应用开发平台,其权限模型经历了从 RBAC(基于角色的访问控制)到 ABAC(基于属性的访问控制&am…...

BEV感知避坑指南:基于LSS系列方法的工程实践与调参经验分享

BEV感知实战避坑指南:LSS系列方法工程调优全解析 当算法工程师第一次将BEV感知模型部署到实车环境时,往往会遇到这样的场景:实验室指标优秀的模型在实际道路上突然出现深度估计跳变、BEV特征空间扭曲、多传感器特征错位等问题。这些问题轻则导…...

LLM在文本分析与差异检测中的实践应用

1. 项目背景与核心价值去年在帮某金融客户做用户反馈分析时,我遇到了一个典型难题:面对每天数千条非结构化的投诉文本,传统规则引擎的准确率还不到60%。直到尝试将大语言模型(LLM)引入分析流程,效果才出现质…...

3分钟掌握完整网页截图:告别零碎片段,拥抱完整内容保存

3分钟掌握完整网页截图:告别零碎片段,拥抱完整内容保存 【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-…...

从ChatGPT到SEEM:聊聊下一代AI交互界面如何用‘记忆提示’记住你的每一次点击

从ChatGPT到SEEM:下一代AI交互界面如何用‘记忆提示’重塑用户体验 当你在Photoshop中反复调整同一张图片的选区时,是否想过AI可以像人类助手一样记住你的操作习惯?这正是SEEM(Segment Everything Everywhere All at Once&#x…...

Visual Studio调试时遇到ntdll.dll的PDB文件缺失?别慌,这3个方法帮你搞定(附详细步骤)

Visual Studio调试时ntdll.dll的PDB文件缺失问题深度解决方案 1. 问题现象与本质剖析 当你正在Visual Studio中全神贯注地调试一个C项目时,突然在输出窗口看到这样的警告信息:"已加载C:\Windows\SysWOW64\ntdll.dll。无法查找或打开PDB文件"。…...

传承与奉献:资深技术人如何做好“传帮带”?

传承与奉献:资深技术人如何做好“传帮带”在软件测试行业,技术的迭代速度如同奔涌的江河,新工具、新框架、新方法论层出不穷。而支撑行业持续向前的,除了前沿技术的突破,更离不开资深技术人对经验的传承与奉献。“传帮…...

FOSDEM 2023:开源嵌入式与物联网技术前沿解析

1. FOSDEM 2023:开源嵌入式与物联网技术盛宴回归线下作为欧洲最大的开源开发者盛会,FOSDEM(Free and Open Source Developers European Meeting)在经历两年线上举办后,终于在今年2月4-5日重返比利时布鲁塞尔。这场完全…...

ShipPage-Skill:基于Vite+React的静态站点生成器,快速打造个人技能展示页

1. 项目概述:一个面向开发者的技能展示与项目聚合页最近在GitHub上看到一个挺有意思的项目,叫“ShipPage-Skill”。光看名字,你可能会有点摸不着头脑,这到底是做什么的?简单来说,这是一个帮你快速搭建个人技…...

FPGA安全NTT架构设计与防护机制解析

1. FPGA安全NTT架构设计背景与挑战数论变换(Number Theoretic Transform, NTT)作为现代格密码(如Kyber、Dilithium等)的核心运算模块,其硬件实现面临着日益严峻的安全威胁。在FPGA平台上,NTT模块不仅需要保…...

taotoken 多模型聚合能力如何赋能智能客服场景开发

Taotoken 多模型聚合能力在智能客服场景的开发实践 1. 智能客服场景的模型需求特点 智能客服系统需要处理多样化的用户咨询场景,从简单的FAQ问答到复杂的业务逻辑解析。不同场景对语言模型的要求存在显著差异。例如产品参数查询需要精确的事实检索能力&#xff0c…...

Windows下PyGMT安装报错‘GMTCLibNotFoundError’?手把手教你从零配置GMT 6.3.0环境

Windows系统PyGMT环境配置全攻略:从报错排查到完美运行 最近在帮一位地质学专业的朋友处理数据可视化问题时,遇到了PyGMT安装的各种"坑"。作为Python科学计算的老手,本以为装个库不过是pip install的事,没想到在Window…...

Legacy-iOS-Kit终极指南:如何免费让旧iPhone和iPad重获新生

Legacy-iOS-Kit终极指南:如何免费让旧iPhone和iPad重获新生 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-Kit …...

ChatGPT 根本看不懂你的项目?我写了个工具专门解决这个问题

一、问题:AI 根本“读不懂”你的项目 最近在用 ChatGPT / Claude 做代码分析的时候,遇到一个很现实的问题: 👉 项目太大,根本喂不进去,压缩包读取费力,幻觉严重 具体表现: 仓库文…...

Windows Cleaner:开源免费的C盘清理与系统优化终极指南

Windows Cleaner:开源免费的C盘清理与系统优化终极指南 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 当您的Windows电脑频繁出现"磁盘空间不足…...

NVIDIA GH200 NVL2架构:统一内存管理助力AI性能飞跃

1. NVIDIA GH200 NVL2架构解析:重新定义AI基础设施的内存管理范式在AI基础设施领域,内存管理一直是制约性能提升的关键瓶颈。传统架构中CPU与GPU之间的数据搬运开销,往往导致计算资源利用率低下。NVIDIA最新发布的GH200 NVL2架构通过革命性的…...

VoXtream2流式TTS架构与动态语速控制技术解析

1. VoXtream2技术架构解析VoXtream2的核心创新在于其独特的流式处理架构和动态语速控制机制。该系统采用模块化设计,主要由以下几个关键组件构成:1.1 增量式语音合成流水线与传统TTS系统的批处理模式不同,VoXtream2实现了真正的流水线化处理。…...

海棠山铁哥戳破《灵魂摆渡・浮生梦》伪 AI 骗局,《第一大道》纯 AI 写实告别躺平

“拒绝躺平、坚守本心,才是AI电影的正确出路。” ——海棠山铁哥01 伪AI泛滥:一场“流量陷阱”正在上演伪AI三板斧操作手法典型症状贴标签宣发猛打“全AI创作”海报、通稿铺天盖地,技术白皮书缺席玩滤镜后期套个AI风格化滤镜背景光斑无逻辑、…...

从零构建高效测试循环:分层策略与实战优化指南

1. 项目概述与核心价值最近在GitHub上看到一个名为“prasunicecold140/test-pilot-loop”的项目,这个标题乍一看有点抽象,但结合“test-pilot”和“loop”这两个关键词,我立刻嗅到了一股自动化测试与持续集成/持续部署(CI/CD&…...

用一颗6脚5050RGB,我复刻了同事那个超省资源的跑马灯+呼吸灯方案

用一颗6脚5050RGB复刻超省资源跑马灯呼吸灯方案 在嵌入式开发中,资源受限的单片机往往需要开发者发挥创意才能实现复杂功能。最近我遇到一个有趣案例:同事用极简的硬件设计实现了跑马灯与呼吸灯的组合效果,仅用一颗6脚5050RGB LED和基础三极管…...

别再手写循环了!用MATLAB内置函数和这个自定义函数搞定滑动窗口(附完整代码)

MATLAB滑动窗口优化实战:从循环到向量化的性能飞跃 在信号处理、时间序列分析和机器学习特征工程中,滑动窗口技术无处不在。传统实现往往依赖显式循环,这不仅代码冗长,在MATLAB中更会带来显著的性能损耗。本文将带你突破基础循环思…...

搭建你的第一座“模型工厂”——5分钟部署开源大模型

用Ollama部署开源模型,整个过程不超过5分钟。但跑起来只是第一步——这篇还会带你做一件事:在同一台机器上部署两个不同尺寸的模型,跑同一组问题,填一份模型选型对比表。以后你做技术选型时,这一套方法直接复用。 3.1 …...

GPT Image 2 深度评测:当 AI 图像生成跨越“图灵测试”,它如何重塑开发者工作流?

文章目录前言一、 范式革命:从“扩散猜谜”到“自回归推理”1.1 传统扩散模型的局限1.2 GPT Image 2 的自回归突破二、 横向评测:GPT Image 2 vs Midjourney v7 vs DALL-E 32.1 文字渲染:翻越“图灵文字测试”2.2 思维链加持:从“…...

大语言模型幻觉检测:NTK理论与工程实践

1. 项目背景与核心挑战大语言模型(LLM)的"幻觉"问题已经成为当前AI领域最棘手的挑战之一。所谓幻觉,指的是模型生成看似合理但实际上与事实不符的内容。这种现象在医疗诊断、法律咨询、金融分析等高风险场景中可能造成严重后果。传…...

Python Selenium领英数据爬虫实战:从环境部署到反爬策略

1. 项目概述与核心价值最近在帮一个做人才市场分析的朋友处理数据,他需要定期从领英上抓取特定行业、特定职位的公开信息来做趋势研究。手动收集?效率太低。直接买数据?成本太高且不一定精准。于是,我们开始寻找一个靠谱的自动化工…...