新手村:数据预处理-异常值检测方法
机器学习中异常值检测方法

一、前置条件
| 知识领域 | 要求 |
|---|---|
| 编程基础 | Python基础(变量、循环、函数)、Jupyter Notebook或PyCharm使用。 |
| 统计学基础 | 理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。 |
| 机器学习基础 | 熟悉监督/无监督学习、分类、聚类、回归等基本概念。 |
| 数据预处理 | 数据清洗、特征缩放(标准化/归一化)、数据可视化(Matplotlib/Seaborn)。 |
二、渐进式学习计划
| 阶段 | 学习目标 | 核心内容 | 时间分配 | 难度评分(1-5) |
|---|---|---|---|---|
| 1. 异常值基础 | 理解异常值的定义、分类及应用场景。 | 异常值的定义、分类(离群点 vs 新奇点)、常见场景(金融、医疗、制造)。 | 2小时 | 1.5 |
| 2. 统计方法 | 掌握基于统计的异常检测方法(Z-score、IQR)。 | Z-score方法、IQR方法、箱线图可视化。 新手村:异常值检测-Z-score与IQR方法 | 4小时 | 2.0 |
| 3. 聚类与距离方法 | 学习基于距离和密度的异常检测(KNN、LOF)。 | K最近邻(KNN)、局部异常因子(LOF)、DBSCAN。 | 6小时 | 3.0 |
| 4. 模型方法 | 掌握基于模型的异常检测(SVM、Isolation Forest)。 | 一类SVM、孤立森林(Isolation Forest)、高斯混合模型(GMM)。 | 8小时 | 4.0 |
| 5. 实战应用 | 完成一个完整的异常检测项目(如SECOM数据集)。 | 数据加载、特征工程、模型选择、结果评估(F1分数、ROC曲线)。 | 10小时 | 4.5 |
统计方法(Z-score、IQR)
- 新手村:异常值检测-Z-score与IQR方法
聚类与距离方法
- 聚类与距离方法
模型方法
- 模型方法
五、练习题
- 统计方法练习:
- 使用Z-score方法检测Iris数据集的花瓣长度异常值。
- 用箱线图可视化结果。
- 模型方法练习:
- 使用One-Class SVM检测信用卡欺诈数据集(Kaggle)中的异常交易。
- 调整
nu参数并比较结果。
- 综合应用:
- 使用LOF算法检测MNIST数据集中的异常手写数字(如噪声干扰的数字)。
六、进阶学习内容
| 主题 | 内容 | 难度 |
|---|---|---|
| 深度学习方法 | 自编码器(Autoencoder)、VAE、GAN在异常检测中的应用。 | 4.5 |
| 时序数据异常检测 | LSTM、Prophet模型检测时间序列中的异常(如服务器日志异常)。 | 4.0 |
| 高维数据处理 | PCA降维后结合统计方法、流形学习(t-SNE)可视化高维异常。 | 4.0 |
| 实时异常检测 | 使用在线学习算法(如Hawkins-Dickerson)处理流数据。 | 4.5 |
七、术语解释
| 术语 | 定义 |
|---|---|
| 异常值(Outlier) | 数据集中显著偏离其他观测值的点,可能是噪声或真实异常。 |
| 离群点(Outlier) | 与多数数据点分布不同的点,可能由测量错误或真实异常引起。 |
| 新奇检测(Novelty Detection) | 检测新出现的、未见过的异常模式(如网络攻击)。 |
| 局部异常因子(LOF) | 通过比较点的密度与邻居密度,检测低密度区域的异常。 |
| 孤立森林(Isolation Forest) | 通过随机分割数据,快速将异常值“孤立”出来。 |
| 一类SVM(One-Class SVM) | 学习数据的“正常”边界,检测超出边界的点为异常。 |
八、总结陈述
异常检测是机器学习中关键的预处理步骤,其核心是区分“正常”与“异常”数据。学习路径应从统计方法(如Z-score、IQR)开始,逐步过渡到复杂模型(如LOF、Isolation Forest)。实际应用中需结合业务场景选择算法,并通过可视化和评估指标(如F1分数、ROC-AUC)验证效果。进阶学习可探索深度学习和实时检测技术,以应对复杂数据挑战。
九、重要问题解答
-
为什么统计方法(如Z-score)对非正态分布数据效果差?
- 答案:Z-score假设数据服从正态分布,若数据分布偏态或存在多重峰,异常值可能被误判。此时需改用IQR或非参数方法。
-
如何选择异常检测算法?
- 答案:
- 小数据集:统计方法(Z-score、IQR)或一类SVM。
- 高维数据:Isolation Forest或LOF。
- 需解释性:LOF(基于密度)或统计方法。
- 实时检测:孤立森林(计算效率高)。
- 答案:
-
异常检测的评估指标有哪些?
- 答案:精确率(Precision)、召回率(Recall)、F1分数、ROC-AUC曲线。若标签缺失,可用离群因子(outlier score)排序可视化。
十、资源推荐
| 资源类型 | 名称/链接 |
|---|---|
| 书籍 | 《Outlier Analysis》(Charu C. Aggarwal) |
| 课程 | Coursera《Anomaly Detection for Cyber Security》 |
| 论文 | 《A Survey of Outlier Detection Methodologies》(Hodge & Austin, 2004) |
| 开源工具 | scikit-learn(内置Isolation Forest、LOF、One-Class SVM) |
相关文章:
新手村:数据预处理-异常值检测方法
机器学习中异常值检测方法 一、前置条件 知识领域要求编程基础Python基础(变量、循环、函数)、Jupyter Notebook或PyCharm使用。统计学基础理解均值、中位数、标准差、四分位数、正态分布、Z-score等概念。机器学习基础熟悉监督/无监督学习、分类、聚类…...
电磁兼容性|电子设备(EMC)测试与系统化整改
在现代电子工程领域,5G通信、物联网与人工智能技术深度融合,电磁兼容性(EMC)已成为衡量设备可靠性的关键指标。据国际电磁兼容协会(IEEE EMC Society)2024年度报告显示,全球因EMC问题导致的电子…...
联合体定义与应用
引言 讲到了结构体,那同时类似的结构就还有联合体,本文就将详解介绍联合体。 在C语言中,联合体(union)是一种特殊的数据结构,它与结构体(struct)相似,但有一个显著的不同:联合体的所有成员共用同一块内存空间。这意味着在任何时候,联合体中只能有一个成员保存有效数…...
ChatGPT-4
第一章:ChatGPT-4的技术背景与核心架构 1.1 生成式AI的发展脉络 生成式人工智能(Generative AI)的演进历程可追溯至20世纪50年代的早期自然语言处理研究。从基于规则的ELIZA系统到统计语言模型,再到深度学习的革命性突破&#x…...
C语言_数据结构总结9:树的基础知识介绍
1. 树的基本术语 - 祖先:考虑结点K,从根A到结点K的唯一路径上的所有其它结点,称为结点K的祖先。 - 子孙:结点B是结点K的祖先,结点K是B的子孙。结点B的子孙包括:E,F,K,L。 - 双亲:路径上…...
基于ydoVr算法的车辆智能防盗系统的设计与实现
标题:基于ydoVr算法的车辆智能防盗系统的设计与实现 内容:1.摘要 随着汽车保有量的不断增加,车辆被盗问题日益严重,给车主带来了巨大的经济损失。为解决这一问题,本文旨在设计并实现基于ydoVr算法的车辆智能防盗系统。该系统综合运用传感器技…...
Python学习第十八天
Django模型 定义:模型是 Django 中用于定义数据库结构的 Python 类。每个模型类对应数据库中的一张表,类的属性对应表的字段。 作用:通过模型,Django 可以将 Python 代码与数据库表结构关联起来,开发者无需直接编写 S…...
蓝桥杯备考:图论之Prim算法
嗯。通过我们前面的学习,我们知道了,一个具有n个顶点的连通图,它的生成树包括n-1个边,如果边多一条就会变成图,少一条就不连通了 接下来我们来学一下把图变成生成树的一个算法 Prim算法,我们从任意一个结…...
min_element用法
查找字典中的最小value值 auto max_it std::min_element(my_map.begin(), my_map.end(),[](const auto& a, const auto& b) {return a.second < b.second; // 查找最小值});其中,这是一个查找最小值的自定义函数 [](const auto& a, const auto&am…...
列表动态列处理
1、在initialize()方法里,获取列表控件,添加CreateListColumnsListener监听 public void initialize(){ BillList billlist(BillList)this.getControl("billlistap"); billlist.addCreateListColumnsListener(this::beforeCreateListColumns)…...
科普:WOE编码与One-Hot编码
WOE编码是业务逻辑与统计建模的结合,适合强业务导向的场景; One-Hot编码是数据驱动的特征工程,适合追求模型性能的场景。 编码方式核心价值典型案例WOE编码保留变量预测能力,适配线性模型银行违约预测逻辑回归One-Hot编码释放特征…...
【Go语言圣经2.6】
目标 概念 GOPATH模型 GOPATH:GOPATH 是一个环境变量,指明 Go 代码的工作区路径。工作区通常包含三个目录: src:存放源代码,按照导入路径组织。例如,包 gopl.io/ch2/tempconv 应存放在 $GOPATH/src/gopl.i…...
Python的基本知识
Python是一种广泛使用的高级编程语言,以下是其基本用法的介绍: 变量与数据类型 - 变量定义:直接赋值即可创建变量,如 x 5 , name "John" 。 - 数据类型:包括 int (整数…...
QEMU源码全解析 —— 块设备虚拟化(4)
接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(3) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 类模板是创建类的模式_创建类是的模版-CSDN博客<...
34个适合机械工程及自动化专业【论文选题】
论文选题具有极其重要的意义,它直接关系到论文的质量、价值以及研究的可行性和顺利程度。选题明确了研究的具体领域和核心问题,就像给研究旅程设定了方向和目的地。例如,选择 “人工智能在医疗影像诊断中的应用” 这一选题,就确定…...
langchain框架
LangChain的架构分为多个层次,支持Python和JavaScript生态 基础层(langchain-core):提供LLM抽象接口、表达式语言(LCEL)等核心机制,支持超过70种主流模型(如GPT-4、Llama࿰…...
RHCE(RHCSA复习:npm、dnf、源码安装实验)
七、软件管理 7.1 rpm 安装 7.1.1 挂载 [rootlocalhost ~]# ll /mnt total 0 drwxr-xr-x. 2 root root 6 Oct 27 21:32 hgfs[rootlocalhost ~]# mount /dev/sr0 /mnt #挂载 mount: /mnt: WARNING: source write-protected, mounted read-only. [rootlocalhost ~]# [rootlo…...
Mybatis3 调用存储过程
1. 数据库MySQL,user表 CREATE TABLE user (USER_ID int NOT NULL AUTO_INCREMENT,USER_NAME varchar(100) NOT NULL COMMENT 用户姓名,AGE int NOT NULL COMMENT 年龄,CREATED_TIME datetime NOT NULL DEFAULT CURRENT_TIMESTAMP,CREATED_BY varchar(100) NOT NUL…...
解决 openeuler 系统 docker 下载慢,docker 镜像加速
一、步骤说明 1. 编辑 Docker 配置文件 Docker 的镜像源配置文件路径为 /etc/docker/daemon.json。如果该文件不存在,则需要先创建目录和文件。 # 创建目录(如果不存在) sudo mkdir -p /etc/docker# 编辑配置文件(使用 nano 或…...
HiPixel开源AI驱动的图像超分辨率的原生macOS 应用程序,使用 SwiftUI 构建并利用 Upscayl 强大的 AI 模型
一、软件介绍 文末提供程序和源码下载 HiPixel是一个开源程序基于SwiftUI构建的macOS原生应用程序,用于AI驱动的图像超分辨率,并利用Upscayl的强大AI模型。 二、软件特征 具有 SwiftUI 界面的原生 macOS 应用程序使用 AI 模型进行高质量图像放大通过 G…...
Python 正则表达式模块 re
Python 正则表达式模块 re flyfish 一、正则表达式基础 1. 什么是正则表达式? 正则表达式(Regular Expression, RE)是一种用于匹配、查找和替换文本模式的工具,由普通字符(如字母、数字)和特殊字符&…...
[RN 实践有效]Expo+cross-env配置项目环境变量
首先,从中可以看出,cross-env的主要作用是跨平台设置环境变量,而Expo项目通常通过app.config.js或.env文件来管理这些变量。需要强调安装cross-env的必要性,以及如何在package.json中正确配置脚本命令。 接下来,用户的问题是关于Expo中cross-env的详细配置,因此需要分步骤…...
缓存和客户端数据存储体系(Ark Data Kit)--- 应用数据持久化(首选项持久化、K-V、关系型数据库)持续更新中...
Core File Kit做怎删改查操作不便,用Ark Data Kit。 功能介绍 ArkData (方舟数据管理)为开发者提供数据存储、数据管理和数据同步能力,比如联系人应用数据可以保存到数据库中,提供数据库的安全、可靠以及共享访问等管…...
ES 使用geo point 查询离目标地址最近的数据
需求描述:项目中需要通过经纬度坐标查询目标地所在的行政区。 解决思路大致有种,使用es和mysql分别查询。 1、使用es进行查询 将带有经纬度坐标的省市区数据存入es中,mappings字段使用geo point类型,索引及查询dsl如下。 geo p…...
本地部署OpenManus及原理介绍
概述: 最近Minaus特别火,随后开源社区就有项目尝试复刻Minaus,项目名称为OpenManus,原理是用推理模型为决策者,将我们输入的问题进行分解后调用本地工具执行。 OpenManus安装: 本人在Ubuntu桌面版本上安装…...
高效手机检测:视觉分析技术的优势
在当今社会,手机已成为人们日常生活和工作中不可或缺的工具。然而,在某些特定场合,如考场、工作场所等,手机的使用却可能带来负面影响。因此,如何有效监测和防止在这些场合偷用手机的行为,成为了一个亟待解…...
Java 多线程编程:提升系统并发处理能力!
多线程是 Java 中实现并发任务执行的关键技术,能够显著提升程序在多核处理器上的性能以及处理多任务的能力。本文面向初级到中级开发者,从多线程的基本定义开始,逐步讲解线程创建、状态管理、同步机制、并发工具以及新兴的虚拟线程技术。每部…...
Linux实时内核稳定性案例
稳定性问题分析 RT_RUNTIME_SHARE案例死锁问题Linux-rt下卡死之hrtimer分析Linux内核宕机案例 -mmap空指针Linux Hung Task分析过程...
解决 VSCode SSH 连接报错:“REMOTE HOST IDENTIFICATION HAS CHANGED” 的问题
问题描述 在使用 VSCode 通过 SSH 连接远程服务器时,我们可能会遇到类似如下的错误日志: WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! ... Offending ED25519 key in C:\Users\DELL/…...
Spring Boot配置类原理、Spring Boot核心机制理解,以及实现自动装置的底层原理
目的:从底层源码角度分析 Spring Boot 配置类以及自动装载的底层原理 文章目录 1. Spring Boot 配置类实现自动装载1.1 @Configuration注解1.2 @Configuration 注解完成 bean 注入流程图1.3 @ConfigurationProperties注解赋值2. Spring Boot的核心机制:自动装配2.1 @SpringBo…...
