当前位置：首页 > news >正文

【ML】异常检测、二分类问题

news 2026/1/12 7:17:06

【ML】异常检测、二分类问题

- 1. 异常检测、二分类问题
- - 1.1 异常检测（Anomaly Detection）
  - 1.2 二分类问题（Binary Classification）
  - 1.3 异常检测与二分类问题的对比
  - 1.4 总结
- 2. 模型额训练与评估
- 3. 为什么会出现比较高的误识别（导致假阳性、假阴性是识别结果的原因）
- 4. 基于gaussian假设下的异常行为检测
- 5. 基于 auto-encoder 深度模型训练、svm、随机森林的异常检测模型

1. 异常检测、二分类问题

异常检测（Anomaly Detection） 和 二分类问题（Binary Classification） 都是机器学习中的重要任务，它们在很多应用场景中都有广泛的应用。尽管它们有一些相似之处，但它们的目标、挑战和特点有所不同。

1.1 异常检测（Anomaly Detection）

定义：

异常检测是一种用于识别数据集中不同于正常模式的异常点或异常行为的方法。这些异常点通常是稀少的、未标注的，可能代表某种异常情况或错误。

特点：

数据不平衡：
- 在异常检测任务中，异常数据点通常只占数据集中的极少数，大部分数据都是正常的。这种数据不平衡是异常检测的主要挑战之一。
无监督学习为主：
- 异常检测通常采用无监督学习方法，因为异常点在数据集中较为稀少且难以标注。模型需要在没有标签或仅有少量标签的情况下识别异常。
复杂的异常模式：
- 异常可能表现为不同的模式或类型，比如离群点、趋势变化、异常的时间序列模式等。模型需要具备识别多种复杂异常的能力。
应用场景广泛：
- 异常检测在金融欺诈检测、网络安全、设备故障监测、健康监控等领域有广泛应用。这些领域中的异常通常代表潜在的风险或问题，因此准确识别异常非常重要。
可解释性要求高：
- 在某些应用中，理解和解释为什么某个数据点被认为是异常非常重要。例如，在医疗或金融领域，用户需要清楚地知道异常的原因，以便采取相应措施。

1.2 二分类问题（Binary Classification）

定义：

二分类问题是指将输入数据分为两个类别的分类任务。模型的目标是根据输入特征，将数据点分类到两个互斥的类别之一。

特点：

明确的标签：
- 在二分类问题中，通常有明确的标签数据，即每个数据点都标注为“正类”或“负类”。这使得监督学习方法可以直接应用。
平衡和不平衡问题：
- 二分类问题中，有时两个类别的数据量相对均衡，但在某些应用场景中（如欺诈检测），数据可能会严重不平衡。这时，正负类的比例失衡会影响模型的性能，需要特别处理。
多样的算法：
- 二分类问题可以使用多种机器学习算法来解决，如逻辑回归、支持向量机、决策树、随机森林、神经网络等。不同算法在不同数据集和任务上的表现各不相同。
评估指标：
- 常用的评估指标包括准确率、精确率、召回率、F1值、AUC-ROC等。这些指标帮助评估模型在二分类任务上的表现，并指导模型的改进。
广泛应用：
- 二分类问题应用广泛，包括垃圾邮件检测、肿瘤分类（良性与恶性）、情感分析（正面与负面）、信用评分（信用良好与不良）等。

1.3 异常检测与二分类问题的对比

特点	异常检测	二分类问题
数据分布	通常极度不平衡（异常样本极少）	可以平衡，也可能不平衡
学习类型	通常为无监督或半监督学习	主要是监督学习
应用场景	异常识别，如欺诈检测、故障检测	分类任务，如垃圾邮件检测、情感分析
标签可用性	异常样本少且通常未标注	大多数样本都有明确标签
模型复杂性	需要复杂模型来识别多种异常模式	模型相对简单，常用线性或非线性模型
可解释性	高度重视异常原因的解释	可解释性依赖具体应用和需求

1.4 总结

异常检测 主要用于识别数据中的异常点或异常行为，通常涉及极端的数据不平衡和无监督学习方法。它在风险监控和问题预警领域非常重要。
二分类问题 是将数据点分类到两个类别的任务，通常使用监督学习方法，适用于需要明确分类结果的场景。

两者尽管在某些方面存在相似之处，但其应用场景和挑战有所不同。
在这里插入图片描述

2. 模型额训练与评估

在这里插入图片描述

3. 为什么会出现比较高的误识别（导致假阳性、假阴性是识别结果的原因）

在这里插入图片描述

4. 基于gaussian假设下的异常行为检测

在这里插入图片描述

5. 基于 auto-encoder 深度模型训练、svm、随机森林的异常检测模型

在这里插入图片描述

【ML】异常检测、二分类问题

【ML】异常检测、二分类问题 1. 异常检测、二分类问题1.1 异常检测（Anomaly Detection）1.2 二分类问题（Binary Classification）1.3 异常检测与二分类问题的对比1.4 总结 2. 模型额训练与评估3. 为什么会出现比较高的误识别&#x…...

编程日记 2024/8/10 6:09:24

8.8-配置python3环境+python语法的使用

1.环境 python2 ,python3 [rootpython ~]# yum list installed|grep python [rootpython ~]# yum list installed|grep epel epel-release.noarch 7-11 extras #安装python3 [rootpython ~]# yum -y install python3…...

编程日记 2024/8/10 6:08:23

高质量WordPress下载站模板5play主题源码

5play下载站是由国外站长开发的一款WordPress主题，主题简约大方，为v1.8版本， 该主题模板中包含了上千个应用，登录后台以后只需要简单的三个步骤就可以轻松发布apk文章， 我们只需要在WordPress后台中导入该主题就可以…...

编程日记 2024/8/10 6:07:21

【C++】类的概念与基本使用介绍

C类是面向对象编程（OOP）的基础，它允许我们将数据（属性）和行为（方法）封装在一起，形成一个自定义的数据类型。以下是C类的基本概念、特点、特性以及使用注意事项，最后会提供…...

编程日记 2024/8/10 6:06:20

基于Python和OpenCV的图像处理的轮廓查找算法及显示

文章目录概要轮廓查找算法示例代码代码解释小结概要在图像处理中，轮廓查找是一个重要的步骤，它可以帮助我们识别图像中的形状和边界。Python结合OpenCV库可以非常方便地实现这一功能。本文将详细介绍如何使用Python和OpenCV来查找图像中的轮廓&#…...

编程日记 2024/8/10 6:04:17

使用ant design的modal时，发现自定义组件的样式（组件高度）被改变了！

一问题描述在项目中，自定义了一个组件，分别在界面和 antd的modal中都有使用到。但是突然发现，界面中的组件样式跟modal中的组件样式高度不一样。modal中的组件整体要比页面中的组件要高一点。项目中的自定义组件比较复杂，因此&…...

编程日记 2024/8/10 6:02:16

NLP从零开始------8文本进阶处理之文本向量化

1. 文本向量化概述随着计算机计算能力的大幅度提升，机器学习和深度学习都取得了长足的发展。NLP越来越多的通过应用机器学习和深度学习工具解决问题，例如通过深度学习模型从网络新闻报道中分析出关键词汇与舆论主题并构建关系图谱。在这种背景下&#x…...

编程日记 2024/8/10 6:01:15

【网络编程】字节序，IP地址、点分十进制、TCP与UDP的异同

记录学习，思维导图绘制目录 1、字节序编辑 2、IP地址 3、点分十进制 4、TCP与UDP的异同 1、字节序 2、IP地址 3、点分十进制 4、TCP与UDP的异同...

编程日记 2024/8/10 5:59:13

关于k8s的pvc存储卷

目录 1.PVC 和 PV 1.1 PV 1.2 PVC 1.3 StorageClass 1.4 PV和PVC的生命周期 2.实战演练 2.1 创建静态pv 2.2 创建动态pv 3.总结 1.PVC 和 PV 1.1 PV PV 全称叫做 Persistent Volume，持久化存储卷。它是用来描述或者说用来定义一个存储卷的，…...

编程日记 2024/8/10 5:58:12

【物联网设备端开发】ESP开发工具：QEMU的使用方法

概要本文提供了一些运行QEMU的ESP特定说明。有关QEMU的一般使用问题，请参阅官方文档：https://www.qemu.org/documentation/. 编译 QEMU 准备工作在此之前，请查看有关构建先决条件的QEMU文档。如果你在Linux主机上构建QEMU，你…...

编程日记 2024/8/10 5:56:09

c++中std::endl 和“\n“ 这两个换行符有什么区别

std::endl 和 "\n" 都用于在C中生成换行符，但它们之间有一些重要的区别 std::endl： 功能：输出一个换行符，并刷新输出流（即缓冲区）。作用：确保所有数据立即输出到目的地，例…...

编程日记 2024/8/10 5:55:08

http中get和post怎么选

5.4.2.怎么选择1.如果你是想从服务器上获取资源，建议使用GET请求，如果你这个请求是为了向服务器提交数据，建议使用POST请求。2.大部分的form表单提交，都是post方式，因为form表单中要填写大量的数据，这些数据…...

编程日记 2024/8/10 5:54:07

数据分析及应用：快手直播间人员在线分析

目录 0 需求描述 1、进入直播间的高峰期为？(以进入用户数衡量) 2、晚上 11 点，哪个直播间的进入人数最多？ 3、20：00-23：00，娱乐类、搞笑类，进入人数最多直播间分别是？ 4、娱乐类、搞笑类，人均在线时长（退出时间-进入时间）最长的直播间分别是？ 5、同时在线人数…...

编程日记 2024/8/10 5:53:07

【Python】nn.nn.CircularPad1、2、3d函数和nn.ConstantPad1、2、3d函数详解和示例

前言在深度学习中，尤其是在处理图像、音频或其他多维数据时，数据填充（Padding）是一个常见的操作。填充不仅可以保持数据的空间维度，还能在卷积操作中避免信息丢失。PyTorch提供了多种填充方式，其中nn.Cir…...

编程日记 2024/8/10 5:52:06

LearnOpenGL——混合、面剔除

LearnOpenGL——混合、面剔除混合 Blending一、丢弃片段 Alpha Test二、混合 Alpha Blending渲染顺序面剔除一、环绕顺序二、面剔除混合 Blending OpenGL中，混合(Blending)通常是实现物体透明度(Transparency)的一种技术。透明的物体可以是完全透明的&#xff0…...

编程日记 2024/8/10 5:51:04

视频网站为何热衷于SCDN

视频网站为何热衷于SCDN？随着互联网技术的飞速发展，视频网站已成为人们日常生活中不可或缺的一部分。无论是观看高清电影、热门剧集，还是直播体育赛事、游戏竞技，视频网站都以其丰富的内容和便捷的访问方式吸引了无数用户。然而&a…...

编程日记 2024/8/10 5:50:03

Redis与DataBase保持数据一致性

文章目录 1. 读取数据2. 写数据2.1 先操作缓存2.2 先操作数据库在我们系统中缓存最常用的策略是：服务端需要同时维系DB和Cache，并且是以DB的结果为准， Cache-Aside Pattern（缓存分离模式、旁路缓存）。 1. 读取数据当…...

编程日记 2024/8/10 5:49:02

解决 MacOS 连接公司 VPN 成功但是不能网络的问题

目录解决办法2024 Mac mini 爆料解决办法操作比较简单，修改配置文件即可（如果没有则需要手动创建）。 sudo vim /etc/ppp/options在此文件下，加入 plugin L2TP.ppp： plugin L2TP.ppp如果文件里有l2tpnoipsec&…...

编程日记 2024/8/10 5:48:01

【Kubernetes】k8s集群之Pod容器资源限制和三种探针

目录一、Pod容器的资源限制 1.资源限制 2.Pod 和容器的资源请求与限制 3.CPU 资源单位 4.内存资源单位二、Pod容器的三种探针 1.探针的三种规则 2.Probe支持三种检查方法： 一、Pod容器的资源限制 1.资源限制当定义 Pod 时可以选择性地为每个容器设定所…...

编程日记 2024/8/10 5:46:59

从古代驿站体系看软件安全管控@安全历史04

在古代，车、马都很慢，信息传递很不顺畅，中央的政令又是如何传达至地方的呢？实际上，很多朝代都有专门的驿站制度，可以保障全国各地的信息传递，对于维护统治和稳定有着关键作用。若将国家比作一个…...

编程日记 2024/8/10 5:45:59

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/11/29 6:54:19

XCTF-web-easyupload

试了试php，php7，pht，phtml等，都没有用尝试.user.ini 抓包修改将.user.ini修改为jpg图片在上传一个123.jpg 用蚁剑连接，得到flag...

编程新知 2026/1/12 6:09:36

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

树莓派摄像头高级使用方法配置通过调谐文件来调整相机行为使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包文章来源： http://raspberry.dns8844.cn/documentation 原文网址配置大多数用例自动工作，无需更改相机配置。但是，一…...

编程新知 2026/1/8 15:18:51

逻辑回归：给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告（肿瘤大小、血液指标），你需要做出一个**决定性判断**：恶性还是良性？这种“非黑即白”的抉择，正是**逻辑回归（Logistic Regression）** 的战场&a…...

编程新知 2025/10/27 21:25:04

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2025/11/13 13:42:14

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2026/1/2 23:48:37

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

引言在人工智能飞速发展的今天，大语言模型（Large Language Models, LLMs）已成为技术领域的焦点。从智能写作到代码生成，LLM 的应用场景不断扩展，深刻改变了我们的工作和生活方式。然而，理解这些模型的内部…...

编程新知 2026/1/3 3:07:09

NPOI Excel用OLE对象的形式插入文件附件以及插入图片

static void Main(string[] args) {XlsWithObjData();Console.WriteLine("输出完成"); }static void XlsWithObjData() {// 创建工作簿和单元格,只有HSSFWorkbook,XSSFWorkbook不可以HSSFWorkbook workbook new HSSFWorkbook();HSSFSheet sheet (HSSFSheet)workboo…...

编程新知 2025/10/6 2:06:51

怎么让Comfyui导出的图像不包含工作流信息，

为了数据安全，让Comfyui导出的图像不包含工作流信息，导出的图像就不会拖到comfyui中加载出来工作流。 ComfyUI的目录下node.py 直接移除 pnginfo（推荐） 在 save_images 方法中，删除或注释掉所有与 metadata …...

编程新知 2025/8/13 15:12:54

【ML】异常检测、二分类问题

1. 异常检测、二分类问题

1.1 异常检测（Anomaly Detection）

1.2 二分类问题（Binary Classification）

1.3 异常检测与二分类问题的对比

1.4 总结

2. 模型额训练与评估

3. 为什么会出现比较高的误识别（导致假阳性、假阴性是识别结果的原因）

4. 基于gaussian假设下的异常行为检测

5. 基于 auto-encoder 深度模型训练、svm、随机森林 的 异常检测模型

相关文章：

5. 基于 auto-encoder 深度模型训练、svm、随机森林的异常检测模型