当前位置：首页 > news >正文

ML.NET库学习001：基于PCA的信用卡异常检查之样本处理与训练

news 2026/2/11 1:50:26

文章目录

(文末提供数据集下载)ML.NET库学习001：基于PCA的信用卡异常检查之样本处理与训练
- 目标
- 项目概述
- 代码结构概述
- - 1. **主要类和文件**
  - 2. **命名空间和使用指令**
  - 3. **数据类 (`TransactionObservation`)**
  - 4. **主程序入口 (`Main` 方法)**
  - 5. **数据预处理 (`DataPreprocessing` 方法)**
  - 6. **模型训练 (`TrainModel` 方法)**
  - 7. **模型评估 (`EvaluateModel` 方法)**
  - 8. **文件操作 (`FileHandling` 方法)**
- 代码功能详解
- - **1. 数据加载与预处理**
  - **2. 模型训练**
  - **3. 模型评估**
  - **4. 文件操作**
- 代码依赖
- 示例用法
- - **数据文件 (`transaction_data.txt)`**
  - **运行程序**
  - 输出结果
  - 代码优势
- 总结
- 数据集

(文末提供数据集下载)ML.NET库学习001：基于PCA的信用卡异常检查之样本处理与训练

目标

AnomalyDetectCreditCardFraudDetection.Solution
CreditCardFraudDetection.Trainer
学习知识点：PCA、表格数据的预处理方法、模型训练步骤；ML库的学习初体验

项目概述

项目概述：
- 这是一个使用ML.NET进行异常检测的C#控制台应用程序，目标是检测欺诈交易。
数据加载与预处理：
- 使用LoadData方法从CSV文件加载交易数据。
- 将文本数据转换为数值型特征向量，并构建包含这些特征的数据集。
模型训练：
- 构建了一个管道，包括特征拼接、归一化和PCA变换。
- 使用随机化PCA算法进行异常检测模型的训练，设置主成分数量（Rank=28）和过采样率（Oversampling=20）。
模型评估：
- 在测试数据集上评估模型性能，计算准确率、召回率和其他相关指标。
- 使用ConsoleHelper.PrintAnomalyDetectionMetrics方法输出评估结果。
文件处理：
- 通过相对路径获取绝对路径，确保程序能够正确定位数据文件。
- 解压ZIP文件到指定目录，以便访问和处理数据集。
参数选择与优化：
- Rank设置为28可能是因为数据中有28个特征，或者基于其他理论选择。
- Oversampling=20意味着在训练过程中每个样本会被过采样20次，以增强模型的泛化能力。
数据平衡性处理：
- 在训练数据中使用过滤变换，仅保留标签为0（正常交易）的数据，可能是因为欺诈交易较少，通过减少正常交易的数量来平衡数据集。
- 也可以考虑其他方法如过采样欺诈交易或使用调整类别权重的方法。
潜在改进点：
- 实现更复杂的特征工程，例如提取时间序列特征或使用统计聚合特征。
- 调整PCA参数，进行网格搜索以找到最佳的主成分数量和过采样率。
- 使用交叉验证评估模型性能，确保模型在不同数据子集上的泛化能力。
代码实现步骤：
- 编写LoadData方法，读取CSV文件并解析数据字段。
- 实现特征向量的构建，可能需要将文本类型转换为数值型。
- 配置和训练模型管道，包括所有必要的变换步骤。
- 解压数据集到指定目录，并确保程序能够正确访问这些文件。
运行环境与依赖：
- 确保项目引用了ML.NET库。
- 安装必要的NuGet包，如Microsoft.ML和Microsoft.ML.Transforms.

通过以上步骤，可以全面理解并实现这个欺诈交易检测系统。

代码结构概述

1. 主要类和文件

Program.cs: 包含主程序入口，数据处理逻辑，模型训练和评估。

2. 命名空间和使用指令

using Microsoft.ML;
using Microsoft.ML.Data;
using Microsoft.ML.Transforms;
using Microsoft.ML.AnomalyDetection;
using System;
using System.Collections.Generic;
using System.IO;

3. 数据类 (`TransactionObservation`)

定义了事务观测的结构，包含以下字段：

Id: 事务ID。
Features: 特征向量（长度为28）。
Label: 标签（0表示正常，1表示异常）。

public class TransactionObservation : ITransformableTo<RowItem>
{public float[] Features;public float Label;public void PrintToConsole(){Console.WriteLine($"ID: {Id}, Label: {(Label == 1 ? "Fraud" : "Not Fraud")}");// 打印特征向量Console.WriteLine($"Features: [{string.Join(", ", Features)}]");Console.WriteLine();}
}

4. 主程序入口 (`Main` 方法)

public static void Main(string[] args)
{var mlContext = new MLContext();// 加载数据集IDataView data = mlContext.Data.LoadFromTextFile<TransactionObservation>(@"data\transaction_data.txt",separatorChar: '\t',useHeader: true);// 数据预处理和训练ITransformer model = TrainModel(mlContext, data);// 评估模型EvaluateModel(mlContext, model, data);
}

5. 数据预处理 (`DataPreprocessing` 方法)

private static ITransformer PreprocessData(MLContext mlContext, IDataView data)
{var preprocessPipeline = mlContext.Transforms.Concatenate("Features", new[] { nameof(TransactionObservation.Features) }).Append(mlContext.Transforms.NormalizeLpNorm(outputColumnName: "NormalizedFeatures",inputColumnName: "Features"));return preprocessPipeline;
}

6. 模型训练 (`TrainModel` 方法)

private static ITransformer TrainModel(MLContext mlContext, IDataView data)
{var options = new RandomizedPcaTrainer.Options{FeatureColumnName = "NormalizedFeatures",Rank = 28,Oversampling = 20,EnsureZeroMean = true,Seed = 1};IEstimator<ITransformer> trainer = mlContext.AnomalyDetection.Trainers.RandomizedPca(options);var trainingPipeline = preprocessPipeline.Append(trainer);return trainingPipeline.Fit(data);
}

7. 模型评估 (`EvaluateModel` 方法)

private static void EvaluateModel(MLContext mlContext, ITransformer model, IDataView testData)
{var predictions = model.Transform(testData);AnomalyDetectionMetrics metrics = mlContext.AnomalyDetection.Evaluate(predictions);Console.WriteLine("Precision: {0}", metrics.Precision);Console.WriteLine("Recall: {0}", metrics.Recall);Console.WriteLine("F1-Score: {0}", metrics.F1Score);
}

8. 文件操作 (`FileHandling` 方法)

private static string GetAbsolutePath(string relativePath)
{FileInfo _dataRoot = new FileInfo(typeof(Program).Assembly.Location);string assemblyFolderPath = _dataRoot.Directory.FullName;return Path.Combine(assemblyFolderPath, relativePath);
}private static void UnZipDataSet(string zipDataSet, string destinationFile)
{if (!File.Exists(destinationFile)){ZipFile.ExtractToDirectory(zipDataSet, Path.GetDirectoryName(destinationFile));}
}

代码功能详解

1. 数据加载与预处理

数据加载: 使用 MLContext.Data.LoadFromTextFile 方法从文件加载事务数据。
数据预处理: 包括特征向量拼接和归一化处理，确保模型输入格式一致。

2. 模型训练

PCA异常检测器: 使用随机化 PCA 算法进行异常检测，设置参数如主成分数量、过采样率等。
模型拟合: 通过 Fit 方法在预处理后的数据上训练模型。

3. 模型评估

预测与评估: 在测试数据上应用训练好的模型，并使用 AnomalyDetectionMetrics 计算精度、召回率和 F1 分数等指标。

4. 文件操作

路径获取: 使用反射获取程序集目录，构造绝对路径。
文件解压: 解压事务数据文件到指定位置。

代码依赖

Microsoft.ML 包: 需要安装 Microsoft.ML 和相关组件包（如 Microsoft.ML.AnomalyDetection）。
文本文件格式: 数据文件应为制表符分隔的文本文件，包含标题行。

示例用法

数据文件 (`transaction_data.txt)`

Id	Features	Label
1	0.5,0.6,...,0.3	0
2	0.7,0.8,...,0.4	1
...

运行程序

dotnet run --project ./AnomalyDetection.csproj

输出结果

模型训练完成后，将在控制台输出以下信息：

训练完成: 显示训练耗时。
评估结果: 显示 Precision、Recall 和 F1-Score。

代码优势

高效处理: 使用 ML.NET 进行高效的机器学习任务处理。
模块化设计: 代码结构清晰，功能模块独立，便于扩展和维护。
易用性: 提供了完整的文件操作和数据预处理逻辑，方便用户直接使用。

总结

该代码实现了一个基于随机化 PCA 的异常检测系统，适用于金融事务等场景中的欺诈 detection。通过 ML.NET 框架，实现了从数据加载、预处理、模型训练到评估的完整流程。

数据集

数据集下载地址

ML.NET库学习001：基于PCA的信用卡异常检查之样本处理与训练

文章目录 (文末提供数据集下载)ML.NET库学习001：基于PCA的信用卡异常检查之样本处理与训练目标项目概述代码结构概述1. **主要类和文件**2. **命名空间和使用指令**3. **数据类 (TransactionObservation)**4. **主程序入口 (Main 方法)**5. **数据预处理 (DataPrepr…...

编程日记 2025/2/7 7:37:59

【华为OD机考】华为OD笔试真题解析(1)--AI处理器组合

一、题目描述某公司研发了一款高性能AI处理器，每台物理设备具备8颗AI处理器，编号分别为0、1、2、3、4、5、6、7。编号0~3的处理器处于同一链路中，编号4~7的处理器处于另外一个链路中，不同链路中的处理器不能通信，如…...

编程日记 2025/2/7 7:36:58

edu小程序挖掘严重支付逻辑漏洞

edu小程序挖掘严重支付逻辑漏洞一、敏感信息泄露打开购电小程序这里需要输入姓名和学号，直接搜索引擎搜索即可得到，这就不用多说了，但是这里的手机号可以任意输入，只要用户没有绑定手机号这里我们输入自己的手机号抓包直接进…...

编程日记 2025/2/7 7:35:56

力扣 279. 完全平方数

🔗 https://leetcode.cn/problems/perfect-squares 题目给你一个整数 n ，返回和为 n 的完全平方数的最少数量完全平方数可以拆解为两个相同数的乘积思路 dp 公式，就是从看用哪个完全平方数 1 2 4 9…… 到当前 sum 的数量最少代码 …...

编程日记 2025/2/7 7:33:54

鸿蒙生态潮起：开发者的逐浪之旅

鸿蒙生态潮起：开发者的逐浪之旅在全球科技的澎湃浪潮中，鸿蒙生态宛如一座正在崛起的新大陆，熠熠生辉，吸引着无数开发者扬帆起航，探寻其中蕴藏的无限机遇，也直面诸多挑战。鸿蒙生态的机遇，首先…...

编程日记 2025/2/7 7:27:46

Diskgenius系统迁移之后无法使用USB启动

前言本文用于记录系统迁移中遇到的问题及解决方法，如有不对请指出，谢谢！ 现象使用DiskGenius进行系统迁移后，使用USB启动失败，反复在品牌logo和黑屏之间切换，期间还会在左上角显示”reset system“报错…...

编程日记 2025/2/7 7:25:44

Kafka 可靠性探究—副本刨析

Kafka 的多副本机制提升了数据容灾能力。副本通常分为数据副本与服务副本。数据副本是指在不同的节点上持久化同一份数据；服务副本指多个节点提供同样的服务，每个节点都有能力接收来自外部的请求并进行相应的处理。 1 副本刨析 1.1 相关概念 AR&…...

编程日记 2025/2/7 7:20:40

我的博文天地测试报告

我的博文天地测试报告文章目录我的博文天地测试报告一.项目背景二.项目功能 2.1 功能介绍三.测试分类 3.1 功能测试 3.1.1 测试用例 3.1.2 实际执行测试的部分操作步骤/结果的截图 3.2 自动化测试 3.3 性能测试 3.1.2 用户登录 jmeter性能测试结果性能测试遇到的困难 …...

编程日记 2025/2/7 7:19:39

EtherCAT主站IGH-- 35 -- IGH之pdo_list.h/c文件解析

EtherCAT主站IGH-- 35 -- IGH之pdo_list.h/c文件解析 0 预览一该文件功能`pdo_list.c` 文件功能函数预览二函数功能介绍`pdo_list.c` 中主要函数的作用1. `ec_pdo_list_init`2. `ec_pdo_list_clear`3. `ec_pdo_list_clear_pdos`4. `ec_pdo_list_total_size`5. `ec_pdo_list_a…...

编程日记 2025/2/7 7:13:33

嵌入式开发神器:Buildroot的介绍和使用方法

目录引言**Buildroot 能做什么？****1. 生成交叉编译工具链（Toolchain）****2. 生成嵌入式 Linux 根文件系统（RootFS）****3. 编译 Linux 内核和设备树文件****4. 编译 Bootloader（U-Boot）****5. …...

编程日记 2025/2/7 7:12:31

JavaScript系列（61）--边缘计算应用开发详解

JavaScript边缘计算应用开发详解 🌐 今天，让我们深入探讨JavaScript的边缘计算应用开发。边缘计算是一种将计算和数据存储分布到更靠近数据源的位置的架构模式，它能够提供更低的延迟和更好的实时性能。边缘计算基础架构 🌟 &am…...

编程日记 2025/2/7 7:05:24

【LeetCode】day15 142.环形链表II

142. 环形链表 II - 力扣（LeetCode） 题目描述给定一个链表的头节点 head ，返回链表开始入环的第一个节点。如果链表无环，则返回 null。如果链表中有某个节点，可以通过连续跟踪 next 指针再次到达，则…...

编程日记 2025/2/7 6:57:15

代理对象与目标对象

1. 定义：代理对象和目标对象 1.1 目标对象（Target Object） 目标对象是指被增强的原始对象，即需要通过 AOP 切面（Aspect）增强功能的业务对象（原始类）。增强逻辑（Advice…...

编程日记 2025/2/7 6:56:14

【Kubernetes Pod间通信-第3篇】Kubernetes中Pod与ClusterIP服务之间的通信

引言我们之前了解了在不同场景下，Kubernetes中Pod之间的通信是如何路由的。【Kubernetes Pod间通信-第1篇】在单个子网中使用underlay网络实现Pod到Pod的通信【Kubernetes Pod间通信-第2篇】使用BGP实现Pod到Pod的通信现在，我们来看看在集群中，Pod与服务之间的通信是如何…...

编程日记 2025/2/7 6:49:07

DNN(深度神经网络)近似 Lyapunov 函数

import torch import torch.nn as nn import torch.optim as optim import matplotlib.pyplot as plt # from torchviz import make_dot import torchviz# 1. Lyapunov 函数近似器（MLP 结构） class LyapunovNet(nn.Module):def __init__(self, input_dim…...

编程日记 2025/2/7 6:41:59

128陷阱

首先我们了解一下关于包装器类型 java是面向对象的语言，但基本类型并不是面向对象的，从而出现了包装器类型，并且包装器添加了更多的属性和方法。如我们在使用集合类型Collection的时候就一定要使用包装类型而非基本类型，它相当于将…...

编程日记 2025/2/7 6:39:58

PromptSource和LangChain哪个更好

目录 1. 设计目标与定位 PromptSource LangChain 2. 功能对比 3. 优缺点分析 PromptSource LangChain 4. 如何选择？ 5. 总结 PromptSource 和 LangChain 是两个在自然语言处理（NLP）领域非常有用的工具，但它们的设计目标和…...

编程日记 2025/2/7 6:37:55

构成正方形的数量：算法深度剖析与实践

目录引言算法核心概念定义正方形的构成条件数据结构与输入形式算法数学原理几何关系的数学表达坐标运算与判定逻辑Python 实现代码展示代码解析Python 实现的优势与局限C 语言实现代码展示代码解析C 语言实现的性能特点性能分析与优化性能分析时间复杂度空间复杂度优化思…...

编程日记 2025/2/7 6:36:54

Redis持久化-秒杀系统设计

在构建高性能、高可用的系统时，Redis 作为缓存和消息队列的角色越来越重要。在一些场景下，我们还需要将 Redis 的数据进行持久化，以确保数据的安全性和恢复能力。除此之外，秒杀系统也越来越成为电商、抢购等平台的核心功能之一。本…...

编程日记 2025/2/7 6:35:53

音视频入门基础：RTP专题（8）——使用Wireshark分析RTP

一、引言通过Wireshark可以抓取RTP数据包，该软件可以从Wireshark Go Deep 下载。二、通过Wireshark抓取RTP数据包首先通过FFmpeg将一个媒体文件转推RTP，生成RTP流： ffmpeg -re -stream_loop -1 -i input.mp4 -vcodec copy -an -f rtp …...

编程日记 2025/2/7 6:34:52

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

AI-调查研究-01-正念冥想有用吗？对健康的影响及科学指南

点一下关注吧！！！非常感谢！！持续更新！！！ 🚀 AI篇持续更新中！（长期更新） 目前2025年06月05日更新到： AI炼丹日志-28 - Aud…...

编程新知 2026/2/8 5:11:39

测试微信模版消息推送

进入“开发接口管理”--“公众平台测试账号”，无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。获取access_token: 自定义模版消息： 关注测试号：扫二维码关注测试号。发送模版消息： import requests da…...

编程新知 2026/2/8 4:37:13

Leetcode 3576. Transform Array to All Equal Elements

Leetcode 3576. Transform Array to All Equal Elements 1. 解题思路2. 代码实现题目链接：3576. Transform Array to All Equal Elements 1. 解题思路这一题思路上就是分别考察一下是否能将其转化为全1或者全-1数组即可。至于每一种情况是否可以达到&#xf…...

编程新知 2025/9/17 7:25:07

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/2/9 21:57:29

vscode（仍待补充）

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用侧边栏 vscode还能连接ssh？ debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

编程新知 2026/1/24 13:04:10

家政维修平台实战20：权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结目前我们已经搭建好了基础的用户体系，主要是分成几个表，用户表我们是记录用户的基础信息，包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题，不同的角色&#xf…...

编程新知 2026/2/10 22:14:48

【论文笔记】若干矿井粉尘检测算法概述

总的来说，传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度，通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

编程新知 2025/10/14 10:52:24

今日科技热点速览

🔥 今日科技热点速览 🎮 任天堂Switch 2 正式发售任天堂新一代游戏主机 Switch 2 今日正式上线发售，主打更强图形性能与沉浸式体验，支持多模态交互，受到全球玩家热捧。 🤖 人工智能持续突破 DeepSeek-R1&…...

编程新知 2025/11/20 14:26:29