当前位置：首页 > news >正文

【监督学习】支持向量机步骤及matlab实现

news 2026/2/9 19:45:09

支持向量机

- （四）支持向量机
- - 1.算法步骤
  - 2. MATLAB 实现
  - 参考资料

（四）支持向量机

支持向量机（Support Vector Machine, SVM）是一种用于分类、回归分析以及异常检测的监督学习模型。SVM特别擅长处理高维空间的数据，并在文本和图像分类、生物信息学等领域有着广泛的应用。
支持向量机分类原理

核心概念：

最大间隔超平面
- 超平面：在二维空间中，超平面是一条直线；在三维空间中，是一个平面；更高维度则是超平面；
- 最大间隔：SVM的目标是找到一个能够将不同类别的样本分开，并且使得两类之间的间隔最大化。这个间隔是由距离超平面最近的数据点（即支持向量）来定义的。
支持向量
- 支持向量：位于分类边界（决策边界或超平面）最近的数据点称为支持向量。这些点对于定义最优超平面至关重要。即使去掉其他非支持向量的数据点，也不会影响超平面的位置。
核技巧（Kernel Trick）
- 当数据不是线性可分时，可以通过使用核函数将原始特征空间映射到一个更高维度的空间，在那里数据可能变得线性可分。常用的核函数包括：
  - 线性核：适用于线性可分的数据；
  - 多项式核：可以捕捉输入变量间的非线性关系；
  - RBF（径向基函数）核：非常流行，尤其适合于复杂的非线性问题；
  - Sigmoid核：类似于神经网络中的激活函数。
软间隔与硬间隔
- 硬间隔：假设数据完全线性可分，寻找一个能够完美分离所有训练样本的超平面。
- 软间隔：允许某些样本跨越边际甚至落在错误的一侧，通过引入松弛变量和惩罚参数C来实现。这有助于提高模型对噪声的鲁棒性和泛化能力。

1.算法步骤

数据准备
- 目标：收集与业务问题相关的结构化数据；
- 关键操作：
  - 定义特征（如客户收入、信用历史、消费行为）和标签（如“违约/非违约”）。
  - 划分数据集为训练集（70% ~ 80%）和测试集（20% ~ 30%）。
数据预处理
- 标准化：对特征进行 Z-score 标准化，消除量纲影响： $x_{scaled}=\frac{x−μ}{σ}$
- 处理缺失值：删除或填充缺失数据（如用均值/中位数）；
- 类别平衡：若标签分布不均，使用过采样（SMOTE）或欠采样。
选择核函数
- 常用核函数：
  - 线性核（linear），适用于线性可分问题，复杂度低： $K(x_i,x_j)=x_i^Tx_j$
  - 高斯核（RBF），适用于非线性问题，需调节参数 $γ$ ： $K(x_i,x_j)=exp⁡(−γ \lVert xi−xj \rVert ^2)$
  - 多项式核（polynomial），适用于高阶特征交互： $K(x_i,x_j)=(x_i^Tx_j+c)^d$
求解优化问题
- 目标函数：最大化间隔，转化为凸二次规划问题： $\min_{w,b} \frac{1}{2} \|w\|^2 + C \sum_{i=1}^{n} \xi_i$ $\text{s.t. } y_i(w^T x_i + b) \geq 1 - \xi_i, \quad \xi_i \geq 0$
  - 参数：
    - $C$ ：正则化参数，控制分类错误的惩罚力度；
    - $γ$ （高斯核）：控制决策边界的复杂度。
构建决策边界
- 支持向量：距离决策边界最近的样本点。
- 分类规则： $\mathrm{sign} \left( \sum_{i=1}^{n} \alpha_i y_i K(x_i, x) + b \right)$
模型评估
- 分类指标：
  - 准确率（Accuracy）：模型预测正确的样本数占总样本数的比例， $Accuracy=\frac{TP+TN}{TP+FP+FN+TN}$ ；
  - 精确率（Precision）：正确预测为正类的样本数占所有预测为正类的样本数的比例，公式： $A cc u r a cy = TP / (TP + FP)$ 。
  - 召回率（Recall）：正确预测为正类的样本数占所有实际正类样本数的比例。公式： $R ec a ll = TP / (TP + FN)$ 。
  - F1分数（F1 Score）：精确率和召回率的调和平均数，用于综合评估两者的表现，公式： $F1\ Score=2 * (Precision * Recall) / (Precision + Recall)$ 。
  - ROC 曲线与 AUC 值（适用于二分类）：
    - ROC 曲线是一种展示分类模型在不同阈值下的性能的图形化方法，它通过绘制真阳性率（TPR，True Positive Rate）对假阳性率（FPR，False Positive Rate）来实现；
      - $\frac{TP}{TP+FN}$ （也称为召回率Recall）；
      - $\frac{FP}{FP+TN}$ 。
      - ROC 曲线展示了模型区分正负类别的能力。理想情况下，希望 TPR 尽可能高，同时保持FPR尽可能低。曲线越靠近左上角（即 TPR接近 1 而 FPR 接近 0 ），表示模型的性能越好。
    - AUC 指的是ROC曲线下方的面积大小，它是衡量模型区分能力的一个单一数值指标，AUC的取值范围从0到1，其中：
      - AUC = 1 表示完美的分类器；
      - AUC = 0.5 表示模型的表现与随机猜测相同；
      - AUC < 0.5 则表示模型比随机猜测还要差（这种情况通常可以通过反转预测标签来改善）。
      - AUC值越高，说明模型的平均性能越好，对于不平衡数据集来说，AUC是一个非常有用的评估标准，因为它不直接依赖于类别分布的比例。
- 回归指标（SVR）：
  - 均方误差（MSE）：预测值与实际值之间差异的平方的平均值；
  - $R^{2}$ 值（决定系数）：表示模型解释变量变异的比例。

2. MATLAB 实现

银行需根据客户信息预测其贷款违约风险，特征包括：

年龄、月收入、信用评分、负债比（负债/收入）、历史违约次数 ；
标签：0（正常客户），1（高风险客户）。

支持向量机根据客户信息预测其贷款违约风险结果①
支持向量机根据客户信息预测其贷款违约风险结果②

%% 支持向量机（SVM）根据客户信息预测其贷款违约风险
clc; clear; close all;%% 生成模拟数据（1000个样本）
rng(25); % 固定随机种子
num_samples = 1000;% 特征生成
age = randi([22, 65], num_samples, 1); % 年龄：22-65岁
income = rand(num_samples, 1)*15000 + 3000; % 月收入：3000-18000
credit_score = randn(num_samples, 1)*50 + 650; % 信用评分：均值650，标准差50
debt_ratio = rand(num_samples, 1)*0.7 + 0.1; % 负债比：0.1-0.8
past_default = randi([0, 3], num_samples, 1); % 历史违约次数：0-3次% 标签生成（违约概率与负债比、历史违约次数正相关）
default_prob = 1 ./ (1 + exp(-(0.5*debt_ratio + 0.8*past_default - 0.1*(credit_score-600)/50)));
labels = double(default_prob > 0.6); % 阈值0.6% 合并特征矩阵
X = [age, income, credit_score, debt_ratio, past_default];
y = labels;%% 数据标准化（Z-score）
X_scaled = zscore(X);% 按7:3划分训练集和测试集
cv = cvpartition(y, 'HoldOut', 0.3);
X_train = X_scaled(cv.training, :);
y_train = y(cv.training, :);
X_test = X_scaled(cv.test, :);
y_test = y(cv.test, :);%% 使用高斯核SVM，设置参数
svm_model = fitcsvm(X_train, y_train, ...'KernelFunction', 'RBF', ...       % 高斯核'BoxConstraint', 1, ...            % 正则化参数C，控制过拟合'KernelScale', 'auto', ...         % 自动计算核参数γ'Standardize', false);             % 已手动标准化数据%% 预测测试集
[y_pred, scores] = predict(svm_model, X_test);%% =====================================================================
%% 模型评估指标计算
% 1. 准确率 (Accuracy)
accuracy = sum(y_pred == y_test) / numel(y_test);% 2. 混淆矩阵
conf_mat = confusionmat(y_test, y_pred);
TP = conf_mat(2,2); % 真正例 (True Positive)
FP = conf_mat(1,2); % 假正例 (False Positive)
FN = conf_mat(2,1); % 假负例 (False Negative)% 3. 精确率 (Precision)
precision = TP / (TP + FP);% 4. 召回率 (Recall)
recall = TP / (TP + FN);% 5. F1-Score
f1_score = 2 * (precision * recall) / (precision + recall);% 6. 均方误差 (MSE) —— 基于预测概率（需转换为0-1概率）
% 注意：SVM默认输出决策值，需转换为概率（MATLAB需训练后验概率模型）
svm_model = fitPosterior(svm_model); % 训练概率输出模型
[~, prob_estimates] = predict(svm_model, X_test);
mse = mean((prob_estimates(:,2) - y_test).^2); % 使用正类概率计算MSE% 7. R²值 (基于预测概率)
ss_total = sum((y_test - mean(y_test)).^2);
ss_residual = sum((y_test - prob_estimates(:,2)).^2);
r_squared = 1 - (ss_residual / ss_total);%% 输出结果
fprintf('=== 模型评估指标 ===\n');
fprintf('准确率: %.2f%%\n', accuracy*100);
fprintf('精确率: %.2f%%\n', precision*100);
fprintf('召回率: %.2f%%\n', recall*100);
fprintf('F1-Score: %.2f\n', f1_score);
fprintf('均方误差 (MSE): %.4f\n', mse);
fprintf('R²值: %.4f\n\n', r_squared);
disp('混淆矩阵:');
disp(conf_mat);%% 绘制ROC曲线
figure;
[X_roc, Y_roc, ~, AUC] = perfcurve(y_test, scores(:,2), 1);
plot(X_roc, Y_roc, 'LineWidth', 2);
xlabel('假正率 (FPR)');
ylabel('真正率 (TPR)');
title(sprintf('ROC曲线 (AUC = %.2f)', AUC));
grid on;

参考资料

[1] 【数之道】支持向量机SVM是什么，八分钟直觉理解其本质_哔哩哔哩_bilibili

【监督学习】支持向量机步骤及matlab实现

支持向量机 （四）支持向量机1.算法步骤2. MATLAB 实现参考资料 （四）支持向量机支持向量机（Support Vector Machine, SVM）是一种用于分类、回归分析以及异常检测的监督学习模型。SVM特别擅长处理高维空间的…...

编程日记 2025/3/8 1:26:51

机器学习-随机森林解析

目录一、.随机森林的思想二、随机森林构建步骤 1.自助采样 2.特征随机选择 3构建决策树 4.集成预测三. 随机森林的关键优势 **(1) 减少过拟合** **(2) 高效并行化** **(3) 特征重要性评估** **(4) 耐抗噪声** 四. 随机森林的优缺点优点缺点五.…...

编程日记 2025/3/8 1:21:39

Javaweb后端spring事务管理事务四大特性ACID

2步操作，只能同时成功，同时失败，要放在一个事务中，最后提交事务或者回滚事务事务控制事务管理进阶事务的注解这是所有异常都会回滚事务注解事务的传播行为四大特性...

编程日记 2025/3/8 1:20:38

在Spring Boot + MyBatis中优雅处理多表数据清洗：基于XML的配置化方案

问题背景在实际业务中，我们常会遇到数据冗余问题。例如，一个公司表（sys_company）中存在多条相同公司名的记录，但只有一条有效（del_flag0），其余需要删除。删除前需将关联表&#xf…...

编程日记 2025/3/8 1:17:34

【无标题】四色拓扑模型与宇宙历史重构的猜想框架

### 四色拓扑模型与宇宙历史重构的猜想框架 --- #### **一、理论基础：四色拓扑与时空全息原理的融合** 1. **宇宙背景信息的拓扑编码** - **大尺度结构网络**：将星系团映射为四色顶点，纤维状暗物质结构作为边，构建宇宙尺度…...

编程日记 2025/3/8 1:15:30

[特殊字符] Django 常用命令

🚀 Django 常用命令大全：从开发到部署 Django 提供了许多实用的命令，可以用于数据库管理、调试、测试、用户管理、运行服务器、部署等。本教程将详细介绍 Django 开发中最常用的命令，并提供示例，帮助你更高…...

编程日记 2025/3/8 1:11:26

mysql中如何保证没有幻读发生

在 MySQL 中，幻读（Phantom Read）是指在一个事务中，两次相同的查询返回了不同的结果集，通常是由于其他事务插入或删除了符合查询条件的数据。为了保证没有幻读，MySQL 主要通过事务隔离级别和锁机制来实现…...

编程日记 2025/3/8 1:08:23

Golang实践录：go发布版本信息收集

go发布版本信息收集。背景本文从官方、网络资料收罗有关go的发布历史概况。主要目的是能快速了解golang不同版本的变更。鉴于官方资料为英文，为方便阅读，使用工具翻译成中文，重要特性参考其它资料补充/修改。由于发布版本内容较多&#xf…...

编程日记 2025/3/8 1:06:21

字节跳动AI原生编程工具Trae和百度“三大开发神器”AgentBuilder、AppBuilder、ModelBuilder的区别是？

字节跳动AI编程工具Trae与百度"三大开发神器"（AgentBuilder、AppBuilder、ModelBuilder）在定位、功能架构和技术路线上存在显著差异，具体区别如下： 一、核心定位差异 Trae：AI原生集成开发环境（AI…...

编程日记 2025/3/8 1:04:19

【UCB CS 61B SP24】Lecture 21: Data Structures 5: Priority Queues and Heaps 学习笔记

本文介绍了优先队列与堆，分析了最小堆的插入与删除过程，并用 Java 实现了一个通用类型的最小堆。 1. 优先队列 1.1 介绍优先队列是一种抽象数据类型，其元素按照优先级顺序被处理。不同于普通队列的先进先出（FIFO）&…...

编程日记 2025/3/8 1:03:18

mapbox高阶，结合threejs（threebox）添加三维球体

👨‍⚕️ 主页： gis分享者 👨‍⚕️ 感谢各位大佬点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍⚕️ 收录于专栏：mapbox 从入门到精通文章目录一、🍀前言1.1 ☘️mapboxgl.Map 地图对象1.2 ☘️mapboxgl.Map style属性1.3 ☘️threebox Sphere静态对象二、🍀使用t…...

编程日记 2025/3/8 1:00:13

QEMU源码全解析 —— 块设备虚拟化（1）

本文内容参考：《趣谈Linux操作系统》 —— 刘超，极客时间《QEMU/KVM源码解析与应用》 —— 李强，机械工业出版社详解全虚拟半虚拟及硬件辅助虚拟化技术-百度开发者中心特此致谢！序言本专栏之前的系列文章，讲了很多QEMU/KVM相关知识，其中一部分内容是设备的虚拟…...

编程日记 2025/3/8 0:59:12

IDEA中Git版本回退终极指南：Reset与Revert双方案详解

目录前言一、版本回退前置知识二、Reset方案：整体改写历史1、IDEA图形化操作（推荐）1.1、查看提交历史1.2、选择目标版本1.3、选择回退模式1.3.1、Soft（推荐）1.3.2、Mixed1.3.3、Hard（慎用）1.3.…...

编程日记 2025/3/8 0:58:10

Flutter 学习之旅之 flutter 使用 flutter_screenutil 简单进行屏幕适配

Flutter 学习之旅之 flutter 使用 flutter_screenutil 简单进行屏幕适配目录 Flutter 学习之旅之 flutter 使用 flutter_screenutil 简单进行屏幕适配一、简单介绍二、简单介绍 flutter_screenutil 三、安装 carousel_slider 四、简单案例实现五、关键代码六、补…...

编程日记 2025/3/8 0:57:09

实验一：在Windows 10/11下配置和管理TCP/IP

目录 1.【实训目标】 2.【实训环境】 3.【实训内容】 4.【实训步骤】 1.【实训目标】 1.了解网络基本配置中包含的协议、服务、客户端。 2.了解Windows支持的网络协议及参数设置方法。 3.掌握TCP/IP协议的配置。 2.【实训环境】硬件环境：每人一台计算机&a…...

编程日记 2025/3/8 0:55:07

基于hive的电信离线用户的行为分析系统

标题:基于hive的电信离线用户的行为分析系统内容:1.摘要随着电信行业的快速发展，用户行为数据呈现出海量、复杂的特点。为了深入了解用户行为模式，提升电信服务质量和精准营销能力，本研究旨在构建基于 Hive 的电信离线用户行为分析系统。通…...

编程日记 2025/3/8 0:53:04

一、开发环境搭建 1. 基础工具安装 # 安装 Rust curl --proto https --tlsv1.2 -sSf https://sh.rustup.rs | sh# 安装 wasm-pack cargo install wasm-pack# 安装开发服务器 cargo install basic-http-server# 安装文件监听工具 cargo install cargo-watch2. VSCode 插件安装…...

编程日记 2025/3/8 0:51:02

部署RabbitMQ集群详细教程

部署RabbitMQ集群详细教程下面是一份在 Ubuntu 环境下部署 RabbitMQ 集群的详细步骤说明，涉及主机名设置、Erlang & RabbitMQ 安装、管理插件启用、集群通信 Cookie 配置、节点加入集群、镜像队列策略设置以及集群验证等。为了演示方便，以下示例假…...

编程日记 2025/3/8 0:50:00

20250306JIRA添加企业微信邮箱通知

文章目录一，参考链接如下二，补充内容1，登录企业邮箱2，设置密码3，设置收发信设置一，参考链接如下参考链接：https://blog.csdn.net/icett/article/details/142520823 二，补充内容…...

编程日记 2025/3/8 0:45:56

代码随想录算法训练营第五十七天 | 101. 孤岛的总面积 102. 沉没孤岛 103. 水流问题 104.建造最大岛屿

101. 孤岛的总面积题目链接：KamaCoder 文档讲解：代码随想录状态：AC Java代码： import java.util.*;class Main {static int count 0;static int res 0;static boolean island true;public static int[][] dir new int[][]{…...

编程日记 2025/3/8 0:33:42

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

【WiFi帧结构】

文章目录帧结构MAC头部管理帧帧结构 Wi-Fi的帧分为三部分组成：MAC头部frame bodyFCS，其中MAC是固定格式的，frame body是可变长度。 MAC头部有frame control，duration，address1，address2，addre…...

编程新知 2026/2/7 17:33:19

Nginx server_name 配置说明

Nginx 是一个高性能的反向代理和负载均衡服务器，其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机（Virtual Host）。 1. 简介 Nginx 使用 server_name 指令来确定…...

编程新知 2025/9/6 16:47:17

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2026/2/1 4:14:14

MySQL账号权限管理指南：安全创建账户与精细授权技巧

在MySQL数据库管理中，合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。一、为何需要创建独立账号？ 最小权限原则&#xf…...

编程新知 2025/9/5 23:36:27

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2026/1/26 9:30:45

音视频——I2S 协议详解

I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议，专门用于在数字音频设备之间传输数字音频数据。它由飞利浦（Philips）公司开发，以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

编程新知 2026/2/1 2:08:53

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

修改bug思路： 分别把 tabledata 和表尾相关数据 console.log() 发现更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行升级↑：async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

编程新知 2026/1/25 6:16:49

20个超级好用的 CSS 动画库

分享 20 个最佳 CSS 动画库。它们中的大多数将生成纯 CSS 代码，而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库，可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画，可以包含在你的网页或应用项目中。 3.An…...

编程新知 2026/1/25 11:46:42

Caliper 配置文件解析：fisco-bcos.json

config.yaml 文件 config.yaml 是 Caliper 的主配置文件，通常包含以下内容： test:name: fisco-bcos-test # 测试名称description: Performance test of FISCO-BCOS # 测试描述workers:type: local # 工作进程类型number: 5 # 工作进程数量monitor:type: - docker- pro…...

编程新知 2025/10/24 15:14:02

【监督学习】支持向量机步骤及matlab实现

支持向量机

（四）支持向量机

1.算法步骤

2. MATLAB 实现

参考资料

相关文章：

【监督学习】支持向量机步骤及matlab实现

机器学习-随机森林解析

Javaweb后端spring事务管理事务四大特性ACID

在Spring Boot + MyBatis中优雅处理多表数据清洗：基于XML的配置化方案

【无标题】四色拓扑模型与宇宙历史重构的猜想框架

[特殊字符] Django 常用命令

mysql中如何保证没有幻读发生

Golang实践录：go发布版本信息收集

字节跳动AI原生编程工具Trae和百度“三大开发神器”AgentBuilder、AppBuilder、ModelBuilder的区别是？

【UCB CS 61B SP24】Lecture 21: Data Structures 5: Priority Queues and Heaps 学习笔记

mapbox高阶，结合threejs（threebox）添加三维球体

QEMU源码全解析 —— 块设备虚拟化（1）

IDEA中Git版本回退终极指南：Reset与Revert双方案详解

Flutter 学习之旅之 flutter 使用 flutter_screenutil 简单进行屏幕适配

实验一：在Windows 10/11下配置和管理TCP/IP

基于hive的电信离线用户的行为分析系统

Rust WebAssembly 入门教程

部署RabbitMQ集群详细教程

20250306JIRA添加企业微信邮箱通知

代码随想录算法训练营第五十七天 | 101. 孤岛的总面积 102. 沉没孤岛 103. 水流问题 104.建造最大岛屿

谷歌浏览器插件

【WiFi帧结构】

Nginx server_name 配置说明

k8s业务程序联调工具-KtConnect

MySQL账号权限管理指南：安全创建账户与精细授权技巧

springboot整合VUE之在线教育管理系统简介

音视频——I2S 协议详解

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

20个超级好用的 CSS 动画库

Caliper 配置文件解析：fisco-bcos.json