当前位置：首页 > news >正文

机器学习-可解释性机器学习：支持向量机与fastshap的可视化模型解析

news 2026/6/1 12:06:22

一、引言

支持向量机(Support Vector Machine, SVM)作为一种经典的监督学习方法，在分类和回归问题中表现出色。其优点之一是生成的模型具有较好的泛化能力和可解释性，能够清晰地展示特征对于分类的重要性。

fastshap是一种用于快速计算SHAP值（SHapley Additive exPlanations）的工具，通过近似SHAP值的计算加速了模型的解释过程，使得模型的解释更为高效和可视化。

综上所述，本文将探讨支持向量机和fastshap在可解释性机器学习中的作用。通过结合支持向量机和fastshap，我们可以深入分析模型的决策过程，解释模型的预测结果，从而提高模型的可解释性和可信度。

二、SVM简介

2.1 SVM的原理和优点

支持向量机（Support Vector Machine, SVM）的原理是通过寻找最大间隔超平面来进行分类或回归。在二分类情况下，SVM的目标是找到一个能够将不同类别的数据点分开的超平面，并且使得该超平面到最近的数据点（支持向量）的距离最大化。这种最大化间隔的方法使得SVM具有较强的泛化能力。

对于线性不可分的情况，SVM可以通过核函数将数据映射到高维空间，从而在高维空间中找到一个线性可分的超平面，从而解决非线性分类问题。

「泛化能力强」：SVM通过最大化间隔的方式进行分类，因此对未知数据的泛化能力较强，有较好的预测性能。
「高维空间的处理能力」：SVM可以通过核函数将数据映射到高维空间，从而处理线性不可分的问题。
「对特征的依赖较小」：SVM在模型训练过程中主要依赖支持向量，对于非支持向量的数据点不敏感，可以避免维度灾难和过拟合问题。
「有效处理小样本数据」：SVM在小样本数据情况下表现出色，可以有效地进行分类和回归。总的来说，SVM具有较强的泛化能力、高维空间处理能力以及对特征的不敏感性等优点，使其成为机器学习中广泛应用的方法之一。

2.2 SVM在机器学习中的应用场景

文本分类：SVM可以用于对文本进行分类，如垃圾邮件识别、情感分析等。
识别：SVM可以应用于图像分类和目标检测等领域，例如人脸识别、车牌识别等。
生物信息学：SVM在基因分类、蛋白质分类等生物信息学领域有着重要应用。

综上所述，支持向量机作为一种强大的监督学习方法，在文本分类、图像识别、生物信息学等领域展现出了良好的应用前景，同时其高维空间处理能力和泛化能力也使其成为解决复杂问题的重要工具。

三、fastshap方法封装

FastSHAP 是一个用于加速 SHAP（SHapley Additive exPlanations）计算的工具，旨在提高模型可解释性的效率和准确性。

library(magrittr)
library(tidyverse)
library(fastshap)
plot_shap <- function(model,newdata){
    shap <- explain(rf,X=newdata,nsim=10,
        pred_wrapper = function(model,newdata){
           predict(rf, newdata = newdata, type = "class")
        })
    shap_handle <- shap %>% as.data.frame() %>% mutate(id=1:n()) %>% pivot_longer(cols = -(ncol(train_data[,-10])+1),values_to="shap") # 长宽数据转换
    data2 <- newdata %>% mutate(id=1:n()) %>% pivot_longer(cols = -(ncol(newdata)+1))

    shap_scale <- shap_handle %>%
        left_join(data2)%>%
        rename("feature"
        ="name")%>%
        group_by(feature)%>%
        mutate(value=(value-min(value))/(max(value)-min(value))) %>% sample_n(200)
        
    p <- ggplot(data=shap_scale, aes(x=shap, y=feature, color=value)) +
      geom_jitter(size=2, height=0.1, width=0) +
      scale_color_gradient(low="#FFCC33", high="#6600CC", breaks=c(0, 1), labels=c("Low", "High"), 
                           guide=guide_colorbar(barwidth=2, barheight=30), 
                           name="Feature value", 
                           aesthetics = c("color")) + theme_bw()
      
    return(p)
}

四、实例展示

「数据集准备」

library(survival)
head(gbsg)

结果展示：

   pid age meno size grade nodes pgr er hormon rfstime status
1  132  49    0   18     2     2   0  0      0    1838      0
2 1575  55    1   20     3    16   0  0      0     403      1
3 1140  56    1   40     3     3   0  0      0    1603      0
4  769  45    0   25     3     1   0  4      0     177      0
5  130  65    1   30     2     5   0 36      1    1855      0
6 1642  48    0   52     2    11   0  0      0     842      1

「示例数据集介绍」

> str(gbsg)
'data.frame':   686 obs. of  10 variables:
 $ age    : int  49 55 56 45 65 48 48 37 67 45 ...
 $ meno   : int  0 1 1 0 1 0 0 0 1 0 ...
 $ size   : int  18 20 40 25 30 52 21 20 20 30 ...
 $ grade  : int  2 3 3 3 2 2 3 2 2 2 ...
 $ nodes  : int  2 16 3 1 5 11 8 9 1 1 ...
 $ pgr    : int  0 0 0 0 0 0 0 0 0 0 ...
 $ er     : int  0 0 0 4 36 0 0 0 0 0 ...
 $ hormon : int  0 0 0 0 1 0 0 1 1 0 ...
 $ rfstime: int  1838 403 1603 177 1855 842 293 42 564 1093 ...
 $ status : Factor w/ 2 levels "0","1": 1 2 1 1 1 2 2 1 2 2 ...

age：患者年龄
meno：更年期状态（0表示未更年期，1表示已更年期）
size：肿瘤大小
grade：肿瘤分级
nodes：受累淋巴结数量
pgr：孕激素受体表达水平
er：雌激素受体表达水平
hormon：激素治疗（0表示否，1表示是）
rfstime：复发或死亡时间（以天为单位）
status：事件状态（0表示被截尾，1表示事件发生）

「划分训练集和测试集」

# 划分训练集和测试集
set.seed(123)
data <- gbsg[,c(-1)]


# 划分训练集和测试集
set.seed(123)
train_indices <- sample(x = 1:nrow(data), size = 0.7 * nrow(data), replace = FALSE)
test_indices <- sample(setdiff(1:nrow(data), train_indices), size = 0.3 * nrow(data), replace = FALSE)

train_data <- data[train_indices, ]
test_data <- data[test_indices, ]

train_data_feature <- train_data[,-10]
train_data_label <- as.numeric(as.character(train_data$status))

「模型拟合」

library(e1071)
library(pROC)
model <- svm(train_data_feature, train_data_label) 
pred_prob <- predict(model, newdata =train_data_feature,type="raw",threshold = 0.001)
# 计算ROC曲线的参数
roc <- roc(train_data_label, pred_prob)
plot(roc, col = "blue", main = "ROC Curve", xlab = "False Positive Rate", ylab = "True Positive Rate", print.auc = TRUE, legacy.axes = TRUE)


# 绘制shap图
plot_shap(model,train_data_feature)

五、总结

总结支持向量机（Support Vector Machine, SVM）与FastSHAP在可解释性机器学习中的作用：

「支持向量机（SVM）」：

SVM是一种常用的机器学习算法，主要用于分类和回归任务。
在可解释性方面，SVM的决策边界可以清晰地将不同类别的数据分开，使得模型的预测过程相对容易理解。
可以通过观察支持向量等方式来解释SVM模型的预测结果，帮助用户理解模型的决策依据。

「FastSHAP」：

FastSHAP是一种加速版的SHAP（SHapley Additive exPlanations）计算方法，用于解释复杂模型的预测过程。
通过FastSHAP可以有效地计算特征的SHAP值，帮助用户理解模型对于不同特征的依赖程度。
FastSHAP在提高SHAP值计算效率的同时，也能保持解释性的优势，使得解释性机器学习更加实用。

机器学习-可解释性机器学习：支持向量机与fastshap的可视化模型解析

一、引言

二、SVM简介

2.1 SVM的原理和优点

2.2 SVM在机器学习中的应用场景

三、fastshap方法封装

四、实例展示

五、总结

相关文章：

机器学习-可解释性机器学习：支持向量机与fastshap的可视化模型解析

32.768K晶振X1A000141000300适用于无人驾驶汽车电子设备

利用autodl服务器跑模型

【微服务】分布式调度框架PowerJob使用详解

一命通关广度优先遍历

力扣4寻找两个正序数组的中位数

jmeter之常用函数-第六天

原创！分解+集成思想新模型！VMD-CNN-BiGRU-Attention一键实现时间序列预测！以风速数据集为例

ab (Apache benchmark) - 压力/性能测试工具

除了Confluence，有没有其他工具一样好用？

查询表中数据(全列/特定列/表达式,where子句(比较/逻辑运算符),order by子句,limit筛选分页),mysql执行顺序

【Linux】多线程概念 | POSIX线程库

Java Spring AOP代码3分钟快速入手

.NET开源快速、强大、免费的电子表格组件

docker一键部署若依前后端分离版本

Java项目开发之fastjson详解

面试算法-62-盛最多水的容器

【智能算法】海洋捕食者算法（MPA)原理及实现

刷题DAY24 | LeetCode 77-组合

Spring Boot为什么默认使用CGLIB动态代理

Android 11开发避坑：为什么你的App获取的Wifi MAC地址总是变？手把手教你配置固定MAC

IPD的势、道、法、术、器

钱钟书《围城》第1-5章阅读笔记：一场关于人生困境的提前预演

智能体所有权与版权：AI Agent Harness Engineering 创造的作品归谁所有？

Arduino ADC自检：用RC电路诊断模数转换器故障

理想二极管控制器：用MOSFET实现毫伏级压降的电源管理方案

【C++】零基础入门 · 第 5 节：函数基础

3大突破性功能：用HiveWE革新你的魔兽争霸III地图创作体验

Windows 11终极优化指南：一键清理系统，释放51%性能潜力

将Taotoken作为统一AI网关整合进企业现有微服务架构的实践思路