当前位置：首页 > news >正文

如何绘制【逻辑回归】中threshold参数的学习曲线

news 2025/7/6 11:37:36

threshold参数的意义是通过筛选掉低于threshold的参数，来对逻辑回归的特征进行降维。

首先导入相应的模块：

from sklearn.linear_model import LogisticRegression as LR
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
import numpy as np
from sklearn.feature_selection import SelectFromModel # 从模型中选择特征
from sklearn.model_selection import cross_val_score # 交叉验证

导入乳腺癌数据集：

data = load_breast_cancer()
x = data.data
y = data.target

查看数据集特征矩阵的情况：

data.data.shape # (569, 30)

这个时候有30个特征。实例化一个逻辑回归模型，并使用交叉验证评估模型性能：

LR_ = LR(solver="liblinear", C=0.8, random_state=420)
cross_val_score(LR_, x, y, cv=10).mean() # 0.9508145363408522

使用select_from_model函数根据模型的权重系数或特征重要性等信息，选择重要的特征，并将选择后的特征矩阵返回给x_embedded：

X_embedded = SelectFromModel(LR_, threshold = 0.8, norm_order=1).fit_transform(x, y) # norm_order=1表示L1正则,模型会删除L1正则化后系数为0的特征,threshold表示阈值,当特征的系数小于阈值时,删除该特征
X_embedded.shape # (569, 9)

可以发现现在特征只剩下9个了。在这里我们设置了threshold = 0.8，也就是说小于0.8的权重系数被删除掉了。但是我们怎么知道设置哪个threshold值后得到的特征矩阵去训练模型，会得到最优的模型效果呢？

接下来我们开始绘制threshold的学习曲线，也就是不同的threshold值对模型效果的影响。在绘制之前，我们先训练模型，看一下权重系数的最大值，找到threshold的取值范围：

# 画threshod的学习曲线
LR_.fit(x, y) # 训练模型
LR_.coef_ # 查看训练后各变量的系数
LR_.coef_.shape # (1, 30)
LR_.coef_.max() # 1.9376881066687164

为了对比特征选择前和选择后模型的效果，我们设置了一组对照，同时确定了threshold的取值范围：

fullx = [] # 创建特征选择前的交叉验证的空列表
fsx = [] # 创建特征选择后的交叉验证的空列表
threshold = np.linspace(0, abs(LR_.fit(x, y).coef_).max(), 20) # 从0到最大系数之间取20个数

接下来绘制函数图像：

k = 0
for i in threshold:x_embedded = SelectFromModel(LR_, threshold=i).fit_transform(x, y) # threshold表示阈值,当特征的系数小于阈值时,删除该特征。此行代码是形成新的特征矩阵fullx.append(cross_val_score(LR_, x, y, cv=5).mean()) # 特征选择前进行交叉验证fsx.append(cross_val_score(LR_, x_embedded, y, cv=5).mean()) # 特征选择后进行交叉验证print((threshold[k], x_embedded.shape[1])) # 打印每次循环取到的阈值和降维后的特征数k += 1
plt.figure(figsize=(20, 5))
plt.plot(threshold, fullx, label="full")
plt.plot(threshold, fsx, label="feature selection")
plt.xticks(threshold)
plt.legend()
plt.show()

结果如下：

由图可知，随着threshold的值逐渐变大，被删除的特征越多，模型效果越差。这不是我们想要的结果，因此我们将范围缩小，将threshold的取值范围缩小(0,0.1），再来跑一下模型：

fullx = [] # 创建特征选择前的交叉验证的空列表
fsx = [] # 创建特征选择后的交叉验证的空列表
threshold = np.linspace(0, 0.1, 20) # 从0到最大系数之间取20个数
k = 0
for i in threshold:x_embedded = SelectFromModel(LR_, threshold=i).fit_transform(x, y) # threshold表示阈值,当特征的系数小于阈值时,删除该特征。此行代码是形成新的特征矩阵fullx.append(cross_val_score(LR_, x, y, cv=5).mean()) # 特征选择前进行交叉验证fsx.append(cross_val_score(LR_, x_embedded, y, cv=5).mean()) # 特征选择后进行交叉验证print((threshold[k], x_embedded.shape[1])) # 打印每次循环取到的阈值和降维后的特征数k += 1
plt.figure(figsize=(20, 5))
plt.plot(threshold, fullx, label="full")
plt.plot(threshold, fsx, label="feature selection")
plt.xticks(threshold)
plt.legend()
plt.show()

结果如下：

可以发现，当threshold取0.0053时，模型可以获得最好的效果。

如何绘制【逻辑回归】中threshold参数的学习曲线

threshold参数的意义是通过筛选掉低于threshold的参数，来对逻辑回归的特征进行降维。首先导入相应的模块： from sklearn.linear_model import LogisticRegression as LR from sklearn.datasets import load_breast_cancer from sklearn.model_selecti…...

编程日记 2023/10/27 22:56:28

4.1 数据库安全性概述

思维导图： 前言： - **第一章回顾**：数据库特点 - 统一的数据保护功能，确保数据安全、可靠、正确有效。 - 数据保护主要涵盖： 1. **数据的安全性**（本章焦点） 2. 数据的完整性（第…...

编程日记 2023/10/27 22:55:27

TFTP服务的搭建 1 先更新一下apt包 sudo apt-get update2 服务器端(虚拟机上)安装 TFTP相关软件 sudo apt-get install xinetd tftp tftpd -y3 创建TFTP共享目录 mkdir tftp_sharetftp_shaer的路径是/home/cwz/tftp_share 3.1 修改共享目录的权限 sudo chmod -R 777 tftp…...

编程日记 2023/10/27 22:54:26

c语言简介

C 语言最初是作为 Unix 系统的开发工具而发明的。 1969年，美国贝尔实验室的肯汤普森（Ken Thompson）与丹尼斯里奇（Dennis Ritchie）一起开发了 Unix 操作系统。Unix 是用汇编语言写的，无法移植到其他计算机&…...

编程日记 2023/10/27 22:53:25

OpenLayers.js 入门教程：打造互动地图的入门指南

本文简介戴尬猴，我是德育处主任本文介绍如何使用 OpenLayers.js （后面简称 ol）。ol 是一个开源 JavaScript 库，可用于在Web页面上创建交互式地图。 ol能帮助我们在浏览器轻松地使用地图功能，例如地图缩放、地图拖动…...

编程日记 2023/10/27 22:51:21

黑马头条：app端文章查看

黑马头条：app端文章查看黑马头条：app端文章查看文章列表加载1. 需求分析2. 表结构分析3. 导入文章数据库3.1 导入数据库3.2 导入对应的实体类 4. 实现思路5. 接口定义6. 功能实现6.1：导入heima-leadnews-article微服务，资料在当天…...

编程日记 2023/10/27 22:50:20

常见使用总结篇(一)

Autowired和Resource注解的区别 Autowired注解是Spring提供的，Resource注解是J2EE本身提供Autowird注解默认通过byType方式注入(没有匹配会通过byName方式)，而Resource注解默认通过byName方式注入(没有匹配会通过byType方式)Autowired注解注入的对象需要…...

编程日记 2023/10/27 22:48:17

【软考系统架构设计师】2023年系统架构师冲刺模拟习题之《数据库系统》

在数据库章节中可能会考察以下内容： 文章目录数据库完整性约束🌟数据库模式🌟🌟ER模式🌟关系代数🌟🌟并发控制🌟数据仓库与数据挖掘🌟🌟反规范化技术&#x…...

编程日记 2023/10/27 22:45:13

北邮22级信通院数电：Verilog-FPGA（7）第七周实验（1）：带使能端的38译码器全加器（关注我的uu们加群咯~）

北邮22信通一枚~ 跟随课程进度更新北邮信通院数字系统设计的笔记、代码和文章持续关注作者迎接数电实验学习~ 获取更多文章，请访问专栏： 北邮22级信通院数电实验_青山如墨雨如画的博客-CSDN博客关注作者的uu们可以进群啦~ 目录方法一&#xff…...

编程日记 2023/10/27 22:44:12

SIT3491ISO具有隔离功能，256 节点，全双工 RS422/RS485 芯片

SIT3491ISO 是一款电容隔离的全双工 RS-422/485 收发器，总线端口 ESD 保护能力 HBM 达到 15kV 以上，功能完全满足 EIA-422 以及 TIA/EIA-485 标准要求的 RS-422/485 收发器。 SIT3491ISO 包括一个驱动器和一个接收器，两者均…...

编程日记 2023/10/27 22:43:11

在windows服务器上部署一个单机项目以及前后端分离项目

目录一. 单机项目在windows服务器上的部署 1.1 在本机上测试项目无误 1.1.1 在数据库中测试sql文件没问题 1.1.2 在tomcat中测试war文件无误 1.1.3 测试完成后，进入浏览器运行单机项目确保无误 1.2 在windows服务器中运行项目二. 前后端分离项目在服务器上…...

编程日记 2023/10/27 22:41:09

使用jdbc技术，在数据库中存储大数据对象（使用字节IO流读取图片等给blob等二进制类型数据赋值）

在MySQL中，BLOB是一种数据类型，代表二进制大对象（Binary Large Object），可以存储大量的二进制数据，如图像、声音、视频等。BLOB类型的数据在存储和检索时会以二进制方式进行处理，而不是字符方式…...

编程日记 2023/10/27 22:40:09

统计学习方法支持向量机（下）

文章目录统计学习方法支持向量机（下）非线性支持向量机与和核函数核技巧正定核常用核函数非线性 SVM 序列最小最优化算法两个变量二次规划的求解方法变量的选择方法SMO 算法统计学习方法支持向量机（下） 学习李航的《统计学习方…...

编程日记 2023/10/27 22:39:06

【python】如何注释

一：通过#注释行 #这个是个注释 print(hello world) 二：通过或"""注释段落这个注释段落这是注释段落这是注释段落print(hello world) """ 这是多行注释，用三个双引号这是多行注释，用三个双引…...

编程日记 2023/10/27 22:36:03

C++——C++入门（二）

C 前言一、引用引用概念引用特性常引用使用场景传值、传引用效率比较值和引用的作为返回值类型的性能比较引用和指针的区别二、内联函数概念特性知识点提升三、auto关键字类型别名思考auto简介auto的使用细则auto不能推导的场景四、基于范围的for循环范围for的语法范围for的…...

编程日记 2023/10/27 22:35:02

容联七陌百度营销通BCP解决方案，让营销更精准

百度营销通作为一个快速迭代、满足客户多元化营销需求的高效率营销工具成为众多企业的选择，通过百度营销通BCP对接，企业就可以在百度咨询页接入会话，收集百度来源的访客搜索关键词，通过百度推广获取更多的精准客户，从而…...

编程日记 2023/10/27 22:34:02

Transformer模型 | 用于目标检测的视觉Transformers训练策略

基于视觉的Transformer在预测准确的3D边界盒方面在自动驾驶感知模块中显示出巨大的应用，因为它具有强大的建模视觉特征之间远程依赖关系的能力。然而，最初为语言模型设计的变形金刚主要关注的是性能准确性，而不是推理时间预算。对于像自动驾驶这样的安全关键系统，车载计算机…...

编程日记 2023/10/27 22:33:01

贪心区间类题目

一、先排序 1、一般统计有几个重复区间、判断是否有重复区间，对右边界经行排序。 2、合并区间，对左边界经行排序，且尽量想到先放入一个元素到res中，然后不断更新res的右边界二、判断重复判断i是否和i-1重复，如果…...

编程日记 2023/10/27 22:32:00

npm改变npm缓存路径和改变环境变量

在安装nodejs时，系统会自动安装在系统盘C， 时间久了经常会遇到C盘爆满，有时候出现红色，此时才发现很多时候是因为npm 缓存保存在C盘导致的，下面就介绍下如何改变npm缓存路径。 1、首先找到安装nodejs的路径&#xff0c…...

编程日记 2023/10/27 22:30:58

string到QString出现中文乱码

【C】string 和 QString 之间的转化及乱码问题(非常实用)_string转qstring乱码_散修-小胖子的博客-CSDN博客 std::string str "连111";QString str1 QString::fromStdString(str);qDebug() << str1;//中文乱码QString str2 QString::fromLocal8Bit(str.data…...

编程日记 2023/10/27 22:29:56

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2025/7/5 21:02:11

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/6/18 6:31:56

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2025/7/5 0:21:39