当前位置：首页 > article >正文

【机器学习】Logistic回归#1基于Scikit-Learn的简单Logistic回归

article 2026/4/3 7:13:23

主要参考学习资料：

《机器学习算法的数学解析与Python实现》莫凡著

前置知识：线性代数-Python

问题背景

分类问题是一类预测非连续（离散）值的问题，即预先设定类别，向模型输入带有类别信息的训练集样本，最后进行预测。

待分类别只有两个的分类问题为二元分类问题，超过两个为多分类问题。

多分类问题可以拆解为多次关于正类（是）和负类（否）的二元逻辑分类问题，形成数据结构中的二叉搜索树来解决。

数学模型

类别表示

用数值表示类别的形式有三种：

①数字形式：最直接，例如0为A类，1为B类，2为C类，本文从该形式入门。

②向量形式：广泛应用于深度学习，n元分类使用n个线性无关的n维向量来表示，例如[1,0,0]为A类，[0,1,0]为B类，[0,0,1]为C类。

③概率值形式：预测结果为每个类的可能概率，例如向量[0.114,0.514,0.810]的每个元素分别代表A、B、C三类的概率。

Logistic函数

离散数据往往与阶跃特征紧密联系，一个最基本的阶跃函数如下：

$u(t)=\left\{\begin{matrix}0,t<0\\1,t>0\end{matrix}\right.$

该函数的输出非0即1，符合二元分类问题的背景，但阶跃函数的不可导为机器学习的优化算法带来问题。

Logistic函数是一种Sigmoid函数（S型函数），作为扮演类似阶跃函数角色的可导函数，其表达式为：

$\mathrm{Logistic}(z)=\displaystyle\frac1{1-e^{-z}}$

其图像为：

可见横坐标尺度越大，图像越近似于阶跃函数。

假设函数

利用Logistic函数将线性模型预测的连续值映射到分类问题所需的非连续值，得到假设函数：

$H(x)=\displaystyle\frac1{1+e^{-(\boldsymbol w^Tx_i+b)}}$

损失函数

Logistic回归的损失函数为对数损失函数/交叉熵损失函数：

$L(x)=-y\log \hat y-(1-y)\log(1-\hat y)$

从分类的两种情况来理解它：

若真实值为1，则预测值趋于1时损失值趋于0；

若真实值为0，则预测值趋于0时损失值趋于0；

训练步骤

Logistic回归算法的训练步骤与线性回归算法类似，只不过输出从连续变成了离散。

代码实现

#导入LogisticRegression类
from sklearn.linear_model import LogisticRegression  
#导入鸢尾花分类数据集
from sklearn.datasets import load_iris  
import numpy as np  
import matplotlib.pyplot as plt  
#载入鸢尾花数据集
iris = load_iris()  
#选择前两个特征作为输入（方便可视化）
X = iris.data[:, :2]
#提取分类标签
y = iris.target  
#训练Logistic回归模型
clf = LogisticRegression().fit(X, y)  
#用于可视化的函数
def plot_decision_boundary(X, y, model):  #根据两个特征的最值确定坐标边界x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1  y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1  #meshgrid方法生成分别以两个列表为横、纵坐标二维网格#二维数组xx和yy分别为网格各点的横、纵坐标矩阵xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.01), np.arange(y_min, y_max, 0.01))  #ravel方法将坐标矩阵展开到一维#c_方法按列连接矩阵，即将横、纵坐标一一组合#用模型遍历所有坐标得到各点预测值Z = model.predict(np.c_[xx.ravel(), yy.ravel()])  #将预测值调整为xx的形状Z = Z.reshape(xx.shape)  #contourf方法绘制等高线，横纵坐标xx和yy，高度Zplt.contourf(xx, yy, Z, alpha=0.8, cmap=plt.cm.coolwarm)  #绘制训练数据的散点图plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', marker='o', cmap=plt.cm.coolwarm) #绘制轴标签和标题 plt.xlabel('Feature 1')  plt.ylabel('Feature 2')  plt.title('Logistic Regression Decision Boundary')  plt.show()  
plot_decision_boundary(X, y, clf)

运行结果：

可见模型对鸢尾花数据集中蓝色数据点分类较为准确，而浅色和红色效果较差，这是因为数据点在选取的两个特征维度下线性不可分。

可以通过 $\texttt{model.score(X,y)}$ 对模型进行性能评估。

特点

优点：形式简单，可解释性强，容易理解和实现，计算代价较低。

缺点：效果有时不好，容易欠拟合。

应用领域：二分类领域，或作为其他算法的部件，例如神经网络算法的激活函数。

【机器学习】Logistic回归#1基于Scikit-Learn的简单Logistic回归

主要参考学习资料： 《机器学习算法的数学解析与Python实现》莫凡著前置知识：线性代数-Python 目录问题背景数学模型类别表示Logistic函数假设函数损失函数训练步骤代码实现特点问题背景分类问题是一类预测非连续（离散）值的…...

编程日记 2026/3/12 10:45:52

8.Dashboard的导入导出

分享自己的Dashboard 1. 在Dashboard settings中选择 JSON Model 2. 导入后续请参考第三篇导入光放Dashboard，相近...

编程日记 2026/2/24 1:30:54

next.js-学习2 1. https://nextjs.org/learn/dashboard-app/getting-started2. 模拟的数据3. 添加样式4. 字体，图片5. 创建布局和页面页面导航 1. https://nextjs.org/learn/dashboard-app/getting-started /app: Contains all the routes, components, and logic …...

编程日记 2026/3/17 13:52:36

视频推拉流EasyDSS直播点播平台授权激活码无效，报错400的原因是什么？

在当今数字化浪潮中，视频推拉流 EasyDSS 视频直播点播平台宛如一颗璀璨的明珠，汇聚了视频直播、点播、转码、精细管理、录像、高效检索以及时移回看等一系列强大功能于一身，全方位构建起音视频服务生态。它既能助力音视频采集，精准…...

编程日记 2026/3/16 1:26:25

【论文详解】Transformer 论文《Attention Is All You Need》能够并行计算的原因

文章目录前言一、传统 RNN/CNN 存在的串行计算问题二、Transformer 如何实现并行计算？三、Transformer 的 Encoder 和 Decoder 如何并行四、结论前言亲爱的家人们，创作很不容易，若对您有帮助的话，请点赞收藏加关注哦&#xff…...

编程日记 2026/3/21 23:09:34

Fisher信息矩阵（Fisher Information Matrix，简称FIM）

Fisher信息矩阵简介 Fisher信息矩阵（Fisher Information Matrix，简称FIM）是统计学和信息理论中的一个重要概念，广泛应用于参数估计、统计推断和机器学习领域。它以统计学家罗纳德费希尔（Ronald Fisher）的名…...

编程日记 2026/3/14 0:12:42

基础设施安全（Infrastructure Security）是什么？

基础设施安全（Infrastructure Security）指的是保护IT基础设施（包括物理和云端的服务器、网络设备、存储、数据库等）免受网络攻击、数据泄露、未授权访问、系统故障等威胁的各种安全措施和技术。 1. 基础设施安全的主要组成部分 &…...

编程日记 2026/3/24 5:13:36

[杂学笔记]OSI七层模型作用、HTTP协议中的各种方法、HTTP的头部字段、TLS握手、指针与引用的使用场景、零拷贝技术

1.OSI七层模型作用物理层：负责光电信号的传输，以及将光电信号转化为二进制数据数据链路层：主要负责将收到的二进制数据进一步的封装为数据帧报文。同时因为数据在网络中传递的时候，每一个主机都能够收到报文数据，该层…...

编程日记 2025/12/14 5:45:09

Framework层JNI侧Binder

目录一，Binder JNI在整个系统的位置 1.1 小结二，代码分析 2.1 BBinder创建 2.2 Bpinder是在查找服务时候创建的 2.3 JNI实现 2.4 JNI层android_os_BinderProxy_transact 2.5 BPProxy实现 2）调用IPCThreadState发送数据到Binder驱动…...

编程日记 2026/3/10 20:20:42

Windows 图形显示驱动开发-WDDM 3.2-自动显示切换(九)

面板驱动程序显示器驱动程序是根据从 EDID 生成的即插即用 (PnP) 硬件 ID 加载的。由于 EDID 保持不变，当任何一个 GPU 控制内部面板时，都会加载面板驱动程序。这两个驱动程序将显示相同的亮度功能。因此，加载应该不会造成任何问题&…...

编程日记 2026/3/24 3:10:20

Excel大文件拆分

import pandas as pddef split_excel_file(input_file, output_prefix, num_parts10):# 读取Excel文件df pd.read_excel(input_file)# 计算每部分的行数total_rows len(df)rows_per_part total_rows // num_partsremaining_rows total_rows % num_partsstart_row 0for i i…...

编程日记 2026/3/15 21:42:40

OpenCV计算摄影学（7）HDR成像之多帧图像对齐的类cv::AlignMTB

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述该算法将图像转换为‌中值阈值位图‌（Median Threshold Bitmap，MTB）： 1.位图生成‌：…...

编程日记 2026/3/31 0:03:55

JWT+redis实现三大令牌管理方案深度解析

三种令牌管理方案对比与评估 1. 仅续期Redis（不生成新令牌） 实现原理通过延长Redis中的令牌有效期维持会话，JWT本身不包含动态过期时间。优点 ✅ 低开销：无需生成新令牌，减少JWT签名计算成本。 ✅ 简单实现&#x…...

编程日记 2026/3/31 5:04:10

北京大学DeepSeek提示词工程与落地场景（PDF无套路免费下载）

近年来，大模型技术飞速发展，但许多用户发现：即使使用同一款 AI 工具，效果也可能天差地别——有人能用 AI 快速生成精准方案，有人却只能得到笼统回答。这背后的关键差异，在于提示词工程的应用能力。北京大…...

编程日记 2026/1/31 20:24:45

Axure PR 9 中继器 03 翻页控制

大家好，我是大明同学。接着上期的内容，这期内容，我们来了解一下Axure中继器图表翻页控制。预览地址：https://pvie5g.axshare.com 翻页控制 1.打开上期RP 文件，在元件库中拖入一个矩形，宽值根据业务实际…...

编程日记 2026/4/2 18:23:56

IO流（师从韩顺平）

文章目录文件什么是文件文件流常用的文件操作创建文件对象相关构造器和方法应用案例获取文件的相关信息应用案例目录的操作和文件删除应用案例 IO 流原理及流的分类Java IO 流原理IO流的分类 IO 流体系图-常用的类IO 流体系图（重要！！&…...

编程日记 2026/4/2 13:46:10

基于Javase的停车场收费管理系统

基于Javase的停车场收费管理系统停车场管理系统开发文档项目概述 1.1 项目背景随着现代化城市的不断发展，车辆数量不断增加，停车难问题也日益突出。为了更好地管理停车场资源，提升停车效率，需要一个基于Java SE的停车场管理…...

编程日记 2025/8/4 1:10:35

Exoplayer(MediaX)实现音频变调和变速播放

在K歌或录音类应用中变调是个常见需求，比如需要播出萝莉音/大叔音等。变速播放在影视播放类应用中普遍存在，在传统播放器Mediaplayer中这两个功能都比较难以实现，特别在低版本SDK中，而Exoplayer作为google官方推出的Mediaplayer替…...

编程日记 2026/3/20 8:01:00

Spring Boot集成Jetty、Tomcat或Undertow及支持HTTP/2协议

目录一、常用Web服务器 1、Tomcat 2、Jetty 3、Undertow 二、什么是HTTP/2协议 1、定义 2、特性 3、优点 4、与HTTP/1.1的区别三、集成Web服务器并开启HTTP/2协议 1、生成证书 2、新建springboot项目 3、集成Web服务器 3.1 集成Tomcat 3.2 集成Jetty 3.3 集成…...

编程日记 2026/3/12 22:23:51

《Python实战进阶》专栏 No 5：GraphQL vs RESTful API 对比与实现

《Python实战进阶》专栏包括68集，每一集聚焦一个中高级技术知识点，涵盖Python在Web开发、数据处理、自动化、机器学习、并发编程等领域的应用，系统梳理Python开发者的知识集。本集的主题为： No4 : GraphQL vs RESTful API 对比与实…...

编程日记 2026/3/12 19:51:40

类和对象——static修饰类的成员

static修饰类的成员 static成员1 static成员的概念2 特性 static成员有时会有这样的需求：计算程序中创建出了多少个类的对象，以及多少个正在使用的对象。因为构造函数和析构函数都只会调用一次，所以可以通过设置生命周期和main函数一致的…...

编程日记 2026/3/18 13:12:35

RabbitMQ系列（七）基本概念之Channel

RabbitMQ 中的 Channel（信道） 是客户端与 RabbitMQ 服务器通信的虚拟会话通道，其核心作用在于优化资源利用并提升消息处理效率。以下是其核心机制与功能的详细解析： 一、Channel 的核心定义虚拟通信链路 Channel 是建立在 TCP 连…...

编程日记 2026/3/17 1:26:57

你对 Spring Cloud 的理解

Spring Cloud 是一个基于 Spring Boot 的微服务架构开发工具集，为开发者提供了快速构建分布式系统的一系列解决方案，涵盖了服务发现、配置管理、熔断器、智能路由、微代理、控制总线等多个方面。从核心组件来看： 服务发现：以 Eu…...

编程日记 2026/3/31 21:33:52

MYSQL 5.7数据库，关于1067报错 invalid default value for，解决方法！

???作者： 米罗学长 ???个人简介：混迹java圈十余年，精通Java、小程序、数据库等。 ???各类成品java毕设。javaweb，ssm，springboot，mysql等项目，源码丰富，欢迎咨询。 ???…...

编程日记 2026/3/18 15:21:13

C# Enumerable类之数据筛选

总目录前言在 C# 中，System.Linq.Enumerable 类是 LINQ（Language Integrated Query）的核心组成部分，它提供了一系列静态方法，用于操作实现了 IEnumerable 接口的集合。通过这些方法，我们可以轻松地对集合…...

编程日记 2026/3/12 0:09:06

运维基础知识（一）

一：SSH端口首先SSH是什么？ SSH（Secure Shell）是Linux、Unix、Mac及其他网络设备最常用的远程CLI管理协议，SSH使用秘钥对数据进行加密，保证了远程管理数据的安全性。 Secure Shell (SSH) 是一种网络协议，允许用户通过加密的通道安全地访问另一台计算机。SSH广泛用于远程…...

编程日记 2026/3/19 9:20:53

权重生成图像

简介前面提到的许多生成模型都有保存了生成器的权重，本章主要介绍如何使用训练好的权重文件通过生成器生成图像。但是如何使用权重生成图像呢？一、参数配置 ima_size 为图像尺寸，这个需要跟你模型训练的时候resize的时候一样。 latent_dim为噪声维度，一般的设置都是…...

编程日记 2026/3/19 13:54:48

【Linux基础】Linux下的C编程指南

目录一、前言二、Vim的使用 2.1 普通模式 2.2 插入模式 2.3 命令行模式 2.4 可视模式三、GCC编译器 3.1 预处理阶段 3.2 编译阶段 3.3 汇编阶段 3.4 链接阶段 3.5 静态库和动态库四、Gdb调试器五、总结一、前言在Linux环境下使用C语言进行编程是一项基础且…...

编程日记 2026/4/2 9:15:06

DeepSeek-OpenSourceWeek-第四天-Optimized Parallelism Strategies

DeepSeek 在 #OpenSourceWeek（开源周）的第四天推出了两项新工具，旨在让深度学习更快、更高效：**DualPipe** 和 **EPLB**。 DualPipe 定义：DualPipe 是一种用于 V3/R1 训练中计算与通信重叠的双向pipline并行算法。作用：它通过实现前向和后向计算-通信阶段的完全重叠，减…...

编程日记 2026/3/20 2:25:12

Python Cookbook-2.15 用类文件对象适配真实文件对象

任务需要传递一个类似文件的对象(比如，调用urllib.urlopen 返回的结果)给一个函数或者方法，但这个函数或方法要求只接受真实的文件对象(比如，像marshalload 这样的函数)。解决方案为了过类型检查这一关，我们需要将类文件对象…...

编程日记 2026/4/2 17:49:28

目录