当前位置：首页 > news >正文

机器学习基础之《回归与聚类算法（4）—逻辑回归与二分类（分类算法）》

news 2026/4/23 23:20:12

一、什么是逻辑回归

1、逻辑回归（Logistic Regression）是机器学习中的一种分类模型，逻辑回归是一种分类算法，虽然名字中带有回归，但是它与回归之间有一定的联系。由于算法的简单和高效，在实际中应用非常广泛

2、叫回归，但是它是一个分类算法

二、逻辑回归的应用场景

1、应用场景
广告点击率：预测是否会被点击
是否为垃圾邮件
是否患病
金融诈骗：是否为金融诈骗
虚假账号：是否为虚假账号

均为二元问题

2、看到上面的例子，我们可以发现其中的特点，那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器
会有一个正例，和一个反例

三、逻辑回归的原理

1、逻辑回归的输入
线性回归的输出，就是逻辑回归的输入

逻辑回归的输入就是一个线性回归的结果

2、怎么用输入来分类
要进行下一步处理，带入到sigmoid函数当中，我们把它叫做激活函数

3、sigmoid函数

可以理解为，f(x)=1/(1+e^(-x))，1加上e的负x次方分之1

sigmoid函数又称S型函数，它是一种非线性函数，可以将任意实数值映射到0-1之间的值，通常用于分类问题。它的表达式为：f(x)=1/(1+e^(-x))，其中e为自然对数的底数。它的输出值均位于0~1之间，当x趋向正无穷时，f(x)趋向1；当x趋向负无穷时，f(x)趋向0

4、分析
将线性回归的输出结果，代入到x的部分
输出结果：[0, 1]区间中的一个概率值，默认为0.5为阈值
逻辑回归最终的分类是通过属于某个类别的概率值来判断是否属于某个类别，并且这个类别默认标记为1（正例），另外的一个类别会标记为0（反例）。（方便损失计算）

5、假设函数/线性模型
1/(1 + e^(-(w1x1 + w2x2 + w3x3 + ... + wnxn +b)))
如何得出权重和偏置，使得这个模型可以准确的进行分类预测呢？

6、损失函数（真实值和预测值之间的差距）
我们可以用求线性回归的模型参数的方法，来构建一个损失函数

线性回归的损失函数：(y_predict - y_true)平方和/总数，它是一个值
而逻辑回归的真实值和预测值，是否属于某个类别
所以就不能用均方误差和最小二乘法来构建
要使用对数似然损失

7、优化损失（正规方程和梯度下降）
用一种优化方法，将损失函数取得最小值，所对应的权重值就是我们求的模型参数

四、对数似然损失

1、公式
逻辑回归的损失，称之为对数似然损失

（1）它是一个分段函数
（2）如果y=1，真实值是1，属于这个类别，损失就是 -log(y的预测值)
（3）如果y=0，真实值是0，不属于这个类别，损失就是 -log(1-y的预测值)

2、怎么理解单个的式子呢？这个要根据log的函数图像来理解
当y=1时：（横坐标是y的预测值）

前提真实值是1，如果预测值越接近于1，则损失越接近0。如果预测值越接近于0，则损失越大

当y=0时：（横坐标是y的预测值）

前提真实值是0，如果预测值越接近1，则损失越大

3、综合完整损失函数

损失函数：-(y真实*logy预测+(1-y真实)*log(1-y预测))，求和

是线性回归的输出，经过sigmoid函数映射之后的一个概率值

4、计算样例

五、优化损失

同样使用梯度下降优化算法，去减少损失函数的值。这样去更新逻辑回归前面对应算法的权重参数，提升原本属于1类别的概率，降低原本是0类别的概率

六、逻辑回归API

1、sklearn.linear_model.LogisticRegression(solver='liblinear', penalty='l2', C=1.0)
solver：优化求解方式（默认开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数）
auto：根据数据集自动选择，随机平均梯度下降
penalty：正则化的种类
C：正则化力度

2、LogisticRegression方法相当于SGDClassifier(loss="log", penalty=" ")
SGDClassifier是一个分类器
SGDClassifier实现了一个普通的随机梯度下降学习，也支持平均随机梯度下降法（ASGD），可以通过设置average=True
而使用LogisticRegression它的优化器已经可以使用SAG

七、案例：癌症分类预测-良 / 恶性乳腺癌肿瘤预测

1、数据集
数据：
https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data
数据的描述：
https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names

2、数据的描述

   #  Attribute                     Domain-- -----------------------------------------1. Sample code number            id number2. Clump Thickness               1 - 103. Uniformity of Cell Size       1 - 104. Uniformity of Cell Shape      1 - 105. Marginal Adhesion             1 - 106. Single Epithelial Cell Size   1 - 107. Bare Nuclei                   1 - 108. Bland Chromatin               1 - 109. Normal Nucleoli               1 - 1010. Mitoses                       1 - 1011. Class:                        (2 for benign, 4 for malignant)

第一列：样本的编号
第二到十列：特征
第十一列：分类（2代表良性，4代表恶性）

3、流程分析
（1）获取数据
读取的时候加上names
（2）数据处理
处理缺失值
（3）数据集划分
（4）特征工程
无量纲化处理—标准化
（5）逻辑回归预估器
（6）模型评估

4、代码

import pandas as pd
import numpy as np# 1、读取数据
column_name = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape','Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin','Normal Nucleoli', 'Mitoses', 'Class']
data = pd.read_csv("breast-cancer-wisconsin/breast-cancer-wisconsin.data", names=column_name)data# 2、缺失值处理
# 1）?替换为np.nan
data = data.replace(to_replace="?", value=np.nan)
# 2）删除缺失样本
data.dropna(inplace=True)data# 不存在缺失值
data.isnull().any()# 3、划分数据集
from sklearn.model_selection import train_test_split# 筛选特征值和目标值
x = data.iloc[:, 1:-1] # 行都要，列从1到-1
y = data["Class"]x.head()y.head()x_train, x_test, y_train, y_test = train_test_split(x, y)# 4、标准化
from sklearn.preprocessing import StandardScalertransfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)x_trainfrom sklearn.linear_model import LogisticRegression# 5、预估器流程
estimator = LogisticRegression()
estimator.fit(x_train, y_train)# 逻辑回归的模型参数：回归系数和偏置
# 有几个特征，就有几个回归系数
estimator.coef_estimator.intercept_# 6、模型评估
# 方法1：直接比对真实值和预测值
y_predict = estimator.predict(x_test)
print("y_predict：\n", y_predict)
print("直接比对真实值和预测值：\n", y_test == y_predict)
# 方法2：计算准确率
score = estimator.score(x_test, y_test)
print("准确率为：\n", score)

5、运行结果

机器学习基础之《回归与聚类算法（4）—逻辑回归与二分类（分类算法）》

相关文章：

机器学习基础之《回归与聚类算法（4）—逻辑回归与二分类（分类算法）》

UWB安全数据通讯STS-加密、身份认证

vue3中去除eslint严格模式

Win10如何彻底关闭wsappx进程？

docker 安装 sftpgo

threejs (一) 创建一个场景

二分查找，求方程多解

代码随想录算法训练营第二十九天 | 回溯算法总结

运算方法和运算电路

计算机网络篇之TCP滑动窗口

本地安装telepresence，访问K8S集群 Mac(m1) 非管理員

今日思考（2） — 训练机器学习模型用GPU还是NUP更有优势（基于文心一言的回答）

8.3 C++ 定义并使用类

Git学习笔记——超详细

Locust负载测试工具实操

关闭mysql，关闭redis服务

微机原理：汇编语言语句类型与格式

iOS Flutter Engine源码调试和修改

Java日志系统之Log4j

Windows11系统安装WSL教程

别再手动敲代码了！用STM32CubeMX图形化配置STM32F103C8T6，5分钟点亮你的第一个LED

ALLWEONE Plate编辑器集成教程：打造专业文本编辑体验

Qwen3.5-9B-GGUF镜像部署：Supervisor配置autostart=true生效验证

CentOS 7上Spark 3.2.3单机版安装保姆级教程（附Python3.8.5和Hadoop2.10.2环境检查清单）

如何快速突破百度网盘限速：Python直链解析工具的完整实战指南

SpringBoot + JAIN-SIP 实战：手把手教你搭建国标GB28181摄像头管理后台（附完整代码）

模型审计师崛起：AI可解释性需求

一键下载网页视频：Video Download Helper 高效实用指南

VisionMaster通讯配置避坑指南：从TCP/IP到Modbus，手把手搞定设备连接与数据解析

5分钟掌握Diff Checker：免费跨平台文本差异对比神器