当前位置：首页 > article >正文

机器学习：逻辑回归与混淆矩阵

article 2026/2/9 22:17:53

本文目录：

一、逻辑回归Logistic Regression
二、混淆矩阵
- （一）精确率precision
- （二）召回率recall
- （三）F1-score：了解评估方向的综合预测能力
- （四）Roc曲线
- （五）Auc面积

一、逻辑回归Logistic Regression

基本思想：逻辑回归的假设函数： h(w) = sigmoid(wx + b )，线性回归的输出，作为逻辑回归的输入；逻辑回归特别适用于二分类问题，也可以用于多分类问题的处理。

• 具体流程：

利用线性模型 f(x) = wx + b 根据特征的重要性计算出一个值；
再使用 sigmoid 函数将 f(x) 的输出值映射为概率值；
设置阈值，进行判定。比如针对二分类问题，如果输出概率值大于阈值（eg： 0.5），则将未知样本输出为一类（eg： 1 类）；否则输出为另一类（eg： 0 类）。

代码如下：

例：
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScalerdef dm01_LogisticRegression():# 1. 获取数据.data = pd.read_csv('data/breast-cancer-wisconsin.csv')data.info()# 2. 数据预处理.# data = data.replace(to_replace='?', value=np.NAN)data = data.replace('?', np.NaN)data = data.dropna()data.info()# 3. 确定特征值和目标值.x = data.iloc[:, 1:-1]y = data.Classprint(f'x.head(): {x.head()}')print(f'y.head(): {y.head()}')# 3. 分割数据.x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=21)# 4. 特征处理.transfer = StandardScaler()x_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 5. 模型训练.estimator = LogisticRegression()estimator.fit(x_train, y_train)# 6. 模型预测y_predict = estimator.predict(x_test)print(f'预测值: {y_predict}')# 7. 模型评估print(f'准确率: {estimator.score(x_test, y_test)}')print(f'准确率: {accuracy_score(y_test, y_predict)}')if __name__ == '__main__':dm01_LogisticRegression()

二、混淆矩阵

在这里插入图片描述

（一）精确率precision

精确率也叫做查准率，指的是对正例样本的预测准确率。
在这里插入图片描述
例子：**

样本集中有 6 个恶性肿瘤样本，4 个良性肿瘤样本，我们假设恶性肿瘤为正例，则：

模型 A： 预测对了 3 个恶性肿瘤样本，4 个良性肿瘤样本

真正例 TP 为：3
伪反例 FN 为：3
假正例 FP 为：0
真反例 TN：4
精准率：3/(3+0) = 100%

模型 B： 预测对了 6 个恶性肿瘤样本，1个良性肿瘤样本

真正例 TP 为：6
伪反例 FN 为：0
假正例 FP 为：3
真反例 TN：1
精准率：6/(6+3) = 67%

（二）召回率recall

召回率也叫做查全率，指的是预测为真正例样本占所有真实正例样本的比重。
在这里插入图片描述
例子：**

样本集中有 6 个恶性肿瘤样本，4 个良性肿瘤样本，我们假设恶性肿瘤为正例，则：

模型 A： 预测对了 3 个恶性肿瘤样本，4 个良性肿瘤样本

真正例 TP 为：3
伪反例 FN 为：3
假正例 FP 为：0
真反例 TN：4
精准率：3/(3+0) = 100%
召回率：3/(3+3)=50%

模型 B： 预测对了 6 个恶性肿瘤样本，1个良性肿瘤样本

真正例 TP 为：6
伪反例 FN 为：0
假正例 FP 为：3
真反例 TN：1
精准率：6/(6+3) = 67%
召回率：6/(6+0)= 100%

（三）F1-score：了解评估方向的综合预测能力

在这里插入图片描述

（四）Roc曲线

ROC 曲线：

正样本中被预测为正样本的概率，即：TPR （True Positive Rate）
负样本中被预测为正样本的概率，即：FPR （False Positive Rate）

以FPR为横坐标，TPR为纵坐标，描出不同阈值下的点所形成的曲线就是Roc曲线。
在这里插入图片描述

（五）Auc面积

Auc面积：

AUC 是 ROC 曲线下面的面积，该值越大，则模型的辨别能力就越强。AUC 范围在 [0, 1] 之间，主要用来判断模型对正例和负例的辨别能力。

图像越靠近 (0, 1) 点则 ROC 曲线下面的面积就会越大，对正负样本的辨别能力就越强；当 AUC= 1 时，该模型被认为是完美的分类器，但是几乎不存在完美分类器。

例：
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score# 1. 定义函数, 表示: 数据基本处理
def dm01_数据基本处理():# 1. 读取数据, 查看数据的基本信息.churn_pd = pd.read_csv('data/churn.csv')# churn_pd.info()# print(f'churn_pd.describe(): {churn_pd.describe()}')# print(f'churn_pd: {churn_pd}')# 2. 处理类别型的数据, 类别型数据做 one-hot编码(热编码).churn_pd = pd.get_dummies(churn_pd)churn_pd.info()# print(f'churn_pd: {churn_pd}')# 3. 去除列 Churn_No, gender_Malechurn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)  # 按列删除print(f'churn_pd: {churn_pd}')# 4. 列标签重命名, 打印列名churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)print(f'列名: {churn_pd.columns}')# 5. 查看标签的分布情况 0.26用户流失value_counts = churn_pd.flag.value_counts()print(value_counts)# 2. 定义函数, 表示: 特征筛选
def dm02_特征筛选():# 1. 读取数据churn_pd = pd.read_csv('data/churn.csv')# 2. 处理类别型的数据, 类别型数据做 one-hot编码(热编码).churn_pd = pd.get_dummies(churn_pd)# 3. 去除列 Churn_No, gender_Malechurn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)# 4. 列标签重命名churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)# 5. 查看标签的分布情况value_counts = churn_pd.flag.value_counts()print(value_counts)# 6. 查看Contract_Month 是否预签约流失情况sns.countplot(data=churn_pd, x='Contract_Month', hue='flag')plt.show()# 3. 定义函数, 表示: 模型训练 和 评测
def dm03_模型训练和评测():# 1. 读取数据churn_pd = pd.read_csv('data/churn.csv')# 2. 数据预处理# 2.1 处理类别型的数据, 类别型数据做 one-hot编码(热编码).churn_pd = pd.get_dummies(churn_pd)# 2.2 去除列 Churn_No, gender_Malechurn_pd.drop(['Churn_No', 'gender_Male'], axis=1, inplace=True)# 2.3 列标签重命名churn_pd.rename(columns={'Churn_Yes': 'flag'}, inplace=True)# 3. 特征处理.# 3.1 提取特征和标签x = churn_pd[['Contract_Month', 'internet_other', 'PaymentElectronic']]y = churn_pd['flag']# 3.2 训练集和测试集的分割x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=21)# 4. 模型训练.estimator = LogisticRegression()estimator.fit(x_train, y_train)# 5. 模型预测y_predict = estimator.predict(x_test)print(f'预测结果: {y_predict}')# 6. 模型评估print(f'准确率: {accuracy_score(y_test, y_predict)}')print(f'准确率: {estimator.score(x_test, y_test)}')# 计算AUC值.print(f'AUC值: {roc_auc_score(y_test, y_predict)}')if __name__ == '__main__':# dm01_数据基本处理()# dm02_特征筛选()dm03_模型训练和评测()

今天的分享到此结束。

机器学习：逻辑回归与混淆矩阵

本文目录： 一、逻辑回归Logistic Regression二、混淆矩阵（一）精确率precision（二）召回率recall（三）F1-score：了解评估方向的综合预测能力（四）Roc曲线&#xf…...

编程日记 2026/1/29 1:23:49

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示 2025/6/2 16:20 缘起：貌似荣品的PRO-RK3566开发板的Android13默认关闭了HDMI显示。据说：荣品确认RK3566的GPU比较弱，同时开【MIPI接口的】LCD屏显示和HDMI显示容易出现异常。更…...

编程日记 2026/1/24 9:22:54

【学习记录】快速上手 PyQt6：设置 Qt Designer、PyUIC 和 PyRCC 在 PyCharm中的应用

文章目录 📌 前言✅ 第一步：安装 PyQt6 及其工具包🔧 第二步：找到相关工具路径🧰 第三步：在 PyCharm 中配置外部工具打开设置🛠️ 配置 Qt Designer🛠️ 配置 PyUIC6（UI转…...

编程日记 2025/10/6 2:58:25

AI在网络安全领域的应用现状和实践

当前，人工智能技术已深度融入网络安全产品，推动传统防御模式向智能化、自适应方向加速演进。各安全厂商通过机器学习、深度学习与知识图谱等技术的融合应用，提高安全产品在威胁检测、攻击溯源、风险评估等场景的能力跃迁，突破传统…...

编程日记 2026/2/9 9:27:08

DrissionPage 异常处理实战指南：构建稳健的网页自动化防线

在网页自动化领域，异常处理能力直接决定了系统的健壮性。作为融合Selenium与Requests特性的创新工具，DrissionPage提供了多层次的异常处理机制。本文将深入剖析其异常体系，结合真实场景案例，为您构建一套完善的自动化容错方案。 …...

编程日记 2025/10/30 23:01:52

鸿蒙任务项设置案例实战

目录案例效果资源文件与初始化 string.json color.json CommonConstant 添加任务首页组件任务列表初始化任务列表视图任务编辑页添加跳转任务目标设置模型（formatParams） 编辑页面详情页任务编辑列表项目标设置展示引入目标…...

编程日记 2026/1/24 13:33:42

TDengine 的 AI 应用实战——运维异常检测

作者： derekchen Demo数据集准备我们使用公开的 NAB数据集里亚马逊 AWS 东海岸数据中心一次 API 网关故障中，某个服务器上的 CPU 使用率数据。数据的频率为 5min，单位为占用率。由于 API 网关的故障，会导致服务器上的相关应用…...

编程日记 2026/2/1 4:21:18

DHCP与DNS的配置

在网络管理中，DHCP（动态主机配置协议）和DNS（域名系统）是两个关键组件。DHCP用于自动分配IP地址，而DNS用于将域名解析为IP地址。本文将详细介绍如何在Linux环境下配置DHCP和DNS服务。一、DHCP配置 1. 安装…...

编程日记 2025/12/21 22:15:18

使用Plop.js高效生成模板文件

前情开发是个创造型的职业，也是枯燥的职业，因为开发绝大多数都是每天在业务的代码中无法自拨，说到开发工作，就永远都逃不开新建文件的步骤，特别现在组件化开发胜行，每天都是在新建新建组件的道路上一去不…...

编程日记 2026/1/31 3:18:42

Vue框架2(vue搭建方式2:利用脚手架,ElementUI)

一.引入vue第二种搭建方式在以前的前端项目中,一个项目需要多个html文件实现页面之前的切换,如果页面中需要依赖js或者css文件,那么我们就需要在多个html文件中都需要导入vue.js文件,太过繁琐. 现在前端开发都采用单页面结果,一个项目中只有一个html文件其他不同的内容都写…...

编程日记 2026/2/9 22:03:31

mac 设置cursor （像PyCharm一样展示效果）

一、注册 Cursor - The AI Code Editor 二、配置Python环境我之前使用pycharm创建的python项目，以及创建了虚拟环境，现在要使用cursor继续开发。 2.1 选择Python 虚拟环境 PyCharm 通常将虚拟环境存储在项目目录下的 venv 或 .venv 文件夹中&#xf…...

编程日记 2026/1/24 10:43:41

SpringCloudAlibaba微服务架构

技术架构图 SpringCloudAlibaba微服务架构说明： 1.1、采用SpringCloudAlibaba分布式微服务架构，使用Nginx做代理，服务治理使用Nacos组件，Gateway网关做权限验证、路由、过滤。 1.2、Redis做消息缓存，包括数据大屏、数…...

编程日记 2026/1/24 2:09:33

Java高级 | 【实验三】Springboot 静态资源访问

隶属文章： Java高级 | （二十二）Java常用类库-CSDN博客系列文章： Java高级 | 【实验一】Spring Boot安装及测试最新-CSDN博客 Java高级 | 【实验二】Springboot 控制器类相关注解知识-CSDN博客目录一、Thymeleaf 1.1 是什么&…...

编程日记 2026/2/1 5:44:01

C语言_预处理详解

1. 预定义符号 C语言设置了一些预定义符号，可以直接使用，预定义符号也是在预处理期间处理的 1 __FILE__ //进行编译的源文件 2 __LINE__//文件当前的行号 3 __DATE__ //文件被编译的日期 4 __TIME__//文件被编译的时间 5 __STDC__//如果编译器遵循ANSI…...

编程日记 2025/12/31 21:00:10

将前后端分离版的前端vue打包成EXE的完整解决方案

将若依前后端分离版的前端打包成EXE的完整解决方案将若依前后端分离版的Vue前端打包成Windows可执行文件(.exe)，同时保持与后端API的通信，需要使用Electron框架来实现。下面是详细的步骤和解决方案。一、准备工作 1. 环境要求 Node.js (推荐v16+)npm 或 yarn若依前后端分…...

编程日记 2025/10/16 14:13:26

物联网协议之MQTT（一）基础概念和设备

前言： 本文内容均以实战出发，像MQTT概念这种基础内容建议大家自行百度。推荐资料： mica-mqtt文档一、MQTT简单介绍作为当今物联网的主流协议，MQTT的使用范围非常广，如果你想了解甚至是从事物联网行业，…...

编程日记 2025/10/25 12:27:02

「Java教案」Java程序的构成

课程目标 1．知识目标能够按照Java标识符的命名规则，规范变量的命名。能够区分Java中的关键字与保留字。能够对注释进行分类，根据注释的用途合理的选择注释方式。 2．能力目标能编写符合规范的标识符。能识别Java中的关键字和…...

编程日记 2026/2/1 10:03:45

还原Windows防火墙

还原Windows防火墙 1. 背景2. 为何“还原”完胜“关闭”？三大核心优势3. 还原防火墙默认值操作步骤4. 还原防火墙时，系统背后的工作5. 需要还原防火墙场景一招拯救混乱网络！还原Windows防火墙，找回你的“安全速度”1. 背景你是否曾因一时误操作关闭了Windows防火墙？是…...

编程日记 2025/11/7 1:28:55

区块链可投会议CCF B--EDBT 2026 截止10.8 附录用率

Conference：EDBT: 29th International Conference on Extending Database Technology CCF level：CCF B Categories：数据库／数据挖掘／内容检索 Year：2026 Conference time：24th March - 27th…...

编程日记 2026/1/31 15:58:53

经典ReLU回归！重大缺陷「死亡ReLU问题」已被解决

来源 ｜ 机器之心在深度学习领域中，对激活函数的探讨已成为一个独立的研究方向。例如 GELU、SELU 和 SiLU 等函数凭借其平滑梯度与卓越的收敛特性，已成为热门选择。尽管这一趋势盛行，经典 ReLU 函数仍因其简洁性、固有稀疏性及…...

编程日记 2026/1/29 7:40:11

在VSCode中开发一个uni-app项目

创建项目使用命令行工具（例如 vue-cli）来创建一个新的 uni-app 项目。创建以JavaScript开发的工程 npx degit dcloudio/uni-preset-vue#vite my-vue3-project //或者 npx degit dcloudio/uni-preset-vue#vite-alpha my-vue3-project创建以TypeScript…...

编程日记 2026/2/1 7:03:14

quic为什么没有被大规模应用？

一、成本将应用程序从 HTTP/2 迁移到 HTTP/3，或从 TCP 迁移到 UDP 需要付出一定的努力。它需要将整个应用层实现和传输层实现转换到UDP，并在服务器端和客户端构建一个全新的解决方案。对于资源有限的小型流媒体供应商来说，这是一个不小的挑…...

编程日记 2025/9/12 23:49:58

Delft3D软件介绍及建模原理和步骤；Delft3D数值模拟溶质运移模型建立；地表水环境影响评价报告编写思路

📚 教程以地表水数值模拟软件 Delft3D 4.03.00 的操作为核心内容，系统涵盖地表水水动力建模、基础资料获取、边界条件设定、模型率定与验证以及数据分析处理等关键环节。通过全面讲解，学员将掌握地表水数值模拟的全过程实际操作技术。 &…...

编程日记 2025/9/11 21:49:54

书籍在其他数都出现k次的数组中找到只出现一次的数（7）0603

题目给定一个整型数组arr和一个大于1的整数k。已知arr中只有1个数出现了1次，其他的数都出现了k次，请返回只出现了1次的数。解答： 对此题进行思路转换，可以将此题，转换成k进制数。 k进制的两个数c和d，…...

编程日记 2025/12/14 11:49:23

开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-function_tool（二）

一、前言在人工智能技术迅猛发展的今天，OpenAI Agents SDK 为开发者提供了一个强大的工具集，用于构建基于 Python 的智能代理应用。这些代理可以执行从简单任务到复杂决策的一系列操作，极大地提升了应用程序的智能化水平。通过 OpenAI Agents SDK，可以利用 Python 编程语…...

编程日记 2025/10/1 15:09:02

Python - 爬虫；Scrapy框架之插件Extensions（四）

阅读本文前先参考 https://blog.csdn.net/MinggeQingchun/article/details/145904572 在 Scrapy 中，扩展（Extensions）是一种插件，允许你添加额外的功能到你的爬虫项目中。这些扩展可以在项目的不同阶段执行，比如启动…...

编程日记 2026/1/31 12:58:36

Spark实战能力测评模拟题精析【模拟考】

1.println(Array(1,2,3,4,5).filter(_%20).toList() 输出结果是（B） A. 2 4 B. List(2,4) C. List(1,3,5) D. 1 3 5 2.println(Array("tom","team","pom") .filter(_.matches("")).toList) 输出结果为(List(tom,…...

编程日记 2026/1/28 5:25:04

【OSG学习笔记】Day 15: 路径动画与相机漫游

本章来学习下漫游相机。路径动画与相机漫游本届内容比较简单，其实就是实现物体的运动和相机的运动当然这两个要一起执行。贝塞尔曲线贝塞尔曲线（Bzier curve）是一种在计算机图形学、动画制作、工业设计等领域广泛应用的参数曲线&am…...

编程日记 2026/2/6 8:44:52

PostgreSQL（PostGIS）触发器+坐标转换案例

需求，只录入一份坐标参考为4326的数据，但是发布的数据要求坐标必须是3857 对这种需求可以利用数据库触发器实现数据的同步步骤： 1. 使用ArcGIS Pro创建一个名字为testfc_4326的图层，坐标参考为4326 2. 使用Pro再创建一个名字…...

编程日记 2026/1/27 4:22:02

目录 Kinds of Constraints Single-Attribute Keys Multiattribute Key Foreign Keys Expressing Foreign Keys Enforcing Foreign-Key Constraints Actions Taken Attribute-Based Checks Timing of Checks Tuple-Based Checks Assertions Timing of Assertion Ch…...

编程日记 2026/1/31 9:01:50

机器学习：逻辑回归与混淆矩阵

本文目录：

一、逻辑回归Logistic Regression

二、混淆矩阵

（一）精确率precision

（二）召回率recall

（三）F1-score：了解评估方向的综合预测能力

（四）Roc曲线

（五）Auc面积

相关文章：

机器学习：逻辑回归与混淆矩阵

20250602在荣品的PRO-RK3566开发板的Android13下打开HDMI显示

【学习记录】快速上手 PyQt6：设置 Qt Designer、PyUIC 和 PyRCC 在 PyCharm中的应用

AI在网络安全领域的应用现状和实践

DrissionPage 异常处理实战指南：构建稳健的网页自动化防线

鸿蒙任务项设置案例实战

TDengine 的 AI 应用实战——运维异常检测

DHCP与DNS的配置

使用Plop.js高效生成模板文件

Vue框架2(vue搭建方式2:利用脚手架,ElementUI)

mac 设置cursor （像PyCharm一样展示效果）

SpringCloudAlibaba微服务架构

Java高级 | 【实验三】Springboot 静态资源访问

C语言_预处理详解

将前后端分离版的前端vue打包成EXE的完整解决方案

物联网协议之MQTT（一）基础概念和设备

「Java教案」Java程序的构成

还原Windows防火墙

区块链可投会议CCF B--EDBT 2026 截止10.8 附录用率

经典ReLU回归！重大缺陷「死亡ReLU问题」已被解决

在VSCode中开发一个uni-app项目

quic为什么没有被大规模应用？

Delft3D软件介绍及建模原理和步骤；Delft3D数值模拟溶质运移模型建立；地表水环境影响评价报告编写思路

书籍在其他数都出现k次的数组中找到只出现一次的数（7）0603

开源模型应用落地-OpenAI Agents SDK-集成Qwen3-8B-function_tool（二）

Python - 爬虫；Scrapy框架之插件Extensions（四）

Spark实战能力测评模拟题精析【模拟考】

【OSG学习笔记】Day 15: 路径动画与相机漫游

PostgreSQL（PostGIS）触发器+坐标转换案例

Constraints and Triggers