当前位置：首页 > news >正文

机器学习之逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告

news 2026/2/9 18:04:34

逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告

逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告
- 1 逻辑回归算法
- - 1.1 概念理解
  - 1.2 算法导入
  - 1.3 算法优缺点
- 2 LogisticRegression理解
- - 2.1查看参数定义
  - 2.2 参数理解
  - 2.3 方法
  - 2.4基本格式
- 3 数据标准化处理
- - 3.1 0~1标准化
  - - 3.1.1概念
    - 3.1.2公式
  - 3.2 z标准化
  - - 3.2.1概念
    - 3.2.2公式
    - 3.2.3算法导入和实现
- 4 预测逻辑回归数据
- - 4.1问题及理解
  - 4.2 数据预处理
  - - 数据标准化统一
    - 数据测试数据和训练数据划分
  - 4.3 预测数据和分类结果
  - - 4.3.1分类结果报告

1 逻辑回归算法

1.1 概念理解

是用于处理因变量为分类变量的回归问题，常见的是二分类问题，可以处理预测的值是为分类变量的问题，它实际上是一种分类方法。

1.2 算法导入

from sklearn.linear_model import LogisticRegression

1.3 算法优缺点

优点：
- 实现简单，易于理解和实现；
- 计算代价不高，速度很快，存储资源低。
缺点：
- 容易欠拟合，分类精度可能不高。

2 LogisticRegression理解

2.1查看参数定义

def __init__(self,penalty="l2",*,dual=False,tol=1e-4,C=1.0,fit_intercept=True,intercept_scaling=1,class_weight=None,random_state=None,solver="lbfgs",max_iter=100,multi_class="auto",verbose=0,warm_start=False,n_jobs=None,l1_ratio=None,)

2.2 参数理解

Penalty：正则化方式，有l1和l2两种。用于指定惩罚项中使用的规范。
- newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布，L2假设的模型参数满足高斯分布。
Dual：按默认即可。对偶方法只用在求解线性多核(liblinear)的L2惩罚项上。当样本数量>样本特征的时候，dual通常设置为False。
Tol：float，默认值：1e-4，容许停止标准，即我们说的要迭代停止所需达到的精度要求。
C：正则化强度，为浮点型数据。正则化系数λ的倒数，float类型，默认为1.0，必须是正浮点型数。像SVM一样，越小的数值表示越强的正则化。
fit_intercept：指定是否应该将常量(即偏差或截距)添加到决策函数中，相当于是否加入截距项b，默认加入。
intercept_scaling：仅在正则化项为”liblinear”，且fit_intercept设置为True时有用。float类型，默认为1。
class_weight：用于标示分类模型中各种类型的权重，可以是一个字典或者’balanced’字符串，默认为None
random_state：随机数产生器在对数据进行洗牌时使用的种子，仅在正则化优化算法为sag,liblinear时有用。
Solver：{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}，优化拟合参数算法选择，默认为liblinear。solver参数决定了我们对逻辑回归损失函数的优化方法，有四种算法可以选择，分别是：
- liblinear：使用坐标轴下降法来迭代优化损失函数。使用了开源的liblinear库实现，内部使用了坐标轴下降法来迭代优化损失函数。
- newton-cg：牛顿法，sag方法使用一阶导数，而牛顿法采用了二阶泰勒展开，这样缩减了迭代轮数，但是需要计算Hsssian矩阵的逆，所以计算复杂度较高。【也是牛顿法家族的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】
- Lbfgs：拟牛顿法，用较低的代价寻找Hessian矩阵的近似逆矩阵，便有了拟牛顿法。【拟牛顿法的一种，利用损失函数二阶导数矩阵即海森矩阵来迭代优化损失函数。】
- Sag：即随机平均梯度下降，是求解无约束优化问题最经典，最简单的方法之一。【即随机平均梯度下降，是梯度下降法的变种，和普通梯度下降法的区别是每次迭代仅仅用一部分的样本来计算梯度，适合于样本数据多的时候。】
- Saga：线性收敛的随机优化算法。【线性收敛的随机优化算法的的变种。】

liblinear适用于小数据集，而sag和saga适用于大数据集因为速度更快。

max_iter：算法收敛最大迭代次数，int类型，默认为100。仅在正则化优化算法为newton-cg, sag和lbfgs才有用，算法收敛的最大迭代次数。
multi_class：分类方式选择参数，str类型，可选参数为ovr和multinomial，默认为ovr。
verbose：日志冗长度，int类型，默认为0。就是不输出训练过程，1的时候偶尔输出结果，大于1，对于每个子模型都输出。
warm_start：热启动参数，bool类型，默认为False。如果为True，则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）。
n_jobs：并行数。int类型，默认为1。1的时候，用CPU的一个内核运行程序，2的时候，用CPU的2个内核运行程序。为-1的时候，用所有CPU的内核运行程序。

2.3 方法

fit(x,y)：训练模型，x为特征数据，y为结果
score(x,y)：拟合度，x,y为已知的数据及结果，计算fit()模型与数据的拟合度在[0,1]间，趋于1优，趋于0劣
predict([[]数据])：预测数据结果，括号内为二维数组

2.4基本格式

lg = LogisticRegression()
x=特征数据
y=数据结果
lg.fit(x,y)
result = lg.predict(x1)
先引用LogisticRegression()函数，根据历史特征数据和数据结果，训练fit()模型，然后预测x1的回归结果result

3 数据标准化处理

3.1 0~1标准化

3.1.1概念

对原始数据的线性变换，结果映射在［0,1］区间。

3.1.2公式

在这里插入图片描述

3.2 z标准化

3.2.1概念

基于原始数据的均值(mean )和标准差(stand ard deviation)进行数据的标准化。

3.2.2公式

在这里插入图片描述

3.2.3算法导入和实现

z标准化Amount列数据

from sklearn.preprocessing import StandardScaler
data['Amount'] = scaler.fit_transform(data[['Amount']])

4 预测逻辑回归数据

4.1问题及理解

问题：给定数据，预测分类

特征数据：除类别列外，其他有关列
类别标签：类别列
第一列为时间，无关，最后一列为类别给定的数据：
在这里插入图片描述

4.2 数据预处理

数据标准化统一

Amount列不是z标准化处理的结果，需要进行z标准化处理

data['Amount'] = scaler.fit_transform(data[['Amount']])

数据测试数据和训练数据划分

from sklearn.model_selection import train_test_split
# 训练集特征，测试集特征,训练集结果，测试集结果,test_size抽取的测试集百分比，train_size 抽取的训练集百分比
x_tr,x_te,y_tr,y_te = \train_test_split(x_all, y_all, train_size=0.3,random_state=0)

4.3 预测数据和分类结果

代码展示：

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split, cross_val_predict, cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn import metrics
from sklearn.model_selection import cross_val_score
from sklearn.metrics import confusion_matrix
# 标准化处理
scaler = StandardScaler()
data = pd.read_csv('creditcard.csv')
a = data[['Amount']]
b = data['Amount']
# z标准化处理Amount，再存Amount中
data['Amount'] = scaler.fit_transform(data[['Amount']])
# 删除time列
data = data.drop(['Time'],axis=1)
# 特征数据x,删除class列
x_all = data.drop(['Class'],axis=1)
# class为标签结果列
y_all = data.Class
# 训练集特征，测试集特征,训练集结果，测试集结果,test_size抽取的测试集百分比，train_size 抽取的训练集百分比
x_tr,x_te,y_tr,y_te = \train_test_split(x_all, y_all, test_size=0.3,random_state=1000)
# 逻辑回归方法引用
lg = LogisticRegression(C=1)
# 训练集训练模型
lg.fit(x_tr,y_tr)
# 预测测试集结果
re_pr = lg.predict(x_te)
# 拟合度评分
score = lg.score(x_te,y_te)
# 分类结果报告
print(metrics.classification_report(y_te, re_pr))

运行结果：

在这里插入图片描述

4.3.1分类结果报告

precision 精确率，从预测值出发
Precision=TP/（TP + FP）
recall 召回率，从真实值出发
Recall =TP/（TP + FN）
其中：
TP (True Positive)：正确预测的正样本数量。
TN (True Negative)：正确预测的负样本数量。
FP (False Positive):错误预测的正样本数量（实际上是负样本）。
FN (False Negative)：错误预测的负样本数量（实际上是正样本）。
上图0，1，为类别。

机器学习之逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告

逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告目录逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告1 逻辑回归算法1.1 概念理解1.2 算法导入1.3 算法优缺点 2 LogisticRegression理解2.1查看参数定义2.2 参数理解2.3 方法2.4基本格式 3 数据标准…...

编程日记 2025/1/4 9:52:47

openGauss连接是报org.opengauss.util.PSQLException: 尝试连线已失败

安装好高斯数据库后然后用java连接时报如下错误: 解决方法: 在openGauss数据库的安装路径下/opt/opengauss/data/single_node（这个路径根据自己实际情况变化）有个pg_hba.conf文件，修改里面host内容如下，我这里设置的是所有ip都能…...

编程日记 2025/1/4 9:50:45

详细的一条SQL语句的执行流程

SQL 语句的执行流程会因数据库管理系统的不同而略有差异，但一般来说，主要包括以下几个阶段： 查询解析词法分析：数据库系统首先将输入的 SQL 语句按字符流进行扫描，依据词法规则把它分割成一个个的单词，如…...

编程日记 2025/1/4 9:48:42

适用于小白的程序报错提问 AI 模板

#工作记录程序报错提问 AI 模板 1、你现在将扮演python专家，请保持连续对话，请基于你的专业知识修改代码并回答！ 2、可以向我询问任何有利于你分析问题的信息。 3、你修改的程序代码，运行后报错，报错信息我放在最后…...

编程日记 2025/1/4 9:47:40

web实操9——session

概念数据保存在服务器HttpSession对象里。 session也是域对象，有setAttribute和getAttribute方法快速入门代码获取session和塞入数据： 获取session获取数据： 请求存储： 请求获取： 数据正常打印&#xff1a…...

编程日记 2025/1/4 9:41:28

OFDM学习-（二）长短序列和PPDU整体数据处理流程

OFDM学习 （二）长短序列和PPDU整体数据处理流程 OFDM学习前言一、短序列短序列的作用二、长序列三、PLCP/SIGNAL/DATA数据处理流程三、fpga实现STS模块LTS模块训练序列模块仿真波形总结前言根据框图可以知道发射机这部分信号在DA转换之前&#xff0c…...

编程日记 2025/1/4 9:37:20

.NET周刊【12月第4期 2024-12-22】

国内文章 dotnet 简单使用 ICU 库进行分词和分行 https://www.cnblogs.com/lindexi/p/18622917 本文将和大家介绍如何使用 ICU 库进行文本的分词和分行。 dotnet 简单聊聊 Skia 里的 SKFontMetrics 的各项属性作用 https://www.cnblogs.com/lindexi/p/18621674 本文将和大…...

编程日记 2025/1/4 9:35:18

Conda 安装 Jupyter Notebook

文章目录 1. 安装 Conda下载与安装步骤： 2. 创建虚拟环境3. 安装 Jupyter Notebook4. 启动 Jupyter Notebook5. 安装扩展功能（可选）6. 更新与维护7. 总结 Jupyter Notebook 是一款非常流行的交互式开发工具，尤其适合数据科学、机器…...

编程日记 2025/1/4 9:34:13

鸿蒙开发：实现键值数据库存储

前言鸿蒙当中数据持久化存储，为我们提供了多种的实现方式，比如用户首选项方式，关系型数据库方式，键值型数据库方式，文件存储方式等等，对于数据量比较的小的，我们直接选择轻量级的用户首选项方式…...

编程日记 2025/1/4 9:33:11

WebGL 实践（一）开发环境搭建

WebGL 是一种基于 JavaScript 的 API，用于在浏览器中渲染 2D和3D 图形，很多场景都能用，例如游戏开发、数据可视化、在线教育和虚拟现实等应用领域。零、基础知识相关基础知识很重要，如果会html、JavaScript等技术掌握起来会更…...

编程日记 2025/1/4 9:32:10

在线机考|2024华为实习秋招春招编程题（最新）——第3题_PCB印刷电路板布线_300分（八）

题目内容在PCB印刷电路板设计中，器件之间的连线需要避免线路的阻抗值增大、而且赛件之间还有别的器件和别的干扰源，在布线时我们希望受到的干扰尽量小。现将电路板简化成一个MN的矩阵，每个位置(单元格)的值表示其源干扰度。如果单元格的值为0，表示此位置没有干扰源;如果单…...

编程日记 2025/1/4 9:30:08

Spring源码分析之事件机制——观察者模式（三）

目录自定义事件事件监听器事件发布者（服务层） 使用示例controller层 Spring源码分析之事件机制——观察者模式（一）-CSDN博客 Spring源码分析之事件机制——观察者模式（二）-CSDN博客这两篇文章是这…...

编程日记 2025/1/4 9:26:01

C#实现画图，及实现图像运动，C#中GDI+图形图像技术(Graphics类、Pen类、Brush类）C#之快速入门GDI+绘图 C#实现快速画图功能

下载源码 <-------- 在C#的世界里，GDI如同一位多才多艺的艺术家，以其强大的绘图能力，让开发者能够轻松地在应用程序中挥洒创意，绘制出丰富多彩的图形世界。GDI不仅支持基本的几何图形绘制，还能处理复杂的图像处理任…...

编程日记 2025/1/4 9:23:58

【51单片机零基础-chapter6:LCD1602调试工具】

实验0-用显示屏LCD验证自己的猜想如同c的cout,前端的console.log() #include <REGX52.H> #include <INTRINS.H> #include "LCD1602.h" int var0; void main() {LCD_Init();LCD_ShowNum(1,1,var211,5);while(1){;} }实验1-编写LCD1602液晶显示屏驱动函…...

编程日记 2025/1/4 9:16:45

算法题（24）：只出现一次的数字（二）

审题： 数组中除了答案元素只出现一次外，其他元素都会出现三次，我们需要找到并返回答案元素思路： 由于现在会出现三次，所以利用异或运算符的方法就会失效。而所有数据都在32位二进制范围内，所以我们采用依次…...

编程日记 2025/1/4 9:15:44

趣味编程：心形曲线

目录 1.序言 2.代码展示 3.代码详解 3.1 头文件包含 3.2 绘制坐标轴函数 3.3 main 函数主体部分 4. 小结 1.序言 2025年的第一篇博客就用这个笛卡尔心形图开篇吧，寓意着新年大家能够有心有所属，祝诸位程序猿 / 程序媛能够早点遇到自己的另一半。…...

编程日记 2025/1/4 9:14:42

C# 设计模式（结构型模式）：享元模式

C# 设计模式（结构型模式）：享元模式 (Flyweight Pattern) 在软件开发中，尤其是在处理大量对象时，我们常常会面临内存和性能上的挑战。当多个对象具有相似的状态时，通常会占用大量的内存资源，从而…...

编程日记 2025/1/4 9:13:41

计算机毕业设计Django+Tensorflow音乐推荐系统音乐可视化卷积神经网络CNN LSTM音乐情感分析机器学习深度学习 Flask

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2025/1/4 9:09:38

mysql 死锁案例及简略分析

准备数据 # 创一个测试表，存储引擎使用 innodb create table test_lock (id int primary key auto_increment,name varchar(20),age int )engine innodb;insert into test_lock (name,age) values (ionc001,10); insert into test_lock (name,age) values (ionc00…...

编程日记 2025/1/4 9:07:35

第四届计算机、人工智能与控制工程

第四届计算机、人工智能与控制工程 The 4th International Conference on Computer, Artificial Intelligence and Control Engineering 重要信息大会官网：www.ic-caice.net 大会时间：2025年1月10-12日大会地点：中国合肥 (安徽大学磬苑…...

编程日记 2025/1/4 9:06:34

铭豹扩展坞 USB转网口突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别，但在其他电脑上正常工作时，问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤，帮助你快速找到故障原因：背景：一个M-pard（铭豹）扩展坞的网卡突然无法识别了，扩展出来的三个USB接口正常。…...

编程新知 2026/2/9 16:05:07

【OSG学习笔记】Day 18: 碰撞检测与物理交互

物理引擎（Physics Engine） 物理引擎是一种通过计算机模拟物理规律（如力学、碰撞、重力、流体动力学等）的软件工具或库。它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互，广泛应用于游戏开发、动画制作、虚…...

编程新知 2026/2/4 2:08:30

【Java学习笔记】Arrays类

Arrays 类 1. 导入包：import java.util.Arrays 2. 常用方法一览表方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序（自然排序和定制排序）Arrays.binarySearch()通过二分搜索法进行查找（前提：数组是…...

编程新知 2025/12/3 9:38:15

【大模型RAG】Docker 一键部署 Milvus 完整攻略

本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装；只需暴露 19530（gRPC）与 9091（HTTP/WebUI）两个端口，即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...

编程新知 2026/1/31 8:08:07

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

系列回顾： 在上一篇中，我们成功地为应用集成了数据库，并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了！但是，如果你仔细审视那些 API，会发现它们还很“粗糙”：有…...

编程新知 2026/1/22 20:46:43

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2026/1/29 17:54:05

爬虫基础学习day2

# 爬虫设计领域工商：企查查、天眼查短视频：抖音、快手、西瓜 ---> 飞瓜电商：京东、淘宝、聚美优品、亚马逊 ---> 分析店铺经营决策标题、排名航空：抓取所有航空公司价格 ---> 去哪儿自媒体：采集自媒体数据进…...

编程新知 2025/12/5 3:38:11

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/8/13 13:40:18

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

目录一、目的二、解决方案 2.1 什么是FFmpeg 2.2 FFmpeg主要功能 2.3 使用Xabe.FFmpeg调用FFmpeg功能 2.4 使用 FFmpeg 的 drawbox 滤镜来绘制 ROI 三、总结一、目的当前市场上有很多目标检测智能识别的相关算法，当前调用一个医疗行业的AI识别算法后返回…...

编程新知 2026/2/9 17:11:06

springboot整合VUE之在线教育管理系统简介

可以学习到的技能学会常用技术栈的使用独立开发项目学会前端的开发流程学会后端的开发流程学会数据库的设计学会前后端接口调用方式学会多模块之间的关联学会数据的处理适用人群在校学生，小白用户，想学习知识的有点基础，想要通过项…...

编程新知 2026/1/26 9:30:45

逻辑回归算法、数据标准化处理及数据预测和数据的分类结果报告

目录

1 逻辑回归算法

1.1 概念理解

1.2 算法导入

1.3 算法优缺点

2 LogisticRegression理解

2.1查看参数定义

2.2 参数理解

2.3 方法

2.4基本格式

3 数据标准化处理

3.1 0~1标准化

3.1.1概念

3.1.2公式

3.2 z标准化

3.2.1概念

3.2.2公式

3.2.3算法导入和实现

4 预测逻辑回归数据

4.1问题及理解

4.2 数据预处理

数据标准化统一

数据测试数据和训练数据划分

4.3 预测数据和分类结果

4.3.1分类结果报告

相关文章：