当前位置：首页 > news >正文

三、归一化与标准化

news 2025/12/18 11:16:27

归一化与标准化

前言
一、最小最大值归一化
- 1.1 原理（公式）
- 1.2 API 介绍
- - 1.2.1 参数介绍
  - 1.2.2 属性介绍
  - 1.2.3 注意事项
  - 1.2.4 代码演示
- 1.3 举例说明
二、标准化
- 2.1 原理（公式）
- 2.2 API 介绍
- - 2.2.1 参数介绍
  - 2.2.2 属性介绍
  - 2.2.3 注意事项
  - 2.2.4 代码演示
- 2.3 举例说明
三、案例代码：利用KNN算法进行鸢尾花分类
总结

前言

特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些模型（算法）无法学习到其它的特征。
所以我们需要对特征进行预处理，让不同特征在同一尺度下进行比较，从而避免因特征值大小差异而导致的模型训练偏倚。

一、最小最大值归一化

1.1 原理（公式）

这种方法将特征值缩放到指定的区间内，默认是0到1之间。计算公式如下：
$x_{norm} = \frac{x-min(x)}{max(x)-min(x)}$
如果需要缩放至其他区间[a, b]，则可以使用：
$x_{norm} = a + (\frac{x-min(x)}{max(x)-min(x)}) \cdot (b-a)$

1.2 API 介绍

sklearn.preprocessing.MinMaxScaler ( )

1.2.1 参数介绍

feature_range：tuple (min, max), default=(0, 1)
- 描述：这个参数用于设定缩放的范围。默认情况下，数据会被缩放到 [0, 1] 范围内。但用户可以根据需要设定其他范围，例如 [-1, 1]。
- 作用：通过调整缩放范围，可以对数据的分布进行更精细的控制，以适应不同的机器学习算法和数据特点。
copy：boolean, optional, default=True
- 描述：这个参数用于指定是否将转换后的数据覆盖原数据。如果设置为 True，则不会修改原始数据，而是返回一个新的缩放后的数据数组。如果设置为 False，则会在原地修改原始数据。
- 作用：通过控制是否覆盖原数据，可以保护原始数据的完整性，避免在数据处理过程中发生数据丢失或修改。
clip：boolean, optional, default=False
- 描述：clip 参数是一个布尔值，用于控制是否对变换后的数据进行裁剪。
- 作用：当 clip=True 时，变换后的数据将被裁剪到指定的范围内，确保数据的一致性和有效性；当 clip=False 时，变换后的数据可能超出指定的范围，这需要根据具体情况来决定是否启用裁剪功能。

1.2.2 属性介绍

在 MinMaxScaler 类中，还有一些重要的属性，用于存储缩放过程中的相关信息：

min_：ndarray of shape (n_features,)
- 描述：存储每个特征调整后的最小值。
scale_：ndarray of shape (n_features,)
- 描述：存储每个特征数据缩放的比例。这个比例是通过计算特征的最大值和最小值之差，然后除以指定的缩放范围（feature_range）来得到的。
data_min_ 和 data_max_：ndarray of shape (n_features,)
- 描述：分别存储每个特征在训练数据中的最小值和最大值。这些值是在调用 fit 或 fit_transform 方法时计算得到的。

1.2.3 注意事项

归一化受到最大值与最小值的影响，这种方法容易受到异常数据的影响, 鲁棒性较差，适合传统精确小数据场景

1.2.4 代码演示

代码如下（示例）：

# 导包
from sklearn.preprocessing import MinMaxScaler  # 归一化的类# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建归一化对象.
transfer = MinMaxScaler()# 3. 具体的 归一化动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 归一化后的结果
print(f'归一化后, 数据集为: {new_data}') #  [[1.         0.         0.         0.        ]#	[0.         1.         1.         0.83333333]#	[0.5        0.5        0.6        1.        ]]

1.3 举例说明

1.有以下一个数据集，包含两个特征：年龄（Age）和收入（Income）。我们希望这两个特征进行归一化处理。

Age	Income
20	30000
22	32000
35	55000
45	75000
50	85000

2.我们将年龄和收入都归一化到0到1的范围内。
- 2.1 年龄归一化：
  $Age_{norm} = \frac{Age-min(Age)}{max(Age)-min(Age)}$
  - $Age_{norm} = \frac{20-20}{50-20} = 0$
  - $Age_{norm} = \frac{22-20}{50-20} = 0.0667$
  - $Age_{norm} = \frac{35-20}{50-20} = 0.5$
  - $Age_{norm} = \frac{45-20}{50-20} = 0.8333$
  - $Age_{norm} = \frac{50-20}{50-20} = 1$
- 2.2 收入归一化：
  $Income_{norm} = \frac{Income-min(Income)}{max(Income)-min(Income)}$
  - $Income_{norm} = \frac{30000-30000}{85000-30000} = 0$
  - $Income_{norm} = \frac{32000-30000}{85000-30000} = 0.0364$
  - $Income_{norm} = \frac{55000-30000}{85000-30000} = 0.4545$
  - $Income_{norm} = \frac{75000-30000}{85000-30000} = 0.8182$
  - $Income_{norm} = \frac{85000-30000}{85000-30000} = 1$
3 原数据集就会变成下面这样

Age	Income
0	0
0.0667	0.0364
0.5	0.4545
0.8333	0.8182
1	1

二、标准化

2.1 原理（公式）

标准化是将特征值转换为具有零均值和单位方差的形式。计算公式如下：
$x_{std} = \frac{x-μ}{σ}$
其中， $μ$ 是特征的平均值， $σ$ 是特征的标准差。

2.2 API 介绍

sklearn.preprocessing.StandardScaler( )

2.2.1 参数介绍

copy：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则会在操作后创建数据的副本，不会修改原始数据。如果设置为 False，则不会创建副本，操作后会直接替换原始数据。
with_mean：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则在转换数据时会减去均值（即进行中心化）。如果设置为 False，则不会在转换时减去均值，但 fit 操作仍然会计算均值，并可以通过 mean_ 属性查看。
with_std：类型：布尔值（Boolean）；默认值：True
- 说明：如果设置为 True，则在转换数据时会除以标准差（即进行缩放）。如果设置为 False，则不会在转换时除以标准差，但 fit 操作仍然会计算标准差，并可以通过 scale_ 属性查看。

2.2.2 属性介绍

scale_：
- 存放每个特征的标准差，是一个列表，长度为特征数。
mean_：
- 存放每个特征的均值，是一个列表，长度为特征数。
var_：
- 存放每个特征的方差，是一个列表，长度为特征数。
feature_names_in_：
- 存放特征的名字，只有导入的数据中有特征名字时才会被定义。
n_samples_seen_：
- 导入样本数据的个数。

2.2.3 注意事项

对于标准化来说，如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大。

2.2.4 代码演示

代码如下（示例）：

from sklearn.preprocessing import StandardScaler# 1. 准备特征数据.  每个子列表 = 1个样本(Sample)
data = [[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]]# 2. 创建 标准化 对象.
transfer = StandardScaler()# 3. 具体的 标准化 动作.
# fit_transform(): 训练 + 转换 => 适用于 训练集.
# transform(): 直接转换 => 适用于 测试集.
new_data = transfer.fit_transform(data)# 4. 打印 标准化 后的结果
print(f'标准化后, 数据集为: {new_data}')# 5. 打印每个特征列的 平均值 和 方差 和 标准差
print(f'均值: {transfer.mean_}')
print(f'方差: {transfer.var_}')
print(f'标准差: {transfer.scale_}')
print(f'样本数: {transfer.n_samples_seen_}')

2.3 举例说明

1.有以下一个数据集，包含两个特征：年龄（Age）和收入（Income）。我们希望这两个特征进行归一化处理。

Age	Income
20	30000
22	32000
35	55000
45	75000
50	85000

2.我们将年龄和收入标准化到具有零均值和单位方差的形式。
- 2.1 年龄标准化：
  $x_{std} = \frac{x-μ}{σ}$
  $μ_{Age} = \frac{20+22+35+45+50}{5} = 34.4$
  $σ_{Age} = \sqrt{\frac{(20-34.4)^2+(22-34.4)^2+(35-34.4)^2+(45-34.4)^2+(50-34.4)^2}{5}} = \sqrt{142.8856} ≈ 11.9536$
  - $Age_{std} = \frac{20-34.4}{11.9536} ≈ -1.2047$
  - $Age_{std} = \frac{22-34.4}{11.9536} ≈ -1.037$
  - $Age_{std} = \frac{35-34.4}{11.9536} ≈ 0.0502$
  - $Age_{std} = \frac{45-34.4}{11.9536} ≈ 0.8868$
  - $Age_{std} = \frac{50-34.4}{11.9536} ≈ 1.3050$
- 2.2 收入标准化：
  $μ_{Income} = \frac{30000+32000+55000+75000+85000}{5} = 55,400$
  $σ_{Income} = \sqrt{\frac{(30000-55400)^2+(32000-55400)^2+(55000-55400)^2+(75000-55400)^2+(85000-55400)^2}{5}} = \sqrt{486176800} ≈ 22049$
  - $Income_{norm} = \frac{30000-55400}{22049} = -1.1520$
  - $Income_{norm} = \frac{32000-55400}{22049} = -1.0613$
  - $Income_{norm} = \frac{55000-55400}{22049} = -0.0181$
  - $Income_{norm} = \frac{75000-55400}{22049} = 0.8889$
  - $Income_{norm} = \frac{85000-55400}{22049} = 1.3425$
3 原数据集就会变成下面这样

Age	Income
-1.2047	-1.1520
-1.037	-1.0613
0.0502	-0.0181
0.8868	0.8889
1.3050	1.3425

三、案例代码：利用KNN算法进行鸢尾花分类

代码如下（示例）：

# 0.导入工具包
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score# 1.加载数据集
iris_data = load_iris()
# print(iris_data)
# print(iris_data.target)# 2.数据展示
iris_df = pd.DataFrame(iris_data['data'], columns=iris_data.feature_names)
iris_df['label'] = iris_data.target
# print(iris_data.feature_names)
# sns.lmplot(x='sepal length (cm)',y='sepal width (cm)',data = iris_df,hue='label')
# plt.show()# 3.特征工程(预处理-标准化)
# 3.1 数据集划分
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.3, random_state=22)
print(len(iris_data.data))
print(len(x_train))
# 3.2 标准化
process = StandardScaler()
x_train = process.fit_transform(x_train)
x_test = process.transform(x_test)
# 4.模型训练
# 4.1 实例化
model = KNeighborsClassifier(n_neighbors=3)
# 4.2 调用fit法
model.fit(x_train,y_train)
# 5.模型预测
x = [[5.1, 3.5, 1.4, 0.2]]
x=process.transform(x)
y_predict =model.predict(x_test)
print(model.predict_proba(x))# 6.模型评估(准确率)
# 6.1 使用预测结果
acc =accuracy_score(y_test,y_predict)
print(acc)# 6.2 直接计算
acc = model.score(x_test,y_test)
print(acc)

总结

文章总结了特征预处理中的归一化和标准化，并对每一种方法做了详细讲解，最后用一个综合案例，使用前面学过的的KNN算法来验证预处理的必要性。

三、归一化与标准化

归一化与标准化前言一、最小最大值归一化1.1 原理（公式）1.2 API 介绍1.2.1 参数介绍1.2.2 属性介绍1.2.3 注意事项1.2.4 代码演示 1.3 举例说明二、标准化2.1 原理（公式）2.2 API 介绍2.2.1 参数介绍2.2.2 属性介绍2.2.3 注意事项…...

编程日记 2024/10/23 21:32:07

B2105 矩阵乘法 #include <iostream> using namespace std; int main(){int n,m,k;cin>>n>>m>>k;int arr1[n][m];int arr2[m][k];for(auto & line:arr1){for(auto & x: line){cin>>x;}}for(auto & line:arr2){for(auto & x: lin…...

编程日记 2024/10/23 21:31:05

centos之下的mysql8的安装

文章目录 1.mysql.com进入(网址栏)2.xshell操作2.1拖拽上传2.2安装发布包2.3检查情况2.4安装mysql2.5手动启动2.6查看状态2.7查看随机密码2.8登录2.9重置密码 1.mysql.com进入(网址栏) 找下面的这个download按钮： 一直往下面划：找到下面的这个下面的这个…...

编程日记 2024/10/23 21:30:04

计算机导论

概述计算机简史 1935年代，英国数学家图灵(Alan Turing)提出“图灵机”，奠定了计算机的理论基础。 1952年，冯诺依曼确定了计算机由运算器、控制器、存储器、输入、输出等5部分组成（Von Neumann 体系结构）。 60年代…...

编程日记 2024/10/23 21:24:59

力扣209-长度最小的子数组-滑动窗口思想

题目给定一个含有 n 个正整数的数组和一个正整数 target 。找出该数组中满足其总和大于等于 target 的长度最小的子数组 [numsl, numsl1, ..., numsr-1, numsr] ，并返回其长度。如果不存在符合条件的子数组，返回 0 。示例 1： 输入&am…...

编程日记 2024/10/23 21:22:57

Xilinx 7系列FPGA PCI Express IP核简介

前言：Xilinx7系列FPGA集成了新一代PCI Express集成块，支持8.0Gb/s数据速率的PCI Express 3.0。本文介绍了7系列FPGA PCIe Gen3的应用接口及一些特性。 1. PCI Express规范演进 PCIe是一种高速串行计算机扩展总线标准，旨在替代传统的PCI和AG…...

编程日记 2024/10/23 21:20:55

红包雨html

1、分享一个红包雨html代码。 <!DOCTYPE html> <html lang"zh"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>红包雨小游戏</ti…...

编程日记 2024/10/23 21:18:53

js 基础补充3

1. 闭包在函数内部定义的函数，可以访问改函数的属性和方法私有属性延长变量的生命周期，更好的避免命名冲突缺点：内存消耗比较大，不建议频繁使用 2. js 原型原型链访问对像的属性方法，不光会在对象上查找还会在…...

编程日记 2024/10/23 21:17:52

Invalid bean definition with name ‘employeeMapper‘ defined in file

参考以下博客： <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-spring-boot3-starter</artifactId><version>3.5.7</version> </dependency> 总结： 1. 拉取老项目的时候要特…...

编程日记 2024/10/23 21:16:50

悦享驾驶，乐在旅途，首选江铃集团新能源易至EV3青春版

金秋时节，天高气爽，正是出游的好时节。不论是家庭自驾游，还是朋友结伴出游，一款好看又好开的车绝对是提升旅行品质的重要因素。江铃集团新能源易至汽车EV3青春版，凭借其超高安全性、便捷操作性、卓越性能，成…...

编程日记 2024/10/23 21:14:48

测试WIFI和以太网的TCP带宽、UDP带宽和丢包率、延时

一、测试TCP、UDP的带宽作为服务器：iperf3 -s -i 1 （或者用CloudCampus软件，或者iperf magic） Wi-Fi 发送、接收吞吐率的测试_magic iperf-CSDN博客车机作为iperf3服务器，电脑作为iperf3得客户端，分别…...

编程日记 2024/10/23 21:13:47

redis 第155节答疑源码分析Hash类型ziplist结构和zlentry实体解析

155属性 zlbytes zltail zllen entryX zlend 类型 uint32 t uint32 t uint16 t 列表节点 uint8 t 长度 4字节 4字节 2字节不定 1字节用途记录整个压缩列表占用的内存字节数:在对压缩列表进行内存重分配，或者计算 zlend 的位置时使用记录压缩列表表尾节点距离压缩…...

编程日记 2024/10/23 21:12:46

IDE使用技巧与插件推荐

集成开发环境（IDE）是开发者日常工作中的重要工具，合理使用IDE和合适的插件，能大大提高开发效率。本文将分享常见IDE（如VS Code、IntelliJ IDEA等）的一些高效使用技巧，以及开发过程中常用的插件推…...

编程日记 2024/10/23 21:10:43

1020接口测试面试题随记

1.测试中对于上下游承接的业务是怎么处理的针对上下游承接的业务，我会采取以下措施进行处理：首先，明确上下游系统的接口和依赖关系，确保理解数据流和业务逻辑的连接点。其次，进行接口测试，验证上下游系统…...

编程日记 2024/10/23 21:09:43

Zotero7最新（2024）翻译问题——配置百度API翻译

在使用翻译之前，首先要确保已经安装了插件：Translate for Zotero 关于插件的安装可以参考这篇文章： Zotero7最新（2024）安装、配置步骤-CSDN博客接下来进入正题。当使用Zotero7对英文文献翻译时，可能会…...

编程日记 2024/10/23 21:03:36

python程序设计员—练习笔记

目录基础处理字符串列表字典运算符正则表达式re库requestsBeautiful Soupjieba库分词模式基于TF-IDF算法的关键词提取基于TextRank算法的关键词提取pandas 打开有多个表的.xlsx文件基础处理字符串 str_ str_.lower()lower()函数：将字符中的大写字母转换成小…...

编程日记 2024/10/23 21:02:33

1.DBeaver连接hive数据库

1.hive开启远程服务，linux中直接输入：hiveserver2 2.解压dbeaver和hive-jdbc-2.1.1.zip 3.双击打开 4.数据库，新建连接 5.搜索hive 6.配置参数 7.编辑驱动设置 8.添加jar包 9.测试连接 10.右击，新建sql编辑器 11.执行sql 12.调整字…...

编程日记 2024/10/23 21:00:31

CODESYS随机动态图案验证码制作详细案例（三）

#使用CODESYS软件模仿网页端动态图案验证码的制作详细案例# 前言：通过上篇图案验证码的实际测试，我们已经完成了该案例的制作，但是在项目应用中，我们想对该功能直接调用，就需要将具有一定功能的程序代码或可视化进行封装成库文件。我们熟知，CODESYS有丰富的库文件，有…...

编程日记 2024/10/23 20:53:24

NodeJS 使用百度翻译API

在大数据处理中，经常需要大批量地翻译短小的文字，使用在线翻译平台的API 调用能够大幅度提高效率。最近尝试了一下。第一步在百度翻译开放平台注册百度翻译开放平台 (baidu.com) 申请APPID 和SECRET加密码源代码（mjs） …...

编程日记 2024/10/23 20:50:21

摩熵数科数据产品阵容BCPM

摩熵数科基本介绍摩熵数科（成都）医药科技有限公司BCPMdata Pharma Technology （Chengdu）Co.,Ltd以“探索生命科学数据本源，构建全产业链数据应用生态”为愿景，致力于成为生命科学领域全球领先的数据系统与…...

编程日记 2024/10/23 20:48:14

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…...

编程新知 2025/12/17 20:39:48

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2025/12/16 4:58:10

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2025/12/9 1:33:12

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

每日一言生活的美好，总是藏在那些你咬牙坚持的日子里。硬件：OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写，"1306" 是产品编号。驱动 OLED 屏幕的 IIC 总线数据传输格式示意图 …...

编程新知 2025/12/9 3:19:35

ios苹果系统，js 滑动屏幕、锚定无效

现象：window.addEventListener监听touch无效，划不动屏幕，但是代码逻辑都有执行到。 scrollIntoView也无效。原因：这是因为 iOS 的触摸事件处理机制和 touch-action: none 的设置有关。ios有太多得交互动作，从而会影响…...

编程新知 2025/12/4 2:37:03

力扣-35.搜索插入位置

题目描述给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。请必须使用时间复杂度为 O(log n) 的算法。 class Solution {public int searchInsert(int[] nums, …...

编程新知 2025/12/3 3:22:43

GitHub 趋势日报 (2025年06月06日)

📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图今日获星趋势图 590 cognee 551 onlook 399 project-based-learning 348 build-your-own-x 320 ne…...

编程新知 2025/9/7 2:12:04

提升移动端网页调试效率：WebDebugX 与常见工具组合实践

在日常移动端开发中，网页调试始终是一个高频但又极具挑战的环节。尤其在面对 iOS 与 Android 的混合技术栈、各种设备差异化行为时，开发者迫切需要一套高效、可靠且跨平台的调试方案。过去，我们或多或少使用过 Chrome DevTools、Remote Debug…...

编程新知 2025/6/10 21:08:23

系统掌握PyTorch：图解张量、Autograd、DataLoader、nn.Module与实战模型

本文较长，建议点赞收藏，以免遗失。更多AI大模型应用开发学习视频及资料，尽在聚客AI学院。本文通过代码驱动的方式，系统讲解PyTorch核心概念和实战技巧，涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…...

编程新知 2025/12/16 12:04:34

归一化与标准化

前言

一、最小最大值归一化

1.1 原理（公式）

1.2 API 介绍

1.2.1 参数介绍

1.2.2 属性介绍

1.2.3 注意事项

1.2.4 代码演示

1.3 举例说明

二、标准化

2.1 原理（公式）

2.2 API 介绍

2.2.1 参数介绍

2.2.2 属性介绍

2.2.3 注意事项

2.2.4 代码演示

2.3 举例说明

三、案例代码：利用KNN算法进行鸢尾花分类

总结

相关文章：