当前位置: 首页 > article >正文

人工智能学习之归一化和标准化的区别

归一化与标准化机器学习核心预处理笔记核心前提机器学习中特征的量纲单位可能差异极大如身高cm、体重kg、收入万元会导致模型如KNN、线性回归、SVM偏向于量纲大的特征影响训练效果。核心目的消除特征量纲影响使所有特征处于同一量级让模型更公平地学习每个特征提升训练效率和模型精度。注意归一化和标准化均属于「特征预处理」仅针对输入特征X不处理标签y且需遵循「训练集拟合、测试集复用」原则用训练集的参数处理测试集避免数据泄露。一、归一化Normalization核心定义将特征值映射到 [0, 1] 或 [-1, 1] 的固定区间内消除量纲的同时压缩特征值范围。最常用类型最小-最大归一化Min-Max Scaling授课重点其他类型简要提及即可。核心公式Min-Max Scaling对于某一特征的所有样本值 ( x )归一化后的值 ( x_{\text{norm}} ) 计算如下xnormx−min⁡(X)max⁡(X)−min⁡(X)x_{\text{norm}} \frac{x - \min(X)}{\max(X) - \min(X)}xnorm​max(X)−min(X)x−min(X)​( x )当前样本的特征值( \min(X) )该特征所有样本的最小值( \max(X) )该特征所有样本的最大值分母 ( \max(X) - \min(X) )该特征的取值范围若范围为0说明所有样本值相同无需归一化实操步骤授课可板书演示遍历某一特征的所有训练集样本计算该特征的 ( \min(X) ) 和 ( \max(X) )代入公式将训练集中每个样本的该特征值映射到 [0, 1] 区间用训练集计算的 ( \min(X) ) 和 ( \max(X) )复用公式处理测试集样本关键测试集不重新计算最值对所有需要预处理的特征重复上述步骤。举例简化计算便于授课讲解特征学生成绩相关4个特征与示例数组格式一致训练集样本模仿用户给出的数组格式数值简单、计算便捷x_train [[80, 3, 12, 42], [60, 5, 18, 48], [70, 4, 15, 45]]该数组共3个样本4个特征与用户给出的[[90,2,10,40],[60,4,15,45],[75,3,13,46]]格式一致数值简单、计算无复杂运算分别对4个特征做归一化演示特征1如课堂专注时长样本值 [80, 60, 70]计算最值( \min(X)60 )( \max(X)80 )范围20归一化计算样本80(80-60)/20 1.0样本60(60-60)/20 0.0样本70(70-60)/20 0.5归一化后结果[1.0, 0.0, 0.5]特征2如刷题时长样本值 [3, 5, 4]计算最值( \min(X)3 )( \max(X)5 )范围2归一化计算样本3(3-3)/2 0.0样本5(5-3)/2 1.0样本4(4-3)/2 0.5归一化后结果[0.0, 1.0, 0.5]特征3如背诵单词数样本值 [12, 18, 15]计算最值( \min(X)12 )( \max(X)18 )范围6归一化计算样本12(12-12)/6 0.0样本18(18-12)/6 1.0样本15(15-12)/6 0.5归一化后结果[0.0, 1.0, 0.5]特征4如作业完成率样本值 [42, 48, 45]计算最值( \min(X)42 )( \max(X)48 )范围6归一化计算样本42(42-42)/6 0.0样本48(48-42)/6 1.0样本45(45-42)/6 0.5归一化后结果[0.0, 1.0, 0.5]综上x_train归一化后完整结果[[1.0, 0.0, 0.0, 0.0], [0.0, 1.0, 1.0, 1.0], [0.5, 0.5, 0.5, 0.5]]计算简单适合课堂板书演示。适用场景与注意事项适用场景模型对特征范围有明确要求如神经网络输入层需输入[0,1]区间的值特征取值范围已知且固定如图像像素值0-255适合基于距离的模型如KNN、SVM能避免量纲大的特征主导距离计算。注意事项授课重点强调对异常值极敏感若特征中存在极端异常值如特征1出现100会严重压缩正常样本的取值范围导致归一化后的值集中在很小的区间仅适用于数值型特征分类特征如性别、标签无需归一化必须遵循“训练集拟合、测试集复用”否则会导致数据泄露影响模型泛化能力。二、标准化Standardization核心定义将特征值转换为「均值为0、标准差为1」的正态分布标准正态分布不固定特征值范围仅消除量纲保留特征的分布特性。最常用类型Z-Score 标准化授课重点唯一核心类型。核心公式Z-Score 标准化对于某一特征的所有样本值 ( x )标准化后的值 ( x_{\text{std}} ) 计算如下xstdx−μσx_{\text{std}} \frac{x - \mu}{\sigma}xstd​σx−μ​( x )当前样本的特征值( \mu )mu该特征所有训练集样本的均值( \sigma )sigma该特征所有训练集样本的标准差注意若标准差 ( \sigma 0 )说明所有样本值相同无需标准化。实操步骤授课可板书演示遍历某一特征的所有训练集样本计算该特征的均值 ( \mu ) 和标准差 ( \sigma )代入公式将训练集中每个样本的该特征值转换为标准正态分布用训练集计算的 ( \mu ) 和 ( \sigma )复用公式处理测试集样本关键测试集不重新计算均值和标准差对所有需要预处理的特征重复上述步骤。举例简化计算便于授课讲解沿用上述归一化的训练集样本x_train [[80, 3, 12, 42], [60, 5, 18, 48], [70, 4, 15, 45]]分别对4个特征做标准化演示数值简单计算无复杂运算特征1数学成绩样本值 [80, 60, 70]计算均值 ( \mu )(806070)/3 70计算标准差 ( \sigma )√[(80-70)²(60-70)²(70-70)²]/3 √(1001000)/3 √(200/3) ≈ 8.16标准化计算保留2位小数样本80(80-70)/8.16 ≈ 1.22样本60(60-70)/8.16 ≈ -1.22样本70(70-70)/8.16 ≈ 0.00标准化后结果[1.22, -1.22, 0.00]特征2刷题时长样本值 [3, 5, 4]计算均值 ( \mu )(354)/3 4计算标准差 ( \sigma )√[(3-4)²(5-4)²(4-4)²]/3 √(110)/3 √(2/3) ≈ 0.82标准化计算样本3(3-4)/0.82 ≈ -1.22样本5(5-4)/0.82 ≈ 1.22样本4(4-4)/0.82 ≈ 0.00标准化后结果[-1.22, 1.22, 0.00]特征3背诵单词数样本值 [12, 18, 15]计算均值 ( \mu )(121815)/3 15计算标准差 ( \sigma )√[(12-15)²(18-15)²(15-15)²]/3 √(990)/3 √(18/3) √6 ≈ 2.45标准化计算样本12(12-15)/2.45 ≈ -1.22样本18(18-15)/2.45 ≈ 1.22样本15(15-15)/2.45 ≈ 0.00标准化后结果[-1.22, 1.22, 0.00]特征4作业完成率样本值 [42, 48, 45]计算均值 ( \mu )(424845)/3 45计算标准差 ( \sigma )√[(42-45)²(48-45)²(45-45)²]/3 √(990)/3 √6 ≈ 2.45标准化计算样本42(42-45)/2.45 ≈ -1.22样本48(48-45)/2.45 ≈ 1.22样本45(45-45)/2.45 ≈ 0.00标准化后结果[-1.22, 1.22, 0.00]综上x_train标准化后完整结果[[1.22, -1.22, -1.22, -1.22], [-1.22, 1.22, 1.22, 1.22], [0.00, 0.00, 0.00, 0.00]]计算简单适合课堂板书演示。适用场景与注意事项适用场景模型假设特征服从正态分布如线性回归、逻辑回归、神经网络特征存在异常值标准化对异常值的鲁棒性更强不会过度压缩正常样本特征取值范围不确定、无明确边界如收入、年龄大多数机器学习模型的首选预处理方式通用性最强。注意事项授课重点强调标准化后特征值会分布在0附近可能出现负数不影响模型训练仅消除量纲同样遵循“训练集拟合、测试集复用”避免数据泄露若特征存在极端异常值可先处理异常值如删除、替换再进行标准化。三、归一化与标准化核心区别授课重点必讲对比维度归一化Min-Max标准化Z-Score核心作用映射到固定区间 [0,1]消除量纲压缩范围转换为标准正态分布仅消除量纲保留分布取值范围固定 [0,1]或[-1,1]无固定范围通常在[-3,3]之间正态分布特性异常值敏感性极敏感异常值会严重压缩正常样本范围鲁棒性强异常值影响较小仍需适当处理核心参数训练集的 min(X)、max(X)训练集的 均值μ、标准差σ适用场景特征范围固定、模型对输入范围有要求特征有异常值、模型假设正态分布通用首选典型模型KNN、SVM距离类模型线性回归、逻辑回归、神经网络通用四、授课补充要点讲师专用口诀记忆归一化定范围标准化定分布实操提醒在Python中可通过sklearn的MinMaxScaler归一化、StandardScaler标准化快速实现核心是调用fit_transform训练集和transform测试集易错点① 用测试集重新计算参数导致数据泄露② 对标签y进行预处理③ 特征存在异常值时优先用归一化拓展当特征取值范围差异不大如身高150-180cm体重50-80kg可不用预处理但只要存在量纲差异预处理能提升模型效果。五、总结归一化和标准化的核心目的一致消除特征量纲影响让模型公平学习每个特征选择原则优先用标准化鲁棒性强、通用性强若模型对输入范围有明确要求用归一化核心禁忌不处理标签、不重复计算测试集参数、不忽视异常值影响。

相关文章:

人工智能学习之归一化和标准化的区别

归一化与标准化(机器学习核心预处理笔记) 核心前提:机器学习中,特征的量纲(单位)可能差异极大(如:身高cm、体重kg、收入万元),会导致模型(如KNN、…...

电动汽车高压系统狭窄空间高精度电流电压测量方案解析

1. 项目概述:当高压测量遇上“螺蛳壳里做道场”在电动汽车的研发测试领域,尤其是实车道路测试阶段,有一个场景让很多工程师头疼不已:如何在发动机舱、底盘或电池包附近那些错综复杂、空间逼仄的线束通道里,精准地测量高…...

工业物联网主板布局设计:从i.MX28x核心到无线模块的硬件规划

1. 项目概述:从一块板卡看工业物联网的“骨架”拿到一块名为“IoT-A28LI”的主板,标题里还带着“i.MX28x系列”和“无线工控板”这样的关键词,这立刻让我这个在工业控制和嵌入式领域摸爬滚打多年的老工程师来了兴致。这不仅仅是一块电路板&am…...

重磅喜报!中国星坤入围东莞上规资助计划,政企携手共筑智造标杆

近日,东莞市工业和信息化局正式公布 2026 年支持工业企业上规发展做大做强项目拟资助计划,中国星坤(XKB Connection)凭借在电子连接器领域的技术实力与稳健发展,成功入选,成为东莞智造升级的标杆企业之一东…...

20260520 OVN网络整体实验

OVN网络整体实验 [rootcontroller ~ 16:26:09]# source keystonerc_admin [rootcontroller ~(keystone_admin)]# openstack network agent list --------------------------------------------------------------------------------------------------------------------------…...

Best Practice for AI Agents Project _ Chapter 1

很高兴he大家分享,《AI智能体项目最佳实践》内容,系统覆盖从单智能体工程基础,到私有知识注入、能力扩展、安全设计,再到多智能体协同的完整企业AI落地路径。本次分享第一章:从模型调用到可靠的单智能体(Fr…...

跨境电商作图不纠结!风格全覆盖, AI 工具帮你省超多心

做跨境电商这么多年,最头疼的从来不是选品和运营,而是作图!不同平台风格要求不一样、不同国家审美差异大、小白没设计基础、外包贵还改到崩溃… 相信不少跨境卖家都跟我一样,在作图这件事上踩过无数坑。今天就以老卖家的身份&…...

工程机械重型车辆检测数据集 YOLO格式

数据集格式:YOLO格式(包含jpg图片以及对应的yolo格式的txt标注文件) 图片预览: 标注例子: 图片数量(jpg文件个数):6338 标注数量(txt文件个数):6338 标注类别数:7 标注类别名称:["Bull_dozer"…...

实时仿真软件SimuRTS

1)简介 SimuRTS是一款实时仿真软件,应用于硬件在环(HIL)嵌入式系统半实物仿真测试。基于SimuRTS的用户界面快速配置I/O通道、数据记录和激励生成。通过丰富的图形元素配置图形控制界面并根据需要显示相应结果,全面测试…...

别再死记硬背了!用这5个HBase Shell实战场景,轻松搞定日常数据操作

HBase Shell实战手册:5个真实场景解锁高效数据操作 在数据爆炸式增长的时代,HBase作为分布式NoSQL数据库的佼佼者,凭借其高吞吐、低延迟的特性,成为处理海量结构化数据的首选方案。然而,许多开发者虽然掌握了基础命令&…...

极竞魔方XR大空间亮相孩子王南京城市亲子节

在这个周末的南京,空气中除了初夏的微热,更多的是属于家庭的欢笑声。由母婴童行业领军品牌“孩子王”倾力打造的南京城市亲子节现场人头攒动,成为了全城瞩目的焦点。在琳琅满目的展位与高频互动的游乐项目中,孩子和家长正排队解锁…...

别再傻傻分不清L2和L3了!一张图看懂自动驾驶分级(附SAE/国标对照表)

自动驾驶分级全解析:从L0到L5的技术演进与商业应用 当特斯拉车主开启Autopilot功能在高速公路上行驶,或是蔚来汽车宣传其NOP领航辅助时,这些究竟属于什么级别的自动驾驶?为什么有些厂商称自己的系统为"L2.999"&#xff…...

从推荐逻辑到库存架构:木鸟民宿、携程民宿、爱彼迎场景化服务技术对比

摘要从技术和产品设计的角度看,木鸟民宿、携程民宿、爱彼迎三家平台在场景化服务上究竟走了怎样不同的技术路径?各自用了哪些手段把“住宿”这件事匹配到用户真实的生活场景里?三家平台在技术落地上各有侧重。木鸟民宿主打“标签化即时确认”…...

GJB/Z 299D-2024 可靠性预计工具 —— 国产自主可控的电子设备可靠性评估利

📌 工具简介GJBZ299D可靠性预计工具 是一款基于国军标 GJB/Z 299D-2024《电子设备可靠性预计手册》 开发的专业化桌面应用程序。采用 应力分析法,对电子设备的各类元器件进行工作失效率(λp)计算,自动汇总 MTBF/MTF 等…...

[特殊字符] 零基础搭建「知识科普讲师」数字人|魔珐星云实战指南

在短视频、知识付费、自媒体赛道,知识科普、职场干货、生活常识、读书分享内容需求越来越大。真人出镜成本高、拍摄慢、文案难量产,而AI 数字人讲师可以做到:文案好写、生成快、24 小时可播、风格稳定、形象专业。 本文基于魔珐星云具身智能…...

一文搞懂 MySQL:一条 SQL 语句的完整执行之旅

你是否每天都在写 SQL,却从未想过它在 MySQL 内部是如何一步步执行的?今天我们就通过这张经典的 MySQL 执行流程图,带你拆解一条 SQL 从客户端发送到结果返回的完整过程,搞懂这个过程,你就能轻松理解 SQL 优化、事务原…...

Semi Design v2.98.0 发布:多项组件功能更新与问题修复,助力搭建美观 React 应用

【Feature】新增douyinfe/semi-vite-plugin包,提供 Vite 构建场景下的主题定制等能力,与douyinfe/semi-webpack-plugin特性对齐;Calendar 组件新增onMoreClickprop,支持自定义月视图下"还有几项"的点击事件;…...

青铜器RDM:CBB 模块全周期管控,赋能研发高效复用

阶段 1、痛点与定位在研发项目中,CBB 通用基础模块是提升研发效率、降低研发成本、保障产品可靠性的核心关键。如何高效管理、复用、评价 CBB?青铜器 RDM 系统给出一站式解决方案。阶段 2、资源库搭建与全周期管控系统内置标准化 CBB 资源库,…...

从YOLOv5实战反推:手把手在WSL2里搭建PyTorch 1.12 + CUDA 11.3 环境(附国内镜像加速)

逆向工程视角:在WSL2中构建YOLOv5专属PyTorch 1.12CUDA 11.3开发环境 当目标检测项目的截止日期迫在眉睫,却卡在环境配置环节,这种体验对开发者而言无异于噩梦。本文将以结果导向的逆向思维,从YOLOv5的最终运行需求出发&#xff0…...

别再死记硬背了!用Python+SymPy玩转含参积分,从卷积到信号处理一次搞懂

用PythonSymPy玩转含参积分:从数学原理到信号处理实战 数学中的含参积分常常让学习者感到抽象难懂,尤其是当涉及到极限交换、求导与积分顺序交换等概念时。但如果我们换一种方式——用代码和可视化来探索这些数学概念,一切就会变得清晰起来。…...

多目摄像头时间同步实战:用FSYNC信号搞定树莓派+双OV5640的同步曝光

多目摄像头时间同步实战:用FSYNC信号搞定树莓派双OV5640的同步曝光 在机器人视觉和立体成像项目中,双摄像头同步采集图像是许多应用的基础需求。无论是构建双目视觉系统、全景拼接还是运动分析,毫秒级的时间差都可能导致算法失效。我曾在一个…...

电池级氢氧化锂粉碎设备选型指南:氮气保护气流粉碎机详解

氢氧化锂(LiOH)具有易吸潮、强碱性、有一定粘附性的特点,且在电池级应用中对金属杂质污染零容忍。因此,行业主流不推荐传统的机械碾压式磨机(如雷蒙磨,容易引入铁屑且密封难),而是首…...

Amphenol DRPC11A009040线束解析

随着服务器、高速通信设备以及工业控制系统对高速传输性能要求不断提升,越来越多工程师开始关注高可靠性线束组件的选型问题。其中,来自 Amphenol ICC 的 DRPC11A009040 线束组件,近年来在高速连接领域中被广泛关注。 作为国际连接器品牌的重…...

高通平台Sensor驱动移植避坑指南:以QCM6490平台BMI160为例,从编译到上电调试全流程

高通平台Sensor驱动移植实战:QCM6490平台BMI160全流程避坑指南 1. 环境准备与基础架构解析 在QCM6490平台上进行BMI160传感器驱动移植前,必须充分理解高通SEE架构的设计理念。与传统的SSC架构相比,SEE架构通过模块化封装大幅降低了移植复杂度…...

公域卖课佣金高、粉丝留不住?这套私域打法,完课率提升了3倍

公域卖课的两大痛点痛点一:佣金太高,利润被吃掉一大块。相信在公域卖过课的朋友都有体会。平台抽成、分销佣金、投流成本……七七八八算下来,到手的钱可能连一半都不到。你辛辛苦苦打磨的课程,大头却被别人拿走了。这感觉&#xf…...

手把手教你用W25Q32 SPI Flash:从波形图看懂擦除、写入和读取(附完整代码)

手把手教你用W25Q32 SPI Flash:从波形图看懂擦除、写入和读取(附完整代码) 在嵌入式开发中,SPI Flash存储器因其高性价比、大容量和简单接口而广受欢迎。W25Q32作为一款32Mb的SPI Flash芯片,被广泛应用于物联网设备、消…...

为 OpenClaw 配置 Taotoken 作为自定义 OpenAI 兼容供应商

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为 OpenClaw 配置 Taotoken 作为自定义 OpenAI 兼容供应商 OpenClaw 是一个流行的开源 Agent 框架,它允许开发者通过配…...

从审稿人到作者:我审了10篇论文后,总结出的5个投稿避坑指南和3个加分项

从审稿人到作者:10篇论文审阅经验提炼的5大避坑策略与3个关键加分项 第一次收到审稿邀请时,我正对着自己第三篇被拒的论文修改意见发呆。这种身份错位带来的震撼,让我开始系统记录审稿笔记——如今这些笔记已形成超过2万字的"审稿人思维…...

本地视频怎么去水印?2026最全去水印方法与软件推荐

如果你经常从各个视频平台保存视频素材,水印问题往往让人头疼。本地视频上的水印可能是平台logo、主播昵称、或者其他标识。今天就为你盘点本地视频去水印的多种方法,以及2026年最实用的去水印软件推荐,助你快速解决视频水印困扰。 本地视频去…...

用树莓派和LED灯带,我亲手搭了个能跑程序的‘图灵机’(附完整代码和接线图)

用树莓派和LED灯带打造实体图灵机:从理论到硬件的沉浸式实践 当计算机科学从抽象的数学公式变成指尖跳动的LED灯光,理论突然有了温度。去年冬天,我在车库工作台前完成了这个项目——用树莓派和LED灯带构建的实体图灵机。当第一个加法程序成功…...