当前位置：首页 > article >正文

机器学习数据预处理：数据标准化（Z-Score）

article 2026/4/26 5:52:29

机器学习数据预处理数据标准化Z-Score超通俗全解数据标准化是**把所有特征统一变成“均值为0标准差为1”**的最经典预处理方法彻底解决量纲不一致、数值差距大的问题所有对尺度敏感的模型都必须做。一、什么是数据标准化为什么一定要做1. 一句话理解标准化把数据变成标准正态分布让所有特征在同一个“起跑线”上。2. 不做标准化会怎样身高150-200、体重30-100、收入几千-几百万数值差距巨大模型会被数值大的特征带偏认为它更重要KNN、SVM、神经网络、线性回归等模型精度暴跌、收敛极慢3. 标准化的3大作用消除量纲影响不同单位、不同范围的特征可公平比较加速模型收敛梯度下降跑得更快更稳提升模型精度避免大数值特征主导模型二、最核心方法Z-Score 标准化1. 公式必须背会zx−μσz \frac{x-\mu}{\sigma}zσx−μ2. 符号解释x原始数据μmu这一列特征的均值σsigma这一列特征的标准差z标准化后的值大部分落在[-3, 3]3. 直观计算例子原始分数70、80、90均值 μ (708090)/3 80标准差 σ ≈8.165计算70 → (70-80)/8.165 ≈-1.22580 → (80-80)/8.165 090 → (90-80)/8.165 ≈1.225结果数据以0为中心表示距离平均值多少个标准差。三、数学推导论文/面试必备1. 目标变换后满足均值 0方差 1标准差 12. 推导步骤中心化x’ x - μ → 均值变为0标准化z x’ / σ → 标准差变为1最终得到zixi−μσz_i \frac{x_i-\mu}{\sigma}ziσxi−μ四、标准化 vs 归一化最易混淆方法公式输出范围异常值影响适用场景标准化Z-Score(x-μ)/σ无固定约[-3,3]小大多数模型、正态分布、梯度下降归一化Min-Max(x-min)/(max-min)[0,1]非常大图像、固定范围、KNN最简单选择口诀有异常值、数据偏态 → 用标准化需要0~1范围 → 用归一化不知道用啥 → 直接用标准化五、完整可运行代码含4张可视化图包含数据生成、标准化、直方图、散点图、Q-Q图检验正态性。importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsimportscipy.statsasstats# 生成模拟成绩数据np.random.seed(42)datanp.random.normal(loc80,scale10,size100)# Z-Score 标准化munp.mean(data)sigmanp.std(data)z_data(data-mu)/sigma# 绘图4张图对比fig,axesplt.subplots(2,2,figsize(16,10))fig.suptitle(Data Standardization (Z-Score) Analysis,fontsize20)# 1. 原始数据分布sns.histplot(data,kdeTrue,colorcoral,axaxes[0,0])axes[0,0].set_title(原始数据分布)axes[0,0].set_xlabel(分数)# 2. 标准化后分布sns.histplot(z_data,kdeTrue,colormediumseagreen,axaxes[0,1])axes[0,1].set_title(标准化数据分布)axes[0,1].set_xlabel(Z-Score)# 3. 原始 vs 标准化散点图axes[1,0].scatter(data,z_data,colororchid,s100,alpha0.7,edgecolorsblack)m,bnp.polyfit(data,z_data,1)axes[1,0].plot(data,m*datab,k--)axes[1,0].set_title(原始数据 ↔ 标准化数据)axes[1,0].set_xlabel(原始)axes[1,0].set_ylabel(标准化)# 4. Q-Q图检验正态性stats.probplot(z_data,distnorm,plotaxes[1,1])axes[1,1].get_lines()[0].set_color(gold)axes[1,1].get_lines()[1].set_color(red)axes[1,1].set_title(Q-Q 正态性检验)plt.tight_layout()plt.show()六、哪些模型必须做标准化✅ 必须做不做效果极差KNN、K-Means基于距离SVM支持向量机线性回归、逻辑回归神经网络、PCA、梯度下降类算法❌ 不用做树模型决策树、随机森林、XGBoost、LightGBM七、总结面试/笔记速背版标准化均值0标准差1消除量纲影响公式z (x-μ)/σ对异常值更鲁棒通用首选距离/线性/神经网络模型必做树模型不用做标准化不改变分布形状只改变尺度

机器学习数据预处理：数据标准化（Z-Score）

相关文章：

机器学习数据预处理：数据标准化（Z-Score）

【限时技术解禁】：VSCode 2026 Dev Tunnels直连容器的私有化部署方案（绕过GitHub Auth，企业级离线可用）

本地GPU预训练Llama模型全流程与优化策略

深度学习模型集成方法：Bagging实战与优化

GeniA：大语言模型驱动的生物信息学智能体框架实战指南

Transformer位置编码原理与实战技巧详解

神经网络反向传播算法实现与优化指南

流体天线阵列与空中计算技术的联合优化实践

3步解密网页视频下载：VideoDownloadHelper智能解析实战指南

NovelClaw：基于动态记忆与可观测架构的AI长篇叙事工作台

量子计算基础：Hadamard门与CNOT门的原理与应用

MPS：用Go语言打造轻量级媒体服务器，让旧安卓设备变身家庭流媒体中心

Qwen3-14B开源大模型实战：构建垂直领域微调数据集生成Pipeline

AI智能体服务化实战：从单体Agent到生产级工具箱架构解析

别再重装VSCode了！2026内存优化终极 checklist：12项配置项+8个进程级kill命令+1个自研memory-guard插件

【VSCode 2026权限控制黄金标准】：为什么头部科技公司已禁用“共享工作区默认读写”？4类角色权限矩阵表免费领取

机器人锂电池完整方案（选型 + 设计 + 厂家推荐）【浩博电池】

GPU显存碎片化暴雷预警！：CUDA 13 Unified Memory + CUDA Graph组合使用导致OOM的4种隐蔽路径与内存池动态调优脚本

nanobot效果惊艳：Qwen3-4B-Instruct准确识别并执行Linux系统命令真实截图

Kaggle竞赛入门：4步提升机器学习实战能力

构建Llama风格解码器Transformer：从原理到实践

机器学习模型评估：从指标选择到业务落地的实践指南

AgentBench：大语言模型智能体综合评估平台深度解析与实践指南

软件工程师软技能修炼指南：代码质量、高效协同与问题解决

NumPy与SciPy科学计算实战：核心功能与性能优化

Cubic：无侵入Java应用监控与Arthas动态诊断平台实战

使用 Rsync 实现服务器数据同步

微信聊天记录完整导出终极指南：3步实现永久保存与智能管理

从CVE-2023-XXXX到2026零容忍机制：17个真实工业级漏洞如何被新规范提前封堵（含NASA/JPL内部审计案例节选）

阿里面试官问：MCP 到底值不值得做