数据预处理:标准化和归一化
标准化和归一化简介
- 1、数据预处理概述
- 2、数据标准化
- 3、数据归一化
- 4、标准化和归一化怎么选
1、数据预处理概述
在选择了合适模型的前提下,机器学习可谓是“训练台上3分钟,数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步,是构建一个好的预测模型大厦的基石。数据的数量与质量直接决定了预测模型的好坏
所以,在数据的收集与准备这一步中,必须做好数据预处理。Scikit-Learn提供了标准化和归一化等API方便我们进行数据预处理。标准化和归一化是常用的数据缩放方式
数据预处理的一般顺序(不一定全需要做)为:处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理(仅针对分类问题)
那么,为什么要进行标准化和归一化呢?
例如,我们的某个样本与其它样本数值相差较大,那么,该样本特征的方差就会比其他样本特征大几个数量级,那么,它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。也就是说,该样本会主导其它样本,最终导致预测结果的偏差
当某个或某些特征的单位或大小与其它样本相差较大,或者某特征的方差比其他的特征要大出几个数量级,那么,该特征就容易影响(支配)目标结果,使得一些算法无法学习到其他的特征,即无量纲化
因此,我们需要做的是对样本数据进行数据标准化或归一化,将所有的数据映射到同一尺度
2、数据标准化
2.1、什么是数据标准化
定义:数据标准化通过减去均值然后除以方差(或标准差),转化为均值为0,标准差为1的标准正态分布,转化公式为:
X ′ = X − μ σ X^{'}=\frac{X-\mu}{\sigma} X′=σX−μ
其中, μ \mu μ为均值, σ \sigma σ为标准差。标准化操作是将数据按其属性(按列)减去平均值,然后再除以标准差
当数据X按均值 μ \mu μ中心化后,再按标准差 σ \sigma
相关文章:
数据预处理:标准化和归一化
标准化和归一化简介 1、数据预处理概述2、数据标准化3、数据归一化4、标准化和归一化怎么选1、数据预处理概述 在选择了合适模型的前提下,机器学习可谓是“训练台上3分钟,数据数量和质量台下10年功”。数据的收集与准备是机器学习中的重要一步,是构建一个好的预测模型大厦的…...
Node.js+Express 路由配置,实现接口分类管理
首先创建一个路由目录及文件 routes/user.js代码 const express require(express); const router express.Router(); // 使用express提供的router对象 const db require(../dbserver/mysql);router.get(/api/user, (req, res) > {const sqlStr SELECT * FROM sys_user;…...
HTML-基础知识-基本结构,注释,文档说明,字符编码(一)
1.超文本标记语言不分大小写。 2.超文本标签属性名和属性值不区分大小写。 3.超文本标签属性值重复,听取第一个。 4.html结构 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"vi…...
《系统架构设计师教程(第2版)》第3章-信息系统基础知识-05-专家系统(ES)
文章目录 1. 先了解人工智能2.1 人工智能的特点2.2 人工智能的主要分支2. ES概述2.1 概述2.2 和一般系统的区别1)第一遍说了5点(理解为主)2)第二遍说的3点(主要记这个)3. ES的特点4. ES的组成4.1 知识库4.2 综合数据库4.3 推理机4.4 知识获取模块4.5 解释程序4.6 人一机接…...
OSCHINA Gitee 联合呈现,《2023 中国开源开发者报告》正式发布,总结分非常帮,可以免费看的报告!
《2023 中国开源开发者报告》 详细地址: https://talk.gitee.com/report/china-open-source-2023-annual-report.pdf 不需要收费下载!! 其中大模型的部分总结的非常棒 gietee 也支持 AI 模型托管了 如何在 Gitee 上托管 AI 模型 https://…...
代码随想Day55 | 392.判断子序列、115.不同的子序列
392.判断子序列 第一种思路是双指针,详细代码如下: class Solution { public:bool isSubsequence(string s, string t) {//双指针if(s.empty()&&t.empty()) return true;int i0,j0;while(i<t.size()){if(s[j]t[i]) j;if(js.size()) return t…...
电缆厂 3D 可视化管控系统 | 图扑数字孪生
图扑软件(Hightopo)专注于 Web 的 2D&3D 可视化,自主研发 2D&3D 图形渲染引擎、数据孪生应用开发平台和开发工具,广泛应用于 2D&3D 可视化、工业组态与数字孪生领域,图扑软件为工业物联网、楼宇、场馆、园区、数据中心、工厂、电…...
C语言之scanf浅析
前言: 当有了变量,我们需要给变量输入值就可以使用scanf函数,如果需要将变量的值输出在屏幕上的时候可以使用printf函数,如: #include <stdio.h> int main() {int score 0;printf("请输⼊成绩:");sc…...
Java商城 免 费 搭 建:鸿鹄云商实现多种商业模式,VR全景到SAAS,应有尽有
鸿鹄云商 b2b2c产品概述 【b2b2c平台】,以传统电商行业为基石,鸿鹄云商支持“商家入驻平台自营”多运营模式,积极打造“全新市场,全新 模式”企业级b2b2c电商平台,致力干助力各行/互联网创业腾飞并获取更多的收益。从消…...
Cypress安装与使用教程(3)—— 软测大玩家
😏作者简介:博主是一位测试管理者,同时也是一名对外企业兼职讲师。 📡主页地址:【Austin_zhai】 🙆目的与景愿:旨在于能帮助更多的测试行业人员提升软硬技能,分享行业相关最新信息。…...
Dryad数据库学习
从一篇science论文中看到数据存储在了这个平台,这里分享一下:datadryad.org 亲测无需注册,可以直接下载,从一个数据测试看,数据存储在亚马逊云,下载速度还可以,6M/s的样子。 Dryad 是一个开放的…...
TypeScript 的基础语法
书接上上文:关于vue3的知识点 和 上文 :TypeScript的安装与报错 我们来接着看TypeScript 的基础语法 TypeScript 语法 1. 类型注解 类型注解是 变量后面约定类型的语法,用来约定类型,明确提示 // 约定变量 age 的类型为 numbe…...
FA模板制作
1、链接克隆模板的制作 (1)安装一个全新的Windows 10,挂载并安装tools,关闭防火墙 (2)挂载FusionAccess_WindowsDestop_Install_6.5.1.iso后启用本地Administrator本地超管,切换为本地超管&am…...
国科大2023.12.28图像处理0854最后一节划重点
国科大图像处理2023速通期末——汇总2017-2019 图像处理 王伟强 作业 课件 资料 第1、2章不考 第3章 空间域图像增强 3.2 基本灰度变换(考过填空) 3.2.1 图像反转 3.2.2 对数变换 3.2.3 幂次变换 3.3 直方图处理 3.3.1 直方图均衡化(大题计算) …...
51单片机中TCON, IE, PCON等寄存器的剖析
在单片机中,如何快速通过名字记忆IQ寄存器中每一个控制位的作用呢? IE(interrupt enable)寄存器中,都是中断的使能位置。 其中的EA(enable all)是总使能位,ES(enable serial)是串口…...
2023.12.28 Python高级-正则表达式
目录 re正则表达式,一种专门用来匹配目标字符串的规则 re.match(),从头匹配一个,无则none re.search(), 不从头匹配返回一个,无则none re.findall(), 不从头匹配,用list返回所有 re分组 re匹配修饰符 re贪婪非贪婪 re切割和替换 re正则表达式,一种专门用来匹配目标字符串…...
编程笔记 html5cssjs 014 网页布局框架
编程笔记 html5&css&js 014 网页布局框架 一、Bootstrap简介二、使用Bootstrap布局 网页布局不只用HTML,还要用CSS和JAVASCRIPT等技术完成,这里暂时简单了解一下Bootstrap。 一、Bootstrap简介 这是一个开源的前端框架,由Twitter的前端工程师Ma…...
抖店和商品橱窗有什么区别?新手应该选哪个?
我是电商珠珠 临近年底了,有的人已经开始为下一年筹谋,有的去抖音做账号做直播带货,不会直播带货的就想尝试做下抖店,来为以后的经济打基础。 刚想要接触却对这类有些迷糊,发现商品橱窗和抖店都可以卖货,…...
在Adobe Acrobat上如何做PDF文档签名
Adobe Acrobat如何做PDF文档签名?PDF文档签名是指对PDF文档进行基于证书的数字签名,类似于传统的手写签名,可标识签名文档的人员。与手写签名不同,数字签名难以伪造,因为其包含签名者唯一的加密信息。为PDF文档进行基于…...
Leetcode 988. Smallest String Starting From Leaf (二叉树遍历好题)
Smallest String Starting From Leaf Medium 1.6K 227 Companies You are given the root of a binary tree where each node has a value in the range [0, 25] representing the letters ‘a’ to ‘z’. Return the lexicographically smallest string that starts at a le…...
汉字破局:AI时代的文明反攻与英语世界的“偷师”真相
汉字破局:AI时代的文明反攻与英语世界的“偷师”真相今天我们要聊的,从来不是简单的“中文VS英文”语言之争,而是一场席卷AI世界的文明维度大反攻——三千年前刻在龟甲上的甲骨文,那些横平竖直、撇捺交错的线条,正在以…...
工业相机丢帧问题全解析:从硬件到软件的5个实战解决方案
工业相机丢帧问题全解析:从硬件到软件的5个实战解决方案 在机器视觉系统的实际应用中,工业相机丢帧问题就像一条潜伏的生产线杀手——它可能悄无声息地导致检测漏判、定位偏差甚至整批产品质检失效。去年某汽车零部件厂商就曾因2%的随机丢帧,…...
在Windows上用C++部署YOLO11模型:从PyTorch训练到QT桌面应用的全流程避坑指南
工业级YOLO11模型C部署实战:从PyTorch到QT6.9的工程化落地指南 当Python训练的AI模型需要真正投入生产线时,C部署往往成为必经之路。去年在为某电子元件制造商部署电容极性检测系统时,我深刻体会到从Jupyter Notebook到稳定运行的Windows桌面…...
GHelper开源工具深度评测:如何为华硕笔记本实现轻量化硬件控制
GHelper开源工具深度评测:如何为华硕笔记本实现轻量化硬件控制 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models …...
OpenLiteSpeed实战踩坑记录:为什么我最终回归了LNMP环境?
OpenLiteSpeed实战反思:为什么复杂WordPress环境更适合LNMP? 最近在技术社区里,OpenLiteSpeed被频繁提及,尤其是它宣称的高性能PHP处理能力吸引了不少WordPress站长的注意。作为一个长期使用LNMP环境的开发者,我也被这…...
相场法在水力压裂仿真中越来越火,它能用连续函数描述裂缝边界,比传统方法更适合处理复杂裂缝网络。今天咱们拿COMSOL 6.0开刀,看看四个实战模型的实现门道
相场法水力压裂,共四个模型,comsol6.0版本及以上,附赠参考文献 模型一:对称三簇压裂;模型二:水力裂缝与天然裂缝相交;模型三:单水平裂缝扩展;模型四:水平裂缝…...
Flink状态后端选型指南:从Memory到RocksDB的5个实战避坑建议
Flink状态后端选型指南:从Memory到RocksDB的5个实战避坑建议 当你在深夜收到Flink作业崩溃的告警,打开日志发现是OOM(内存溢出)导致的失败,而第二天业务方还在等着实时报表数据——这种场景对中高级Flink开发者来说并不…...
如何用G-Helper智能恢复ROG笔记本色彩显示:终极解决方案
如何用G-Helper智能恢复ROG笔记本色彩显示:终极解决方案 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops. Control tool for ROG Zephyrus G14, G15, G16, M16, Flow X13, Flow X16, TUF, Strix, Scar and other models 项目地…...
突破大文件传输瓶颈:aliyunpan快传链接技术全解析
突破大文件传输瓶颈:aliyunpan快传链接技术全解析 【免费下载链接】aliyunpan 阿里云盘命令行客户端,支持JavaScript插件,支持同步备份功能。 项目地址: https://gitcode.com/GitHub_Trending/ali/aliyunpan 大文件传输的现实痛点&…...
道德迷宫工程:让伦理审查永远卡关
当伦理成为迷宫在数字化转型的浪潮中,软件系统深度渗透医疗、金融、公共治理等核心领域。伦理审查本应是技术创新的安全阀,却被一种名为道德迷宫工程(Ethical Maze Engineering) 的策略系统性破坏——通过精心设计的流程复杂性、模…...
