当前位置: 首页 > article >正文

浅析 Python 中数据离散化的实现方式

一、什么是数据离散化在数据分析和机器学习的预处理阶段数据离散化是一个非常核心且常用的操作。简单来说数据离散化就是将连续的数值型数据按照一定的规则划分成若干个离散的区间 / 类别。连续数据身高175.5cm、年龄28 岁、薪资15000 元离散数据青年、中年、高薪、低薪、[18-30]、[31-50]为什么要做离散化简化模型减少连续值的计算量降低模型复杂度提升效果有效处理异常值避免极端数据干扰模型适配算法决策树、朴素贝叶斯等算法更擅长处理离散特征业务解读离散后的特征更符合业务逻辑如用户分层、价格分段二、Python 实现数据离散化的常用方式本文基于Pandas库实现这是 Python 数据分析最主流的工具内置了cut()和qcut()两个专门用于离散化的函数同时也支持自定义分箱逻辑。环境准备python运行import pandas as pd import numpy as np我们先生成一组测试数据模拟用户年龄python运行# 生成100个18-70岁的随机年龄 np.random.seed(666) # 固定随机种子结果可复现 ages np.random.randint(18, 70, size100) df pd.DataFrame({age: ages})三、方式 1等宽分箱pd.cut等宽分箱按照固定的数值区间宽度划分数据每个区间的长度相同。核心函数pd.cut()用法 1指定分箱个数python运行# 将年龄分成4个等宽区间 df[age_cut] pd.cut(df[age], bins4) print(df[age_cut].value_counts().sort_index())用法 2自定义分箱边界最常用python运行# 自定义区间18-3030-4040-5050-70 bins [18, 30, 40, 50, 70] df[age_cut_custom] pd.cut(df[age], binsbins) # 给区间打标签更直观 labels [青年, 中青年, 中年, 中老年] df[age_cut_label] pd.cut(df[age], binsbins, labelslabels)等宽分箱特点区间宽度固定容易受异常值影响适合分布均匀的数据四、方式 2等频分箱pd.qcut等频分箱按照数据数量划分保证每个区间内的数据样本数量基本一致。核心函数pd.qcut()python运行# 等频分成4组每组数据量接近 df[age_qcut] pd.qcut(df[age], q4, labels[Q1, Q2, Q3, Q4]) print(df[age_qcut].value_counts())等频分箱特点每个分组样本数相近不受极端值影响适合数据分布不均匀的场景机器学习中最常用的离散化方式五、方式 3自定义函数离散化灵活业务规则当业务有明确规则时如18 岁以下未成年18-35 青年等可以用apply 自定义函数实现。python运行def age_discrete(age): if age 30: return 青年 elif age 45: return 中年 elif age 60: return 壮年 else: return 老年 # 应用函数 df[age_apply] df[age].apply(age_discrete)适用场景业务规则明确区间不固定、非对称需要高度定制化的离散逻辑六、方式 4基于阈值 / 独热编码One-Hot离散化在特征工程中我们常将离散化后的特征转为独热编码方便模型训练。python运行# 先分箱 bins [18, 30, 45, 60, 70] df[age_bin] pd.cut(df[age], binsbins) # 转为独热编码 age_dummies pd.get_dummies(df[age_bin], prefixage) df_new pd.concat([df, age_dummies], axis1)这是建模前最标准的离散化 编码流程。七、四种方式对比总结表格方式函数 / 方法特点适用场景等宽分箱pd.cut (固定 bins)区间宽度相同简单直观数据分布均匀、无明显异常值等频分箱pd.qcut (q 份数)每组样本数相近抗干扰数据倾斜、机器学习预处理自定义函数applydef高度灵活贴合业务规则业务定义明确的分段独热编码离散get_dummies离散→编码直接用于模型训练建模前特征工程八、完整可运行代码python运行import pandas as pd import numpy as np # 1. 生成测试数据 np.random.seed(666) ages np.random.randint(18, 70, size100) df pd.DataFrame({age: ages}) # 2. 等宽分箱 bins [18, 30, 40, 50, 70] df[age_cut] pd.cut(df[age], binsbins, labels[青年, 中青年, 中年, 中老年]) # 3. 等频分箱 df[age_qcut] pd.qcut(df[age], q4, labels[Q1, Q2, Q3, Q4]) # 4. 自定义函数离散 def age_func(age): if age 30: return 青年 elif age 45: return 中年 else: return 老年 df[age_apply] df[age].apply(age_func) # 5. 独热编码 df_dummies pd.get_dummies(df[age_cut], prefixage) # 展示结果 print(离散化结果预览) print(df.head(10))九、总结数据离散化是数据预处理的关键步骤能简化数据、提升模型效果、增强业务可解释性。Python 中首选 Pandas 实现cut等宽、qcut等频最常用。业务优先用自定义函数建模优先用qcut独热编码。没有绝对最优的离散方式根据数据分布和业务需求选择。本文适合人群数据分析初学者机器学习入门者正在做特征工程的开发人员

相关文章:

浅析 Python 中数据离散化的实现方式

一、什么是数据离散化?在数据分析和机器学习的预处理阶段,数据离散化是一个非常核心且常用的操作。简单来说,数据离散化就是将连续的数值型数据,按照一定的规则划分成若干个离散的区间 / 类别。连续数据:身高&#xff…...

NSGA-III中的参考点生成与多样性维护机制解析

1. NSGA-III算法中的参考点是什么? 第一次接触NSGA-III算法时,最让我困惑的就是这个"参考点"概念。简单来说,参考点就像是多目标优化问题中的导航灯塔,它们均匀分布在目标空间里,指引算法找到分布均匀的解集…...

CentOS7服务器流量飙升?别慌,用iftop+nload五分钟定位‘吃流量’的进程

CentOS7服务器流量飙升?五分钟精准定位异常进程的侦探手册 凌晨三点,手机突然响起刺耳的告警声——服务器流量激增300%。这不是演习,而是一场真实的运维战役。本文将带你化身"流量侦探",用iftop和nload这对黄金组合&…...

借助快马平台AI能力打造智能自适应的contextmenumanager管理系统

最近在做一个需要频繁使用右键菜单的项目,发现传统contextmenu管理方式实在太麻烦了。每次新增功能都要手动写一堆配置代码,维护起来也头疼。正好看到InsCode(快马)平台的AI辅助开发功能,尝试用它打造了一个智能自适应的contextmenumanager系…...

保姆级教程:用微信小程序NFC读写M1门禁卡(附完整代码与认证避坑指南)

微信小程序NFC开发实战:M1门禁卡读写全流程解析 周末在改造小区老旧门禁系统时,我发现传统IC卡存在易丢失、难管理的痛点。借助微信小程序的NFC能力,我们完全可以用手机替代实体门禁卡。本文将手把手带你实现M1卡的读写操作,重点…...

新手福音:在快马平台体验vscode codex式辅助,轻松写出第一行代码

最近在学编程,发现很多新手(包括我自己)最头疼的就是面对空白的编辑器不知道从哪下手。传统的学习方式要么是直接看教程照抄代码,要么是硬啃文档记语法,很容易劝退。直到我发现了InsCode(快马)平台的智能辅助功能&…...

Emby高级功能完全解锁指南:emby-unlocked让媒体服务器焕发新生

Emby高级功能完全解锁指南:emby-unlocked让媒体服务器焕发新生 【免费下载链接】emby-unlocked Emby with the premium Emby Premiere features unlocked. 项目地址: https://gitcode.com/gh_mirrors/em/emby-unlocked 你是否厌倦了Emby Premiere的高级功能需…...

番茄小说下载器:开源电子书工具全解析

番茄小说下载器:开源电子书工具全解析 【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版 项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 番茄小说下载器是一款基于Rust语言开发的开源工具,专为解决在线小…...

2026年4月远程控制软件横评:谁才是你的“跨端神经中枢”?

转眼已至2026年,混合办公已成职场常态,AI也彻底渗透进每一寸数字土壤。曾经只负责“远程看看”的控制软件,如今已进化为融合AI辅助、超低延迟交互、全生态协同与企业级安全能力的数字生产力平台——它们不再只是工具,而是我们跨越…...

告别手动压缩!用Python的shutil.make_archive()自动备份你的项目文件

告别手动压缩!用Python的shutil.make_archive()自动备份你的项目文件 深夜赶项目时,你是否经历过这样的崩溃瞬间——修改了三天的重要代码突然消失,而上次备份还是一周前的手动压缩包?作为开发者,我们常陷入"明天…...

前端实战:动态修改SVG图片颜色的5种高效方法

1. 为什么需要动态修改SVG颜色? 在Web开发中,SVG(可缩放矢量图形)已经成为不可或缺的一部分。相比传统的位图格式,SVG具有无限缩放不失真、文件体积小、支持交互和动画等优势。但最让我惊喜的是它的可编程性 - 我们可…...

Redis 不止缓存!从零到一吃透 Redis 向量数据库

前言大模型时代,检索增强生成(RAG)、智能推荐、多模态检索等场景已成为业务创新的核心方向,而向量数据库正是支撑这些场景的底层基石。很多开发者提起向量数据库,第一反应是Milvus、Pinecone这类专业组件,却…...

Alexa Plus 拓展食品配送领域,语音订餐体验升级

Alexa Plus 开启食品配送新功能从本周起,Alexa Plus 拓展至食品配送领域,用户可通过它从优步外卖(Uber Eats)和 Grubhub 订餐。只需将优步或 Grubhub 应用与 Alexa Plus 设备关联,就能询问食品配送情况,并通…...

从物流小哥,转行网络安全,是我这辈子最成功的选择

从月薪4000的物流小哥成功转行到月入上万的网络安全工程师,我是怎么做到的,下面说说我的亲身经历。 我叫阿强,我是26岁转行学网安的。说实在,转行就是奔着挣钱去的。我三流大学毕业,物流专业,学习能力一般…...

Jetson Orin Nano环境搭建避坑实录:从JetPack到PyQt5,我踩过的那些‘坑’都帮你填平了

Jetson Orin Nano环境搭建避坑实录:从JetPack到PyQt5的实战指南 第一次拿到Jetson Orin Nano这块开发板时,我天真地以为按照官方文档就能轻松搞定所有环境配置。结果从JetPack安装到PyQt5编译,几乎每一步都遇到了意想不到的问题。这篇文章不会…...

ChatGPT上车CarPlay:智能交互新突破与安全边界的平衡

ChatGPT集成CarPlay:行车途中的语音智能交互4月3日,OpenAI宣布ChatGPT正式获得苹果CarPlay系统的集成支持。这一更新让CarPlay用户能够在车载仪表盘界面直接通过语音与ChatGPT进行交互,实现了行车途中的免提提问与请求服务。该功能的实现得益…...

AI技术原理--Transformer详解:搞懂AI核心架构

你可能用过GPT,但你知道GPT的全称是什么吗? GPT Generative Pre-trained Transformer Generative:生成式Pre-trained:预训练Transformer:网络结构 Transformer可以说是目前AI最重要的网络架构,它让GPT真正…...

车轨桥刚柔耦合仿真与 Simpack 与 Abaqus 联合仿真那些事儿

1.simpack与abaqus联合仿真教程 2.车轨桥刚柔耦合仿真教程,柔性钢轨建模,fbi文件生成,ftr文件书写 3.包括模型在工程仿真领域,车轨桥刚柔耦合仿真以及 Simpack 与 Abaqus 联合仿真都是极具实用价值的技术,今天就来给大…...

别再手动查日志了!用Skywalking 9.x快速定位Spring Boot微服务性能瓶颈

别再手动查日志了!用Skywalking 9.x快速定位Spring Boot微服务性能瓶颈 微服务架构下最令人头疼的场景莫过于:凌晨三点收到告警,某个核心接口响应时间从200ms飙升到5秒,而你面对几十个相互调用的服务和海量日志,完全不…...

AI技术原理--AI上下文窗口:为什么AI没有真正的记忆

99%的人都理解错了一个问题:AI真的会记得你吗? 很多人信誓旦旦跟我说:昨天我跟GPT聊了好久,今天一打开还能接着聊,这不是记忆是什么? 但如果我告诉你,它根本就不记得你——你是不是直接懵了&…...

三相三电平维也纳Vienna整流器DPWM调制仿真之旅

三相三电平维也纳Vienna整流器 DPWM调制仿真 Matlab2020a 双PI控制 锁相环控制 电容电压平衡控制 最大相钳位 过零畸变 零序分量注入实现最大相钳位消除过零畸变 基于载波调制实现 谐波畸变率对比分析 电压利用率对比分析 交流侧电压有效值 220V/50Hz 额定输出功率10kw 直…...

Git-RSCLIP多模态检索实战:输入‘干旱期农田龟裂纹理’召回匹配影像

Git-RSCLIP多模态检索实战:输入干旱期农田龟裂纹理召回匹配影像 1. 引言:当遥感图像遇上智能检索 想象一下这样的场景:你手头有成千上万张遥感图像,需要快速找到那些显示"干旱期农田龟裂纹理"的图片。传统方法可能需要…...

宝塔Linux面板Bug修复:添加反向代理出错

起因 由于工作需要,在宝塔面板中创建一个反向代理的站点,结果每次都报错: 向宝塔论天提交了Bug,结果两天了还在审核中。 由于急用,因此不等官方修复了,自己动手修复! 故障原因 从报错信息可以看到&…...

你的瀑布图“站”对角度了吗?Matlab view命令参数详解与三维数据最佳视角选择

你的瀑布图“站”对角度了吗?Matlab view命令参数详解与三维数据最佳视角选择 在科研论文或技术报告中,一张精心设计的瀑布图(Waterfall Plot)往往能直观展示多维数据的复杂特征。但许多Matlab用户都有这样的困惑:明明数据准确无误&#xff0…...

EVA-01应用实战:5个场景教你用Qwen2.5-VL处理工作学习中的图片难题

EVA-01应用实战:5个场景教你用Qwen2.5-VL处理工作学习中的图片难题 1. 引言:当视觉理解遇上机甲美学 想象一下,你正在处理一份满是手写笔记的文档照片,或者需要快速理解一张复杂的数据图表。传统方法可能需要你手动输入文字、反…...

docker零基础入门:用快马ai生成带详细注释的容器化示例项目

最近在学习Docker技术,发现对于新手来说,从零开始配置容器环境确实会遇到不少坑。好在发现了InsCode(快马)平台,它提供的AI辅助功能可以快速生成带详细注释的Docker示例项目,特别适合像我这样的初学者。下面分享下我的学习过程&am…...

tao-8k性能优化小技巧:如何提升向量化与检索速度

tao-8k性能优化小技巧:如何提升向量化与检索速度 1. 理解tao-8k的性能瓶颈 1.1 模型架构特点 tao-8k作为支持8192长度上下文的嵌入模型,其核心优势在于长文本处理能力。然而,这种能力也带来了独特的性能挑战: 计算复杂度&…...

DCT-Net效果实测:保留真人特征的同时,完美融入卡通美学

DCT-Net效果实测:保留真人特征的同时,完美融入卡通美学 1. 引言:当真实照片遇见卡通魔法 想象一下,你随手拍的一张普通自拍,在几秒钟内就能变成专业插画师级别的卡通头像。这不是科幻电影里的场景,而是DC…...

4步攻克Unity资源难题:UABEA全能提取工具完全指南

4步攻克Unity资源难题:UABEA全能提取工具完全指南 【免费下载链接】UABEA c# uabe for newer versions of unity 项目地址: https://gitcode.com/gh_mirrors/ua/UABEA 你是否曾因无法打开Unity资源包(Unity游戏的资源容器文件)而束手无…...

解锁AMD Ryzen全部潜力:SMUDebugTool硬件调试神器完全指南

解锁AMD Ryzen全部潜力:SMUDebugTool硬件调试神器完全指南 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https:…...