数据分析-Pandas分类数据的类别排序和顺序
数据分析-Pandas类别的排序和顺序
数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律?
数据表,时间序列数据在数据分析建模中很常见,例如天气预报,空气状态监测,股票交易等金融场景。数据分析过程中重新调整,重塑数据表是很重要的技巧,此处选择Titanic数据,以及巴黎、伦敦欧洲城市空气质量监测 N O 2 NO_2 NO2数据作为样例。
数据分析
数据分析-Pandas如何转换产生新列
数据分析-Pandas如何统计数据概况
数据分析-Pandas如何轻松处理时间序列数据
数据分析-Pandas如何选择数据子集
数据分析-Pandas如何重塑数据表-CSDN博客
本文用到的样例数据:
Titanic数据
样例代码:
源代码参考 Pandas如何重塑数据表
源代码参考 python数据分析-数据表读写到pandas
导入关键模块
import pandas as pd
import numpy as np
实验数据分析处理,股票序列,时间序列,信号序列,有时候表格的数据并不完全是数值类型,也有可能是字符串,或者其他数据,需要做分类处理。pandas如何控制数据分类处理呢?需要配置哪些参数?
排序和顺序
如果分类数据是有序的,则类别的顺序是有意义的,就存在某些可能操作,如.min()/.max()
如果分类数据是无序的,如果操作则将引发TypeError
In [88]: s = pd.Series(pd.Categorical(["a", "b", "c", "a"], ordered=False))
In [89]: s = s.sort_values()
In [90]: s = pd.Series(["a", "b", "c", "a"]).astype(CategoricalDtype(ordered=True))
In [91]: s = s.sort_values()In [92]: s
Out[92]:
0 a
3 a
1 b
2 c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']In [93]: s.min(), s.max()
Out[93]: ('a', 'c')
也可以设置分类数据为有序,使用函数 as_ordered(),设置为无序,使用函数 as_unordered(),这些函数默认返回一个新的对象。
In [94]: s.cat.as_ordered()
Out[94]:
0 a
3 a
1 b
2 c
dtype: category
Categories (3, object): ['a' < 'b' < 'c']In [95]: s.cat.as_unordered()
Out[95]:
0 a
3 a
1 b
2 c
dtype: category
Categories (3, object): ['a', 'b', 'c']
排序将使用类别定义的逻辑顺序,而不是数据类型的词法,数值顺序,即使对于字符串和数值数据也是如此:
In [96]: s = pd.Series([1, 2, 3, 1], dtype="category")
In [97]: s = s.cat.set_categories([2, 3, 1], ordered=True)
In [98]: sOut[98]:
0 1
1 2
2 3
3 1
dtype: category
Categories (3, int64): [2 < 3 < 1]In [99]: s = s.sort_values()
In [100]: sOut[100]:
1 2
2 3
0 1
3 1
dtype: category
Categories (3, int64): [2 < 3 < 1]In [101]: s.min(), s.max()
Out[101]: (2, 1)
重排序
可以通过Categorical.reorder_categories()对类别进行重新排序。
In [102]: s = pd.Series([1, 2, 3, 1], dtype="category")In [103]: s = s.cat.reorder_categories([2, 3, 1], ordered=True)In [104]: s
Out[104]:
0 1
1 2
2 3
3 1
dtype: category
Categories (3, int64): [2 < 3 < 1]In [105]: s = s.sort_values()In [106]: s
Out[106]:
1 2
2 3
0 1
3 1
dtype: category
Categories (3, int64): [2 < 3 < 1]In [107]: s.min(), s.max()
Out[107]: (2, 1)
请注意新增类别和重排序之间的区别,重新排序意味着 之后对值进行排序的方式会有所不同。
如果是无序的,min(), max()函数都会引起错误,数值操作函数也如此,如median()函数,需要计算均值。
多列排序
如果多个类别列参与排序,类别的排序取决于该列的类别顺序。
In [108]: dfs = pd.DataFrame(.....: {.....: "A": pd.Categorical(.....: list("bbeebbaa"),.....: categories=["e", "a", "b"],.....: ordered=True,.....: ),.....: "B": [1, 2, 1, 2, 2, 1, 2, 1],.....: }.....: ).....: In [109]: dfs.sort_values(by=["A", "B"])
Out[109]: A B
2 e 1
3 e 2
7 a 1
6 a 2
0 b 1
5 b 1
1 b 2
4 b 2
如果更改类别进行重新排序,那么后面的排序也会跟着变化。
In [110]: dfs["A"] = dfs["A"].cat.reorder_categories(["a", "b", "e"])In [111]: dfs.sort_values(by=["A", "B"])
Out[111]: A B
7 a 1
6 a 2
0 b 1
5 b 1
1 b 2
4 b 2
2 e 1
3 e 2
以上代码只是一个简单示例,示例代码中的表达式可以根据实际问题进行修改。
后面介绍下其他的展示形式。
觉得有用 收藏 收藏 收藏
点个赞 点个赞 点个赞
End
GPT专栏文章:
GPT实战系列-ChatGLM3本地部署CUDA11+1080Ti+显卡24G实战方案
GPT实战系列-LangChain + ChatGLM3构建天气查询助手
大模型查询工具助手之股票免费查询接口
GPT实战系列-简单聊聊LangChain
GPT实战系列-大模型为我所用之借用ChatGLM3构建查询助手
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(二)
GPT实战系列-P-Tuning本地化训练ChatGLM2等LLM模型,到底做了什么?(一)
GPT实战系列-ChatGLM2模型的微调训练参数解读
GPT实战系列-如何用自己数据微调ChatGLM2模型训练
GPT实战系列-ChatGLM2部署Ubuntu+Cuda11+显存24G实战方案
GPT实战系列-Baichuan2本地化部署实战方案
GPT实战系列-Baichuan2等大模型的计算精度与量化
GPT实战系列-GPT训练的Pretraining,SFT,Reward Modeling,RLHF
GPT实战系列-探究GPT等大模型的文本生成-CSDN博客
相关文章:
数据分析-Pandas分类数据的类别排序和顺序
数据分析-Pandas类别的排序和顺序 数据分析和处理中,难免会遇到各种数据,那么数据呈现怎样的规律呢?不管金融数据,风控数据,营销数据等等,莫不如此。如何通过图示展示数据的规律? 数据表&…...
利用 Claude 3 on Amazon Bedrock 和 Streamlit 的“终极组合”,开发智能对话体验
概述 通过本文,您将学会如何利用 Streamlit 框架快速搭建前端交互界面。该界面将集成图像上传功能,让用户可以方便地提交待处理图片。在后端,我们将借助 Amazon Bedrock 的 Message API,调用 Claude 3 家族中的 Sonnet 模型对图像…...
Golang基础 Label标签与goto跳转
使用方法 Label 和goto是必须的 Label可以声明再函数体的任何地方 Label的作用范围是在函数体中 Label在嵌套函数(闭包)是不可用的. 不管是在闭包里调用闭包外的Label, 还是在闭包外调用闭包里的Label 变量的声明必须在goto之前 示例 package mainimport "fmt"…...
二进制王国(蓝桥杯备赛)【sort/cmp的灵活应用】
二进制王国 题目链接 https://www.lanqiao.cn/problems/17035/learning/?contest_id177 题目描述 思路 这里就要灵活理解字典序排列,虽然string内置可以直接比较字符串字典序,但是在拼接时比较特殊,比如 11的字典序小于110,但…...
活用C语言之宏定义应用大全
零、C语言宏定义知多少 C语言的编程过程中经常会用到宏定义,然而如果你只是使用宏定义做一些常量的定义,那么你不是OUT了就是C语言小白。 那么我们在编程过程中,宏定义都有哪些作用呢? 常量定义 可以作为功能代码的开关 防止头文件被重复…...
【源码】I.MX6ULL移植OpenCV
编译完成的源码: git clone https://gitee.com/wangyoujie11/atkboard_-linux_-driver.git 1.下载源码放在自己的opecv源码目录下 2.QTOpenCV工程代码放置的位置 3.更改.pro工程文件的opencv地址 4.使用命令行编译 前提是自己环境中已经配置好arm-qt的交叉编译…...
pytorch深度学习——dataset(附数据集下载)
在学习深度学习的时候,我们需要考虑如何去处理数据去训练我们的模型,pytorch为我们提供了Dataset和DataLoader两个类来对数据进行处理,前者作用是提供了一种方式来获取数据及其label,后者的作用是为网络提供不同的数据形式。本文主…...
springboot+vue考试管理系统
基于springboot和vue的考试管理系统 001 springboot vue前后端分离项目 本文设计了一个基于Springbootvue的前后端分离的在线考试管理系统,采用M(model)V(view)C(controller)三层体系结构&…...
自动驾驶建图--道路边缘生成方案探讨
自动驾驶建图–道路边缘生成方案探讨 一、背景 对于自动驾驶来说,建图是必不可少的,目前主流厂商技术都在从HD到"无图"进行过渡筹备中,不过想要最终实现真正的"无图"还是有很长的一段路要走。 对于建图来说,…...
图片编辑器中实现文件上传的三种方式和二进制流及文件头校验文件类型
背景 最近在 vue-design-editor 开源项目中实现 psd 等多种文件格式上传解析成模板过程中, 发现搞定设计文件上传没有使用 input 实现文件上传, 所以我研究了一下相关技术, 总结了以下三种文件上传方法 input 文件选择window.showOpenFilePicker 和 window.showDirectoryPicke…...
深度学习,CRNN+CTC和Attention OCR你更青睐哪一种?
深度学习在OCR领域的应用已经取得了瞩目的成果,而选择合适的算法对于提升OCR的识别准确率至关重要。在众多算法中,CRNN和Attention OCR犹如两颗璀璨的明珠,备受瞩目。 CRNN,这位结合了卷积神经网络(CNN)和…...
飞桨AI应用@riscv OpenKylin
在riscv编译安装飞桨PaddlePaddle参见: 算能RISC-V通用云编译飞桨paddlepaddleopenKylin留档_在riscv下进行paddlelite源码编译-CSDN博客 安装好飞桨,就可以用飞桨进行推理了。刚开始计划用ONNX推理,但是在算能云没有装上,所以最…...
在MongoDB建模1对N关系的基本方法
“我在 SQL 和规范化数据库方面拥有丰富的经验,但我只是 MongoDB 的初学者。如何建立一对 N 关系模型?” 这是我从参加 MongoDB 分享日活动的用户那里得到的最常见问题之一。 我对这个问题没有简短的答案,因为方法不只有一种,还有…...
C++基础之运算符重载(十一)
首先为什么要对运算符进行重载?因为C内置的运算符只能作用于一些基本数据类型,而对类和结构体这种自定义数据类型是不管用的。所以这时我们需要对运算符进行重新定义满足一定的运算规则。 运算符重载的三种形式 1.以普通的函数进行重载 #include <…...
初始Java篇(JavaSE基础语法)(2)(逻辑控制)
个人主页(找往期文章包括但不限于本期文章中不懂的知识点):我要学编程(ಥ_ಥ)-CSDN博客 目录 逻辑控制 顺序结构 分支结构 if语句 switch 语句 循环结构 while 循环 for 循环 do while 循环 输入输出 输出到控制台 从键盘输入 …...
家用路由器和企业路由器的区别?
一、家用路由器 家用路由器路由器交换机 它只有一个WAN口和一个LAN口,WAN口接公网一个地址,LAN口接你电脑一个IP地址,完全符合路由器的设计,而因为家里如果用了,说明要接多个电脑,那么如果还需要对每个接口…...
Gin简介(Go web基础知识)
Gin简介 https://geektutu.com/post/quick-go-gin.html我是从这个网站上面摘录的,就是做个笔记,仅分享。膜拜极客兔兔大佬 Go特性: 快速:路由不使用反射,基于Radix树,内存占用少。 中间件:HT…...
HBase的Bulk Load流程
目录 1. 数据准备 2. 文件移动 3. 加载数据 4. Region处理 5. 元数据更新 6. 完成加载 7. 清理 8. 异常处理 LoadIncrementalHFiles(也称为Bulk Load)是HBase中一种将大量数据高效导入到HBase表的机制。以下是LoadIncrementalHFiles的主要流程步…...
vue中图片替换 遇到问题
问题: 在img标签里动态绑定路径:<img v-bind:src"imgSrc" /> data里这样写是错误的:imgSrc:xx/xx.png 这样渲染的路径会有问题,导致出不来图片 解决了 是这样的 data(){return(){imgSrc:require("../…...
Android 观察者模式
在Android中,观察者模式(Observer Pattern)是一种常用的设计模式,用于在对象之间建立一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都会得到通知并自动更新。在Android开发中࿰…...
用libhv从零搭建一个能跑7万QPS的微型HTTP服务器(附完整源码解析)
用libhv构建7万QPS的微型HTTP服务器:工业级性能优化实战 在当今快速迭代的互联网服务开发中,开发者经常面临一个核心矛盾:如何在不牺牲性能的前提下,快速构建可投入生产环境的高并发服务?传统方案往往需要在开发效率与…...
JavaScript中类继承中super关键字的调用执行逻辑
super()必须在子类constructor中首行调用,否则报错;它触发父类构造函数并绑定this,使子类实例正确继承属性方法,且new.target指向子类;非构造阶段可用super.xxx访问父类原型成员。在 JavaScript 类继承中,s…...
Android 8.0长时定时关机总延迟?我换了种思路,用系统广播ACTION_TIME_TICK轻松搞定
Android定时任务稳定性优化:从AlarmManager到系统广播的实践之路 在智能硬件和特定应用场景中,定时功能的可靠性往往直接影响用户体验。想象一下,你为孩子设置的学习软件定时关闭功能延迟了几分钟,或者智能家居设备的自动关机未能…...
网站SEO查询工具可以分析什么
网站SEO查询工具可以分析什么 在当今互联网时代,网站的SEO(搜索引擎优化)已经成为了提高网站流量和用户参与度的关键因素。而SEO查询工具则是让网站运营者在优化过程中扮演重要角色的工具。具体来说,网站SEO查询工具可以分析什么…...
不止于裁剪:聊聊Vue3项目中头像处理的那些事儿(vue-cropper实战与优化思考)
Vue3头像裁剪进阶实战:从功能实现到工程化思维 开篇:为什么我们需要重新思考头像处理 在大多数Web应用中,用户头像处理似乎是个"简单"需求——上传图片、裁剪、保存。但当你深入细节时会发现,这个看似基础的功能背后隐…...
OpenClaw对话日志分析:千问3.5-35B-A3B-FP8任务执行效率提升技巧
OpenClaw对话日志分析:千问3.5-35B-A3B-FP8任务执行效率提升技巧 1. 从8分钟到3分钟的优化之旅 上个月,当我第一次用OpenClaw对接千问3.5-35B-A3B-FP8模型执行自动化任务时,一个简单的"资料收集摘要生成"流程平均需要8分钟才能完…...
单电源运放电路设计要点与实践指南
1. 单电源运放电路设计基础 运算放大器作为模拟电路设计的核心器件,其供电方式直接影响电路性能表现。与双电源供电相比,单电源供电方案在实际工程应用中更为常见,但设计时需要特别注意以下几个关键点: 1.1 供电架构差异解析 双…...
从零到一:用Python打造你的专属桌面宠物,附完整源码与exe打包指南
1. 环境准备与工具安装 第一次接触Python桌面应用开发的朋友可能会觉得无从下手,但其实只需要准备好几个基础工具就能轻松开始。我刚开始做桌宠项目时也踩过不少坑,这里把最稳妥的配置方案分享给大家。 Python环境是首要条件,推荐使用3.8以上…...
安装The Agency后Opencode启动报错:Failed to parse YAML frontmatter: incomplete explicit mapping pair
报错:opencode Failed to parse frontmatter in /home/skywalk/opencodework/.opencode/agent/zk-steward.md: Failed to parse YAML frontmatter: incomplete explicit mapping pair; a key node is missed; or followed by a non-tabulated empty line at line 3,…...
Detectron2避坑指南:从环境配置到成功运行实例分割的全流程记录
Detectron2实战避坑手册:从零搭建实例分割环境的完整路径 第一次接触Detectron2时,我被它强大的实例分割能力吸引,却在环境配置阶段遭遇了无数"暗礁"。记得某个深夜,面对屏幕上不断跳出的CUDA版本冲突报错,我…...
