当前位置：首页 > news >正文

【小白学机器学习35】数据表：整洁数据表，交叉表/列联表，以及两者转化pd.pivot_table()

news 2026/3/26 21:17:56

1 虽然这是个很基础的知识，但是我觉得有必要记录下

2 整洁数据表

3 交叉数据表的2种形式

3.0 交叉表的名字

3.1 2维的交叉表

3.2 用2维表现3维的

3.3 上述内容，具体的markdown文本

4 交叉数据表

4.1 交叉数据表并不整洁

4.2 但是交叉表也很有用：比如求联合概率+边缘概率

4.3 总结

5 整洁数据表，可以直接pd.pivot_table()转化为交叉表

5.1 pd.pivot_table() 数据透视表公式

5.2 表虽然可以直接转，但是内容也需要合适

1 虽然这是个很基础的知识，但是我觉得有必要记录下

有些数据表很有问题，后导致后续的分析出问题，所以先检查和整理数据表是很有必要的一个步骤。

#混乱数据

数据混乱
有些甚至把一个单元格填多个数据
有些虽然看着很清晰，但数据结构混乱

#整洁数据

可读性比较强

2 整洁数据表

整洁数据表

这几个要求看起来很简单，但是有时候也容易忽视。

1.每1列代表1个属性
2.每1行代表1个样本（样本里包含多个数据）
3.每一个单元格，代表1个具体数据
4.每个类型的观察单元构成1个表格（不同类型的观察单元多个表格）

3 交叉数据表的2种形式

3.0 交叉表的名字

交叉表
交叉分类表
也叫列联表

3.1 2维的交叉表

常见的交叉表
列：属性1 如颜色
行：属性2 如城市
单元格，具体数据

3.2 用2维表现3维的

实际上还是2维的
因为我们很难真的表现1个3维表格，虽然理论上可以通过 XYZ这样的三维图表示
其实，用2维表现3维的就是，列的属性，实际是2个维度，

列的维度1：上午，下午
列的更高维度，颜色

3.3 上述内容，具体的markdown文本

#混乱数据
数据混乱
有些甚至把一个单元格填多个数据
有些虽然看着很清晰，但数据结构混乱#整洁数据
可读性比较强##第1类表格：整洁数据表1.每1列代表1个属性
2.每1行代表1个样本（样本里包含多个数据）
3.每一个单元格，代表1个具体数据
4.每个类型的观察单元构成1个表格（不同类型的观察单元多个表格）序号|城市|颜色|销售量
----|----|----|----
1|北京|红色|98
2|北京|蓝色|90
3|上海|红色|86
4|上海|蓝色|95##第2类表格：数据交叉表二维城市\颜|红色|蓝色
----|----|----
北京|98|90
上海|86|95三维
交叉表|红色| 红色|蓝色| 蓝色
""|上午|下午|上午|下午
----|----|----|----|----
北京|48|50|40|50
上海|46|40|45|40

4 交叉数据表

4.1 交叉数据表并不整洁

从整洁数据的定义上说，交叉数据表“并不整洁”
原因：交叉数据表，往往是列表示一个属性，行也表示了一个属性
行，并不只是一个行样本（多个数据的数组！）

4.2 但是交叉表也很有用：比如求联合概率+边缘概率

独立概率
联合概率：独立概率1*独立概率2
边缘概率：同1行 /同1列的所有联合概率相加的总和。

边缘概率分2种：行边缘概率，列边缘概率
为什么要全部相加？因为同1行/列代表了所有的可能性，必须全加起来才=边缘概率
（所有行的）Σ边缘概率和=1 = 总概率
（所有列的）Σ边缘概率和=1= 总概率

（概率空间的）总概率=1

4.3 总结

我的想法：
整洁数据表：更底层：适合作为原始数据，输入后，进行各种分析
各种上层的表现表形式：

交叉数据表，本身就是在整洁数据表的一种加工，是一种输出形式！
其他数据表表现形式

5 整洁数据表，可以直接pd.pivot_table()转化为交叉表

5.1 pd.pivot_table() 数据透视表公式

pd.pivot_table(data=pd.Dataframe, values="单元格列名",aggfunc="sum新生成的求和列",index="横向的列名", columns="纵向的列名")
pd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All')

参数说明：

数据源
data：需要进行数据透视的DataFrame。pd.Dataframe
数据源重组
values：用于聚合的列名，默认聚合所有数值列。"原表--单元格列名",
index：数据透视表的index，从原数据的列中筛选。"原表--横向的列名",
columns：数据透视表的columns，从原数据的列中筛选。"原表--纵向的列名"
重组关键函数
aggfunc：用于聚合的函数，默认为’mean’，支持numpy的聚合函数。也可以是"sum"
其他效果
fill_value：用于替换结果中的缺失值。
margins：添加行/列小计和总计，默认为False。
dropna：是否删除所有条目均为NA的列，默认为True。
margins_name：总计列的名称，默认为’All’。

sample_dataframe11=pd.DataFrame({"city":sample_array11,
"color":sample_array22,
"sales":sample_array33,
})

#可以把np.Dataframe 直接转化为交叉表/列联表
crosstable11=pd.pivot_table(data=sample_dataframe11,

                                                values="sales",

                                                 aggfunc="sum",

                                                 index="city",

                                                columns="color")

5.2 表虽然可以直接转，但是内容也需要合适

把 “整洁数据表”转化为交叉表，虽然可以直接用pd.pivot_table()，但是表本身的内容也需要符合，适合转化为交叉表"
例子1数据表本身不适合转化为交叉表，可以转，转完后格式比较奇怪，没啥意义"
例子2：数据表本身很适合转化为交叉表，可以转，转完后很好"

import numpy as np
import pandas as pd
import scipy as sp
%precision 3print("#把 “整洁数据表”转化为交叉表，虽然可以直接用pd.pivot_table()，但是表本身的内容也需要符合，适合转化为交叉表")
print("#例子1数据表本身不适合转化为交叉表，可以转，转完后格式比较奇怪，没啥意义")sample_array1=np.array([1,2,3])
sample_array2=np.array([10,20,30])
sample_array3=np.array([100,200,300])# 注意pd.DataFrame 首字母一定大写
sample_dataframe1=pd.DataFrame({"city":sample_array1,"color":sample_array2,"sales":sample_array3,})
print(sample_dataframe1)
print()#可以把np.Dataframe 直接转化为 交叉表/列联表
crosstable1=pd.pivot_table(data=sample_dataframe1,values="sales",aggfunc="sum",index="city",columns="color")
print(crosstable1)
print()print("#例子2：数据表本身很适合转化为交叉表，可以转，转完后很好")
sample_array11=np.array(["beijing","beijing","shanghai","shanghai"])
sample_array22=np.array(["blue","red","blue","red"])
sample_array33=np.array([100,150,200,120])# 注意pd.DataFrame 首字母一定大写
sample_dataframe11=pd.DataFrame({"city":sample_array11,"color":sample_array22,"sales":sample_array33,})
print(sample_dataframe11)
print()#可以把np.Dataframe 直接转化为 交叉表/列联表
crosstable11=pd.pivot_table(data=sample_dataframe11,values="sales",aggfunc="sum",index="city",columns="color")
print(crosstable11)
print()

【小白学机器学习35】数据表：整洁数据表，交叉表/列联表，以及两者转化pd.pivot_table()

目录 1 虽然这是个很基础的知识，但是我觉得有必要记录下 2 整洁数据表 3 交叉数据表的2种形式 3.0 交叉表的名字 3.1 2维的交叉表 3.2 用2维表现3维的 3.3 上述内容，具体的markdown文本 4 交叉数据表 4.1 交叉数据表并不整洁 4.2 但是交叉表也…...

编程日记 2024/12/1 4:15:55

springboot旅游管理系统的设计与实现

springboot旅游管理系统的设计与实现如需源码pc端👉👉👉资源手机端👉👉👉资源摘要信息化社会内需要与之针对性的信息获取途径，但是途径的扩展基本上为人们所努力的方向，由于…...

编程日记 2024/12/1 4:13:53

–requestheader-client-ca-file –requestheader-allowed-namesfront-proxy-client –requestheader-extra-headers-prefixX-Remote-Extra- –requestheader-group-headersX-Remote-Group –requestheader-username-headersX-Remote-User –proxy-client-cert-file –proxy-cl…...

编程日记 2024/12/1 4:12:52

自由学习记录（25）

只要有修改，子表就不用元表的参数了，用自己的参数（只不过和元表里的那个同名） 子表用__index“继承”了父表的值，此时子表仍然是空表一定是创建这样一个同名的变量在原本空空的子表里， 传参要传具体的变…...

编程日记 2024/12/1 4:10:51

关于函数式接口和编程的解析和案例实战

文章目录匿名内部类“匿名”在哪里函数式编程lambda表达式的条件Supplier使用示例 ConsumeracceptandThen使用场景 FunctionalBiFunctionalTriFunctional 匿名内部类匿名内部类的学习和使用是实现lambda表达式和函数式编程的基础。是想一下，我们在使用接口中的方…...

编程日记 2024/12/1 4:09:49

Linux 僵尸进程和孤儿进程, 进程优先级

僵尸进程之间在进程状态中了解到了 "僵尸状态". 那么处于僵尸状态的进程就是僵尸进程. 僵尸状态是一种特殊的进程状态, 它表示一个进程已经完成执行, 但其父进程尚未回收其终止状态. "僵尸状态" 的本质就是死亡状态. 如何理解僵尸进程: 举个例子: 一个正…...

编程日记 2024/12/1 4:08:48

爬虫笔记24——纷玩岛自动抢票脚本笔记

纷玩岛自动抢票，协议抢票思路实现一、获取Authorization凭证二、几个关键的参数三、几个关键的接口获取参数v，这个参数其实可以写死，可忽略通过价位获取演出的参数信息获取观演人信息，账号提前录入即可提交订单接口先看实现图&a…...

编程日记 2024/12/1 4:07:47

《白帽子讲Web安全》15-16章

《白帽子讲Web安全》15-16章《白帽子讲Web安全》15章15、Web Server配置安全15.1、Apache安全15.2、Nginx安全15.3、jBoss远程命令执行15.4、Tomcat远程命令执行15.5、HTTP Parameter Pollution15.6、小结第四篇互联网公司运营安全《白帽子讲Web安全》16章16、互联网业务安全…...

编程日记 2024/12/1 4:06:46

计算机毕业设计Python+LSTM天气预测系统 AI大模型问答 vue.js 可视化大屏机器学习深度学习 Hadoop Spark

温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 温馨提示：文末有 CSDN 平台官方提供的学长联系方式的名片！ 作者简介：Java领…...

编程日记 2024/12/1 4:05:45

大语言模型压缩技术；推理优化技术；SparseGPT算法；GPTQ算法

目录大语言模型落地的成本、效率与效果模型压缩技术推理优化技术 SparseGPT算法 GPTQ算法大语言模型落地的成本、效率与效果模型压缩技术模型压缩技术是大语言模型轻量化的关键。介绍了多种模型压缩方法，其中权重量化和模型稀疏化是两种主要的技术。权重量化：权重…...

编程日记 2024/12/1 4:04:44

Facebook的开源项目解析：推动开发者社区的技术进步

Facebook，作为全球领先的社交平台之一，其在技术领域的创新不仅体现在产品功能的实现上，也积极推动开源社区的发展。开源项目已经成为Facebook技术战略的重要组成部分，通过开源，Facebook不仅加速了技术进步，…...

编程日记 2024/12/1 4:02:39

力扣--LCR 149.彩灯装饰记录I

题目代码 /** Definition for a binary tree node. public class TreeNode { int val;TreeNode left;TreeNode right;TreeNode() {}TreeNode(int val) { this.val val; }TreeNode(int val, TreeNode left, TreeNode right) {this.val val;this.left left;this.right ri…...

编程日记 2024/12/1 3:58:35

Rust SQLx CLI 同步迁移数据库

上文我们介绍了SQLx及SQLite，并介绍了如何使用代码同步迁移数据库。本文介绍Sqlx cli 命令行工具，介绍如何安装、使用，利用其提供的命令实现数据表同步迁移。Java生态中有flyway, sqlx cli 功能类似，利用命令行工具可以和其他语言…...

编程日记 2024/12/1 3:57:34

批量生成不同用户的pdf 文件（html样式）

技术 selenium thymeleaf itextpdf chromedriver 使用thymeleaf 将动态数据替换使用selenium chromedriver 进行js ，css等逻辑运算后渲染视图使用itextpdf 将html 转为pdf 文件 html模板 <!DOCTYPE html> <html xmlns:th"http://www.thymeleaf…...

编程日记 2024/12/1 3:54:31

混淆零碎知识点

minifyEnabled true //混淆开关 zipAlignEnabled true // Zipalign优化 shrinkResources true // 移除无用的resource文件 （必须要混淆开了之后才才可以设置为true） proguard-rules.pro 为混淆文件 //整个文件保留不被混淆 -keep class com.cn…...

编程日记 2024/12/1 3:48:25

排序算法2

排序算法1-CSDN博客排序算法1中提及的是较为基础(暴力实现，复杂度较高)的排序算法，不适合于数据量较大的场景，比如序列长度达到1e5 接下来以蓝桥另一道题目来理解其它的排序算法蓝桥3226 蓝桥账户中心样例 5 1 5 9 3 7 4、快速排序快速排…...

编程日记 2024/12/1 3:47:24

【Web开发基础学习——corsheaders 应用的理解】

Web开发基础学习系列文章目录第一章基础知识学习之corsheaders 应用的理解文章目录 Web开发基础学习系列文章目录前言一、使用1.1 安装1.2 配置二、功能总结前言 corsheaders 是一个 Django 第三方应用，用于处理跨域资源共享 (CORS)。CORS 是一种机制&#x…...

编程日记 2024/12/1 3:46:23

Redis和MySQL之间如何进行数据同步

原因为什么要进行Redis和MySQL的数据同步？ 性能优化：MySQL是关系型数据库，数据读取和存储相对复杂；Redis是内存数据库，读写速度极快，将热点数据存在Redis，可以大大提高系统的访问速度。数据…...

编程日记 2024/12/1 3:45:22

css:转换

转换移动 /* transform: translate(100px, 200px); */transform: translateX(100px);transform: translateY(100px); /*一个意思*/ 如果后面跟百分数的意思是移动盒子自身x/y方向长度的百分比，可以用作子绝父相控制盒子水平居中垂直居中 translate里的xy值是相对…...

编程日记 2024/12/1 3:44:21

状态管理与存储：Vuex 和 sessionStorage

1. sessionStorage 存储位置 sessionStorage 是浏览器提供的 Web Storage API 的一部分，用于在一个会话期间存储数据。数据保存在浏览器的内存中，而不是在硬盘上，且其生命周期仅限于当前浏览器标签页。数据在浏览器窗口或标签页关闭时会被…...

编程日记 2024/12/1 3:40:16

Axure RP 10实战：3分钟搞定Tab切换效果（附交互样式设置技巧）

Axure RP 10高级Tab切换效果：从基础实现到专业级交互设计在当今快节奏的数字化产品设计领域，Tab切换作为最常见的用户界面元素之一，其交互体验的优劣直接影响用户对产品的第一印象。Axure RP 10作为行业领先的原型设计工具，提供了…...

编程新知 2026/3/26 20:41:48

AI Agent与传统RPA工具区别：深度解析企业智能自动化的代际跃迁

在人工智能技术从大语言模型的“对话式交互”向“行动式智能体”跨越的关键周期内，AI Agent（智能体）与传统 RPA（机器人流程自动化）工具的区别已成为企业数字化转型的核心议题。这一区别不仅体现在技术架构的演进上&…...

编程新知 2026/3/26 18:24:29

Java大厂面试实战：电商高并发场景下的Spring Boot+Redis+Kafka技术栈深度解析

Java大厂面试实战：电商高并发场景下的技术栈深度解析前言在互联网大厂面试中，技术面试官往往会结合具体业务场景来考察候选人的技术深度和广度。本文模拟了一场电商场景下的Java技术面试，通过面试官与求职者"谢飞机"的三轮对话&a…...

编程新知 2026/3/26 18:12:01

YOLOv11涨点改进| TPAMI 2026 |全网创新首发、注意力改进篇|引入ASSA自适应稀疏自注意力，顶刊万能涨点模块，含5种超强创新，适合目标检测，图像分割，图像分类，图像超分等任务高效涨点

一、本文介绍 🔥本文给大家介绍利用将 ASSA自适应稀疏自注意力模块改进 YOLOv11网络模型，可以显著提升模型的特征建模能力和复杂场景下的检测性能。ASSA通过自注意力机制在全局范围内建立不同空间位置之间的依赖关系，使网络能够充分利用全局上下文信息，从而增强特征表达能…...

编程新知 2026/3/26 17:23:36

避坑指南：Unity物体闪烁效果Material内存泄漏问题排查（附Shader优化方案）

Unity物体闪烁效果的性能陷阱与工业级解决方案在游戏开发中，物体闪烁效果是一种常见的视觉反馈手段，用于提示玩家可交互对象、危险区域或特殊状态。然而，许多开发者在使用传统实现方式时，往往会掉入Material内存泄漏的陷阱&#…...

编程新知 2026/3/26 16:55:18

安卓逆向实战：用Frida绕过App反调试的5种常见检测（附完整脚本）

安卓逆向工程实战：Frida对抗反调试的深度解决方案在移动安全研究领域，逆向工程师经常面临各种反调试技术的挑战。当传统的调试工具遭遇精心设计的防护机制时，往往束手无策。本文将深入探讨五种主流反调试检测手段的对抗策略，提供…...

编程新知 2026/3/26 16:45:15

解锁毕业论文新姿势：书匠策AI，你的学术“超级外挂”！

在学术的征途上，毕业论文无疑是每位学子必须跨越的一道重要关卡。它不仅是对你大学四年学习成果的全面检验，更是你迈向学术殿堂或职场的重要敲门砖。然而，面对堆积如山的资料、错综复杂的逻辑结构，以及那令人头疼的格式要求&#…...

编程新知 2026/3/26 16:04:53

Synology Photos CPU驱动人脸识别补丁：解锁旧设备AI相册的终极方案

Synology Photos CPU驱动人脸识别补丁：解锁旧设备AI相册的终极方案【免费下载链接】Synology_Photos_Face_Patch Synology Photos Facial Recognition Patch 项目地址: https://gitcode.com/gh_mirrors/sy/Synology_Photos_Face_Patch 还在为群晖NAS无法使用…...

编程新知 2026/3/26 15:44:26

华为防火墙NAT映射选择指南：一对一映射 vs 端口映射

华为防火墙NAT映射技术深度解析：一对一映射与端口映射的实战选择在当今企业网络架构中，如何安全高效地将内部服务暴露给外部访问是一个永恒的技术挑战。华为防火墙提供的NAT映射功能，特别是一对一映射和端口映射两种核心方案，为不…...

编程新知 2026/3/26 15:09:57

SpringCloud Eureka停更了，我为什么还在用它做微服务注册中心？

SpringCloud Eureka停更后，为什么它仍是微服务架构的隐秘王牌？ 当Netflix在2018年宣布停止维护Eureka时，整个Java微服务社区都为之震动。五年过去了，这个"过时"的组件却依然活跃在众多企业的生产环境中。上周我参与了一…...

编程新知 2026/3/26 15:07:57

1 虽然这是个很基础的知识，但是我觉得有必要记录下

2 整洁数据表

3 交叉数据表的2种形式

3.0 交叉表的名字

3.1 2维的交叉表

3.2 用2维表现3维的

3.3 上述内容，具体的markdown文本

4 交叉数据表

4.1 交叉数据表并不整洁

4.2 但是交叉表也很有用：比如求 联合概率+边缘概率

4.3 总结

5 整洁数据表，可以直接pd.pivot_table()转化为交叉表

5.1 pd.pivot_table() 数据透视表公式

5.2 表虽然可以直接转，但是内容也需要合适

相关文章：

4.2 但是交叉表也很有用：比如求联合概率+边缘概率