当前位置: 首页 > news >正文

数据整理操作及众所周知【数据分析】

各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Python 初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据清洗前 基本技能
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据整理前 必看
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知

这是目录

  • <font color= f28e16 size=5>合并拼接数据
  • <font color= f28e16 size=5>分组数据
  • <font color= f28e16 size=5>众所周知

合并拼接数据

多个DataFrame的数据进行合并或者拼接

  • concat不同的DataFrame进行拼接
    • ignore_index=True 参数忽视原本DataFrame的索引
    • axis 参数可以指定纵向和横向合并

请添加图片描述

请添加图片描述

  • merge 根据不同的DataFrame相同列进行合并
    • on参数锁定条件列进行合并

请添加图片描述

  • left-on 左边指定列
  • right-on 右边指定列

请添加图片描述

  • suffixes参数修改列名后缀

请添加图片描述

  • how 该参数 决定以什么样的方式合并

  • join 根据索引合并

    • lsuffix 修改左边后缀
    • rsuffix 修改右边后缀

请添加图片描述

  • how参数决定什么样方式合并
    • inner(默认方式) 保留左右表都有匹配的值

请添加图片描述

  • outer 保留左右表的所有值,若有匹配不上的,则用NaN填充

请添加图片描述

  • left 保留 左边的值,用右边的值去匹配,若匹配不上则填充NaN

请添加图片描述

  • right 保留 右边的值,用左边的值去匹配,若匹配不上则填充NaN

请添加图片描述

分组数据

DataFrame数据进行分组

  • groupby 根据选择条件进行分组,且应该提取相应的变量,做相应聚合操作

生成一个实例,但看不到究竟长什么样
因为实例中一个单元格里多个数据情况,并不是有效表格,数据要提取到具体的,再用聚合函数
多个数据 聚合成单个数据,从而符合一个单元格中一个数据规则

请添加图片描述

众所周知

聚合函数是可将多个Series变成单个数据的函数

常见的有
count 得到元素的数量
first 得到第一个元素
last 得到最后一个元素
mean默认的聚合方式) 得到所有元素平均值
median 得到所有元素中位数
min 得到所有元素的最小值
max 得到所有元素的最大值
std 得到所有元素的标准差
var 得到所有元素的方差
prod 得到所有元素的积
sum 得到所有元素的和

  • cut 根据范围进行精细分组
    • [ ] 分箱标准
      • 想要分组范围进行划分
    • labels参数切片空间进行命名

请添加图片描述

  • query 条件筛选

请添加图片描述

  • pivot_table 透视表,基于原始数据对表进行重塑
    • index参数可以指定索引
    • columns参数可以指定列名
    • values参数可以指定值
    • aggfunc参数 指定聚合方式

请添加图片描述

  • .loc.loc 层次化索引,可以针对处理多个索引的pivot_table透视表
  • reset_index 重置索引

请添加图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

实不相瞒,写的每篇博客都要写五六个小时(加上自己学习和纸质笔记,共八九小时吧),很累希望大佬支持

在这里插入图片描述

道阻且长 行则将至
个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

相关文章:

数据整理操作及众所周知【数据分析】

各位大佬好 &#xff0c;这里是阿川的博客&#xff0c;祝您变得更强 个人主页&#xff1a;在线OJ的阿川 大佬的支持和鼓励&#xff0c;将是我成长路上最大的动力 阿川水平有限&#xff0c;如有错误&#xff0c;欢迎大佬指正 Python 初阶 Python–语言基础与由来介绍 Python–…...

maven的install不报错但deploy到nexus报400错误

一.情况描述 mvn install工程正常构建完成&#xff0c;但我mvn deploy报400错误&#xff0c;局域网maven组件仓库nexus也是正常的&#xff0c;deploy的帐号密码都是对的。报错信息如下&#xff1a; [ERROR] Failed to execute goal org.apache.maven.plugins:maven-deploy-plu…...

WebSocket前端分页:技术深度、实践困境与未来展望

WebSocket前端分页&#xff1a;技术深度、实践困境与未来展望 在前端开发的广阔领域中&#xff0c;WebSocket前端分页技术以其独特的优势逐渐崭露头角。它不仅为开发者带来了全新的交互体验&#xff0c;也为用户带来了更加流畅和高效的信息获取方式。然而&#xff0c;这一技术…...

基于jeecgboot-vue3的Flowable流程-待办任务(一)

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 1、ToDo.data.ts的数据信息如下 import {BasicColumn} from //components/Table; import {FormSchema} from //components/Table; import { rules} from //utils/helper/validator; impor…...

计算机网络--传输层

计算机网络--计算机网络概念 计算机网络--物理层 计算机网络--数据链路层 计算机网络--网络层 计算机网络--传输层 计算机网络--应用层 1. 概述 1.1 传输层的意义 网络层可以把数据从一个主机传送到另一个主机&#xff0c;但是没有和进程建立联系。 传输层就是讲进程和…...

【Vue】普通组件的注册使用-局部注册

文章目录 一、组件注册的两种方式二、使用步骤三、练习 一、组件注册的两种方式 局部注册&#xff1a;只能在注册的组件内使用 ① 创建 .vue 文件 (三个组成部分) 以.vue结尾的组件&#xff0c;一般也叫做 单文件组件&#xff0c;即一个组件就是组件里的全部内容 ② 在使用的组…...

搞编程学习时是如何查找资料的?

刚开始学编程时&#xff0c;我通常用百度、360这样的搜索引擎去找资料。但后来我发现&#xff0c;根据想找的东西不同&#xff0c;用的搜索地方也得变。比如说&#xff0c;找编程学习的东西&#xff0c;我就不太用浏览器了&#xff0c;因为那儿广告太多&#xff0c;信息乱七八糟…...

2024年AI大模型训练数据白皮书作用

2024年AI大模型训练数据白皮书 在人工智能迅猛发展的今天&#xff0c;AI大模型的训练数据质量和管理成为影响其性能和应用效果的关键因素。《2024年AI大模型训练数据白皮书》为业内人士提供了一份详尽的指南&#xff0c;揭示了当前AI大模型训练数据的最新趋势、最佳实践以及未…...

Highcharts 条形图:数据可视化利器

Highcharts 条形图:数据可视化利器 引言 在数据分析和信息展示领域,图表发挥着至关重要的作用。它们能够将复杂的数据以直观、易于理解的方式呈现给用户。Highcharts 是一个流行的 JavaScript 图表库,广泛用于创建交互式图表。其中,条形图作为一种基础但功能强大的图表类…...

算法——二分查找

介绍 二分查找是一个高效的查找算法&#xff0c;查找算法还有线性查找&#xff0c;它的时间复杂度为 O ( n ) O(n) O(n)&#xff0c;但二分查找的时间复杂度为 l o g ( n ) log(n) log(n)&#xff08;因为是2分&#xff0c;所以此处的log是以2为底的对数函数&#xff09;。 注…...

统计信号处理基础 习题解答10-8

题目 一个随机变量具有PDF 。希望在没有任何可用数据的情况下估计的一个现实。为此提出了使最小的MMSE估计量&#xff0c;其中期望仅是对求的。证明MMSE估计量为。将你的结果应用到例10.1&#xff0c;当把数据考虑进去时&#xff0c;证明最小贝叶斯MSE是减少的。 解答 在贝叶…...

Flutter打包网络问题解决办法

问题情况":app:compileReleaseJavaWithJavac" 报错的最主要问题其实在下一句 Failed to find Build Tools revision 30.0.3,请查看自己的Android sdk版本,比如我的就是’34.0.0’版本. 解决办法: 在app/build.gradle中的android下添加,即可 buildToolsVersion 3…...

【ARM Cache 及 MMU 系列文章 6.3 -- ARMv8/v9 Cache Tag数据读取及分析】

请阅读【ARM Cache 及 MMU/MPU 系列文章专栏导读】 及【嵌入式开发学习必备专栏】 文章目录 Cache Tag 数据读取测试代码Cache Tag 数据读取 在处理器中,缓存是一种快速存储资源,用于减少访问主内存时的延迟。缓存通过存储主内存中经常访问的数据来实现这一点。为了有效地管…...

Lua移植到标准ANSI C环境

本文目录 1、引言2、环境准备2.1 源码下载2.2 项目构建环境准备 3、项目编译3.1 添加main.c3.2 Kconfig选择模块3.3 项目构建3.4 项目编译 4、运行 文章对应视频教程&#xff1a; 在下方喔 ~~~ 欢迎关注 点击图片或链接访问我的B站主页~~~ lau解释器移植与功能验证 1、引言 本…...

crossover软件安装程序怎么安装 Crossover for Mac切换Windows系统 crossover软件怎么样

CrossOver Mac版是专为苹果电脑用户打造的一款实用工具&#xff0c;这款工具主要方便用户在Mac上运行windows系列的应用程序&#xff0c;用户不需要安装虚拟机就可以实现各种应用程序的直接应用&#xff0c;并且可以实现无缝集成&#xff0c;实现跨平台的复制粘贴和文件互通等&…...

【2024高考作文】新课标I卷-人工智能主题,用chatGPT作答

目录 &#x1f438;&#x1f438;作文真题 ⭐⭐1.chatGPT作答 ⭐⭐2.通义千问作答 ⭐⭐3.KiMi作答 整理不易&#xff0c;欢迎一键三连&#xff01;&#xff01;&#xff01; 送你们一条美丽的--分割线-- &#x1f438;&#x1f438;作文真题 随着互联网的普及、人工智能的…...

【计算机网络】P2 计算机网络体系结构基本概念,涉及分层的基本术语、SDU、PCI 与 PDU 的概念以及层次结构的含义

目录 概述分层的基本元组基本术语SDU、PCI 以及 PDU层次结构含义 概述 在两个系统中实体间的通信是一个很复杂的过程。而为了降低协议设计以及调试过程的复杂性&#xff0c;同时便于对网络进行研究、实现和维护&#xff0c;促进标准化工作&#xff0c;通常对计算机网络的体系结…...

主流物联网协议客户端开源库介绍(mqtt,coap,websocket,httphttps,tcp及udp)

一.概述 本文主要介绍主流物联网协议&#xff08;mqtt&#xff0c;coap&#xff0c;websocket&#xff0c;http/https&#xff0c;tcp/udp&#xff09;客户端c/c开源库&#xff0c;并对其特点进行对比分析。 二.各个库具体介绍 1.MQTT &#xff08;1&#xff09;常见的c/c客户…...

【Python】成功解决SyntaxError: invalid syntax

【Python】成功解决SyntaxError: invalid syntax 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;985高校的普通本硕&am…...

源代码防泄密

深信达SDC沙盒数据防泄密系统&#xff0c;是专门针对敏感 数据防泄密的保护系统&#xff0c;尤其是对研发型企业数据 防泄密保护。实现对数据的代码级保护&#xff0c;且不影响 工作效率&#xff0c;不影响正常使用。所有敏感数据都自动 加密并配合多种管控机制&#xff0c;从而…...

MySQL视图实战:用SQL视图搞定学生奖学金评定与补考名单(附完整代码)

MySQL视图实战&#xff1a;用SQL视图搞定学生奖学金评定与补考名单&#xff08;附完整代码&#xff09; 教务管理系统中&#xff0c;数据处理效率直接影响决策质量。想象一下每学期末&#xff0c;教务处老师需要从数十万条记录中筛选奖学金候选人和补考名单——传统的手写SQL查…...

像素时装锻造坊入门必看:预设咒语+Forge Scale滑块参数详解

像素时装锻造坊入门必看&#xff1a;预设咒语Forge Scale滑块参数详解 1. 工具介绍&#xff1a;像素时装锻造坊 像素时装锻造坊&#xff08;Pixel Fashion Atelier&#xff09;是一款基于Stable Diffusion与Anything-v5模型的图像生成工具。它采用独特的复古日系RPG界面设计&…...

嵌入式通信协议SPI/I2C/UART原理与应用

嵌入式通信协议原理图解与技术解析1. 串行通信协议基础1.1 SPI通信协议SPI(Serial Peripheral Interface)是一种全双工、同步串行通信协议&#xff0c;采用主从架构设计。其核心特点包括&#xff1a;四线制结构&#xff1a;SCLK(时钟)、MOSI(主出从入)、MISO(主入从出)、SS(片选…...

GLM-OCR模型安装包制作:将模型与服务打包成可执行文件

GLM-OCR模型安装包制作&#xff1a;将模型与服务打包成可执行文件 你是不是也遇到过这样的情况&#xff1f;自己好不容易把一个AI模型跑起来了&#xff0c;效果也不错&#xff0c;想分享给同事或者朋友用用&#xff0c;结果对方光是配环境、装依赖就折腾了半天&#xff0c;最后…...

告别序列‘拉直’的暴力美学:手把手复现MaIR,体验保持图像局部与连续性的Mamba新玩法

告别序列“拉直”的暴力美学&#xff1a;手把手复现MaIR&#xff0c;体验保持图像局部与连续性的Mamba新玩法 在计算机视觉领域&#xff0c;图像修复任务&#xff08;如去噪、超分、去模糊&#xff09;一直是研究热点。传统方法往往将2D图像“拉直”为1D序列进行处理&#xff0…...

用了Trae写业务系统,为什么上线前总要手动补依赖和权限?

发版前夜&#xff0c;测试跑穿才发现前端字段跟后端对不上&#xff0c;改到凌晨三点才勉强收口。这种场景在引入 AI Coding 后并不罕见&#xff0c;不少团队用了 Trae 写业务系统&#xff0c;速度是上去了&#xff0c;可上线前总得花半天专门查安全漏洞和依赖冲突。大家原指望 …...

TMSpeech:Windows端离线实时语音转文字工具的完整使用指南

TMSpeech&#xff1a;Windows端离线实时语音转文字工具的完整使用指南 【免费下载链接】TMSpeech 腾讯会议摸鱼工具 项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 在数字办公和在线会议成为日常的今天&#xff0c;你是否曾因会议内容过多而错过关键信息&#…...

HP-Socket技术债务管理会议决策记录:选项、理由与结果

HP-Socket技术债务管理会议决策记录&#xff1a;选项、理由与结果 【免费下载链接】HP-Socket High Performance TCP/UDP/HTTP Communication Component 项目地址: https://gitcode.com/gh_mirrors/hp/HP-Socket 作为一款高性能TCP/UDP/HTTP通信组件库&#xff0c;HP-So…...

brpc并发编程模型性能对比:基准测试结果

brpc并发编程模型性能对比&#xff1a;基准测试结果 【免费下载链接】brpc brpc is an Industrial-grade RPC framework using C Language, which is often used in high performance system such as Search, Storage, Machine learning, Advertisement, Recommendation etc. &…...

RAG知识库落地秘籍:从零到一打造企业智能问答系统,提升效率与用户体验!

有幸参与并主导实施的第二个AI 大模型应用项目就是“AI知识库”或者叫“智能问答”&#xff0c;也是接下来要介绍的内容。整篇文章将围绕着以下几个议题进行展开&#xff0c;内容上更侧重概念理解、落地方法路径、实施效果保障以及经验总结&#xff0c;不会在这里探讨具体技术细…...