python数据分析(二):Python Pandas索引技术详解
Python Pandas索引技术详解:从基础到多层索引
1. 引言
Pandas是Python数据分析的核心库,而索引技术是Pandas高效数据操作的关键。良好的索引使用可以显著提高数据查询和操作的效率。本文将系统介绍Pandas中的各种索引技术,包括基础索引、位置索引、条件索引以及强大的多层索引(MultiIndex)。
2. 基础索引
2.1 列索引
列索引是最基础的数据访问方式,使用方括号[]或点符号.来访问DataFrame的列。
import pandas as pddata = {'Name': ['Alice', 'Bob', 'Charlie'],'Age': [25, 30, 35],'City': ['New York', 'Paris', 'London']}
df = pd.DataFrame(data)# 使用方括号访问列
print(df['Name'])
"""
0 Alice
1 Bob
2 Charlie
Name: Name, dtype: object
"""# 使用点符号访问列 (不推荐,当列名与DataFrame方法冲突时会出问题)
print(df.Age)
"""
0 25
1 30
2 35
Name: Age, dtype: int64
"""
2.2 行索引 (标签索引)
Pandas默认使用行号作为索引,但也可以自定义索引标签,然后使用loc进行基于标签的行索引。
# 设置自定义索引
df.index = ['a', 'b', 'c']# 使用loc进行标签索引
print(df.loc['b'])
"""
Name Bob
Age 30
City Paris
Name: b, dtype: object
"""# 选择多行
print(df.loc[['a', 'c']])
"""Name Age City
a Alice 25 New York
c Charlie 35 London
"""
3. 位置索引
iloc用于基于整数位置的索引,类似于Python列表的索引方式。
# 使用iloc进行位置索引
print(df.iloc[1]) # 第二行
"""
Name Bob
Age 30
City Paris
Name: b, dtype: object
"""# 选择多行和多列
print(df.iloc[0:2, [0, 2]]) # 第1-2行,第1和第3列
"""Name City
a Alice New York
b Bob Paris
"""
4. 布尔索引
布尔索引允许我们根据条件筛选数据。
# 单条件筛选
print(df[df['Age'] > 28])
"""Name Age City
b Bob 30 Paris
c Charlie 35 London
"""# 多条件组合
print(df[(df['Age'] > 25) & (df['City'] != 'Paris')])
"""Name Age City
c Charlie 35 London
"""# 使用isin方法
print(df[df['City'].isin(['New York', 'London'])])
"""Name Age City
a Alice 25 New York
c Charlie 35 London
"""
5. 索引方法
5.1 set_index/reset_index
# 将某列设置为索引
df_city = df.set_index('City')
print(df_city)
"""Name Age
City
New York Alice 25
Paris Bob 30
London Charlie 35
"""# 重置索引
print(df_city.reset_index())
"""City Name Age
0 New York Alice 25
1 Paris Bob 30
2 London Charlie 35
"""
5.2 重命名索引
# 重命名索引
df_renamed = df.rename(index={'a': 'id1', 'b': 'id2', 'c': 'id3'})
print(df_renamed)
"""Name Age City
id1 Alice 25 New York
id2 Bob 30 Paris
id3 Charlie 35 London
"""# 重命名列
df_renamed = df.rename(columns={'Name': 'Full Name', 'Age': 'Years'})
print(df_renamed)
"""Full Name Years City
a Alice 25 New York
b Bob 30 Paris
c Charlie 35 London
"""
6. 多层索引(MultiIndex)
多层索引(也称为层次化索引)是Pandas中处理高维数据的强大工具。
6.1 创建多层索引
# 从元组列表创建多层索引
index = pd.MultiIndex.from_tuples([('Group1', 'A'), ('Group1', 'B'), ('Group2', 'A'), ('Group2', 'B')],names=['Group', 'Type'])data = {'Value': [10, 20, 30, 40]}
multi_df = pd.DataFrame(data, index=index)
print(multi_df)
"""Value
Group Type
Group1 A 10B 20
Group2 A 30B 40
"""
6.2 多层索引的数据选择
# 选择第一层的特定值
print(multi_df.loc['Group1'])
"""Value
Type
A 10
B 20
"""# 选择特定组合
print(multi_df.loc[('Group2', 'B')]) # 返回Series
"""
Value 40
Name: (Group2, B), dtype: int64
"""# 使用xs方法跨层选择
print(multi_df.xs('A', level='Type')) # 选择所有Type为A的行
"""Value
Group
Group1 10
Group2 30
"""
6.3 多层索引的列
DataFrame的列也可以有多层索引。
# 创建多层列索引
columns = pd.MultiIndex.from_tuples([('Metrics', 'Score'), ('Metrics', 'Weight'), ('Info', 'Name')])data = [[85, 0.5, 'Alice'], [90, 0.6, 'Bob'], [78, 0.4, 'Charlie']]
multi_col_df = pd.DataFrame(data, columns=columns)
print(multi_col_df)
"""Metrics InfoScore Weight Name
0 85 0.5 Alice
1 90 0.6 Bob
2 78 0.4 Charlie
"""# 访问多层列
print(multi_col_df['Metrics']['Score'])
"""
0 85
1 90
2 78
Name: Score, dtype: int64
"""
6.4 多层索引的堆叠与解堆
# 解堆 (将行索引转为列)
print(multi_df.unstack())
"""Value
Type A B
Group
Group1 10 20
Group2 30 40
"""# 堆叠 (将列索引转为行索引)
print(multi_df.unstack().stack())
"""Value
Group Type
Group1 A 10B 20
Group2 A 30B 40
"""
7. 索引的最佳实践
- 选择合适的索引类型:对于频繁查询的列,考虑设置为索引
- 避免链式索引:如
df[condition]['column'],应使用df.loc[condition, 'column'] - 多层索引的合理使用:当数据有自然层次关系时使用
- 索引的性能考虑:索引可以加速查询,但会增加内存使用
# 不好的实践 - 链式索引
# df[df['Age'] > 30]['Name'] # 好的实践
print(df.loc[df['Age'] > 30, 'Name'])
"""
c Charlie
Name: Name, dtype: object
"""
8. 总结
Pandas提供了丰富多样的索引技术,从基础的列选择到复杂的多层索引操作:
- 基础索引 (
[],.loc,.iloc) 适合简单的数据访问 - 布尔索引 提供了强大的条件筛选能力
- 多层索引 让高维数据的组织和分析变得更加直观和高效
掌握这些索引技术是成为Pandas高级用户的关键步骤。在实际应用中,应根据数据特点和分析需求选择合适的索引方式,并遵循最佳实践以获得更好的性能和可读性。
通过合理使用索引,我们可以更高效地处理和分析数据,为数据科学工作流打下坚实基础。
相关文章:
python数据分析(二):Python Pandas索引技术详解
Python Pandas索引技术详解:从基础到多层索引 1. 引言 Pandas是Python数据分析的核心库,而索引技术是Pandas高效数据操作的关键。良好的索引使用可以显著提高数据查询和操作的效率。本文将系统介绍Pandas中的各种索引技术,包括基础索引、位…...
【深度学习】#8 循环神经网络
主要参考学习资料: 《动手学深度学习》阿斯顿张 等 著 【动手学深度学习 PyTorch版】哔哩哔哩跟李牧学AI 为了进一步提高长线学习的效率,该系列从本章开始将舍弃原始教材的代码部分,专注于理论和思维的提炼,系列名也改为“深度学习…...
开源状态机引擎,在实战中可以放心使用
### Squirrel-Foundation 状态机开源项目介绍 **Squirrel-Foundation** 是一个轻量级、灵活、可扩展、易于使用且类型安全的 Java 状态机实现,适用于企业级应用。它提供了多种方式来定义状态机,包括注解声明和 Fluent API,并且支持状态转换、…...
机器学习超参数优化全解析
机器学习超参数优化全解析 摘要 本文全面深入地剖析了机器学习模型中的超参数优化策略,涵盖了从参数与超参数的本质区别,到核心超参数(如学习率、批量大小、训练周期)的动态调整方法;从自动化超参数优化技术…...
AI 模型在前端应用中的典型使用场景和限制
典型使用场景 1. 智能表单处理 // 使用TensorFlow.js实现表单自动填充 import * as tf from tensorflow/tfjs; import { loadGraphModel } from tensorflow/tfjs-converter;async function initFormPredictor() {// 加载预训练的表单理解模型const model await loadGraphMod…...
Linux学习——UDP
编程的整体框架 bind:绑定服务器:TCP地址和端口号 receivefrom():阻塞等待客户端数据 sendto():指定服务器的IP地址和端口号,要发送的数据 无连接尽力传输,UDP:是不可靠传输 实时的音视频传输&#x…...
leetcode205.同构字符串
两个哈希表存储字符的映射关系,如果前面字符的映射关系和后面的不一样则返回false class Solution {public boolean isIsomorphic(String s, String t) {if (s.length() ! t.length()) {return false;}int length s.length();Map<Character, Character> s2…...
软考软件设计师考试情况与大纲概述
文章目录 **一、考试科目与形式****二、考试大纲与核心知识点****科目1:计算机与软件工程知识****科目2:软件设计** **三、备考建议****四、参考资料** 这是一个系列文章的开篇 本文对2025年软考软件设计师考试的大纲及核心内容进行了整理,并…...
24. git revert
基本概述 git revert 的作用是:撤销某次的提交。与 git reset 不同的是,git revert 不会修改提交历史,而是创建一个新的提交来反转之前的提交。 基本用法 1.基本语法 git revert <commit-hash>该命令会生成一个新的提交,…...
Redis—内存淘汰策略
记:全体LRU,ttl LRU,全体LFU,ttl LFU,全体随机,ttl随机,最快过期,不淘汰(八种) Redis 实现的是一种近似 LRU 算法,目的是为了更好的节约内存&…...
Java大厂面试:JUC锁机制的深度探讨 - 从synchronized到StampedLock
Java大厂面试:JUC锁机制的深度探讨 在一个风和日丽的下午,马飞机同学来到了一家互联网大厂参加Java开发岗位的面试。这次他面对的是严肃且专业的面试官李老师,而话题则围绕着Java并发编程中的重要组成部分——JUC(java.util.conc…...
NLP高频面试题(五十一)——LSTM详解
长短期记忆网络(LSTM)相较于传统循环神经网络(RNN)的核心改进在于通过引入记忆单元(cell state)和门机制(gating mechanism)来有效缓解梯度消失与梯度爆炸问题,从而更好地捕捉长距离依赖关系 。在其网络结构中,信息通过输入门(input gate)、遗忘门(forget gate)和…...
Power BI企业运营分析——数据大屏搭建思路
Power BI企业运营分析——数据大屏搭建思路 欢迎来到Powerbi小课堂,在竞争激烈的市场环境中,企业运营分析平台成为提升竞争力的核心工具。 整合多源数据,实时监控关键指标,精准分析业务,快速识别问题机遇。其可视化看…...
oracle将表字段逗号分隔的值进行拆分,并替换值
需求背景:需要源数据变动,需要对历史表已存的字段值根据源数据进行更新。如果是单字段存值,直接根据映射表关联修改即可。但字段里面若存的值是以逗号分割,比如旧值:‘old1,old2,old3’,要根据映射关系调整…...
【重走C++学习之路】16、AVL树
目录 一、概念 二、AVL树的模拟实现 2.1 AVL树节点定义 2.2 AVL树的基本结构 2.3 AVL树的插入 1. 插入步骤 2. 调节平衡因子 3. 旋转处理 4. 开始插入 2.4 AVL树的查找 2.5 AVL树的删除 1. 删除步骤 2. 调节平衡因子 3. 旋转处理 4. 开始删除 结语 一、概念 …...
NumPy进阶:广播机制、高级索引与通用函数详解
目录 一、广播机制:不同形状数组间的运算 1. 概念 2. 广播规则 3. 实例 二、高级索引:布尔索引与花式索引 1. 布尔索引 (1)创建布尔索引 (2)布尔索引的应用 2. 花式索引 (1࿰…...
597页PPT丨流程合集:流程梳理方法、流程现状分析,流程管理规范及应用,流程绩效的管理,流程实施与优化,流程责任人的角色认知等
流程梳理是通过系统化分析优化业务流程的管理方法,其核心包含四大步骤:①目标确认,明确业务痛点和改进方向;②现状分析,通过流程图、价值流图还原现有流程全貌,识别冗余环节和瓶颈节点;③优化设…...
[密码学基础]GMT 0029-2014签名验签服务器技术规范深度解析
GMT 0029-2014签名验签服务器技术规范深度解析 引言 在数字化转型和网络安全需求激增的背景下,密码技术成为保障数据完整性与身份认证的核心手段。中国密码管理局发布的GMT 0029-2014《签名验签服务器技术规范》,为签名验签服务器的设计、开发与部署提…...
Kinibi-610a:面向芯片厂商与设备制造商的TEE升级详解
安全之安全(security)博客目录导读 目录 一、TEE内存管理革新 二、TA加载架构优化 三、系统日志(syslog)集成 四、加密日志支持 五、工具链升级至Python3 六、总结与展望 七、参考资料 Trustonic最新发布的可信执行环境(TEE)Kinibi-610a,在前代Kinibi-600多平台支…...
来啦,烫,查询达梦表占用空间
想象一下oracle,可以查dba_segments,但是这个不可靠(达梦官方连说明书都没有) 先拼接一个sql set lineshow off SELECT SELECT ||||OWNER|||| AS OWNER,||||TABLE_NAME|||| AS TABLE_NAME,TABLE_USED_SPACE(||||OWNER||||,||||T…...
vue3:十一、主页面布局(修改左侧导航条的样式)
一、样式 1、初始样式 2、 左侧导航栏搭建完成样式 二、实现 1、设置左侧导航栏底色 (1)去掉顶部和左侧导航栏的底色 初始页面效果 顶部与左侧底色样式 将代码中与顶部与左侧的样式删掉 移除后页面效果 加入设定背景色 #f4f6f9 加入底色后颜色展示 (2)去除菜单项底色 初…...
开发网页程序时预览时遇到跨域问题解决方法
CocosCreator 开发h5游戏要用接口、开发html程序网页程序在chrome中预览时都会遇到跨域问题,怎么办? 网上有很多方法,主要是通过服务器端去配置,但那个相对来说消弱安全问题,这个不建议,因为是开发,个人行业,我们知道问题所以,简单点就主要是通过chrome的参数来禁用: 关闭 Ch…...
Sentinel源码—7.参数限流和注解的实现二
大纲 1.参数限流的原理和源码 2.SentinelResource注解的使用和实现 2.SentinelResource注解的使用和实现 (1)SentinelResource注解的使用 (2)SentinelResource注解和实现 (1)SentinelResource注解的使用 一.引入Sentinel Spring Boot Starter依赖 <dependency><…...
操作系统原理简要介绍
文章目录 计算机启动的底层流程(从裸机到操作系统)内核用户态与内核态内核分类 进程与线程:操作系统的 “执行者”内存管理:数据的“存储与调度”文件系统:数据的“组织与持久化”设备驱动:硬件的“翻译官”…...
QML ShaderEffect(着色器效果)组件
ShaderEffect 是 QML 中用于实现自定义着色器效果的组件,允许开发者使用 GLSL 着色器语言创建图形效果。 核心属性 基本属性 属性类型默认值说明fragmentShaderstring""片段着色器代码vertexShaderstring""顶点着色器代码blendingbooltrue是…...
2.6 递归
递归 特性: >.一递一归 >.终止条件 一般为:0 1 -1 #测试函数的返回值为函数 def test_recursion():return test_recursion() print(test_recursion()) RecursionError: maximum recursion depth exceeded #案例:计算 …...
麒麟系统网络连接问题排查
麒麟系统网络连接有红色叹号,不能上外网 了。 首先执行 ping -c4 8.8.8.8 和 nc -zv 8.8.8.8 53,如果 都能正常通信,说明你的网络可以访问公共 DNS 服务器(如 Google DNS 8.8.8.8),但域名解析仍然失败,可能是 DNS 解析配置问题 或 系统 DNS 缓存/代理干扰。以下是进一步…...
opencv(双线性插值原理)
双线性插值是一种图像缩放、旋转或平移时进行像素值估计的插值方法。当需要对图像进行变换时,特别是尺寸变化时,原始图像的某些像素坐标可能不再是新图像中的整数位置,这时就需要使用插值算法来确定这些非整数坐标的像素值。 双线性插值的工…...
从信号处理角度理解图像处理的滤波函数
目录 1、预备知识 1.1 什么是LTI系统? 1.1.1 首先来看什么是线性系统,前提我们要了解什么是齐次性和叠加性。...
echarts模板化开发,简易版配置大屏组件-根据配置文件输出图形和模板(vue2+echarts5.0)
实现结果 项目结构 根据我的目录和代码 复制到项目中 echartsTemplate-echarts图形 pie实例 <template><div :id"echartsId"></div> </template> <script> export default {name: ,components: {},mixins: [],props: [echartsId,…...
