4个解决特定的任务的Pandas高效代码
在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。

从列表中创建字典
我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出现的次数。
Python字典是以这种格式存储数据的好方法。键将是字典,值是出现的次数。
这里可以使用value_counts和to_dict函数,这项任务可以在一行代码中完成。
这里有一个简单的例子来说明这种情况:
importpandasaspdgrades= ["A", "A", "B", "B", "A", "C", "A", "B", "C", "A"]pd.Series(grades).value_counts().to_dict()# output{'A': 5, 'B': 3, 'C': 2}
将列表转换为Pandas Series,这是Pandas的一维数据结构,然后应用value_counts函数来获得在Series中出现频率的唯一值,最后将输出转换为字典。这个操作非常高效且易于理解。
从JSON文件创建DataFrame
JSON是一种常用的存储和传递数据的文件格式。
当我们清理、处理或分析数据时,我们通常更喜欢使用表格格式(或类似表格的数据)。由于json_normalize函数,我们可以通过一个操作从json格式的对象创建Pandas DataFrame。
假设数据存储在一个名为data的JSON文件中。一般情况我们都是这样读取:
importjsonwithopen("data.json") asf:data=json.load(f)data# output{'data': [{'id': 101,'category': {'level_1': 'code design', 'level_2': 'method design'},'priority': 9},{'id': 102,'category': {'level_1': 'error handling', 'level_2': 'exception logging'},'priority': 8}]}
如果我们将这个变量传递给DataFrame构造函数,它将创建如下的DataFrame,这绝对不是一个可用的格式:
df=pd.DataFrame(data)

但是如果我们使用json_normalize函数将得到一个整洁的DataFrame格式:
df=pd.json_normalize(data, "data")

Explode函数
如果有一个与特定记录匹配的项列表。需要重新格式化它,为该列表中的每个项目提供单独的行。

这是一个经典的行分割成列的问题。有许多的不同的方法来解决这个任务。其中最简单的一个(可能是最简单的)是Explode函数。
我们以这个df为例

使用explosion函数并指定列名:
df_new=df.explode(column="data").reset_index(drop=True)

reset_index会为DataFrame分配一个新的整数索引。
combine_first函数
combine_first函数用于合并两个具有相同索引的数据结构。
它最主要的用途是用一个对象的非缺失值填充另一个对象的缺失值。这个函数通常在处理缺失数据时很有用。在这方面,它的作用与SQL中的COALESCE函数相同。
df=pd.DataFrame({"A": [None, 0, 12, 5, None], "B": [3, 4, 1, None, 11]})

我们需要a列中的数据。如果有一行缺少值(即NaN),用B列中同一行的值填充它。
df["A"].combine_first(df["B"])# output0 3.01 0.02 12.03 5.04 11.0Name: A, dtype: float64
可以看到的列A的第一行和最后一行取自列B。
如果我们想要使用3列,我们可以链接combine_first函数。下面的代码行首先检查列a。如果有一个缺失的值,它从列B中获取它。如果列B中对应的行也是NaN,那么它从列C中获取值。
df["A"].combine_first(df["B"]).combine_first(df["C"])
我们还可以在DataFrame级别使用combine_first函数。在这种情况下,所有缺失的值都从第二个DataFrame的相应值(即同一行,同列)中填充。
df1=pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, np.nan, 7, 8]}, index=['a', 'b', 'c', 'd'])df2=pd.DataFrame({'A': [10, np.nan, 30, 40], 'B': [50, 60, np.nan, 80]}, index=['a', 'b', 'c', 'd'])result_df=df1.combine_first(df2)
在合并的过程中,
df1
中的非缺失值填充了
df2
中对应位置的缺失值。这有助于处理两个数据集合并时的缺失值情况。
MergedDataFrame:A Ba 1.0 5.0b 2.0 60.0c 30.0 7.0d 4.0 8.0
总结
从计算简单的统计数据到高度复杂的数据清理过程,Pandas都可以快速解决任务。上面的代码可能不会经常使用,但是当你需要处理这种任务时,它们是非常好的解决办法。
https://avoid.overfit.cn/post/1e70db7ef5534ff0801316609a1499b1
作者:Soner Yıldırım
相关文章:
4个解决特定的任务的Pandas高效代码
在本文中,我将分享4个在一行代码中完成的Pandas操作。这些操作可以有效地解决特定的任务,并以一种好的方式给出结果。 从列表中创建字典 我有一份商品清单,我想看看它们的分布情况。更具体地说:希望得到唯一值以及它们在列表中出…...
【已解决】AttributeError: module ‘gradio‘ has no attribute ‘Image‘
问题描述 AttributeError: module gradio has no attribute Image 不知道作者用的是哪个gradio版本,最新的版本报错AttributeError: module gradio has no attribute outputs , 换一个老一点的版本会报错AttributeError: module gradio has no attribute…...
高级软件工程15本书籍
如果您想学习软件工程技能并提高您的专业知识,那么这里是您的最佳选择。我们有一本很棒的书,可以极大地增强您在软件工程方面的知识。 1)干净的代码 Robert C. Martin 写了一本名为“干净代码:敏捷软件工艺手册”的书。在本书中&…...
计网Lesson3 - 计算机网络评价指标与封包解包
文章目录 计算机网络的性能指标1. 速率2. 带宽3. 吞吐量4. 时延5. 时延带宽积6. 往返时间7. 利用率8. 数据的解包和封包 计算机网络的术语实体协议服务 计算机网络的性能指标 1. 速率 数据…...
深度学习好文记录,反复学习
recent update time:2023.12.2 深度学习入门 - 知乎、这本书也很好,作者写的专栏不错。 机器学习,深度学习一些好文_一只菜得不行的鸟的博客-CSDN博客 卷积神经网络学习路线(五)| 卷积神经网络参数设置,提…...
CSS浅谈动画性能
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 目的一、举个栗子二、性能分析1.从图层分析2.性能分析 总结 目的 为了探究使用动画时,『transform』和『width、height、margin等』的差异 一、举个栗子…...
万能的视频格式播放器
今天博主给大家带来一款“万能”的视频播放器——VLC Media Player,支持的文件格式非常多,大家快来一起看看吧! VLC Media Player 是一款可播放大多数格式,而无需安装编解码器包的媒体播放器。可以播放 MPEG-1、MPEG-2、MPEG-4、D…...
设计模式---第五篇
系列文章目录 文章目录 系列文章目录前言一、知道观察者模式吗?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 一、知道观察者模式吗? 答:观察者模式是定义对…...
.NET8构建统计Extreme Optimization Numerical Libraries
为 .NET 8 构建统计应用程序 Extreme Optimization Numerical Libraries for .NET V8.1.22 添加了对 .NET 8 的支持,使您可以使用最新版本的 Microsoft 平台。 Extreme Optimization Numerical Libraries for .NET 是通用数学和统计类的集合,为技术和统计…...
07-原型模式-C语言实现
原型模式: Specify the kinds of objects to create using a prototypical instance,and create new objects by copying this prototype.(用原型实例指定创建对象的种类, 并且通过拷贝这些原型创建新的对象。 ) UML图࿱…...
深度学习与深度迁移学习有什么区别?
深度学习包含深度迁移学习,它们都利用了深层神经网络(Deep Neural Network,DNN)来处理数据,并从中学习特征。但是,它们也有一些区别。 深度学习是一种机器学习方法,它通过多层神经网络来自动学…...
创建Asp.net MVC项目Ajax实现视图页面数据与后端Json传值显示
简述回顾 继上篇文章创建的mvc传值这里说明一下Json传值。在mvc框架中,不可避免地会遇到前台传值到后台,前台接收后台的值的情况(前台指view,后台指controller),有时只需要从控制器中返回一个处理的结果&a…...
1089 Insert or Merge (插入排序,相邻归并排序,附模拟实现)
注意点1:判断插入排序不能从头开始判断是否为目标数组, 比如:初始为1 2 3 4 3,目标数组也为1 2 3 4 3,则如果是从头开始推的,则下一步会变成1 2 3 4 3,而下一步应该是 1 2 3 3 4。所以我们应该…...
基于算能的国产AI边缘计算盒子8核心A53丨17.6Tops算力
边缘计算盒子 8核心A53丨17.6Tops算力 ● 可提供17.6TOPS(INT8)的峰值计算能力、2.2TFLOPS(FP32)的高精度算力,单芯片最高支持32路H.264 & H.265的实时解码能力。 ● 适配Caffe/TensorFlow/MxNet/PyTorch/ ONNX/…...
Eaxyx 让圆球跟随鼠标移动
如果出现2023,代表配置成功: 进入Eaxy官方网站,点击文档: 选择 函数->绘图函数->initgraph: 可以看见initgraph()函数有如下三个参数: 现在我们想生成一个1280*720大小的窗口: 我们需写如下代码: 但…...
Node.js 事件循环:定时任务、延迟任务和 I/O 事件的艺术
🤍 前端开发工程师(主业)、技术博主(副业)、已过CET6 🍨 阿珊和她的猫_CSDN个人主页 🕠 牛客高级专题作者、在牛客打造高质量专栏《前端面试必备》 🍚 蓝桥云课签约作者、已在蓝桥云…...
陪诊系统:基于自然语言处理的患者沟通创新
医疗领域的数字化转型正日益引入创新技术,其中基于自然语言处理(NLP)的陪诊系统成为提升患者沟通的一项关键技术。本文将深入研究这一领域,介绍陪诊系统如何借助NLP实现患者沟通的创新,并提供一个简单的Python代码示例…...
实用攻略——SD-WAN网络配置步骤详解
SD-WAN(软件定义广域网)作为一种新兴的网络技术,被广泛应用于构建高效、可靠的企业组网。 本文将详细介绍企业组网中SD-WAN涉及的配置过程,并提供一些配置技巧,以帮助企业快速了解企业组网的配置。通过使用SD-WAN技术&…...
无人机摄影测量
无人机摄影测量技术是传统航空摄影测量手段的有力补充,具有机动灵活、高效快速、精细准确、作业成本低、生产周期短、影像获取空间分辨率高、高危地区探测等优势。无人机与航空摄影测量相结合使得“无人机数字低空遥感”成为航空遥感领域的一个崭新发展方向。无人机…...
对el-select封装成组件使用
效果与直接使用el-select一样,多处用el-select显得代码冗余就进行了封装 效果图: el-select封装: <template><div class"my-select"><el-selectv-model"person.modelValue":placeholder"placehold…...
UI设计入门指南——Figma新手必备操作全解析
1. Figma入门:从零到第一个设计稿 第一次打开Figma时,很多人会被满屏的英文界面和复杂工具栏吓到。其实我刚接触时也一样,但现在回头看,掌握基础操作只需要30分钟。Figma作为目前最流行的UI设计工具,最大的优势就是零门…...
H5-Dooring零基础入门终极指南:无需编码制作专业H5页面
H5-Dooring零基础入门终极指南:无需编码制作专业H5页面 【免费下载链接】h5-Dooring H5 Page Maker, H5 Editor, LowCode. Make H5 as easy as building blocks. | 让H5制作像搭积木一样简单, 轻松搭建H5页面, H5网站, PC端网站,LowCode平台. 项目地址: https://g…...
intv_ai_mk11保姆级教程:如何用supervisorctl诊断服务异常并快速恢复
intv_ai_mk11保姆级教程:如何用supervisorctl诊断服务异常并快速恢复 1. 服务异常诊断的重要性 当你使用intv_ai_mk11文本生成服务时,可能会遇到服务响应慢、无法生成内容或页面无法访问的情况。这些问题的根源可能来自多个方面:模型加载异…...
Mermaid Live Editor:重新定义图表创作的开源利器
Mermaid Live Editor:重新定义图表创作的开源利器 【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live-editor …...
分组网络频率同步互通测试
概述随着3G/4G网络大规模的部署和应用,网络和业务的全IP化发展,分组传送技术将替代SDH/MSTP网络而成为主流的传送承载网络。这时,一方面新的传送网络技术会对网络的同步性能提出相应的要求,另一方面在通信网络由电路交换型向分组交…...
HCPL-0700-000E,低输入电流、高增益且与高安全隔离性能的光耦
型号介绍今天我要向大家介绍的是 Broadcom 的光耦——HCPL-0700-000E。它的内部结构就像一个高效的“信号转换站”,结合了一个发光二极管和一个集成的高增益光子探测器。光电二极管和输出级采用独立引脚设计,当输入端接收到电流时,LED 会发出…...
牙齿龋齿检测数据集 YOLO模型如何训练牙齿病害数据集 权重识别龋齿
牙齿龋齿检测数据集,2554张,提供yolo和voc两种标注方式 1类,标注数量: caries: 6946 image num: 2554 🦷 龋齿检测数据集 (Dental Caries Detection Dataset) 属性详细描述数据集名称齿科龋齿目标检测数据集图像总数2…...
数据库课程设计融合AI:使用PyTorch构建智能图书馆推荐系统
数据库课程设计融合AI:使用PyTorch构建智能图书馆推荐系统 1. 项目背景与价值 高校图书馆管理系统是数据库课程的经典设计选题,但传统方案往往只关注基本的增删改查功能。将AI推荐系统融入课程设计,不仅能让学生掌握数据库设计核心技能&…...
小白也能懂:将SPIRAN ART SUMMONER图像生成API封装成IDEA插件
小白也能懂:将SPIRAN ART SUMMONER图像生成API封装成IDEA插件 1. 为什么需要这个插件? 作为一名开发者,我经常遇到这样的场景:正在编写游戏角色设定文档时,突然需要一张概念图;设计UI界面时,想…...
从嵌入式到云原生:手把手教你根据项目规模选对MQTT Broker(EMQX vs Mosquitto实战避坑)
从嵌入式到云原生:手把手教你根据项目规模选对MQTT Broker(EMQX vs Mosquitto实战避坑) 当你在设计一个物联网系统时,选择正确的MQTT Broker就像为你的房子选择合适的地基。选得太轻量级,系统可能无法承载未来的增长&…...
