pandas教程:Interfacing Between pandas and Model Code pandas与建模代码间的交互
文章目录
- Chapter13 Introduction to Modeling Libraries in Python(Python中建模库的介绍)
- 13.1 Interfacing Between pandas and Model Code(pandas与建模代码间的交互)
Chapter13 Introduction to Modeling Libraries in Python(Python中建模库的介绍)
这一章回顾一下之间pandas的一些特性,希望能在我们处理数据的时候有所帮助。然后会简要介绍两个很有用的建模工具:statsmodels和scikit-learn。
13.1 Interfacing Between pandas and Model Code(pandas与建模代码间的交互)
一个通常的工作流程中,在建模之前,会用pandas来加载数据并清理。模型开发过程中,一个很重要的部分就是特征工程(feature engineering),指的是通过数据变换或分析,从原始数据中提取出对建模有用的信息。之前介绍的聚合(aggregation)和GroupBy就经常用于特征工程。
至于什么样才是好的特征工程,这就超出了本书的范围。这里会简单介绍如何在数据处理与建模之间切换。
连接pandas和其他一些分析库的点,通常是Numpy数组。要想把一个DataFrame变为Numpy数组,使用.values属性:
import numpy as np
import pandas as pd
data = pd.DataFrame({'x0': [1, 2, 3, 4, 5], 'x1': [0.01, -0.01, 0.25, -4.1, 0.], 'y': [-1.5, 0., 3.6, 1.3, -2.]})
data
| x0 | x1 | y | |
|---|---|---|---|
| 0 | 1 | 0.01 | -1.5 |
| 1 | 2 | -0.01 | 0.0 |
| 2 | 3 | 0.25 | 3.6 |
| 3 | 4 | -4.10 | 1.3 |
| 4 | 5 | 0.00 | -2.0 |
data.columns
Index(['x0', 'x1', 'y'], dtype='object')
data.values
array([[ 1. , 0.01, -1.5 ],[ 2. , -0.01, 0. ],[ 3. , 0.25, 3.6 ],[ 4. , -4.1 , 1.3 ],[ 5. , 0. , -2. ]])
变回DataFrame的方法是,传入一个二维ndarray,并指定列名:
df2 = pd.DataFrame(data.values, columns=['one', 'two', 'three'])
df2
| one | two | three | |
|---|---|---|---|
| 0 | 1.0 | 0.01 | -1.5 |
| 1 | 2.0 | -0.01 | 0.0 |
| 2 | 3.0 | 0.25 | 3.6 |
| 3 | 4.0 | -4.10 | 1.3 |
| 4 | 5.0 | 0.00 | -2.0 |
.values属性最好用于同质的数据,即数据类型都是数值型。如果有异质的数据,结果会变为python对象:
df3 = data.copy()
df3['strings'] = ['a', 'b', 'c', 'd', 'e']
df3
| x0 | x1 | y | strings | |
|---|---|---|---|---|
| 0 | 1 | 0.01 | -1.5 | a |
| 1 | 2 | -0.01 | 0.0 | b |
| 2 | 3 | 0.25 | 3.6 | c |
| 3 | 4 | -4.10 | 1.3 | d |
| 4 | 5 | 0.00 | -2.0 | e |
df3.values
array([[1, 0.01, -1.5, 'a'],[2, -0.01, 0.0, 'b'],[3, 0.25, 3.6, 'c'],[4, -4.1, 1.3, 'd'],[5, 0.0, -2.0, 'e']], dtype=object)
对于一些模型,我们可能希望使用列中的一部分数据。建议使用loc,然后用values进行索引:
model_cols = ['x0', 'x1']
data.loc[:, model_cols].values
array([[ 1. , 0.01],[ 2. , -0.01],[ 3. , 0.25],[ 4. , -4.1 ],[ 5. , 0. ]])
一些库对于pandas的支持非常好:能自动把DataFrame转换为numpy,并把模型的参数名字作为输出的列名。对于其他的一些库,就必须要自己手动操作了。
在第十二章里,我们学习了pandas的Categorical数据类型和pandas.get_dummies函数。假设我们的数据集中有一个非数值列:
data['category'] = pd.Categorical(['a', 'b', 'a', 'a', 'b'],categories=['a', 'b'])
data
| x0 | x1 | y | category | |
|---|---|---|---|---|
| 0 | 1 | 0.01 | -1.5 | a |
| 1 | 2 | -0.01 | 0.0 | b |
| 2 | 3 | 0.25 | 3.6 | a |
| 3 | 4 | -4.10 | 1.3 | a |
| 4 | 5 | 0.00 | -2.0 | b |
如果想要哑变量来代替category这一列,我们可以创建哑变量,去除category列,然后把结果合并起来:
dummies = pd.get_dummies(data.category, prefix='category')
dummies
| category_a | category_b | |
|---|---|---|
| 0 | 1 | 0 |
| 1 | 0 | 1 |
| 2 | 1 | 0 |
| 3 | 1 | 0 |
| 4 | 0 | 1 |
data_with_dummies = data.drop('category', axis=1).join(dummies)
data_with_dummies
| x0 | x1 | y | category_a | category_b | |
|---|---|---|---|---|---|
| 0 | 1 | 0.01 | -1.5 | 1 | 0 |
| 1 | 2 | -0.01 | 0.0 | 0 | 1 |
| 2 | 3 | 0.25 | 3.6 | 1 | 0 |
| 3 | 4 | -4.10 | 1.3 | 1 | 0 |
| 4 | 5 | 0.00 | -2.0 | 0 | 1 |
在不同的统计模型上使用哑变量有一些细微的不同。当我们有很多非数值型列的时候,使用Patsy的话会更简单易用一些。关于Patsy的内容会在下一节进行介绍。
相关文章:
pandas教程:Interfacing Between pandas and Model Code pandas与建模代码间的交互
文章目录 Chapter13 Introduction to Modeling Libraries in Python(Python中建模库的介绍)13.1 Interfacing Between pandas and Model Code(pandas与建模代码间的交互) Chapter13 Introduction to Modeling Libraries in Python…...
鸿蒙应用开发-初见:ArkTS
作者:HarderCoder ArkTS ArkTS围绕应用开发在 TypeScript (简称TS)生态基础上做了进一步扩展,继承了TS的所有特性,是TS的超集 ArkTS在TS的基础上扩展了struct和很多的装饰器以达到描述UI和状态管理的目的 基本语法 …...
HTTP 和 HTTPS 之间除了安全性区别外,还有哪些区别
HTTP 和 HTTPS 是两种常见的网络协议,它们都是用于在浏览器和服务器之间传输数据的。但是,它们之间也有一些重要的区别,这些区别涉及到数据的安全性、传输性能、使用成本和搜索排名等方面。本文将从以下几个方面来介绍 HTTP 和 HTTPS 的区别&…...
小内存服务器生存指南 ——SWAP 虚拟内存
人们常说,网络是服务器的生命线,没有了网络,服务器再怎么牛逼,都跑不起来。然而偏偏有这么一票的服务器,它的网络很好,CPU 也很好,就是内存有点小。他们是主机界的独行侠 —— 入门级 VPS 服务器。 前俩天买的一台 TMT 的服务器就是这个类型: 256M 内存CPU 1vCore (2.…...
Linux 内存管理中的 Buffers 和 Cached:理解和区分
引言 当涉及到 Linux 系统的内存管理时,“Buffers” 和 “Cached” 是两个经常会引起混淆的术语。这两个概念都代表了系统内存的一部分,但它们的作用和工作方式有所不同。 区别: Buffers: Buffers(缓冲区࿰…...
Linux——使用命令查看文件和文件夹数量
目录 一、相关命令参数解析二、查看当前目录下的文件数量2.1 包含子目录中的文件2.2 不包含子目录中的目录 三、查看当前目录下的文件夹个数3.1 不包含目录中的目录3.2 包含目录中的目录 四、查看当前文件夹下叫某某的文件的数量实例 五、总结 一、相关命令参数解析 "&qu…...
[蓝桥杯训练]———高精度乘法、除法
高精度乘法、除法 一、高精度乘法⭐1.1 初步理解1.1.1 高精度的定义1.1.2 为什么会有高精度1.1.3 高精度乘法的复杂度 1.2 思想讲解1.3 代码实现1.3.1 声明1.3.2 实现高精度乘法1.3.3 整体实现1.3.4 代码测试 二、高精度除法⭐2.1 初步理解2.2 思想讲解2.3 代码实现2.3.1 声明2…...
使用javascript 点击tab栏切换事件代码记录
如下图实现以下两点功能: 这里做代码记录 1. javascript 点击tab栏动态切换内容,并添加active 2. javascript 点击左右图标可以向左或者向右移动元素 第1点功能: // tab栏 <div class"left"><span class"tab act…...
零基础编程入门视频教程,零基础编程从哪学起,分享中文编程工具构件实例
零基础编程入门视频教程,零基础编程从哪学起,分享中文编程工具构件实例 1、零基础编程入门视频教程,系统化编程教程链接 https://jywxz.blog.csdn.net/article/details/134073098?spm1001.2014.3001.5502 2、零基础编程从哪学起 建议初学…...
计算机毕业设计|基于SpringBoot+MyBatis框架的电脑商城的设计与实现(订单和AOP)
计算机毕业设计|基于SpringBootMyBatis框架的电脑商城的设计与实现(订单和AOP) 该项目分析着重于设计和实现基于SpringBootMyBatis框架的电脑商城。首先,通过深入分析项目所需数据,包括用户、商品、商品类别、收藏、订单、购物车…...
【Skynet 入门实战练习】实现网关服务 | 用户代理 | RPC 协议 | 客户端
文章目录 前言网关服务RPC 协议看门狗服务代理服务客户端逻辑梳理 前言 上两章学习了如何搭建一个项目,简单实现了几个基础模块。本章节会实现基本的客户端与服务端的通信,包括网关(gate)、看门狗(watchdog࿰…...
eclipse - jee 建立项目后没有 web.xml
eclipse -- jee 建立项目后没有 web.xml 处理它的方法是,点 File - New - Dynamic Web Project , 此时起一个项目名如M4 然后next 然后next 出现如此所示:...
Miniconda虚拟环境安装(chatglm2大模型安装步骤二)
1.服务器配置 服务器系统:Centos7.9 x64 显卡:RTX3090 (24G) 2.安装环境 2.1 检查conda是否安装 输入命令:conda -V 如果显示conda 4.7.12,说明已经有不需要安装 2.2 安装Miniconda 在家目录建一个mi…...
C++学习之路(四)C++ 实现简单的待办事项列表命令行应用 - 示例代码拆分讲解
本期示例介绍: 本期示例《待办事项列表应用》展示了一个简单的任务管理系统,用户可以通过命令行界面执行添加任务、删除任务和显示任务列表等操作。 功能描述: 添加任务功能: 用户可以输入任务描述,将新的任务添加到任务列表中。…...
函数指针数组指针数组传参的本质字符指针
🚀 作者:阿辉不一般 🚀 你说呢:不服输的你,他们拿什么赢 🚀 专栏:爱上C语言 🚀作图工具:draw.io(免费开源的作图网站) 如果觉得文章对你有帮助的话,还请点赞…...
Linux swapon命令教程:如何在Linux中启用和禁用交换空间(附实例教程和注意事项)
Linux swapon命令介绍 Linux的swapon命令用于启用指定设备和文件的交换。当物理内存(RAM)达到其最大容量时,Linux使用交换空间。如果系统需要更多的内存,而RAM不足,内存中的非活动页面将被移动到交换空间。交换空间是…...
云计算领域的第三代浪潮!
根据IDC不久前公布的数据,2023年上半年中国公有云服务整体市场规模(IaaS/PaaS/SaaS)为190.1亿美元,阿里云IaaS、PaaS市场份额分别为29.9%和27.9%,都远超第二名,是无可置疑的行业领头羊。 随着人工智能(AI)…...
面试题目总结(一)
1. 谈谈数据库的乐观锁和悲观锁 乐观锁和悲观锁是数据库并发控制中常用的两种策略,用于处理多个事务同时访问和修改同一个数据时的并发冲突问题。 数据库的乐观锁是指在读取数据时,不对数据进行加锁,而是在更新数据时检查数据版本是否发生变…...
建造者设计模式
3. 建造者设计模式 3.1 原理 Builder 模式,中文翻译为建造者模式或者构建者模式,也有人叫它生成器模式。 建造者模式是用来创建一种类型的复杂对象,通过设置不同的可选参数,“定制化”地创建不同的对象。 创建者模式主要包含以…...
YOLO目标检测——垃圾检测数据集下载分享【含对应voc、coco和yolo三种格式标签】
实际项目应用:智能化垃圾分类系统、垃圾回收和处理领域的优化管理等方面数据集说明:垃圾分类检测数据集,真实场景的高质量图片数据,数据场景丰富,含报纸、蛋壳、矿泉水瓶、电池、拉链顶罐、塑料餐盒、纸质药盒、香蕉皮…...
Windows下OpenClaw安装指南:快速接入SecGPT-14B安全模型
Windows下OpenClaw安装指南:快速接入SecGPT-14B安全模型 1. 为什么选择OpenClawSecGPT-14B组合 去年我在做安全日志分析时,每天要手动检查数百条告警,直到发现OpenClaw这个能直接操控本地电脑的AI智能体框架。配合专门训练的安全大模型SecG…...
ENVI 5.3.1打不开Landsat 9 L2SP数据?别急,教你一招‘偷梁换柱’搞定它
ENVI 5.3.1兼容Landsat 9 L2SP数据的实战技巧:元数据修改的艺术 当你手握ENVI 5.3.1这个经典版本,却遭遇Landsat 9 L2SP数据无法打开的窘境时,那种挫败感我深有体会。作为遥感领域的"老司机",我完全理解为什么很多用户不…...
ChatGPT背后的大模型架构战:Transformer到MoE的技术进化全解析,AI工程师必读!
当ChatGPT引爆全球AI浪潮,当DeepSeek以低成本高性能震惊业界,你是否真正了解这些大模型背后的技术架构?本文将带你穿越大语言模型的技术演进史,揭秘从Transformer到MoE的关键跃迁。一、开篇:大模型时代的架构之争 2026…...
STM32F407实战指南:基于74HC595的4位数码管驱动与动态扫描详解
1. 从零认识数码管:你的第一个嵌入式显示方案 第一次接触数码管时,我完全被它简单粗暴的显示方式吸引了。这种由7个LED灯组成的显示器件,通过不同段的组合就能展示0-9的数字,成本不到2块钱却能在各种家电上看到它的身影。我们这次…...
程序员必看:代码注释规范与最佳实践
1. 程序员与注释的爱恨情仇作为一名在代码海洋里摸爬滚打多年的老程序员,我见过太多令人啼笑皆非的代码注释。这些注释有的像谜语,有的像情书,有的干脆就是行为艺术。今天我们就来聊聊这个让无数程序员又爱又恨的话题——代码注释。记得我刚入…...
基于深度学习的轴承故障诊断:CNN-LSTM架构演进与核心代码逻辑拆解
基于深度学习的轴承故障诊断:CNN-LSTM架构演进与核心代码逻辑拆解前言 在设备健康管理(PHM)的实战中,面对凯斯西储大学(CWRU)轴承数据集,直接将几十万个采样点的振动信号塞给模型是行不通的。即…...
【工业级Python内存治理白皮书】:覆盖CPython 3.8–3.12的7层内存管控架构,含可落地的监控-预警-自愈SOP手册
第一章:Python 智能体内存管理策略 性能调优指南Python 的内存管理并非完全由开发者显式控制,而是依托于引用计数、循环垃圾回收器(GC)与内存池(pymalloc)三层协同机制。理解其内在逻辑是实现高性能智能体&…...
仅限首批200家技术中台团队获取:Python MCP企业级模板V3.2(含华为MetaEngine兼容补丁+信创OS适配矩阵表)
第一章:Python MCP企业级模板V3.2的核心定位与战略价值 Python MCP(Modular Component Protocol)企业级模板V3.2并非通用脚手架,而是面向中大型组织构建高一致性、强可审计、低运维熵值服务架构的标准化交付内核。其核心定位在于弥…...
如何通过多平台同步推流提升直播效率?开源工具obs-multi-rtmp的全场景应用指南
如何通过多平台同步推流提升直播效率?开源工具obs-multi-rtmp的全场景应用指南 【免费下载链接】obs-multi-rtmp OBS複数サイト同時配信プラグイン 项目地址: https://gitcode.com/gh_mirrors/ob/obs-multi-rtmp 在直播行业蓬勃发展的今天,内容创…...
告别粗糙模型:3DReshaper点云重建、平滑与精准测量的实战指南
1. 为什么你的点云模型总是粗糙不平? 每次处理点云数据时,最让我头疼的就是重建后的模型表面总是坑坑洼洼,像月球表面一样。这个问题困扰了我整整三个月,直到发现了3DReshaper这个神器。你可能也遇到过类似情况:花大价…...
