pandas:读取各类文件方法以及爬虫时json数据保存
文件的读取与写入
| 常用读文件方法 | 说明 |
| -------------- | ---------------- |
| read_csv | 读取CSV文件 |
| read_excel | 读取Excel文件 |
| read_html | 读取网页HTML文件 |
| read_table | 通用读取方法 |
| 常用写文件方法 | 说明 |
| -------------- | ----------- |
| to_csv | 写csv文件 |
| to_excel | 写Excel文件 |
1、读取文件常用的参数
pandas.read_csv(
filepath_or_buffer=None,
sep=',',
delimiter=None,
header=None,
names=None,
index_col=None,
usecols=None,
skiprows=None,
na_values=None,
nrows=None,
chunksize=None,
encoding=None,
):
| 参数 | 说明 |
| ------------------ | ------------------------------------------------------------ |
| filepath_or_buffer | 读取文件的路径或对象 |
| sep/delimiter | 输出文件的字段分隔符, 默认字符"," |
| header | 默认为'infer',读取第一行作为列名,也可以为None,使用默认列索引 |
| names | 自定义列名/列索引 |
| index_col | 选择一列作为行索引,可以输入默认列索引 也可以使用自定义的列索引/列名 |
| usecols | 只读取选中的列 |
| skiprows | 跳过行读取 |
| na_values | 个性化数据,将指定的数据变为缺失值NaN |
| nrows | 数据按指定行显示 |
| chunksize | 数据按指定行进行分块 |
| encoding | 设置编码格式 |
注意事项:
1、一般情况下我们用utf-8的编码进行保存,如果出现中文编码错误,则可以依次换用gbk,gb2312,gb18030等, 一般总能成功的
2、写入文件参数
```
df.to_csv(
path_or_buf=None,
sep=',',
columns=None,
header=True,
index_lable=None,
index=True,
encoding=None,)
```
| 参数 | 说明 |
| ----------- | ---------------------------------- |
| path_or_buf | 写入文件的路径或对象 |
| sep | 输出文件的字段分隔符, 默认字符"," |
| columns | 空值写入后的顺序,也可选列写入 |
| header | 布尔值,默认为True,写入列名称(索引) |
| index_label | 选择列作为 行索引 |
| index | 布尔值,默认为True,写入行名称(索引) |
| encoding | 设置写入的编码格式 |
excel表格读取写入特点
所有的读取和写入方法的参数通用,唯独excel表格有几个不一样的点
1、写入excel文件需要依赖模块-openpyxl
```python
安装: pip install openpyxl
```
2、读取excel文件需要依赖模块-xlrd
```
安装: pip install xlrd
df.to_excel(
excel_writer,
sheet_name="Sheet1",
columns=None,
header=True,
index=True,
index_label=None,
encoding=None,
)
```
| 特有的参数 | 说明 |
| ------------ | ------------------- |
| excel_writer | ExcelWriter目标路径 |
| sheet_name | excel工作表名命名 |
- read_excel
pandas.read_excel(
io,
sheet_name=0,
header=0,
names=None,
index_col=None,
usecols=None,
skiprows=None,
nrows=None,
na_values=None,
)
```
| 特有的参数 | 说明 |
| ---------- | ------------------------------------------------------------ |
| io | excel路径 |
| sheet_name | 默认为0,多工作表读取使用sheetname=[0, 1],若sheetname=None是返回全表 |
当学习了读取和写入之后,就可以将爬虫的数据转为dataframe,使用dataframe写入的方式进行文件保存
相关文章:
pandas:读取各类文件方法以及爬虫时json数据保存
文件的读取与写入 | 常用读文件方法 | 说明 | | -------------- | ---------------- | | read_csv | 读取CSV文件 | | read_excel | 读取Excel文件 | | read_html | 读取网页HTML文件 | | read_table | 通用读取方法 | | 常用写文…...
二、(JS)JS中常见的键盘事件
一、常见的键盘事件 onkeydown 某个键盘按键被按下onkeypress 某个键盘按键被按下onkeyup 某个键盘按键被松开 二、事件的执行顺序 onkeydown、onkeypress、onkeyup down 事件先发生;press 发生在文本被输入;up …...
【CSS】样式水平垂直居中
行内元素: 如果被设置元素为文本、图片等行内元素时,水平居中是通过给父元素设置 text-align:center <body> <div class"txtCenter">我想要在父容器中水平居中显示。</div> </body>div是文本元素的父元素 因此我们对…...
深入理解数据分析的使用流程:从数据准备到洞察挖掘
数据分析是企业和技术团队实现价值的核心。 5 秒内你能否让数据帮你做出决策? 通过本文,我们将深入探讨如何将原始数据转化为有意义的洞察,帮助你快速掌握数据分析的关键流程。 目录 数据分析的五个核心步骤1. 数据获取常用数据获取方式 2. 数…...
CSS 响应式设计(补充)——WEB开发系列36
随着移动设备的普及,网页设计的焦点逐渐转向了响应式设计。响应式设计不仅要求网页在各种屏幕尺寸上良好展示,还要适应不同设备的特性。 一、响应式设计之前的灵活布局 在响应式设计流行之前,网页布局通常是固定的或流动的。固定布局使用固定…...
Qt常用控件——QDateTimeEdit
文章目录 QDateTimeEdit核心属性及信号时间计算器 QDateTimeEdit核心属性及信号 QDateEdit作为日期的微调框QTimeEdit作为时间的微调框QDateTimeEdit作为时间日期的微调框 它们的使用方式都是类似的,本篇以QDateTimeEdit作为示例 核心属性: 属性说明…...
什么是上拉,下拉?
上拉就是将引脚通过一个电阻连接到电源,作用:1.使IO口的不确定电平稳定在高点平,2、为了增加IO口拉电流的能力。 下拉就是将引脚通过一个电阻与GND相连,作用:1.从器件输出电流 2.当IO口为输入状态时,引脚的…...
76-mysql的聚集索引和非聚集索引区别
MySQL中的聚集索引和非聚集索引的主要区别在于它们的存储方式和使用方式。 聚集索引(Clustered Index): 聚集索引的叶子页包含了行的全部数据。 每个表只能有一个聚集索引,因为一个表中的数据只能按照一种方式存储。 当你查询的…...
每日一题——第八十八题
题目:输入一个9位的无符号整数,判断其是否有重复数字 #include<stdio.h> #include<stdbool.h> #include<string.h> int main() {char num_str[10];printf("请输入一个9位数的无符号数:");scanf_s("%9d&quo…...
【创作活动】学习使用哪个编程工具让你的工作效率翻倍?
学习使用哪个编程工具让你的工作效率翻倍? 在日益繁忙的工作环境中,选择合适的编程工具已成为提升开发者工作效率的关键。不同的工具能够帮助我们简化代码编写、自动化任务、提升调试速度,甚至让团队协作更加顺畅。那么,哪款编程…...
基于STM32C8T6的CubeMX:HAL库点亮LED
三个可能的问题和解决方法: 大家完成之后回来看,每一种改错误都是一种成长,不要畏惧,要快乐,积极面对,要耐心对待 STMCuBeMX新建项目的两种匪夷所思的问题https://mp.csdn.net/mp_blog/creation/editor/1…...
职业院校数据科学与大数据技术专业人工智能实训室建设方案
一、引言 随着人工智能(AI)技术的迅猛发展,其在全球范围内的应用日益广泛,从智能交通、环境保护到公共安全、智能家居等多个领域均展现出巨大的潜力。然而,我国在人工智能领域的人才储备仍显不足,这已成为…...
JavaScript网页设计案例分析
JavaScript网页设计案例分析 随着互联网技术的发展,JavaScript 已经成为现代网页设计中不可或缺的一部分。从简单的页面交互到复杂的应用程序开发,JavaScript 都发挥着至关重要的作用。本文将探讨几个运用 JavaScript 进行网页设计的经典案例࿰…...
2024.9.15周报
一、题目信息 题目:Physics-informed neural networks for solving flow problems modeled by the 2D Shallow Water Equations without labeled data 链接:物理信息神经网络用于解决由二维浅水方程建模的流动问题,无需标记数据- ScienceDi…...
QT模型视图结构1
文章目录 Qt 模型视图结构概述(一)1、模型/视图结构基本原理2、模型3、视图4、代理5、简单实例 Qt 模型视图结构概述(一) 模型/视图结构是一种将数据存储和界面展示分离的编程方法。模型存储数据,视图组件显示模型中的数据,在视图组件里修改的数据会…...
Ubuntu20+Noetic+cartographer_ros编译部署
1 准备工作 (1)准备Ubuntu20系统。 (2)安装ROS系统,参考 https://blog.csdn.net/weixin_46123033/article/details/139527141(3)Cartographer相关软件包和源码下载: https://gitee.com/mrwan…...
linux-L3-linux 复制文件
linux 中要将文件file1.txt复制到目录dir中,可以使用以下命令 cp file1.txt dir/复制文件 cp /path/to/source/file /path/to/destination移动 mv /path/to/source/file /path/to/destination复制文件夹内的文件 cp -a /path/to/source/file /path/to/destinati…...
Kotlin:1.9.0 的新特性
一、概述 Kotlin 1.9.0版本英语官方文档 Kotlin 1.9.0 中文官方文档 The Kotlin 1.9.0 release is out and the K2 compiler for the JVM is now in Beta. Additionally, here are some of the main highlights: Kotlin 1.9.0版本已经发布,用于JVM的K2编译器现在…...
golang实现从服务器下载文件到本地指定目录
一、连接服务器,采用sftp连接模式 package middlewaresimport ("fmt""time""github.com/pkg/sftp""golang.org/x/crypto/ssh" )// 建立服务器连接 func Connect(user, password, host string, port int) (*sftp.Client, e…...
C++数据结构-树的概念及分类介绍(基础篇)
1.什么是树 树是数据结构中的一种,其属于非线性数据结构结构的一种,我们前文所提到的数据结构多数都是线性的,这也是较为简单的数据结构,而接下来的树与图均属于非线性数据结构,也是概念极多的一类。 树是由结点或顶…...
如何通过洛雪音乐音源实现高品质音乐自由?
如何通过洛雪音乐音源实现高品质音乐自由? 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 在数字音乐时代,我们常常面临这样的困境:想听的歌曲分散在不同平台&a…...
从零开始:LabelImg图像标注工具的完整实战指南
从零开始:LabelImg图像标注工具的完整实战指南 【免费下载链接】labelImg LabelImg is now part of the Label Studio community. The popular image annotation tool created by Tzutalin is no longer actively being developed, but you can check out Label Stu…...
ComfyUI-Easy-Use:GPU资源优化与深度学习推理效能提升实践
ComfyUI-Easy-Use:GPU资源优化与深度学习推理效能提升实践 【免费下载链接】ComfyUI-Easy-Use In order to make it easier to use the ComfyUI, I have made some optimizations and integrations to some commonly used nodes. 项目地址: https://gitcode.com/g…...
LLaMA-Factory推理性能优化指南:如何用vLLM和量化技术提升3倍吞吐量
LLaMA-Factory推理性能优化实战:从参数调优到量化部署 当你的LLaMA-Factory模型推理请求从每秒10次飙升到1000次时,服务器突然开始报警——显存爆满、响应延迟激增、API错误率直线上升。这不是灾难片的开场,而是每个AI工程师终将面对的性能瓶…...
LeaguePrank:英雄联盟客户端个性化定制工具深度探索
LeaguePrank:英雄联盟客户端个性化定制工具深度探索 【免费下载链接】LeaguePrank 项目地址: https://gitcode.com/gh_mirrors/le/LeaguePrank 在MOBA游戏蓬勃发展的今天,玩家对游戏体验的个性化需求日益增长。LeaguePrank作为一款基于官方LCU A…...
开源网页监控工具changedetection.io:实时追踪网页变化的全方位解决方案
开源网页监控工具changedetection.io:实时追踪网页变化的全方位解决方案 【免费下载链接】changedetection.io The best and simplest free open source website change detection, website watcher, restock monitor and notification service. Restock Monitor, c…...
JIT编译延迟高达2.3秒?紧急修复Python 3.14.0b3中`--jit-threshold=0`参数失效Bug的3种绕行方案(含补丁级patch)
第一章:JIT编译延迟高达2.3秒?紧急修复Python 3.14.0b3中--jit-threshold0参数失效Bug的3种绕行方案(含补丁级patch) Python 3.14.0b3 引入的自适应JIT编译器在启用 --jit-threshold0 时未能立即触发热路径编译,导致首…...
springboot-vue基于web框架的服装销售商城平台
目录技术栈选择系统模块划分开发流程关键代码示例(Spring Boot Vue)注意事项项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作技术栈选择 后端采用Spring Boot框架,提供RESTful API接口&…...
深度测评:2026年最值得拥有的专业降AI率工具
2026年论文降AI率工具已从“基础修改”升级为智能化、多维度的学术合规解决方案,核心评价维度涵盖AIGC识别精度、文本自然度、文献真实性、格式合规性、查重适配性及多语言支持。本次测评涵盖6款主流工具,覆盖中英文写作、全流程与专项优化、免费与付费模…...
