【0基础学爬虫】爬虫基础之文件存储

大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学爬虫】专栏,帮助小白快速入门爬虫,本期为文件存储。
概述
前几期文章中我们已经了解到了请求库、解析库的使用,已经学会了如何向目标网站发送请求以及解析响应信息,那么我们还需要知道如何将数据进行存储。数据存储有很多方式,本期会介绍如何将数据存入文本文件,如 TXT、JSON、CSV 等。
TXT 文件存储
介绍
TXT文件存储是最基本的数据存储方式,TXT 文本文件基本上兼容任何平台,因此它的应用也非常广泛。使用代码操作 TXT 文件十分简单,但是缺点也非常明显,不利于对数据进行检索。
使用
Python 中操作 TXT 文件需要使用到内置的 open() 函数。
open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)
open() 函数有七个参数分别为:
file:文件路径
mode:打开方式,默认为(r)只读模式
buffering:文件缓冲
encoding:字符编码
errors:报错级别
newline:换行模式,默认以\n换行
closefd:控制在关闭文件时是否彻底关闭文件
文件打开方式分为以下几种:
r:以只读方式打开文件
w:以写入方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
x:创建新文件并以写入方式打开文件
a:以追加方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
b:二进制模式
t:文本模式
+:读取与写入
wb:以二进制写入方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
w+:以读写方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
wb+:以二进制读写方式打开文件。如果文件存在则覆盖原文件,不存在则新建。
ab:以二进制追加方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
ab+:以二进制追加读写方式打开文件。如果文件存在,则在结尾位置写入,不存在则新建。
f = open('data.txt','r',encoding="utf-8")
f.seek(2) #从指定下标位置开始读取
data = f.read()
f.close()
f = open('data.txt','w',encoding="utf-8")
f.write('hello')
f.write(' ')
f.write('world')
f.close()
#hello world
上下文管理器
上文中可以看到,对一个文件进行读写操作后需要使用 close() 方法关闭文件。如果不使用 close() 关闭文件会导致资源泄露问题。为了避免这个问题和优化代码,我们可以使用上下文管理器来操作文件。
with open('data.txt','w',encoding='uutf-8')as f:f.write('hello')f.write(' ')f.write('world')
当 with 语句块结束后文件会自动关闭,这样不需要再调用 close() 方法。
JSON 文件存储
介绍
JSON 全称为 JavaScript Object Notation,也就是 JavaScript 对象标记,是一种轻量级的数据交换格式。人们可以很容易的对 JSON 格式的数据进行阅读和编写,同时也方便了机器进行解析和生成。JSON 采用完全独立于程序语言的文本格式,但是也使用了类 C 语言的习惯(包括C, C++, C#, Java, JavaScript, Perl, Python等)。这些特性使 JSON 成为理想的数据交换语言。
JSON 通过对象和数组的组合来表示数据,而在 JavaScript 中,一切皆为对象,因此任何数据类型都可以通过 JSON 来表示。
在 JavaScript 中 JSON 通常以对象或数组的形式存在。对象形式为被花括号包裹的键值对结构,如 { key1 : value1, key2 : value2 },key表示对象的属性,value表示对象的值。数组形式与对象形式的区别就在于它是被方括号所包裹,如[{ key1 : value1}, {key2 : value2}]。对象形式与数组形式可以自由组合,任意嵌套。JSON中字符串类型的数据需要以双引号包围。
JSON 的这种结构非常简洁清晰,且结构化程度很高,因而被广泛使用。
使用
JSON 是一个数据格式,本质上是纯字符串类型,在 Python 中它可以被转换为对应的数据类型,如对象形式可以被转换为字典,数组类型可以转换为列表。Python 中内置了一个强大的 JSON 库,通过它可以简便的实现 JSON 文件的读写操作。
JSON 库提高了四个方法:
json.dump():将 JSON 对象写入文件
json.dumps():将Python对象编码成 JSON 字符串
json.load():从 JSON 文件中读取数据
json.loads():将已编码的 JSON 字符串解码为Python对象
下面我们以这段数据作为示例:
{"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}
读取数据
data.json 文件内容为示例 JSON 数据。
with open('data.json','r',encoding='utf-8')as f:data = f.read()print(type(data))
#输出:<class 'str'>
可以看到,我们直接从 JSON 文件里面读取的数据是字符串类型,这不利于我们对它进行操作,我们可以使用 json.loads() 方法将 JSON 字符串转换为字典类型。
import jsonwith open('data.json','r',encoding='utf-8')as f:data = f.read()print(type(data))
data = json.loads(data)
print(type(data))
#输出:
#<class 'str'>
#<class 'dict'>
我们也可以使用更加简洁的写法,通过 json.load() ,直接对文件操作对象进行解析。
import jsondata = json.load(open('data.json',encoding='utf-8'))print(type(data))
#输出:<class 'dict'>
写入数据
使用 write() 方法写入文件时,它只能传入字符串类型的数据。因此我们需要将字典数据先转换为 JSON 字符串,可以通过 json.dumps() 方法实现。
import jsondata = {"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}print(data)
data = json.dumps(data)
print(type(data))
with open('data.json','w',encoding="utf-8")as f:f.write(data)
#输出:
#<class 'dict'>
#<class 'str'>
当然,将数据写入文件也有更加简便的方法。
import jsondata = {"1001": {"name": "张三","age": 21,"gender": "female"},"1002": {"name": "李四","age": 22,"gender": "male"}
}json.dump(data,open('data.json','w',encoding='utf-8'),indent=2,ensure_ascii=False)
CSV 文件存储
介绍
CSV 全称 Comma-Sparated Values(逗号分隔值),它以纯文本形式存储数据表格。CSV 文件是一个字符序列,它由任意数目的记录组成,记录之间以某种换行符分隔。文件的每条记录由字段和字段值组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。CSV 并不是一种单一的、明确定义的文本格式,它泛指具备以下特征的任何文件:
纯文本呢,使用某个字符集
由记录组成
每条记录被分隔符分隔为字段
每条记录都有相同的字段序列
使用
Python 中提供了一个内置的 csv 库来对 CSV 文件进行操作。
写入
import csv#writerow默认换行,因此需要通过 newline 将换行符设置为空,避免重复换行
with open('data.csv','w',encoding='utf-8',newline="") as csvfile:#delimiter:指定分隔符,默认为逗号writer = csv.writer(csvfile,delimiter = " ")#写入一行writer.writerow(['id', 'name', 'age'])writer.writerow(['1001', 'jack', 15])writer.writerow(['1002', 'marin', 22])writer.writerow(['1003', 'alex', 19])#写入多行writer.writerows([['1004', 'lucy', 23],['1005', 'john', 30]])
csv库也提供了其它的写入方法
import csvwith open('data.csv','w',encoding='utf-8',newline="") as csvfile:#字典写入对象writer = csv.DictWriter(csvfile,fieldnames=['id','name','age'])writer.writeheader()writer.writerow({'id':'1001','name':'jack','age':21})writer.writerow({'id': '1002', 'name': 'marin', 'age': 22})writer.writerows([{'id': '1003', 'name': 'lucy', 'age': 23},{'id': '1004', 'name': 'mike', 'age': 22}])
读取
import csvwith open('data.csv','r',encoding='utf-8')as csvfile:reader = csv.reader(csvfile)for row in reader:print(row)
总结
上文中讲到了 TXT、JSON、CSV 三种文件的存储方式,介绍了如何对这些文件进行读写操作。文本文件存储的优势在于简单、方便,适合存储少量信息,但想要规范的储存数据的话并不推荐使用文本文件储存。 
相关文章:
【0基础学爬虫】爬虫基础之文件存储
大数据时代,各行各业对数据采集的需求日益增多,网络爬虫的运用也更为广泛,越来越多的人开始学习网络爬虫这项技术,K哥爬虫此前已经推出不少爬虫进阶、逆向相关文章,为实现从易到难全方位覆盖,特设【0基础学…...
airflow源码分析-任务调度器实现分析
Airflow源码分析-任务调度器实现分析 概述 本文介绍Airflow执行器的总体实现流程。通过函数调用的方式说明了Airflow scheduler的实现原理,对整个调度过程的源码进行了分析。 通过本文,可以基本把握住Airflow的调度器的运行原理主线。 启动调度器 可…...
一文学会数组的reduce()和reduceRight()
reduce()方法和reduceRight()方法依次处理数组的每个成员,最终累计为一个值。 它们的差别是,reduce()是从左到右处理,reduceRight()则是从右到左,其他完全一样。 [1, 2, 3, 4, 5].reduce(function (a, b) {console.log(a, b);ret…...
登录校验-Filter
上一篇介绍完了基础应用和细节,现在来完成登录校验功能基本流程: 要进入后台管理系统,必须完成登录操作,此时就需要访问登录接口Login。登录成功服务端会生成一个JWT令牌,并且返回给前端,前端会将JWT令牌存…...
C C++ Java python 分别写出不同表白girlfriend的爱心动态代码实现
C `` #include <stdio.h> #include <stdlib.h> #include <windows.h> void heart_animation() {int i, j, k; for (i = 1; i <= 6; i++) {for (j = -3; j <= 3; j++) {for (k = -4; k <= 4; k++) {if (abs(j) + abs(k) < i * 2) {printf(“I”)…...
ThreeJS-投影、投影模糊(十七)
无投影: 完整的代码: <template> <div id"three_div"></div> </template> <script> import * as THREE from "three"; import { OrbitControls } from "three/examples/jsm/controls/Or…...
蓝桥杯赛前冲刺-枚举暴力和排序专题1(包含历年蓝桥杯真题和AC代码)
目录 连号区间数(第四届蓝桥杯省赛CB组,第四届蓝桥杯省赛JAVAB组) 递增三元组(第九届蓝桥杯省赛CB组,第九届蓝桥杯省赛JAVAB组) 特别数的和(第十届蓝桥杯省赛CB组,第十届蓝桥杯省赛JAVAB组) 错误票据&a…...
Github库中的Languages显示与修改
目录 前言 【.gitattributes】文件 修改GitHub语言 前言 上传一个项目到GitHub时,发现显示的语言并非是自己项目所示的语言,这样的情况是经常发生的,为了能到达自己所需快速检索,或者是外部访问者能很好的搜索我们的项目&#…...
RocketMQ消息高可靠详解
文章目录 消息同步策略殊途同归同步基于offset而不是消息本身刷盘策略RocketMQ broker服务端以组为单位提供服务的,拥有着一样的brokerName则认为是一个组。其中brokerId=0的就是master,大于0的则为slave。 消息同步策略 master和slave都可以提供读服务,但是只有master允许…...
【python设计模式】4、建造者模式
哲学思想: 建造者模式的哲学思想是将复杂对象的创建过程分解成多个简单的步骤,并将这些步骤分别封装在一个独立的建造者类中。然后,我们可以使用一个指挥者类来控制建造者的调用顺序,以便在每个步骤完成后正确地构建复杂对象。 …...
【全网独家】华为OD机试Golang解题 - 机智的外卖员
华为Od必看系列 华为OD机试 全流程解析+经验分享,题型分享,防作弊指南华为od机试,独家整理 已参加机试人员的实战技巧华为od 2023 | 什么是华为od,od 薪资待遇,od机试题清单华为OD机试真题大全,用 Python 解华为机试题 | 机试宝典使用说明 如果想要在华为od机试中获取高分…...
Sentinel滑动时间窗限流算法原理及源码解析(中)
文章目录 MetricBucketMetricEvent数据统计的维度WindowWrap样本窗口实例 范型T为MetricBucket windowLengthInMs 样本窗口长度 windowStart 样本窗口的起始时间戳 value 当前样本窗口的统计数据 其类型为MetricBucket MetricBucket MetricEvent数据统计的维度 1、首先计算27t位…...
【OpenLayers】VUE+OpenLayers+ElementUI加载WMS地图服务
【OpenLayers】VUEOpenLayersElementUI加载WMS地图服务准备工作安装vue创建vue项目安装OpenLayers安装ElementUI加载wms地图服务准备工作 需要安装好nodejs,nodejs下载地址,下载对应的版本向导式安装即可。 安装完成后,控制台输入node -v&a…...
linux 命名管道 mkfifo
专栏内容:linux下并发编程个人主页:我的主页座右铭:天行健,君子以自强不息;地势坤,君子以厚德载物.目录 前言 概述 原理介绍 接口说明 代码演示 结尾 前言 本专栏主要分享linux下并发编程…...
Redis(主从复制、哨兵模式、集群)概述及部署
目录 1.redis高可用 2.redis持久化 1.Redis 提供两种方式进行持久化: 2.RDB 持久化 3.AOF持久化 4.RDB和AOF的优缺点 5.Redis 性能管理 3.redis主从复制 1.Redis主从复制的概念 2.Redis主从复制的作用 3.Redis主从复制的搭建 4.redis哨兵模式 1.哨兵模式…...
windows下软件包安装工具之Scoop安装与使用
Scoop介绍 Scoop是Windows的命令行程序安装器。 Scoop从命令行安装程序,及其容易。它有如下特点: 消除权限弹出窗口隐藏 GUI 向导样式的安装程序防止安装大量程序的 PATH 污染避免安装和卸载程序的意外副作用自动查找并安装依赖项自行执行所有额外的设…...
九龙证券|人工智能+国产软件+智慧城市概念股火了,欧洲资管巨头大举抄底
近一周组织调研个股数量有130多只,迈瑞医疗成为调研组织数量最多的股票。 证券时报数据宝统计,近一周组织调研公司数量有130多家。从调研组织类型来看,证券公司调研相对最广泛,调研80多家公司。 迈瑞医疗获超500家组织调研 迈瑞…...
Nacos下载安装与配置(windows)
一、Nacos下载 官网地址:home (nacos.io) 点击前往Github,跳转至Github下载页面。 点击Tags,跳转至版本选择页面,此处选择2.2.0版本。 点击nacos-server-2.2.0.zip,进行下载。 二、Nacos安装 将下载的压缩包解压至需…...
QT学习笔记(语音识别项目 )
语音识别项目 我们知道 AI 智能音箱已经在我们生活中不少见,也许我们都玩过,智能化非常高,功能 强大,与我们平常玩的那种蓝牙音箱,Wifi 音箱有很大的区别,AI 智能在哪里呢?语音识别技 术和云端…...
Vulnhub:DC-4靶机
kali:192.168.111.111 靶机:192.168.111.251 信息收集 端口扫描 nmap -A -v -sV -T5 -p- --scripthttp-enum 192.168.111.251 访问目标网站发现需要登录 使用账号admin爆破出密码:happy 登陆后抓包执行反弹shell 提权 在/home/jim/backu…...
Java 语言特性(面试系列2)
一、SQL 基础 1. 复杂查询 (1)连接查询(JOIN) 内连接(INNER JOIN):返回两表匹配的记录。 SELECT e.name, d.dept_name FROM employees e INNER JOIN departments d ON e.dept_id d.dept_id; 左…...
Springcloud:Eureka 高可用集群搭建实战(服务注册与发现的底层原理与避坑指南)
引言:为什么 Eureka 依然是存量系统的核心? 尽管 Nacos 等新注册中心崛起,但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制,是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...
【AI学习】三、AI算法中的向量
在人工智能(AI)算法中,向量(Vector)是一种将现实世界中的数据(如图像、文本、音频等)转化为计算机可处理的数值型特征表示的工具。它是连接人类认知(如语义、视觉特征)与…...
重启Eureka集群中的节点,对已经注册的服务有什么影响
先看答案,如果正确地操作,重启Eureka集群中的节点,对已经注册的服务影响非常小,甚至可以做到无感知。 但如果操作不当,可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...
HarmonyOS运动开发:如何用mpchart绘制运动配速图表
##鸿蒙核心技术##运动开发##Sensor Service Kit(传感器服务)# 前言 在运动类应用中,运动数据的可视化是提升用户体验的重要环节。通过直观的图表展示运动过程中的关键数据,如配速、距离、卡路里消耗等,用户可以更清晰…...
十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建
【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...
Python实现简单音频数据压缩与解压算法
Python实现简单音频数据压缩与解压算法 引言 在音频数据处理中,压缩算法是降低存储成本和传输效率的关键技术。Python作为一门灵活且功能强大的编程语言,提供了丰富的库和工具来实现音频数据的压缩与解压。本文将通过一个简单的音频数据压缩与解压算法…...
第八部分:阶段项目 6:构建 React 前端应用
现在,是时候将你学到的 React 基础知识付诸实践,构建一个简单的前端应用来模拟与后端 API 的交互了。在这个阶段,你可以先使用模拟数据,或者如果你的后端 API(阶段项目 5)已经搭建好,可以直接连…...
游戏开发中常见的战斗数值英文缩写对照表
游戏开发中常见的战斗数值英文缩写对照表 基础属性(Basic Attributes) 缩写英文全称中文释义常见使用场景HPHit Points / Health Points生命值角色生存状态MPMana Points / Magic Points魔法值技能释放资源SPStamina Points体力值动作消耗资源APAction…...
大数据驱动企业决策智能化的路径与实践
📝个人主页🌹:慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言:数据驱动的企业竞争力重构 在这个瞬息万变的商业时代,“快者胜”的竞争逻辑愈发明显。企业如何在复杂环…...
