当前位置：首页 > news >正文

Python爬虫基础重要数据类型

news 2026/4/21 2:36:41

重要数据类型

列表数据类型

在实际开发中，经常需要将一组（不只一个）数据存储起来，以便后边的代码使用。列表就是这样的一个数据结构。且列表是Python中最基本也是最常用的数据结构之一。
什么是数据结构呢？
通俗来讲，可以将数据结构当做是某种容器，该容器是用来装载或者存储数据的。不同的数据结构决定了对数据不同的组织方式。
- 那么当数据被装载或者存储到了某个数据结构中后，那么就可以基于该数据结构的特性对数据进行不同形式的处理和运算。
列表的创建方式
- 创建一个列表，只要把逗号分隔的不同的数据元素使用方括号括起来即可。列表内的元素，可以是其它任意类型的数据，可多层嵌套列表，元素个数无限制。
- ```
alist = [1,2,3,4,5]
items = [1,'spider',12.34]
#列表中可以存储任意类型的数据
```
列表元素：
- 存储在列表数据结构中的每一个数据被称为列表元素，简称元素。
列表索引：
- 列表中的每个元素都被分配一个数字作为索引，用来表示该元素在列表内所排在的位置。第一个元素的索引是0，第二个索引是1，依此类推。
列表特性：
- Python的列表是一个有序可重复的元素集合，可嵌套、迭代、修改、分片、追加、删除，成员判断。
访问列表内的元素
- 列表从0开始为它的每一个元素顺序创建下标索引，直到总长度减一。要访问它的某个元素，以方括号加下标值的方式即可。注意要确保索引不越界，一旦访问的索引超过范围，会抛出异常。所以，一定要记得最后一个元素的索引是len(list)-1。
- ```
alist = [1,12.3,'dme']  
print(alist[2])  #'dme'    
print(alist[0:2]) #[1, 12]    
print(alist[6]) #使用索引和切片的时候，不可以访问超出索引范围的元素   
```

修改元素的值

直接对元素进行重新赋值

alist = [1,12.3,'dme']    
alist[1] = 100.123    
print(alist)

删除元素

使用del语句或者remove(),pop()方法删除指定的元素。

alist = [1,12.3,'dme']    
# del alist[0] #删除下标为0的列表元素    
# alist.remove('dme') 
#删除列表中dme这个列表元素    
# alist.pop() 
#默认情况下pop会把列表中最后一个元素删除         
alist.pop(2) #将列表中下标为2的元素进行删除
print(alist)

切片
- 切片指的是对序列进行截取，选取序列中的某一段。
- 切片的语法是： list[start:end]
- ```
 #同字符串的切片机制一样   
```
- 以冒号分割索引，start代表起点索引，end代表结束点索引。省略start表示以0开始，省略end表示到列表的结尾。注意，区间是左闭右开的！也就是说[1:4]会截取列表的索引为1/2/3的3个元素，不会截取索引为4的元素。分片不会修改原有的列表，可以将结果保存到新的变量，因此切片也是一种安全操作，常被用来复制一个列表，例如newlist = lis[:]。
- 切片过程中还可以设置步长，以第二个冒号分割，例如list[3:9:2]，表示每隔多少距离取一个元素。

列表的内置方法

alist = ['dme',"18","99.5",'北京']#将列表转换成字符串  ret = '-'.join(alist) #将列表中的每一个列表元素根据-为间隔进行拼接，返回字符串结果  print(ret)    #如何将字符串转换成列表  s = 'hello-name-dme-age'  ret = s.split('-')  print(ret)    alist = [3,8,5,7,6,2,1]  alist.sort() #对列表元素进行排序  print(alist)    a = [1,2,3]  a.append('dme') #向列表尾部添加一个元素  print(a)    a1 = [1,2,3]  a1.insert(1,999) #向列表下标为1的位置添加一个元素  print(a1)

元组数据类型

用方括号括起来的是列表，那么用圆括号括起来的就是元组。
元组也是序列结构，但是是一种不可变序列，你可以简单的理解为内容不可变的列表。除了在内部元素不可修改的区别外，元组和列表的用法差不多。
```
 t = (1,2,3,4,5)
```
元组与列表相同的操作：
- 使用方括号加下标访问元素
- 切片（形成新元组对象）
- count()/index()
- len()/max()/min()
元组中不允许的操作，确切的说是元组没有的功能：
- 修改、新增元素
删除某个元素（但可以删除整个元组）
所有会对元组内部元素发生修改动作的方法。例如，元组没有remove，append，pop等方法。

字典数据类型

字典的实现机制：
- Python的字典数据类型是基于hash散列算法实现的，采用键值对(key:value)的形式，根据key的值计算value的地址，具有非常快的查取和插入速度。
字典特性：
- 字典包含的元素个数不限，值的类型可以是任何数据类型！但是字典的key必须是不可变的对象，例如整数、字符串、bytes和元组，最常见的还是将字符串作为key。列表、字典、集合等就不可以作为key。同时，同一个字典内的key必须是唯一的，但值则不必。
- 注意：从Python3.6开始，字典是有序的！它将保持元素插入时的先后顺序！请务必清楚！
创建字典
- 字典的每个键值对用冒号(:)分割，每个对之间用逗号(,)分割，整个字典包括在花括号({})中，例如：
- d = {key1 : value1, key2 : value2 }

   #键值对：key : value    #key：只能使用不可变类型的数据充当，通常使用字符串    #value：任意数据类型的值充当    #字典中无法存储重复的键值对    dict_1 = {'name':'dme','age':18,'score':100,'age':18} #注意：不要在字段中存储相同的key，value可以相同    dict_2 = {'name':'dme','age':18,'age':20}   print(dict_2)

访问字典

虽然现在的字典在访问时有序了，但字典依然是集合类型，不是序列类型，因此没有索引下标的概念，更没有切片的说法。但与list类似的地方是，字典采用把相应的键放入方括号内获取对应值的方式取值。

 d = {'name':'dme','age':20,"scores":[100,120,99]}    #根据key访问对应的value值    print(d['name'],d['scores']) #依次访问name和scores对应的value值    print(d.get('name')) #通过get使用对应的key访问对应的value值       #注意：使用[]访问不存在的key对应的value值程序会报错    # print(d['adress']) #程序报错        #注意：使用get访问不存在的key程序不会报错，但是会返回None这个空值    print(d.get('address'))

添加和修改

增加就是往字典插入新的键值对，修改就是给原有的键赋予新的值。由于一个key只能对应一个值，所以，多次对一个key赋值，后面的值会把前面的值冲掉。

d = {'name':'dme','age':20,"scores":[100,120,99]}      
d['name'] = 'jay' 
#给存在的key修改对应的value值  
d['address'] = 'Beijing' 
#给一个不存在的key赋值表示新增键值对  
del d['age'] #删除age键值对  
print(d)

删除字典元素、清空字典和删除字典
- 使用del关键字删除字典元素或者字典本身，使用字典的clear()方法清空字典。

   d = {'name':'dme','age':20,"scores":[100,120,99],'name':'dme'}del d['name']print(d)d = {'name':'dme','age':20,"scores":[100,120,99],' name':'dme'}del dprint(d)d = {'name':'dme','age':20,"scores":[100,120,99],'name':'dme'}d.clear()print(d)

字典的重要方法

d = {'name':'dme','age':20,"scores":[100,120,99]}
print(d.keys()) 
#返回字典中所有的key
print(d.values()) 
#返回字典中所有的value
print(d.items()) 
#返回字典中所有的键值对

bytes字节类型/二进制类型

在Python3以后，字符串和bytes类型彻底分开了。字符串是以字符为单位进行处理的，bytes类型是以字节为单位处理的。
bytes数据类型在所有的操作和使用甚至内置方法上和字符串数据类型基本一样，也是不可变的序列对象。
作用
- bytes对象只负责以二进制字节序列的形式记录所需记录的对象。Python3中，bytes通常用于网络数据传输、二进制图片和文件的保存等等
创建方式

msg = b'hello' 
#创建了一个二进制类型的变量，存储的是hello二进制的数据
#将msg二进制类型的数据转换成字符串
s_msg = msg.decode()
print(s_msg)
#字符串转二进制类型
new_msg = s_msg.encode()
print(new_msg)
#字符串转二进制msg = '你好吗？'
#使用gbk的编码将中文的字符串编码成二进制的形式byte_msg = msg.encode(encoding='gbk')
print(byte_msg)
#二进制转字符串:使用gbk对二进制进行解码，还原成中文的字符串形式
ret = byte_msg.decode(encoding='gbk')
print(ret)

set集合

特性
- set集合是一个无序不重复元素的容器，集合数据类型的核心在于自动去重。
创建方式
- 集合使用大括号{}框定元素，并以逗号进行分隔。但是注意：如果要创建一个空集合，必须用 set() 而不是 {} ，因为后者创建的是一个空字典。集合除了在形式上最外层用的也是花括号外，其它的和字典没有一毛钱关系。

s = {1,2,3,'dme',99.9,1,2,3}
s = set()
print(s)

注意：
- 集合既不支持下标索引也不支持字典那样的通过键获取值。
作用
- 集合数据类型属于Python内置的数据类型，但不被重视，在很多书籍中甚至都看不到一点介绍。其实，集合是一种非常有用的数据结构，它的去重和集合运算是其它内置类型都不具备的功能，在很多场合有着非常重要的作用，比如网络爬虫。
- 我们都知道爬虫需要发散链接，一个页面连着另一个页面，不断爬取所有的超级链接，才能把整个站点爬取下来。然而在成千上万个页面链接中，有很大一部分可能是重复的链接或者循环互链，如果不对链接进行去重处理，那么爬虫要么陷入死循环内，要么就是出现错误。这个时候可以用集合的去重功能，保留一个曾经爬过页面的不重复的元素集合，每爬一个新链接，看看集合里是否曾经爬过，没有就开始爬，并将链接加入集合，爬过就忽略当前链接。在这里，用集合远比用列表或者字典要来得高效、节省得多。
感谢大伙观看，别忘了三连支持一下

Python爬虫基础重要数据类型

重要数据类型列表数据类型在实际开发中，经常需要将一组（不只一个）数据存储起来，以便后边的代码使用。列表就是这样的一个数据结构。且列表是Python中最基本也是最常用的数据结构之一。什么是数据结构呢？通俗来讲&a…...

编程日记 2025/2/24 16:35:23

乐享数科：供应链金融—三个不同阶段的融资模式

供应链金融是与产业链紧密结合的融资模式，它主要体现在订单采购、存货保管、销售回款这三个不同的业务阶段，并针对这些阶段提供了相应的金融服务。以下是这三个阶段中主要的融资模式及其特点： 供应链金融融资模式主要分为以下几种&#xff1…...

编程日记 2025/2/24 16:34:21

【AI】openEuler 22.03 LTS SP4安装 docker NVIDIA Container Toolkit

NVIDIA Container Toolkit 打开网址 Unsupported distribution or misconfigured repository settings | NVIDIA Container Toolkit 为方便离线安装，先下载过来 wget https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo mk…...

编程日记 2025/2/24 16:33:17

【2025全网首发B站教程】YOLOv12训练数据集构建：标签格式转换-划分-YAML 配置避坑指南 | 小白也能轻松玩转目标检测！

【2025全站首发】YOLOv12训练数据集构建：标签格式转换-划分-YAML 配置避坑指南 | 小白也能轻松玩转目标检测！ 文章目录 1. 数据集准备1.1 标签格式转换1.2 数据集划分1.3 yaml配置文件创建 2. 训练验证 1. 数据集准备示例数据集下载链接：P…...

编程日记 2025/2/24 16:31:13

设计模式教程：中介者模式（Mediator Pattern）

中介者模式是一种行为型设计模式，它用于减少对象之间的直接依赖关系。通过引入一个中介者对象，所有对象的交互都通过中介者进行，而不是直接相互通信。这种模式的主要目的是减少对象之间的耦合，提升系统的灵活性和可维护性。 1. 定…...

编程日记 2025/2/24 16:30:10

编写dockercompose脚本，管理redis，activemq，mysql5.7

编写dockercompose脚本，管理redis，activemq，mysql5.7,mysql的root密码设置Duke2007，redis密码设置duke0591 Docker Compose 多服务编排脚本（安全增强版） yaml 复制 services: # # MySQL 5.7 服务配置 #…...

编程日记 2025/2/24 16:27:00

【编程语言】委托与函数指针

委托与函数指针的相似之处： 指向方法：C# 的委托和 C 的函数指针都可以用来指向一个方法或函数。调用方法：它们都可以通过引用（委托或函数指针）来调用指向的方法。委托与函数指针的主要区别： 类型安全&am…...

编程日记 2025/2/24 16:20:40

基于vue和微信小程序的校园自助打印系统（springboot论文源码调试讲解）

第3章系统设计 3.1系统功能结构设计本系统的结构分为管理员和用户、店长。本系统的功能结构图如下图3.1所示： 图3.1系统功能结构图 3.2数据库设计本系统为小程序类的预约平台，所以对信息的安全和稳定要求非常高。为了解决本问题，采用前端…...

编程日记 2025/2/24 16:12:27

数字后端实现之Innovus中open net原因解析及解决方案

数字IC后端设计实现Innovus中我们经常会碰到如下的WARNING警告信息。这个log是在route或ECO Route阶段报的。这个WARNING必须要看，因为这里是报告当前设计存在open的net，即某些pin只有逻辑连接，而没有实际的物理连接。这里正常工具应该报ERR…...

编程日记 2025/2/24 16:11:25

MATLAB基础学习相关知识

MATLAB安装参考：抖音-记录美好生活 MATLAB基础知识学习参考：【1小时Matlab速成教程-哔哩哔哩】 https://b23.tv/CnvHtO3 第1部分：变量定义和基本运算生成矩阵： % 生成矩阵% 直接法% ,表示行 ;表示列 a [1,2,3;4,5,6;7,8,9];%…...

编程日记 2025/2/24 16:10:24

Mac系统下使用Docker快速部署MaxKB：打造本地知识库问答系统

随着大语言模型的广泛应用，知识库问答系统逐渐成为提升工作效率和个人学习的有力工具。MaxKB是一款基于LLM（Large Language Model）大语言模型的知识库问答系统，支持多模型对接、文档上传和自动爬取等功能。本文将详细介绍如何在Ma…...

编程日记 2025/2/24 16:08:21

RT-Thread+STM32L475VET6——icm20608传感器

文章目录前言一、板载资源二、具体步骤1.打开CubeMX进行配置1.1 使用外部高速时钟，并修改时钟树1.2 打开I2C3，参数默认即可(I2C根据自己需求调整）1.3 打开串口1.4 生成工程 2. 添加icm20608软件包3. 使能传感器，打开动态链接库4.…...

编程日记 2025/2/24 16:06:16

【信息系统项目管理师-案例真题】2022下半年案例分析答案和详解

更多内容请见：备考信息系统项目管理师-专栏介绍和目录文章目录试题一（24分）【问题1】（6分）【问题2】（10分）【问题3】（8分）试题二（26分）【问题1】（8分）【问题2】（8分）【问题3】（4分）【问题4】（6分）试题三（25分）【问题1】（12分）【问题2】（7分）【问题…...

编程日记 2025/2/24 16:04:13

3D机器视觉工业3D图像格式常见的格式

工业3D图像格式主要用于存储和交换三维模型数据，常见的格式包括： STL (Stereolithography) 用途: 3D打印和快速成型。特点: 存储三角面片信息，文件较小，但不包含颜色和材质数据。STEP (Standard for the Exchange of Product Data) 用途: CAD数据交换。特点: 支持几何、拓…...

编程日记 2025/2/24 16:03:10

SkyWalking集成Kafka实现日志异步采集经验总结

SkyWalking日志异步采集架构【重点知识】 1、【Agent】kafka-reporter-plugin-x.x.x.jar包放plugins目录后必走kafka（kafka没有正确配置就会报错） 2、【Agent】异步如不开启数据压缩，日志数据较大，pod多、业务大时容易造成网络…...

编程日记 2025/2/24 16:02:07

Java知识点——IO流

目录一、IO流基础概念二、常见的IO流类三、字符流 1.字符输入流（Reader）与字符输出流（Writer） 2.常用实现类 3.实例四、字节流 1.字节输入流（InputStream）与字节输出流（OutputStrea…...

编程日记 2025/2/24 16:00:04

uniapp h5端和app端使用 turn.js

前提:添加页后,添加页与当前页会重叠在一起,不知道为什么,没有找到解决办法 1.h5端 <template><view class"container"><view id"flipbook"><view class"page page1">Page 1</view><view class"page pag…...

编程日记 2025/2/24 15:59:02

使用大语言模型（Deepseek）构建一个基于 SQL 数据的问答系统

GitHub代码仓库架构从高层次来看，这些系统的步骤如下： 将问题转换为SQL查询：模型将用户输入转换为SQL查询。执行SQL查询：执行查询。回答问题：模型根据查询结果响应用户输入。样本数据下载样本数据&#xf…...

编程日记 2025/2/24 15:55:58

时间转换（acwing）c/c++/java/python

读取一个整数值，它是工厂中某个事件的持续时间（以秒为单位），请你将其转换为小时：分钟：秒来表示。输入格式输入一个整数 NN。输出格式输出转换后的时间表示，格式为 hours:minutes:second…...

编程日记 2025/2/24 15:53:55

连接Sql Server时报错无法通过使用安全套接字层加密与 SQL Server 建立安全连接

文章目录一. 前言二. 解决方案方案1方案2 三. 总结一. 前言在《数据库原理》这门课的实验上，需要使用SQL Server，然后使用jdbc连接sql server突然报错为：SQLServerException: “Encrypt”属性设置为“true”且 “trustServerCertific…...

编程日记 2025/2/24 15:51:52

通用ADC芯片测试：其TSSOP16、QFN16封装与德诺嘉电子芯片测试座角色应用

在车规级电子（如车载传感器、电池管理系统）与医疗电子（如便携式诊断设备、生命体征监测仪器）领域，通用ADC（模数转换）芯片作为模拟信号与数字信号的“桥梁”，其性能直接决定设备的数据…...

编程新知 2026/4/21 2:26:56

SCI 论文 Abstract 中 100 + 学术句式（2）

摘要上一篇我们拆解了 SCI 摘要 5 步黄金结构的前 3 个核心场景，整理了 30 个学术万能句式，解决了摘要开头、缺口、创新点的写作痛点。本篇作为系列收尾，聚焦摘要的核心价值部分：结果呈现、价值升华、全文结构 / 展望，…...

编程新知 2026/4/21 2:22:29

League Akari：英雄联盟玩家的智能自动化工具箱，告别繁琐操作专注竞技乐趣

League Akari：英雄联盟玩家的智能自动化工具箱，告别繁琐操作专注竞技乐趣【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit …...

编程新知 2026/4/21 0:40:07

Vue Suspense 组件在 React 中，VuReact 会如何实现？

VuReact 是一个能将 Vue 3 代码编译为标准、可维护 React 代码的工具。今天就带大家直击核心：Vue 中内置的 <Suspense> 组件经过 VuReact 编译后会变成什么样的 React 代码？ 前置约定为避免示例代码冗余导致理解偏差，先明确两个小约…...

编程新知 2026/4/20 23:14:00

收藏！小白程序员必看：大语言模型入门指南，轻松掌握未来AI核心技术！

大语言模型（LLM）是生成式AI的核心，本文概述其发展历程、应用流程及构建过程。从自监督预训练到指令微调，再到人类反馈强化学习，详细介绍LLM的训练与推理阶段。同时，深入探讨预训练技术在数据、模型和训练层…...

编程新知 2026/4/20 22:01:17

5G手机信号突然变差？可能是RRC连接释放的锅，附排查思路

5G手机信号突然变差？可能是RRC连接释放的锅，附排查思路你是否遇到过这样的场景：手机明明显示5G信号满格，但刷视频却频繁缓冲，游戏延迟飙升，甚至微信消息都发不出去？这种"假信号"问题…...

编程新知 2026/4/20 21:47:04

Captain AI系统核心优势及功能支撑，对比凸显价值

在OZON跨境电商运营过程中，运营工具的选择直接影响运营效率、决策质量与成本控制。传统运营工具多存在功能单一、操作繁琐、适配性不足等问题，难以满足商家全流程运营需求。而Captain AI系统凭借其全链路整合、智能化赋能、场景化适配的独特优势&#xf…...

编程新知 2026/4/20 21:07:58

LeetCode 1024题保姆级攻略：用Python搞定视频拼接，快速排序+贪心算法实战解析

LeetCode 1024题保姆级攻略：用Python搞定视频拼接，快速排序贪心算法实战解析最近在刷LeetCode时遇到一道很有意思的题目——1024.视频拼接。这道题乍看简单，实则暗藏玄机，需要巧妙结合快速排序和贪心算法才能高效解决。作为算法爱…...

编程新知 2026/4/20 19:48:07

2026 年 UI/UX 设计师最常用的 AI 工具完整清单：从原型到代码交付

本文适合：希望用 AI 工具系统提升设计交付效率的 UI/UX 设计师、正在评估哪些 AI 能力是设计工作流必须具备的设计负责人，以及需要独立完成从原型设计到前端代码交付全流程的独立设计师和小型设计团队。 2026 年，UI/UX 设计师需要具备的 AI …...

编程新知 2026/4/20 19:02:03

Python的getattribute中间件

Python的__getattribute__中间件：深入探索属性访问的魔法在Python中，对象的属性访问看似简单，实则隐藏着强大的控制机制。__getattribute__作为属性访问的核心钩子，允许开发者拦截所有属性调用，甚至实现动态计算、权…...

编程新知 2026/4/20 18:51:50