当前位置：首页 > news >正文

Python爬虫系列(一)

news 2026/5/24 14:29:58

一、urllib

1.1 初体验

1.2 使用urllib下载网页、图片、视频等

1.3 反爬介绍

1.4 请求对象定制

1.5 get请求的quote方法

1.6 多个参数转成ascii编码

1.7 post请求

1.8 综合案例演示

一、urllib

1.1 初体验

# urllib是python默认带的，无需额外下载
import urllib.requesturl = 'http://www.baidu.com'response = urllib.request.urlopen(url)# print(type(response))
# <class 'http.client.HTTPResponse'># 读取n个字节
# content = response.read(5)
# 读取一行
# content = response.readline()
# 读取全部行
# content = response.readlines()# 读取全部并解析为utf-8字符集
content = response.read().decode('utf-8')
print(content)
# 返回url地址
print(response.geturl())
# 获取请求头
print(response.getheaders())

1.2 使用urllib下载网页、图片、视频等

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
urllib.request.urlretrieve(url_page, '自己的文章.html')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')# 下载视频
url_video = 'https://vdept3.bdstatic.com/mda-ph856bw9kuvxfq8n/360p/h264/1691552893804719248/mda-ph856bw9kuvxfq8n.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1718881046-0-0-42919dd1325bf8705f23299eec6f8cba&bcevod_channel=searchbox_feed&pd=1&cr=0&cd=0&pt=3&logid=3446619467&vid=3701907759041297688&klogid=3446619467&abtest='
urllib.request.urlretrieve(url_video, '好看视频.mp4')

1.3 反爬介绍

一些网站，我们没法直接这样获取到资源，大概率是这些网站做了反爬手段，例如上述下载视频，如果是b站视频，直接这样是下载不到的。

再举个例子：

import urllib.requesturl = 'https://www.baidu.com'response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)

我们发现访问https的百度和访问http协议的百度，我们返回的结果是不一样的。https://www.baidu.com的结果明显少了很多内容。这其实就是因为反爬的原因。为什么返回的结果很少？是因为我们提供的数据不完整。那么如何做到无差别浏览器呢？我们慢慢来~

1.4 请求对象定制

UA介绍

User Agent 中文名为用户代理，简称UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言等。

import urllib.requesturl = 'https://www.baidu.com'
# f12打开百度的network控制台，查看请求头里面携带的user-agent内容，复制过来进行伪造
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
# 请求对象定制
# 因为urlopen中不能传入字典,不能直接传入headers
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

ok，现在可以正常访问了。

这是我们遇到的第一个反爬，ua反爬！

1.5 get请求的quote方法

案例演示

我们模拟百度搜索周杰伦

import urllib.requesturl = 'https://www.baidu.com/s?wd=周杰伦'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

运行报错：

默认情况下只检索ascii码，因此需要把‘周杰伦’转换成Unicode编码，怎么转呢？

使用quote方法！

import urllib.request
# 需要提前引入
import urllib.parseparam ='周杰伦'
param = urllib.parse.quote(param)
url = 'https://www.baidu.com/s?wd=' + paramheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

此时就不在报错了，但是弹出的页面是安全验证，这又是百度的一个反爬手段！我们后续再说

1.6 多个参数转成ascii编码

当然了，我们可以把参数&参数整体作为一个参数通过quote方法转。

不过不建议，这里推荐使用urlencode方法！

import urllib.parsedata = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)print(a)

ok，我们再测试一下

import urllib.parse
import urllib.request
data = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}url = 'https://www.baidu.com/s?' + arequests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

还是遇到了这个安全验证的反爬，说明可能服务器不知道我是谁，那么试试把cookie带上呢。这个留到下面再去实现吧~

1.7 post请求

post请求传参通常不应该也不推荐拼接再url请求路径后，而是放在请求体中。

下面以百度翻译为例，介绍post请求爬虫翻译。

import json
import urllib.request
import urllib.parseurl = 'https://fanyi.baidu.com/sug'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}# 参数
data = {'kw': '玫瑰'
}
data = urllib.parse.urlencode(data).encode('utf-8')# 检查参数拼接是否正确
# print(data)request = urllib.request.Request(url=url, data=data, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')# {"errno":0,"data":[{"k":"\u73ab\u7470","v":"rose; [\u690d] rugosa rose; rosa rugosa; hep"},{"k":"\u73ab\u7470\u56ed","v":"rosary; rosarium; [\u7535\u5f71]Roseland"},{"k":"\u73ab\u7470\u6728","v":"rose wood"},{"k":"\u73ab\u7470\u679c","v":"fructus rosae"},{"k":"\u73ab\u7470\u6c34","v":"[\u533b] aquae rosae; rose water"}],"logid":65895191}
# print(content)# 字符串 -> json对象
obj = json.loads(content)
# {'errno': 0, 'data': [{'k': '玫瑰', 'v': 'rose; [植] rugosa rose; rosa rugosa; hep'}, {'k': '玫瑰园', 'v': 'rosary; rosarium; [电影]Roseland'}, {'k': '玫瑰木', 'v': 'rose wood'}, {'k': '玫瑰果', 'v': 'fructus rosae'}, {'k': '玫瑰水', 'v': '[医] aquae rosae; rose water'}], 'logid': 148055707}
print(obj)

1.8 综合案例演示

// todo 🫢

Python爬虫系列(一)

目录一、urllib 1.1 初体验 1.2 使用urllib下载网页、图片、视频等 1.3 反爬介绍 1.4 请求对象定制 1.5 get请求的quote方法 1.6 多个参数转成ascii编码 1.7 post请求 1.8 综合案例演示一、urllib 1.1 初体验 # urllib是python默认带的，无需额外下载 i…...

编程日记 2024/11/5 23:34:20

# vim那些事...... vim删除文件全部内容

vim那些事… vim删除文件全部内容 1、在 Vim 中删除整个文件的内容，可以使用以下命令： 1）打开 Vim，并编辑你想要清空的文件。 2）按 Esc 确保你不在插入模式，而在命令模式。 3）输入 gg 跳转到…...

编程日记 2024/11/5 23:33:18

Selinux及防火墙

一，selinux简介： SELinux（Security-Enhanced Linux）是一个Linux内核安全模块，旨在提供强制访问控制（MAC）机制，以增强系统的安全性。由美国国家安全局（NSA）开…...

编程日记 2024/11/5 23:32:17

业绩代码查询实战——php

一、一级代码显示职员 foreach($data_职员信息 as $key > $value){//$where_查询分类$where_查询通用;//$dat分类one $业绩提成->where($where_查询分类)->order("CreateDate desc")->select();if($value[haschildname]0 && $value[key] !"…...

编程日记 2024/11/5 23:31:16

内网穿透技术选型PPTP（点对点隧道协议）和 FRP（Fast Reverse Proxy）

PPTP（点对点隧道协议）和 FRP（Fast Reverse Proxy）是两种实现内网穿透的技术，但它们的工作原理、使用场景和特点有很大区别。以下是它们的详细比较： PPTP（Point-to-Point Tunneling Protocol&am…...

编程日记 2024/11/5 23:29:14

信号与噪声分析——第三节：随机过程的统计特征

随机过程的定义： 随机过程是一种数学模型，用来描述系统或现象在时间或者空间上随之变化的不确定性。一个随机过程的数字特征 1.数学期望（统计平均值）： 表示为数学期望是随机过程在时间 t 上的平均值，通常…...

编程日记 2024/11/5 23:28:12

nginx（四）：如何在 Nginx 中配置以保留真实 IP 地址

如何在 Nginx 中配置以保留真实 IP 地址 1、概述2、nginx配置示例2.1、配置说明2.2、客户端获取真实IP2.2.1、代码说明 3、插曲4、总结大家好，我是欧阳方超，可以我的公众号“欧阳方超”，后续内容将在公众号首发。 1、概述当使用nginx作为…...

编程日记 2024/11/5 23:26:10

docker对nginx.conf进行修改后页面无变化或页面报错

可能是因为没有重启nginx容器可以执行 docker restart nginx 重启nginx试试引入了其他的配置文件本人安装的是docker默认的nginx，自带了一个default.conf的配置文件，并且在nginx.conf中还引入了这个文件，后面我还对nginx.conf添加了一个…...

编程日记 2024/11/5 23:25:09

SpringCloudGateway — 网关路由

Spring Cloud Gateway 是 Spring 提供的一个高效、灵活的 API 网关解决方案，基于 Spring 5、Spring Boot 2 和 Project Reactor，具有高并发和低延迟的特点。它用于在微服务架构中对外提供统一的入口，处理请求的路由、过滤、负载均衡等功能。 …...

编程日记 2024/11/5 23:23:05

docker pull 拉取镜像失败，使用Docker离线包

1、登录并注册Github，然后在Github中搜索并打开“wukongdaily/DockerTarBuilder” 项目，在该项目主页点击“Fork”。然后点 “Create Fork”，将项目创建到自己的Github主页。 2、接着在自己创建过来的这个项目中点击“Actions” 3、然后…...

编程日记 2024/11/5 23:22:03

轻松理解操作系统 - 轻松了解 inode 是如何管理文件的

Linux 由于其开源、比较稳定等特点统治了服务端领域。也因此，学习Linux 系统相关知识在后端开发等岗位中变得越来越重要，甚至可以说是必不可少的。因为它的广泛应用，所以在程序员的日常工作和面试中，它都是经常出现的。它的开源特…...

编程日记 2024/11/5 23:20:01

go中Println和Printf的区别

Don’t worry , just coding! 内耗与overthinking只会削弱你的精力，虚度你的光阴，每天迈出一小步，回头时发现已经走了很远。 go中Println和Printf的区别 package mainimport ( "fmt" )//TIP To run your code, right-click the c…...

编程日记 2024/11/5 23:19:00

C++现代教程七之模块

优点编译时间减少：模块消除了重复解析和编译头文件的需要，从而显著减少了编译时间。特别是在大型项目中，这一点尤为重要。更好的封装性：模块允许更严格的封装，可以明确地控制哪些符号对外可见。这有助于减少命名冲突和…...

编程日记 2024/11/5 23:17:59

AVLTree

1.AVL树的概念二叉搜索树虽然可以提高查找的效率，但是如果数据有序或者接近有序，二叉搜索树将退化为单支树，查找元素相当于在顺序表中搜索元素，效率低下。为了解决该问题，于是就有了AVLTree。即当向二叉搜索树中插入…...

编程日记 2024/11/5 23:16:58

1. （1）. package liujiawei;public class Phone {String brand;double price;public void call(){System.out.println("手机打电话");}public void play(){System.out.println("手机打游戏");} } public class phonetest {public…...

编程日记 2024/11/5 23:13:54

SpringBoot+Thymeleaf电商系统

> 这是一个基于SpringBootThymeleafBootstrap实现的简单电商系统。 > 实现了用户浏览、添加购物车、商品管理等功能，并支持响应式布局。 > 本项目适合JAVA初学者作为入门学习项目一、部分界面演示二、技术栈技术栈中文描述Spring Boot快速开发框架…...

编程日记 2024/11/5 23:11:52

了解数据库并发产生的问题

在数据库管理系统中，并发控制是一个至关重要的方面。随着多个用户或进程同时访问和修改数据库中的数据，如果没有适当的并发控制机制，就可能导致数据不一致、丢失更新、脏读、不可重复读和幻读等问题。在单用户系统中，数据库操作是…...

编程日记 2024/11/5 23:09:50

openstack之guardian介绍与实例创建过程

运行特征采集模块：扩展Ceilometer，采集存储网、业务网连通性、nova目录是否可读写； 收集模块：将采集到的数据存储到数据库中； 分析模块：根据采集的结果，分析各节点状态，并进行反向检…...

编程日记 2024/11/5 23:07:45

新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大

新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大时间：2023年机构:北京邮电大学发表在：IEEE TRANSACTIONS ON MULTIMEDIA, VOL. 25, 2023 代码源码地址： pytorch版本：https://github.com/dyh…...

编程日记 2024/11/5 23:06:43

SAP ABAP开发学习——RFC

目录 RFC接口定义调用过程 RFC的通信 RFC通信情况 RFC接口系统 RFC的通信模式 RFC版本 RFC调用方式 Web Service接口 SAP创建Web Service示例远程目标的维护创建远程目标外部系统访问设置 RFC的调用 RFC接口定义调用过程 RFC的通信 RFC通信情况 RFC接…...

编程日记 2024/11/5 23:05:42

机器学习研究代码可复现性：从依赖管理到工程化实践

1. 项目概述：为什么机器学习研究需要“工程化”？如果你在机器学习领域摸爬滚打过几年，大概率经历过这样的场景：兴冲冲地打开一篇顶会论文的GitHub仓库，准备复现其惊艳的实验结果，却发现README里只有一句“运…...

编程新知 2026/5/24 13:24:10

2026年AI论文工具盘点：12款神器助你高效完成初稿生成、排版和降AI率

随着 AI 技术的持续突破，2026 年的论文写作工具市场已进入“智能化、精细化、合规化”的新阶段。从本科生的课程论文到研究生的学位论文，再到科研人员的期刊投稿，AI 工具正在为各类学术写作需求提供深度支持。无论是选题构思、文献检索&#…...

编程新知 2026/5/24 12:59:10

UnityExplorer自由视角相机完整指南：如何突破游戏视角限制的终极解决方案

UnityExplorer自由视角相机完整指南：如何突破游戏视角限制的终极解决方案【免费下载链接】UnityExplorer An in-game UI for exploring, debugging and modifying IL2CPP and Mono Unity games. 项目地址: https://gitcode.com/gh_mirrors/un/UnityExplorer …...

编程新知 2026/5/24 12:42:31

告别卡顿与黑边：D2DX让你的《暗黑破坏神2》在现代PC上完美重生

告别卡顿与黑边：D2DX让你的《暗黑破坏神2》在现代PC上完美重生【免费下载链接】d2dx D2DX is a complete solution to make Diablo II run well on modern PCs, with high fps and better resolutions. 项目地址: https://gitcode.com/gh_mirrors/d2/d2dx 你…...

编程新知 2026/5/24 12:40:29

Windows与Office智能激活终极指南：KMS_VL_ALL_AIO完整解决方案

Windows与Office智能激活终极指南：KMS_VL_ALL_AIO完整解决方案【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 在数字化工作环境中，稳定可靠的操作系统和办公软件是高效工…...

编程新知 2026/5/24 12:27:42

终极指南：如何用Awoo Installer一站式解决Switch游戏安装兼容性问题

终极指南：如何用Awoo Installer一站式解决Switch游戏安装兼容性问题【免费下载链接】Awoo-Installer A No-Bullshit NSP, NSZ, XCI, and XCZ Installer for Nintendo Switch 项目地址: https://gitcode.com/gh_mirrors/aw/Awoo-Installer 还在为Switch游戏安…...

编程新知 2026/5/24 11:20:14

PXE启动Ubuntu时，你的initrd.img配置对了吗？一个参数让无盘启动快3倍

PXE启动Ubuntu时initrd.img的深度调优指南当你在凌晨三点盯着PXE启动进度条缓慢爬升时，是否想过那个看似简单的initrd.img文件里藏着多少性能玄机？作为运维老兵的我在经历了数十次无盘系统部署后，发现90%的PXE启动性能问题都源于initrd配置不…...

编程新知 2026/5/24 11:07:26

如何用DeepL Chrome翻译插件打破语言障碍：从安装到精通的完整指南

如何用DeepL Chrome翻译插件打破语言障碍：从安装到精通的完整指南【免费下载链接】deepl-chrome-extension A DeepL Translator Chrome extension 项目地址: https://gitcode.com/gh_mirrors/de/deepl-chrome-extension 你是否经常遇到需要阅读外文网页却苦…...

编程新知 2026/5/24 10:54:35

Oracle误操作先别慌：Flashback、UNDO、回收站、Redo 与归档日志一次讲清楚 2026-05-24

1、背景说明本文整理 Oracle 生产环境中误操作恢复相关的核心知识点，包括：Flashback Database Flashback Query UNDO Recycle Bin FRA 快速恢复区 Redo Archived Redo Log 归档日志适用于 Oracle 单实例、RAC，以及 CDB/PDB 多租户环境。在 CD…...

编程新知 2026/5/24 10:43:49

实战揭秘：3步解锁你的微信聊天记忆宝库

实战揭秘：3步解锁你的微信聊天记忆宝库【免费下载链接】WechatDecrypt 微信消息解密工具项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 你是否曾因为手机丢失或更换设备，眼睁睁看着珍贵的微信聊天记录消失无踪？那些承…...

编程新知 2026/5/24 9:11:48

一、urllib

1.1 初体验

1.2 使用urllib下载网页、图片、视频等

1.3 反爬介绍

1.4 请求对象定制

1.5 get请求的quote方法

1.6 多个参数转成ascii编码

1.7 post请求

1.8 综合案例演示

相关文章：