Python爬虫系列(一)
目录
一、urllib
1.1 初体验
1.2 使用urllib下载网页、图片、视频等
1.3 反爬介绍
1.4 请求对象定制
1.5 get请求的quote方法
1.6 多个参数转成ascii编码
1.7 post请求
1.8 综合案例演示
一、urllib
1.1 初体验
# urllib是python默认带的,无需额外下载
import urllib.requesturl = 'http://www.baidu.com'response = urllib.request.urlopen(url)# print(type(response))
# <class 'http.client.HTTPResponse'># 读取n个字节
# content = response.read(5)
# 读取一行
# content = response.readline()
# 读取全部行
# content = response.readlines()# 读取全部并解析为utf-8字符集
content = response.read().decode('utf-8')
print(content)
# 返回url地址
print(response.geturl())
# 获取请求头
print(response.getheaders())
1.2 使用urllib下载网页、图片、视频等
import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
urllib.request.urlretrieve(url_page, '自己的文章.html')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')

import urllib.request# 下载网页
url_page = 'https://blog.csdn.net/YuanFudao/article/details/139655676'
# def urlretrieve(url, filename=None, reporthook=None, data=None):
#
urllib.request.urlretrieve(url_page, '自己的文章.html')# 下载图片
url_img = 'https://img2.baidu.com/it/u=3317400103,1801697482&fm=253&fmt=auto&app=138&f=JPEG?w=500&h=498'
urllib.request.urlretrieve(url=url_img, filename='人物.jpg')# 下载视频
url_video = 'https://vdept3.bdstatic.com/mda-ph856bw9kuvxfq8n/360p/h264/1691552893804719248/mda-ph856bw9kuvxfq8n.mp4?v_from_s=hkapp-haokan-nanjing&auth_key=1718881046-0-0-42919dd1325bf8705f23299eec6f8cba&bcevod_channel=searchbox_feed&pd=1&cr=0&cd=0&pt=3&logid=3446619467&vid=3701907759041297688&klogid=3446619467&abtest='
urllib.request.urlretrieve(url_video, '好看视频.mp4')

1.3 反爬介绍
一些网站,我们没法直接这样获取到资源,大概率是这些网站做了反爬手段,例如上述下载视频,如果是b站视频,直接这样是下载不到的。
再举个例子:
import urllib.requesturl = 'https://www.baidu.com'response = urllib.request.urlopen(url)
content = response.read().decode('utf-8')
print(content)

我们发现访问https的百度和访问http协议的百度,我们返回的结果是不一样的。https://www.baidu.com的结果明显少了很多内容。这其实就是因为反爬的原因。 为什么返回的结果很少?是因为我们提供的数据不完整。那么如何做到无差别浏览器呢?我们慢慢来~
1.4 请求对象定制
UA介绍
User Agent 中文名为用户代理,简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言等。
import urllib.requesturl = 'https://www.baidu.com'
# f12打开百度的network控制台,查看请求头里面携带的user-agent内容,复制过来进行伪造
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}
# 请求对象定制
# 因为urlopen中不能传入字典,不能直接传入headers
request = urllib.request.Request(url=url, headers=headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
print(content)

ok,现在可以正常访问了。
这是我们遇到的第一个反爬,ua反爬!
1.5 get请求的quote方法
案例演示
我们模拟百度搜索周杰伦
import urllib.requesturl = 'https://www.baidu.com/s?wd=周杰伦'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)
运行报错:

默认情况下只检索ascii码,因此需要把‘周杰伦’转换成Unicode编码,怎么转呢?
使用quote方法!
import urllib.request
# 需要提前引入
import urllib.parseparam ='周杰伦'
param = urllib.parse.quote(param)
url = 'https://www.baidu.com/s?wd=' + paramheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}requests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

此时就不在报错了,但是弹出的页面是安全验证,这又是百度的一个反爬手段!我们后续再说
1.6 多个参数转成ascii编码
当然了,我们可以把参数&参数整体作为一个参数通过quote方法转。
不过不建议,这里推荐使用urlencode方法!
import urllib.parsedata = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)print(a)

ok,我们再测试一下
import urllib.parse
import urllib.request
data = {'wd': '周杰伦','sex': '男'
}a = urllib.parse.urlencode(data)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36'
}url = 'https://www.baidu.com/s?' + arequests = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(requests)content = response.read().decode('utf-8')print(content)

还是遇到了这个安全验证的反爬,说明可能服务器不知道我是谁,那么试试把cookie带上呢。这个留到下面再去实现吧~
1.7 post请求
post请求传参通常不应该也不推荐拼接再url请求路径后,而是放在请求体中。
下面以百度翻译为例,介绍post请求爬虫翻译。
import json
import urllib.request
import urllib.parseurl = 'https://fanyi.baidu.com/sug'headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'
}# 参数
data = {'kw': '玫瑰'
}
data = urllib.parse.urlencode(data).encode('utf-8')# 检查参数拼接是否正确
# print(data)request = urllib.request.Request(url=url, data=data, headers=headers)response = urllib.request.urlopen(request)content = response.read().decode('utf-8')# {"errno":0,"data":[{"k":"\u73ab\u7470","v":"rose; [\u690d] rugosa rose; rosa rugosa; hep"},{"k":"\u73ab\u7470\u56ed","v":"rosary; rosarium; [\u7535\u5f71]Roseland"},{"k":"\u73ab\u7470\u6728","v":"rose wood"},{"k":"\u73ab\u7470\u679c","v":"fructus rosae"},{"k":"\u73ab\u7470\u6c34","v":"[\u533b] aquae rosae; rose water"}],"logid":65895191}
# print(content)# 字符串 -> json对象
obj = json.loads(content)
# {'errno': 0, 'data': [{'k': '玫瑰', 'v': 'rose; [植] rugosa rose; rosa rugosa; hep'}, {'k': '玫瑰园', 'v': 'rosary; rosarium; [电影]Roseland'}, {'k': '玫瑰木', 'v': 'rose wood'}, {'k': '玫瑰果', 'v': 'fructus rosae'}, {'k': '玫瑰水', 'v': '[医] aquae rosae; rose water'}], 'logid': 148055707}
print(obj)
1.8 综合案例演示
// todo 🫢
相关文章:
Python爬虫系列(一)
目录 一、urllib 1.1 初体验 1.2 使用urllib下载网页、图片、视频等 1.3 反爬介绍 1.4 请求对象定制 1.5 get请求的quote方法 1.6 多个参数转成ascii编码 1.7 post请求 1.8 综合案例演示 一、urllib 1.1 初体验 # urllib是python默认带的,无需额外下载 i…...
# vim那些事...... vim删除文件全部内容
vim那些事… vim删除文件全部内容 1、在 Vim 中删除整个文件的内容,可以使用以下命令: 1)打开 Vim,并编辑你想要清空的文件。 2)按 Esc 确保你不在插入模式,而在命令模式。 3)输入 gg 跳转到…...
Selinux及防火墙
一,selinux简介: SELinux(Security-Enhanced Linux)是一个Linux内核安全模块,旨在提供强制访问控制(MAC)机制,以增强系统的安全性。由美国国家安全局(NSA)开…...
业绩代码查询实战——php
一、一级代码显示职员 foreach($data_职员信息 as $key > $value){//$where_查询分类$where_查询通用;//$dat分类one $业绩提成->where($where_查询分类)->order("CreateDate desc")->select();if($value[haschildname]0 && $value[key] !"…...
内网穿透技术选型PPTP(点对点隧道协议)和 FRP(Fast Reverse Proxy)
PPTP(点对点隧道协议)和 FRP(Fast Reverse Proxy)是两种实现内网穿透的技术,但它们的工作原理、使用场景和特点有很大区别。以下是它们的详细比较: PPTP(Point-to-Point Tunneling Protocol&am…...
信号与噪声分析——第三节:随机过程的统计特征
随机过程的定义: 随机过程是一种数学模型,用来描述系统或现象在时间或者空间上随之变化的不确定性。 一个随机过程的数字特征 1.数学期望(统计平均值): 表示为 数学期望是随机过程在时间 t 上的平均值,通常…...
nginx(四):如何在 Nginx 中配置以保留真实 IP 地址
如何在 Nginx 中配置以保留真实 IP 地址 1、概述2、nginx配置示例2.1、配置说明2.2、客户端获取真实IP2.2.1、代码说明 3、插曲4、总结 大家好,我是欧阳方超,可以我的公众号“欧阳方超”,后续内容将在公众号首发。 1、概述 当使用nginx作为…...
docker对nginx.conf进行修改后页面无变化或页面报错
可能是因为没有重启nginx容器 可以执行 docker restart nginx 重启nginx试试 引入了其他的配置文件 本人安装的是docker默认的nginx,自带了一个default.conf的配置文件,并且在nginx.conf中还引入了这个文件,后面我还对nginx.conf添加了一个…...
SpringCloudGateway — 网关路由
Spring Cloud Gateway 是 Spring 提供的一个高效、灵活的 API 网关解决方案,基于 Spring 5、Spring Boot 2 和 Project Reactor,具有高并发和低延迟的特点。它用于在微服务架构中对外提供统一的入口,处理请求的路由、过滤、负载均衡等功能。 …...
docker pull 拉取镜像失败,使用Docker离线包
1、登录并注册Github,然后在Github中搜索并打开“wukongdaily/DockerTarBuilder” 项目,在该项目主页点击“Fork”。 然后点 “Create Fork”,将项目创建到自己的Github主页。 2、接着在自己创建过来的这个项目中点击“Actions” 3、然后…...
轻松理解操作系统 - 轻松了解 inode 是如何管理文件的
Linux 由于其开源、比较稳定等特点统治了服务端领域。也因此,学习Linux 系统相关知识在后端开发等岗位中变得越来越重要,甚至可以说是必不可少的。 因为它的广泛应用,所以在程序员的日常工作和面试中,它都是经常出现的。它的开源特…...
go中Println和Printf的区别
Don’t worry , just coding! 内耗与overthinking只会削弱你的精力,虚度你的光阴,每天迈出一小步,回头时发现已经走了很远。 go中Println和Printf的区别 package mainimport ( "fmt" )//TIP To run your code, right-click the c…...
C++现代教程七之模块
优点 编译时间减少:模块消除了重复解析和编译头文件的需要,从而显著减少了编译时间。特别是在大型项目中,这一点尤为重要。更好的封装性:模块允许更严格的封装,可以明确地控制哪些符号对外可见。这有助于减少命名冲突和…...
AVLTree
1.AVL树的概念 二叉搜索树虽然可以提高查找的效率,但是如果数据有序或者接近有序,二叉搜索树将退化为单支树,查找元素相当于在顺序表中搜索元素,效率低下。为了解决该问题,于是就有了AVLTree。即当向二叉搜索树中插入…...
Java面向对象 C语言字符串常量
1. (1). package liujiawei;public class Phone {String brand;double price;public void call(){System.out.println("手机打电话");}public void play(){System.out.println("手机打游戏");} } public class phonetest {public…...
SpringBoot+Thymeleaf电商系统
> 这是一个基于SpringBootThymeleafBootstrap实现的简单电商系统。 > 实现了用户浏览、添加购物车、商品管理等功能,并支持响应式布局。 > 本项目适合JAVA初学者作为入门学习项目 一、部分界面演示 二、技术栈 技术栈中文描述Spring Boot快速开发框架…...
了解数据库并发产生的问题
在数据库管理系统中,并发控制是一个至关重要的方面。随着多个用户或进程同时访问和修改数据库中的数据,如果没有适当的并发控制机制,就可能导致数据不一致、丢失更新、脏读、不可重复读和幻读等问题。在单用户系统中,数据库操作是…...
openstack之guardian介绍与实例创建过程
运行特征 采集模块:扩展Ceilometer,采集存储网、业务网连通性、nova目录是否可读写; 收集模块:将采集到的数据存储到数据库中; 分析模块:根据采集的结果,分析各节点状态,并进行反向检…...
新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大
新一代跟踪器StrongSORT: Make DeepSORT Great Again论文解析—让 DeepSORT 再次伟大 时间:2023年 机构:北京邮电大学 发表在:IEEE TRANSACTIONS ON MULTIMEDIA, VOL. 25, 2023 代码源码地址: pytorch版本:https://github.com/dyh…...
SAP ABAP开发学习——RFC
目录 RFC接口 定义 调用过程 RFC的通信 RFC通信情况 RFC接口系统 RFC的通信模式 RFC版本 RFC调用方式 Web Service接口 SAP创建Web Service示例 远程目标的维护 创建远程目标 外部系统访问设置 RFC的调用 RFC接口 定义 调用过程 RFC的通信 RFC通信情况 RFC接…...
AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南
点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...
前端导出带有合并单元格的列表
// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...
基于当前项目通过npm包形式暴露公共组件
1.package.sjon文件配置 其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹,并新增内容 3.创建package文件夹...
select、poll、epoll 与 Reactor 模式
在高并发网络编程领域,高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表,以及基于它们实现的 Reactor 模式,为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。 一、I…...
【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)
本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...
LOOI机器人的技术实现解析:从手势识别到边缘检测
LOOI机器人作为一款创新的AI硬件产品,通过将智能手机转变为具有情感交互能力的桌面机器人,展示了前沿AI技术与传统硬件设计的完美结合。作为AI与玩具领域的专家,我将全面解析LOOI的技术实现架构,特别是其手势识别、物体识别和环境…...
热门Chrome扩展程序存在明文传输风险,用户隐私安全受威胁
赛门铁克威胁猎手团队最新报告披露,数款拥有数百万活跃用户的Chrome扩展程序正在通过未加密的HTTP连接静默泄露用户敏感数据,严重威胁用户隐私安全。 知名扩展程序存在明文传输风险 尽管宣称提供安全浏览、数据分析或便捷界面等功能,但SEMR…...
规则与人性的天平——由高考迟到事件引发的思考
当那位身着校服的考生在考场关闭1分钟后狂奔而至,他涨红的脸上写满绝望。铁门内秒针划过的弧度,成为改变人生的残酷抛物线。家长声嘶力竭的哀求与考务人员机械的"这是规定",构成当代中国教育最尖锐的隐喻。 一、刚性规则的必要性 …...
机器学习的数学基础:线性模型
线性模型 线性模型的基本形式为: f ( x ) ω T x b f\left(\boldsymbol{x}\right)\boldsymbol{\omega}^\text{T}\boldsymbol{x}b f(x)ωTxb 回归问题 利用最小二乘法,得到 ω \boldsymbol{\omega} ω和 b b b的参数估计$ \boldsymbol{\hat{\omega}}…...
node.js的初步学习
那什么是node.js呢? 和JavaScript又是什么关系呢? node.js 提供了 JavaScript的运行环境。当JavaScript作为后端开发语言来说, 需要在node.js的环境上进行当JavaScript作为前端开发语言来说,需要在浏览器的环境上进行 Node.js 可…...
