当前位置：首页 > news >正文

Python 爬虫工具

news 2026/5/18 11:16:21

Python3 默认提供了urllib库，可以爬取网页信息，但其中确实有不方便的地方，如：处理网页验证和Cookies，以及Hander头信息处理。

为了更加方便处理，有了更为强大的库 urllib3 和 requests, 本节会分别介绍一下，以后我们着重使用requests。

urllib3网址：https://pypi.org/project/urllib3/requests网址：http://www.python-requests.org/en/master/

1. urllib3库的使用：
安装：通过使用pip命令来安装urllib3pip install urllib3
简单使用：import urllib3
import re

实例化产生请求对象

http = urllib3.PoolManager()

get请求指定网址

url = "http://www.baidu.com"
res = http.request("GET",url)

获取HTTP状态码

print("status:%d" % res.status)

获取响应内容

data = res.data.decode("utf-8")

正则解析并输出

print(re.findall("<title>(.*?)</title>",data))

其他设置: 增加了超时时间，请求参数等设置

import urllib3
import reurl = "http://www.baidu.com"
http = urllib3.PoolManager(timeout = 4.0) #设置超时时间res = http.request("GET",url,#headers={#    'User-Agent':'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1',#},fields={'id':100,'name':'lisi'}, #请求参数信息)print("status:%d" % res.status)data = res.data.decode("utf-8")print(re.findall("<title>(.*?)</title>",data))

requests库的使用：
安装：通过使用pip命令来安装requests

pip install requests简单使用：import requests
import reurl = "http://www.baidu.com"

抓取信息

res = requests.get(url)#获取HTTP状态码
print("status:%d" % res.status_code)

获取响应内容

data = res.content.decode("utf-8")#解析出结果
print(re.findall("<title>(.*?)</title>",data))

图片
3. 解析库的使用–XPath:

XPath(XML Path Language)是一门在XML文档中查找信息的语言。XPath 可用来在XML文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。官方网址：http://lxml.de 官方文档：http://lxml.de/api/index.html注：XQuery 是用于 XML 数据查询的语言（类似SQL查询数据库中的数据）注：XPointer 由统一资源定位

地址（URL）中#号之后的描述组成，类似于HTML中的锚点链接python中如何安装使用XPath:①: 安装 lxml 库。②: from lxml import etree③: Selector = etree.HTML(网页源代码)④: Selector.xpath(一段神奇的符号)

准备工作：
要使用XPath首先要先安装lxml库：

pip install lxml

XPath选取节点规则

表达式	描述
nodename	选取此节点的所有子节点。
/	从当前节点选取直接子节点
//	从匹配选择的当前节点选择所有子孙节点，而不考虑它们的位置
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。
述	
nodename	选取此节点的所有子节点。
/	从当前节点选取直接子节点
//	从匹配选择的当前节点选择所有子孙节点，而不考虑它们的位置
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

解析案例：
首先创建一个html文件：my.html 用于测试XPath的解析效果

<!DOCTYPE html>
<html>
<head><title>我的网页</title>
</head>
<body><h3 id="hid">我的常用链接</h3><ul><li class="item-0"><a href="http://www.baidu.com">百度</a></li><li class="item-1 shop"><a href="http://www.jd.com">京东</a></li><li class="item-2"><a href="http://www.sohu.com">搜狐</a></li><li class="item-3"><a href="http://www.sina.com">新浪</a></li><li class="item-4 shop"><a href="http://www.taobao.com">淘宝</a></li></ul></body>
</html>

使用XPath解析说明

导入模块

from lxml import etree

读取html文件信息（在真实代码中是爬取的网页信息）

f = open("./my.html",'r',encoding="utf-8")
content = f.read()
f.close()

解析HTML文档，返回根节点对象

html = etree.HTML(content)
#print(html)  # <Element html at 0x103534c88>

获取网页中所有标签并遍历输出标签名

result = html.xpath("//*")
for t in result:print(t.tag,end=" ")
#[html head title body h3 ul li a li a ... ... td]
print()

获取节点

result = html.xpath("//li") # 获取所有li节点
result = html.xpath("//li/a") # 获取所有li节点下的所有直接a子节点
result = html.xpath("//ul//a") # 效果同上（ul下所有子孙节点）
result = html.xpath("//a/..") #获取所有a节点的父节点
print(result)

获取属性和文本内容

result = html.xpath("//li/a/@href") #获取所有li下所有直接子a节点的href属性值
result = html.xpath("//li/a/text()") #获取所有li下所有直接子a节点内的文本内容
print(result) #['百度', '京东', '搜狐', '新浪', '淘宝']result = html.xpath("//li/a[@class]/text()") #获取所有li下所有直接含有class属性子a节点内的文本内容
print(result) #['百度', '搜狐', '新浪']#获取所有li下所有直接含有class属性值为aa的子a节点内的文本内容
result = html.xpath("//li/a[@class='aa']/text()")
print(result) #['搜狐', '新浪']#获取class属性值中含有shop的li节点下所有直接a子节点内的文本内容
result = html.xpath("//li[contains(@class,'shop')]/a/text()")
print(result) #['搜狐', '新浪']

按序选择

result = html.xpath("//li[1]/a/text()") # 获取每组li中的第一个li节点里面的a的文本
result = html.xpath("//li[last()]/a/text()") # 获取每组li中最后一个li节点里面的a的文本
result = html.xpath("//li[position()<3]/a/text()") # 获取每组li中前两个li节点里面的a的文本
result = html.xpath("//li[last()-2]/a/text()") # 获取每组li中倒数第三个li节点里面的a的文本
print(result)print("--"*30)

节点轴选择

result = html.xpath("//li[1]/ancestor::*") # 获取li的所有祖先节点
result = html.xpath("//li[1]/ancestor::ul") # 获取li的所有祖先中的ul节点
result = html.xpath("//li[1]/a/attribute::*") # 获取li中a节点的所有属性值
result = html.xpath("//li/child::a[@href='http://www.sohu.com']") #获取li子节点中属性href值的a节点
result = html.xpath("//body/descendant::a") # 获取body中的所有子孙节点a
print(result)result = html.xpath("//li[3]") #获取li中的第三个节点
result = html.xpath("//li[3]/following::li") #获取第三个li节点之后所有li节点
result = html.xpath("//li[3]/following-sibling::*") #获取第三个li节点之后所有同级li节点
for v in result:print(v.find("a").text)
解析案例

导入模块

from lxml import etree

读取html文件信息（在真实代码中是爬取的网页信息）

f = open("./my.html",'r')
content = f.read()
f.close()

解析HTML文档，返回根节点对象

html = etree.HTML(content)

1. 获取id属性为hid的h3节点中的文本内容

print(html.xpath("//h3[@id='hid']/text()")) #['我的常用链接']

2. 获取li中所有超级链接a的信息

result = html.xpath("//li/a")
for t in result:# 通过xapth()二次解析结果#print(t.xpath("text()")[0], ':', t.xpath("@href")[0])# 效果同上，使用节点对象属性方法解析print(t.text, ':', t.get("href"))'''
#结果:
百度 : http://www.baidu.com
京东 : http://www.jd.com
搜狐 : http://www.sohu.com
新浪 : http://www.sina.com
淘宝 : http://www.taobao.com
''''''
HTML元素的属性：tag：元素标签名text：标签中间的文本
HTML元素的方法：find()    查找一个匹配的元素findall() 查找所有匹配的元素get(key, default=None) 获取指定属性值items（）获取元素属性，作为序列返回keys（）获取属性名称列表value是（）将元素属性值作为字符串序列
'''

Python 爬虫工具

Python3 默认提供了urllib库，可以爬取网页信息，但其中确实有不方便的地方，如：处理网页验证和Cookies，以及Hander头信息处理。为了更加方便处理，有了更为强大的库 urllib3 和 requests, 本节会分别介绍一下…...

编程日记 2023/5/31 19:34:26

再也不去字节跳动面试了，6年测开经验的真实面试经历.....

前几天我朋友跟我吐苦水，这波面试又把他打击到了，做了快6年软件测试员。。。为了进大厂，也花了很多时间和精力在面试准备上，也刷了很多题。但题刷多了之后有点怀疑人生，不知道刷的这些题在之后的工作中能不能用到&…...

编程日记 2023/5/31 19:57:32

第十五章角色移动旋转实例

本章节我们创建一个“RoleDemoProject”工程，然后导入我们之前创建地形章节中的“TerrainDemo.unitypackage”资源包，这个场景很大，大家需要调整场景视角才能看清。接下来，我们添加一个人物模型，操作方式就是将模型文…...

编程日记 2023/5/31 20:49:16

数据湖Data Lakehouse支持行级更改的策略:COW、MOR、Delete+Insert

COW：写时复制，MOR：读时合并，Delete+Insert：保证同一个主键下仅存在一条记录，将更新操作转换为Delete操作和Insert操作 COW和MOR的对比如下图，而Delete+Insert在StarRocks主键模型中用到。目前COW、MOR在三大开源数据湖项目的使用情况，如下图。写入时复制【Copy-On…...

编程日记 2023/5/31 21:19:07

双亲委派机制的原理和作用

双亲委派机制，就必须弄清楚Java的类加载器。什么是类加载器 Java类加载器(ClassLoader)是Java运行时环境(JRE)的一部分，负责动态的将Java类加载到Java虚拟机的内存空间。类加载器有哪些主要有三个： 引导类加载器(Bootstrap ClassLoade…...

编程日记 2023/5/31 21:36:38

mac免费杀毒软件哪个好用?如何清理mac系统需要垃圾

CleanMyMac x是一款功能强大的Mac系统优化清理工具，使用旨在帮助用户更加方便的清理您系统中的所有垃圾，从而加快电脑运行速度，保持最佳性能，更加稳定、流畅、快速！！！ CleanMyMac X无疑是目前m…...

编程日记 2023/5/31 21:59:50

css 实现太极效果

目录一、简述二、太极效果制作一、简述本次主要介绍::after，::before，box-shadow这三个属性。 ::after，::before这两个是伪类选择器，box-shaow是用来设置元素的阴影效果 before:向选定的元素前插入内容 after:向选定的元素后插…...

编程日记 2023/5/31 4:57:33

【前端基础知识】Vue中的变量不是响应式的吗？属性赋值后视图不变化的原因是什么？

目录 🤔问题📝回答🎨使用场景动态添加属性动态添加数组元素 ❌注意事项$set只能在响应式对象上使用$set不能用于根级别的属性$set的性能问题 📄总结 🤔问题 Vue是一款在国内非常流行的框架，采用MVVM架构&a…...

编程日记 2023/5/31 23:21:34

如何完全卸载linux下通过rpm安装的mysql

卸载linux下通过rpm安装的mysql 1.关闭MySQL服务2.使用 rpm 命令的方式查看已安装的mysql3. 使用rpm -ev 命令移除安装4. 查询是否还存在遗漏文件5. 删除MySQL数据库内容 1.关闭MySQL服务如果之前安装过并已经启动，则需要卸载前请先关闭MySQL服务 systemctl stop…...

编程日记 2023/5/31 23:17:24

[渗透教程]-004-长城防火墙GFW的原理

文章目录 1. baidu.com 请求过程2. GFW原理2.1 GFW拦截方法1:DNS渲染2.2 通过IP黑名单2.3 VPN阻断1. baidu.com 请求过程家庭的路由器具备了交换机的功能.域名–>ip,优先检测本地的缓存,没有的话就查找DNS服务器,传输层对应该层的数据进行封装增加了端口的信息,网络层对传输…...

编程日记 2023/5/31 23:39:25

LaTeX基础文本排版命令

LaTeX基础文本排版命令 1. 字体大小2. 字体的粗体与斜体2.1. 粗体2.2 斜体2.3 同时启用粗体和斜体 3. 空格长度4. 高度与宽度尺寸在LaTeX中，文本排版可以通过简单的命令实现，这些命令可以控制字体大小、粗体与斜体、空格、行高和宽度等方面，…...

编程日记 2023/6/1 0:15:23

PLC模糊控制模糊PID(梯形图实现+算法分析)

博途PLC的模糊PID控制详细内容请查看下面的博客文章： Matlab仿真+博途PLC模糊PID控制完整SCL源代码参考（带模糊和普通PID切换功能）_博途怎么实现模糊pid_RXXW_Dor的博客-CSDN博客模糊PID的其它相关数学基础，理论知识大家可以参看专栏的其它文章，这里不再赘述，本文就双容…...

编程日记 2023/6/1 2:06:05

线程池在Java多线程中的应用

前言随着计算机硬件和软件技术的不断发展，多线程编程在软件开发中变得越来越常见。然而，使用多线程编程时必须小心谨慎，以确保正确性和可维护性。在这个过程中，线程池成为了一个至关重要的工具。本文将介绍其应用场景、注意事项…...

编程日记 2023/6/1 2:40:38

1997-2021年全国30省技术市场成交额(亿元)

1997-2021年全国30省技术市场成交额 1、时间：1997-2021年 2、范围：30省不含西藏 3、来源：国家统计J 4、指标：技术市场成交额 5、缺失情况说明：无缺失 6、指标解释及用途： 技术市场成交额是一个客观、…...

编程日记 2023/6/1 1:17:26

【C++】面向对象之多态

文章内的所有调试都是在vs2022下进行的， 部分小细节可能因编译器不同存在差异。文章目录多态的定义和实现概念引入多态的构成条件虚函数重写通过基类的指针或者引用调用虚函数 override和final 抽象类概念实现继承和接口继承虚函数表单继承中的虚表打印虚表多继…...

编程日记 2023/6/1 1:42:06

卡尔曼滤波器简介——多维卡尔曼滤波

原文：多维卡尔曼滤波 (kalmanfilter.net) 目录前言基本背景状态外推方程示例 - 飞机 - 无控制输入示例 - 带控制输入的飞机示例 – 坠落物体状态外推方程维度线性时不变系统线性动态系统建模状态外推方程的推导状态空间表示形式示例 - 等速…...

编程日记 2023/5/3 7:05:30

如何用 GPT-4 帮你写游戏？

你知道的，GPT-4 发布了。目前你想要用上 GPT-4，主要的渠道是 ChatGPT Plus 。作为交了订阅费的用户，你可以在对话的时候选择模型来使用。另一种渠道，就是申请官方 API 的排队。我在申请 New Bing Chat 的时候，耐心被…...

编程日记 2023/6/1 11:58:30

R语言的贝叶斯时空数据模型实践技术应用

时间－空间数据（以下简称“时空数据”）是最重要的观测数据形式之一，很多科学研究的数据都以时空数据的形式得以呈现，而科学研究目的可以归结为挖掘时空数据中的规律。另一方面，贝叶斯统计学作为与传统统计学…...

编程日记 2023/6/1 8:20:10

Lazysysadmin靶机渗透过程

准备工作下载好靶机到本地后 VMware导入OVA 启动靶机扫描信息首先扫描整个C段发现主机进一步扫描端口从扫描结果可知： Samba服务MySQLSSH端口网站端口先对网站进行目录遍历发现有wordpress网站和phpmyadmin管理系统出现了非常多遍My name is togie.可能…...

编程日记 2023/6/1 12:08:09

为什么网络安全缺口很大，招聘却很少？

2020年我国网络空间安全人才数量缺口超过了140万，就业人数却只有10多万，缺口高达了93%。这里就有人会问了： 1、网络安全行业为什么这么缺人？ 2、明明人才那么稀缺，为什么招聘时招安全的人员却没有那么多呢&#xff1…...

编程日记 2023/6/1 12:13:02

Umi-OCR：完全免费开源的离线OCR神器，3分钟快速上手文字识别

Umi-OCR：完全免费开源的离线OCR神器，3分钟快速上手文字识别【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维…...

编程新知 2026/5/17 11:03:50

保姆级教程：在CentOS 7/8服务器上部署DrissionPage爬虫（含Chrome无头模式配置）

CentOS服务器上DrissionPage爬虫的工业级部署指南 1. 环境准备与Chrome浏览器安装在CentOS服务器上部署基于DrissionPage的爬虫系统，首要任务是构建稳定可靠的浏览器运行环境。与个人开发环境不同，生产服务器通常需要面对无图形界面、资源受限等特殊场景…...

编程新知 2026/5/17 10:07:48

从零到一：Android Studio集成Uniapp离线SDK打包实战

1. 环境准备：工具选择与版本匹配第一次接触Uniapp离线打包时，最让我头疼的就是工具版本匹配问题。记得去年接手一个混合开发项目时，因为HBuilderX和SDK版本不兼容，整整浪费了两天时间排查问题。为了避免大家重蹈覆辙&#xff0c…...

编程新知 2026/5/17 10:01:30

AI智能体生态的包管理器：agenticmarket-cli 设计与实践

1. 项目概述：一个面向AI智能体生态的命令行工具如果你和我一样，长期在AI智能体（Agent）这个领域里折腾，那你肯定经历过这样的场景：为了测试一个最新的开源智能体框架，你需要先找到它的GitHub仓库…...

编程新知 2026/5/17 9:40:46

Steam成就管理器终极指南：3步修复错失的游戏成就

Steam成就管理器终极指南：3步修复错失的游戏成就【免费下载链接】SteamAchievementManager A manager for game achievements in Steam. 项目地址: https://gitcode.com/gh_mirrors/st/SteamAchievementManager Steam Achievement Manager（SAM&a…...

编程新知 2026/5/17 8:13:07

Biomni：生物医学图像分析从入门到精通，AI与传统CV融合实战

1. 项目概述：当AI学会“看”懂生物医学图像如果你在生物医学研究、药物发现或者临床诊断领域工作，大概率会和我一样，对海量的生物医学图像数据感到既兴奋又头疼。兴奋的是，这些图像——无论是显微镜下的细胞切片、组织病理学玻片&…...

编程新知 2026/5/17 8:08:55

多模态AI实战：基于OpenGVLab/Ask-Anything构建视觉问答系统

1. 项目概述：当视觉大模型学会“看图说话”最近在折腾多模态AI应用，发现了一个挺有意思的开源项目，叫OpenGVLab/Ask-Anything。简单来说，它就像一个给AI装上了“眼睛”和“嘴巴”的系统，你给它一张图片或一段视频&…...

编程新知 2026/5/17 8:08:55

告别时间混乱：一份超全的Hive日期函数使用手册与常见错误排查

告别时间混乱：一份超全的Hive日期函数使用手册与常见错误排查在数据开发领域，时间数据处理一直是高频且易错的环节。无论是日志分析、用户行为追踪还是财务报表生成，准确的时间计算都是确保数据质量的基础。Hive作为大数据生态中广泛使用的数…...

编程新知 2026/5/17 6:41:07

如何在Windows上无缝安装安卓应用：APK安装器终极指南

如何在Windows上无缝安装安卓应用：APK安装器终极指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾在电脑上羡慕安卓应用的便利，却苦…...

编程新知 2026/5/17 5:23:25

构建个人技能图谱：从结构化设计到自动化可视化的实践指南

1. 项目概述：一个技能图谱的诞生最近在GitHub上看到一个挺有意思的项目，叫dortort/skills。初看这个仓库名，你可能会有点懵，dortort是作者，那skills是什么？点进去一看，发现它不是一个具体的工具…...

编程新知 2026/5/17 4:38:31

实例化产生请求对象

get请求指定网址

获取HTTP状态码

获取响应内容

正则解析并输出

抓取信息

获取响应内容

导入模块

读取html文件信息（在真实代码中是爬取的网页信息）

解析HTML文档，返回根节点对象

获取网页中所有标签并遍历输出标签名

获取节点

获取属性和文本内容

按序选择

节点轴选择

导入模块

读取html文件信息（在真实代码中是爬取的网页信息）

解析HTML文档，返回根节点对象

1. 获取id属性为hid的h3节点中的文本内容

2. 获取li中所有超级链接a的信息

相关文章：