Python爬虫02

xml 和html 区别

jsonpath模块
-
场景
多层嵌套的复杂字典直接提取数据
-
安装
pip install jsonpath
- 使用
from jsonpath import jsonpathret = jsonpath(dict, 'jaonpath语法规则字符串')
- 语法规则

eg:

lxml模块&xpath语法
- 谷歌浏览器 xpath helper 插件
作用对当前页面测试xpath语法规则
- xpath 语法
1.基础语法

/html/head/title 绝对路径
/html//title. 相对路径
//title 相对于整个html文档
//title/. 当前节点
//title/./../.. 父节点
2.选取特定节点的语法
可以根据标签的属性值,下标等来获取特定的节点

节点修饰语法1.通过索引修饰节点/html/body/div[3]/div/div[1]/div/html/body/div[3]/div/div[1]/div[3]/html/body/div[3]/div/div[1]/div[last()]. 选中最后一个/html/body/div[3]/div/div[1]/div[last()-1]. 选中倒数第二个/html/body/div[3]/div/div[1]/div[position() >=10]. 范围选择2.通过属性值修饰节点//div[@id='content-left']/div/@id出现在[]中的@是使用标签属性名和属性值修饰节点3.通过子节点的值修饰节点//span[i>2000]//div[span[2]>=9.4]4.通过包含修饰//div[contains(@id, "qiushi_tag_")]//span[contains(text(), "一页")](xpath中,第一个元素的位置是1)
3.选取未知节点的语法

lxml使用
- 安装
pip install lxml
- 使用
1.导入lxml的etree库
from lxml import etree
2.利用etree.HTML,将html字符串(bytes|str)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")
3.xpath方法返回列表的三种情况
返回空列表
返回有字符串构成的列表
返回由Element对象构成的列表
相关文章:
Python爬虫02
xml 和html 区别 jsonpath模块 场景 多层嵌套的复杂字典直接提取数据 安装 pip install jsonpath使用 from jsonpath import jsonpathret jsonpath(dict, jaonpath语法规则字符串)语法规则 eg: lxml模块&xpath语法 谷歌浏览器 xpath helper 插件 作用对当前页面…...
HTTP/3
http相关知识点 HTTP/3是超文本传输协议(HTTP)的最新版本,旨在进一步提高Web性能和安全性。HTTP/3的显著变化是它基于QUIC(Quick UDP Internet Connections)协议,而不是之前版本中使用的TCP协议。QUIC是由…...
MySQL 字符串操作详解和案例示范
MySQL 字符串操作详解 MySQL 提供了丰富的字符串操作函数,能够对这些字符串进行截取、定位、替换等操作。本文将详细讲解 MySQL 中的字符串操作函数,包括 SUBSTRING()、SUBSTR()、LEFT()、RIGHT()、LOCATE()、POSITION()、FIND_IN_SET()、ELT()、INSERT…...
全双工语音交互
文章目录 微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1) 微软小冰全双工 全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio…...
nginx中如何设置gzip
前言 Nginx通过配置gzip压缩可以提升网站整体速度 Nginx的gzip功能是用于压缩HTTP响应内容的功能。当启用gzip时,在发送给客户端之前,Nginx会将响应内容压缩以减小其大小。这样可以减少数据传输的带宽消耗和响应时间,提高网站的性能和速度。…...
借老系统重构机会我写了个groovy规则引擎
公司老系统的重构计划早就有了,为了对Java硬编码的各种校验规则进行重构,特地参考了相关技术,最终选择了groovy进行了系统的学习,并编写了一个即插即用的轻量级规则引擎。 文章目录 项目背景技术选型groovy的性能groovy脚本执行线…...
C#利用ffmpeg借助NVIDIA GPU实现实时RTSP硬解码+硬编码录制MP4
目录 说明 效果 项目 代码 下载 说明 利用周杰的开源项目 Sdcb.FFmpeg 项目地址:https://github.com/sdcb/Sdcb.FFmpeg/ 代码实现参考:https://github.com/sdcb/ffmpeg-muxing-video-demo 效果 C#利用ffmpeg借助NVIDIA GPU实现实时RTSP硬解码硬…...
第4章 汇编语言和汇编软件
第4章 汇编语言和汇编软件 该章主要介绍了汇编语言和汇编语言编译器的安装和使用。 汇编语言程序 该小节主要介绍了为什么要有汇编语言和汇编语言程序的一些基础写法。 书中有提到CPU有不同的架构,汇编语言有不同的风格,那么不同的CPU架构和不同的汇…...
网络安全在2024好入行吗?
前言 024年的今天,慎重进入网安行业吧,目前来说信息安全方向的就业对于学历的容忍度比软件开发要大得多,还有很多高中被挖过来的大佬。 理由很简单,目前来说,信息安全的圈子人少,985、211院校很多都才建立…...
C++练习
要求 1. 函数命名清晰 使用描述性的命名,准确反映函数的功能。例如,使用 CalculateSum() 而不是 sum()。避免使用缩写或模糊不清的名字,确保变量和函数名有明确的含义。 2. 参数传递 根据需要选择按值传递、按引用传递或按指针传递。如果…...
3. GIS后端工程师岗位职责、技术要求和常见面试题
本系列文章目录: 1. GIS开发工程师岗位职责、技术要求和常见面试题 2. GIS数据工程师岗位职责、技术要求和常见面试题 3. GIS后端工程师岗位职责、技术要求和常见面试题 4. GIS前端工程师岗位职责、技术要求和常见面试题 5. GIS工程师岗位职责、技术要求和常见面试…...
Linux学习笔记(4)----Debian压力测试方法
使用命令行终端压力测试需要两个实用工具:s-tui和stress sudo apt install s-tui stress 安装完成后,在终端中启动 s-tui实用工具: s-tui 执行后如下图: 你可以使用鼠标或键盘箭头键浏览菜单,然后点击“压力选项(Str…...
xml详解
一、XML是什么 XML(可扩展标记语言)是一种非常常用的数据存储和交换格式。 二、XML 的基本结构 声明 XML 文件通常以 XML 声明开始,例如:<?xml version"1.0" encoding"UTF-8"?>。它指定了 XML 的版…...
C140 杨辉三角
C140 杨辉三角 题目题解(94)讨论(102)排行面经 new 简单 通过率:29.57% 时间限制:1秒 空间限制:256M 知识点C工程师牛客 校招时部分企业笔试将禁止编程题跳出页面,为提前适应,练习时请使用在线自测,…...
C++字符串操作中的陷阱
休对故人思故国,且将新火试新茶。诗酒趁年华。 ——《望江南超然台作》【宋】苏轼 目录 正文: 首先我们要明白出现问题的原因: 1. 缓冲区溢出 2. 错误的字符串声明方式 3. 缺乏对NULL指针的检查 解决方案: 下期预告:C字符串…...
最值求解 | 管理类联考数学专项
日期内容2024.9.5新建2024.9.6曦曦求最值完结 实数求最值至少至多抽屉原理工程问题线性规划一次性绝对值求最值 参考: b站跟着曦曦老师玩转【最值】...
C++_继承详解
继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的重要的手段,它允许程序员在保持原有类特性的基础上进行扩展,增加功能。继承呈现了面向对象程序设计的层次结构,之前我们接触的复用都是函数复用,今天我们所讨…...
区块链开发解决方案有哪些
区块链开发解决方案概述 区块链开发解决方案旨在利用区块链技术构建和开发新型应用和系统,以解决各种业务问题和提升效率。区块链作为一种基于密码学的分布式账本技术,通过将交易和数据记录在不可篡改的区块中,并通过网络中的多个节点共同验…...
Express与SQLite集成教程:轻松实现数据库操作
Express使用SQLite的教程可以大致分为以下几个步骤。以下是一个详细的指南,帮助你在Express项目中集成SQLite数据库。 1. 安装必要的库 首先,你需要在你的Express项目中安装sqlite3库。打开终端或命令提示符,切换到你的项目目录,…...
Transforms的常见用法
文章目录 一、封装函数与普通函数的用法区别二、Image.open()打开图片的格式三、ToTensor打开图片格式四、ToTensor使用五、Normalize归一化使用六、Resize的使用七、Compose - Resize 使用八、RandomCrop() 随机裁剪用法 一、封装函数与普通函数的用法区…...
SecGPT-14B效果展示:对Splunk SPL查询语句进行安全语义解释与优化建议
SecGPT-14B效果展示:对Splunk SPL查询语句进行安全语义解释与优化建议 1. 引言:当安全分析遇上智能助手 想象一下这个场景:作为一名安全分析师,你正面对海量的日志数据,需要快速编写Splunk SPL查询语句来追踪一次潜在…...
AI写论文哪家强?这4款AI论文生成工具测评结果告诉你答案!
你是否还在为撰写期刊论文、毕业论文或职称论文而感到焦虑呢?在进行人工撰写时,面对海量的文献就像在浩瀚的大海中捞针,而繁琐的格式要求更是让人头疼,反复修改的过程常常让我们的耐心耗尽,低效率的写作成为众多学术研…...
第7章:支持向量机(SVM)
第7章:支持向量机(SVM) 树模型的决策边界是"轴对齐的阶梯",而 SVM 在说:“我要找那条与两类数据距离最大的分界线——不是随便一条能分开的线,而是最宽的那条街道的中心线。” 这个追求"最大间隔"的执念,催生了 20 世纪最优雅的分类算法之一。 0. 本…...
2026年天然木蜡油订做厂家排行榜揭晓,谁能拔得头筹?
在环保意识日益增强的今天,天然木蜡油因其环保、健康的特性,在室内外木器家具、装饰装修等领域得到了广泛应用。2026年天然木蜡油订做厂家排行榜新鲜出炉,众多厂家各展风采,究竟谁能在这场激烈的竞争中拔得头筹呢?让我…...
智能相册管理:OpenClaw+Phi-3-vision-128k-instruct自动分类家庭照片
智能相册管理:OpenClawPhi-3-vision-128k-instruct自动分类家庭照片 1. 为什么需要智能相册管理? 每次打开手机相册,看到上万张杂乱无章的照片时,我都感到一阵头疼。孩子的成长瞬间、家庭旅行、朋友聚会全都混在一起,…...
汽车质量体系_1
从逻辑关系看,ISO9000是最底层的通用质量管理框架,定义了质量管理的基本术语和原则,适用于所有组织。IATF16949在ISO9001的基础上,针对汽车行业的特殊性,提出了更具体的质量管理要求,覆盖从设计、生产到服务…...
电子电路中的“心脏”:电源忧
前言 Kubernetes 本身并不复杂,是我们把它搞复杂的。无论是刻意为之还是那种虽然出于好意却将优雅的原语堆砌成 鲁布戈德堡机械 的狂热。平台最初提供的 ReplicaSets、Services、ConfigMaps,这些基础组件简单直接,甚至显得有些枯燥。但后来我…...
【更新至2024年】上市公司ESG评级评分数据合集(十份数据:华证年度、华证季度、Wind、商道融绿、富时罗素、彭博、润灵环球、MSCI、cnrds、盟浪)
【更新至2024年】上市公司ESG评级评分数据合集(十份数据:华证年度、华证季度、Wind、商道融绿、富时罗素、彭博、润灵环球、MSCI、cnrds、盟浪) 一、2009-2024年上市公司华证esg评级、评分年度数据(含细分项) 二、20…...
为什么 2026 是 AI Agents 创业者的黄金窗口
为什么 2026 是 AI Agents 创业者的黄金窗口 关键词 AI Agents、大语言模型、多模态智能体、自主系统、技术创业、LLM 应用、黄金窗口期 摘要 本文深入探讨了为什么2026年将成为AI Agents创业者的黄金窗口。我们将从技术发展历程、市场成熟度、基础设施完善等多个维度分析这…...
OCAD应用:多重转换式断续变焦系统设计
多组转换型变焦系统可以实现多档断续变焦。设计时同时设计多重可打入活动组,在打入时随意转换。多组转换型的活动组可以放置在会聚光路中也可以在平行光路中。选择在平行光路中,可利用活动组的无焦性来回倒置获得放大缩小两种不同变焦效果。 图1.多组转…...
