当前位置: 首页 > news >正文

Python爬虫02

在这里插入图片描述
xml 和html 区别
在这里插入图片描述

jsonpath模块

  • 场景

    多层嵌套的复杂字典直接提取数据

  • 安装

pip install jsonpath
  • 使用
from jsonpath import jsonpathret = jsonpath(dict, 'jaonpath语法规则字符串')
  • 语法规则


eg:
在这里插入图片描述

lxml模块&xpath语法

  • 谷歌浏览器 xpath helper 插件
作用对当前页面测试xpath语法规则
  • xpath 语法

1.基础语法

在这里插入图片描述

/html/head/title 绝对路径
/html//title.    相对路径
//title          相对于整个html文档
//title/.        当前节点
//title/./../..  父节点           

2.选取特定节点的语法

可以根据标签的属性值,下标等来获取特定的节点

在这里插入图片描述

节点修饰语法1.通过索引修饰节点/html/body/div[3]/div/div[1]/div/html/body/div[3]/div/div[1]/div[3]/html/body/div[3]/div/div[1]/div[last()].     选中最后一个/html/body/div[3]/div/div[1]/div[last()-1].   选中倒数第二个/html/body/div[3]/div/div[1]/div[position() >=10].   范围选择2.通过属性值修饰节点//div[@id='content-left']/div/@id出现在[]中的@是使用标签属性名和属性值修饰节点3.通过子节点的值修饰节点//span[i>2000]//div[span[2]>=9.4]4.通过包含修饰//div[contains(@id, "qiushi_tag_")]//span[contains(text(), "一页")](xpath中,第一个元素的位置是1

3.选取未知节点的语法
在这里插入图片描述

lxml使用

  • 安装
pip install lxml
  • 使用
1.导入lxml的etree库
from lxml import etree
2.利用etree.HTML,将html字符串(bytes|str)转化为Element对象,Element对象具有xpath的方法,返回结果的列表
html = etree.HTML(text)
ret_list = html.xpath("xpath语法规则字符串")
3.xpath方法返回列表的三种情况
返回空列表
返回有字符串构成的列表
返回由Element对象构成的列表

相关文章:

Python爬虫02

xml 和html 区别 jsonpath模块 场景 多层嵌套的复杂字典直接提取数据 安装 pip install jsonpath使用 from jsonpath import jsonpathret jsonpath(dict, jaonpath语法规则字符串)语法规则 eg: lxml模块&xpath语法 谷歌浏览器 xpath helper 插件 作用对当前页面…...

HTTP/3

http相关知识点 HTTP/3是超文本传输协议(HTTP)的最新版本,旨在进一步提高Web性能和安全性。HTTP/3的显著变化是它基于QUIC(Quick UDP Internet Connections)协议,而不是之前版本中使用的TCP协议。QUIC是由…...

MySQL 字符串操作详解和案例示范

MySQL 字符串操作详解 MySQL 提供了丰富的字符串操作函数,能够对这些字符串进行截取、定位、替换等操作。本文将详细讲解 MySQL 中的字符串操作函数,包括 SUBSTRING()、SUBSTR()、LEFT()、RIGHT()、LOCATE()、POSITION()、FIND_IN_SET()、ELT()、INSERT…...

全双工语音交互

文章目录 微软小冰全双工字节大模型语音交互[Language Model Can Listen While Speaking](https://arxiv.org/html/2408.02622v1) 微软小冰全双工 全双工的定义:一路持续的听,upload audio;一路持续的输出,download audio&#xf…...

nginx中如何设置gzip

前言 Nginx通过配置gzip压缩可以提升网站整体速度 Nginx的gzip功能是用于压缩HTTP响应内容的功能。当启用gzip时,在发送给客户端之前,Nginx会将响应内容压缩以减小其大小。这样可以减少数据传输的带宽消耗和响应时间,提高网站的性能和速度。…...

借老系统重构机会我写了个groovy规则引擎

公司老系统的重构计划早就有了,为了对Java硬编码的各种校验规则进行重构,特地参考了相关技术,最终选择了groovy进行了系统的学习,并编写了一个即插即用的轻量级规则引擎。 文章目录 项目背景技术选型groovy的性能groovy脚本执行线…...

C#利用ffmpeg借助NVIDIA GPU实现实时RTSP硬解码+硬编码录制MP4

目录 说明 效果 项目 代码 下载 说明 利用周杰的开源项目 Sdcb.FFmpeg 项目地址:https://github.com/sdcb/Sdcb.FFmpeg/ 代码实现参考:https://github.com/sdcb/ffmpeg-muxing-video-demo 效果 C#利用ffmpeg借助NVIDIA GPU实现实时RTSP硬解码硬…...

第4章 汇编语言和汇编软件

第4章 汇编语言和汇编软件 该章主要介绍了汇编语言和汇编语言编译器的安装和使用。 汇编语言程序 该小节主要介绍了为什么要有汇编语言和汇编语言程序的一些基础写法。 书中有提到CPU有不同的架构,汇编语言有不同的风格,那么不同的CPU架构和不同的汇…...

网络安全在2024好入行吗?

前言 024年的今天,慎重进入网安行业吧,目前来说信息安全方向的就业对于学历的容忍度比软件开发要大得多,还有很多高中被挖过来的大佬。 理由很简单,目前来说,信息安全的圈子人少,985、211院校很多都才建立…...

C++练习

要求 1. 函数命名清晰 使用描述性的命名,准确反映函数的功能。例如,使用 CalculateSum() 而不是 sum()。避免使用缩写或模糊不清的名字,确保变量和函数名有明确的含义。 2. 参数传递 根据需要选择按值传递、按引用传递或按指针传递。如果…...

3. GIS后端工程师岗位职责、技术要求和常见面试题

本系列文章目录: 1. GIS开发工程师岗位职责、技术要求和常见面试题 2. GIS数据工程师岗位职责、技术要求和常见面试题 3. GIS后端工程师岗位职责、技术要求和常见面试题 4. GIS前端工程师岗位职责、技术要求和常见面试题 5. GIS工程师岗位职责、技术要求和常见面试…...

Linux学习笔记(4)----Debian压力测试方法

使用命令行终端压力测试需要两个实用工具:s-tui和stress sudo apt install s-tui stress 安装完成后,在终端中启动 s-tui实用工具: s-tui 执行后如下图: 你可以使用鼠标或键盘箭头键浏览菜单,然后点击“压力选项(Str…...

xml详解

一、XML是什么 XML&#xff08;可扩展标记语言&#xff09;是一种非常常用的数据存储和交换格式。 二、XML 的基本结构 声明 XML 文件通常以 XML 声明开始&#xff0c;例如&#xff1a;<?xml version"1.0" encoding"UTF-8"?>。它指定了 XML 的版…...

C140 杨辉三角

C140 杨辉三角 题目题解(94)讨论(102)排行面经 new 简单 通过率&#xff1a;29.57% 时间限制&#xff1a;1秒 空间限制&#xff1a;256M 知识点C工程师牛客 校招时部分企业笔试将禁止编程题跳出页面&#xff0c;为提前适应&#xff0c;练习时请使用在线自测&#xff0c;…...

C++字符串操作中的陷阱

休对故人思故国&#xff0c;且将新火试新茶。诗酒趁年华。 ——《望江南超然台作》【宋】苏轼 目录 正文&#xff1a; 首先我们要明白出现问题的原因: 1. 缓冲区溢出 2. 错误的字符串声明方式 3. 缺乏对NULL指针的检查 解决方案&#xff1a; 下期预告&#xff1a;C字符串…...

最值求解 | 管理类联考数学专项

日期内容2024.9.5新建2024.9.6曦曦求最值完结 实数求最值至少至多抽屉原理工程问题线性规划一次性绝对值求最值 参考&#xff1a; b站跟着曦曦老师玩转【最值】...

C++_继承详解

继承的概念 继承(inheritance)机制是面向对象程序设计使代码可以复用的重要的手段&#xff0c;它允许程序员在保持原有类特性的基础上进行扩展&#xff0c;增加功能。继承呈现了面向对象程序设计的层次结构&#xff0c;之前我们接触的复用都是函数复用&#xff0c;今天我们所讨…...

区块链开发解决方案有哪些

区块链开发解决方案概述 区块链开发解决方案旨在利用区块链技术构建和开发新型应用和系统&#xff0c;以解决各种业务问题和提升效率。区块链作为一种基于密码学的分布式账本技术&#xff0c;通过将交易和数据记录在不可篡改的区块中&#xff0c;并通过网络中的多个节点共同验…...

Express与SQLite集成教程:轻松实现数据库操作

Express使用SQLite的教程可以大致分为以下几个步骤。以下是一个详细的指南&#xff0c;帮助你在Express项目中集成SQLite数据库。 1. 安装必要的库 首先&#xff0c;你需要在你的Express项目中安装sqlite3库。打开终端或命令提示符&#xff0c;切换到你的项目目录&#xff0c…...

Transforms的常见用法

文章目录 一、封装函数与普通函数的用法区别二、Image.open()打开图片的格式三、ToTensor打开图片格式四、ToTensor使用五、Normalize归一化使用六、Resize的使用七、Compose - Resize 使用八、RandomCrop&#xff08;&#xff09; 随机裁剪用法 一、封装函数与普通函数的用法区…...

如何快速提升中文文献管理效率:Jasminum插件3大核心功能完整指南

如何快速提升中文文献管理效率&#xff1a;Jasminum插件3大核心功能完整指南 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件&#xff0c;用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 还在…...

图解目标检测算法之CenterNet

&#x1f31e;欢迎来到图解深度学习的世界 &#x1f308;博客主页&#xff1a;卿云阁 &#x1f48c;欢迎关注&#x1f389;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; &#x1f4c6;首发时间&#xff1a;&#x1f339;2026年3月20日&#x1f339; ✉️希望可以和大家一起完成…...

UEFI固件镜像解析:从FD到Section的逐层拆解

1. UEFI固件镜像解析入门指南 第一次拿到UEFI固件镜像时&#xff0c;很多人都会觉得无从下手。这个看似普通的二进制文件&#xff0c;实际上包含了计算机启动所需的所有关键代码。就像解剖人体需要了解骨骼结构一样&#xff0c;解析UEFI固件也需要先掌握它的层级架构。 我刚开始…...

后悔没早看!敏感肌日常修护全攻略,轻松养出健康厚脸皮✨

后悔没早看&#xff01;敏感肌日常修护全攻略&#xff0c;轻松养出健康厚脸皮✨集美们&#xff01;谁懂啊&#x1f979; 作为天生的薄皮敏感肌&#xff0c;换季泛红、刷酸烂脸、遇热就红通通这些破事我全中&#xff01;折腾了五六年&#xff0c;踩了无数坑&#xff0c;终于总结…...

精度套利:藏在盘口缝隙里的稳定机会

我们先来看 BN 上一个交易对。现货侧&#xff0c;PEPE/USDT 的价格精度是 1e-8&#xff1b; 合约侧&#xff0c;1000PEPEUSDT 的价格精度是 1e-7。 如果把合约价格换算回 PEPE/USDT 的单位&#xff0c;那么它对应的价格精度其实是 1e-10。 这意味着&#xff0c;现货和合约在同一…...

PP-DocLayoutV3商业应用:银行票据+政务公文+出版古籍三场景落地案例

PP-DocLayoutV3商业应用&#xff1a;银行票据政务公文出版古籍三场景落地案例 1. 新一代文档布局分析引擎的价值 在日常工作中&#xff0c;我们经常遇到各种文档处理难题&#xff1a;银行票据信息提取繁琐、政务公文格式复杂难解析、古籍文献数字化效率低下。传统OCR技术只能…...

工商业储能柜的 OEM 定制需要关注哪些关键指标?

“同一款工商业储能柜&#xff0c;为什么不同工厂的报价差异能达到 30%&#xff1f;” 这是不少储能贸易商在筛选供应商时遇到的典型问题。随着国内峰谷电价差持续拉大&#xff0c;工商业储能需求快速释放&#xff0c;但面对市场上五花八柜的产品方案&#xff0c;贸易商往往难以…...

sguard_limit终极指南:轻松限制腾讯游戏ACE-Guard系统资源占用,提升游戏性能

sguard_limit终极指南&#xff1a;轻松限制腾讯游戏ACE-Guard系统资源占用&#xff0c;提升游戏性能 【免费下载链接】sguard_limit 限制ACE-Guard Client EXE占用系统资源&#xff0c;支持各种腾讯游戏 项目地址: https://gitcode.com/gh_mirrors/sg/sguard_limit 你是…...

基于File-Based App开发MVP项目鸥

Issue 概述 先来看看提交这个 Issue 的作者是为什么想到这个点子的&#xff0c;以及他初步的核心设计概念。?? 本 PR 实现了 Apache Gravitino 与 SeaTunnel 的集成&#xff0c;将其作为非关系型连接器的外部元数据服务。通过 Gravitino 的 REST API 自动获取表结构和元数据&…...

FLUX.1-schnell:如何用12B参数模型重塑创意产业工作流

FLUX.1-schnell&#xff1a;如何用12B参数模型重塑创意产业工作流 【免费下载链接】FLUX.1-schnell 项目地址: https://ai.gitcode.com/hf_mirrors/black-forest-labs/FLUX.1-schnell 在人工智能图像生成领域&#xff0c;一个模型的质量往往由其参数规模决定。FLUX.1-s…...