当前位置: 首页 > news >正文

爬虫案例4: parsel 模块的运用

目标页面: https://www.shanghairanking.cn/rankings/bcur/2023
打印在终端
import requests
import json
from urllib.parse import urljoin
from parsel import Selectorurl = 'https://www.shanghairanking.cn/rankings/bcur/2023'headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}data = []def parse():resp = requests.get(url=url, headers=headers)resp.encoding = 'utf8' if resp.status_code == 200:html_data = resp.textselector = Selector(text=html_data)scool_list = selector.xpath('//*[@id="content-box"]/div[2]/table/tbody/tr').getall()for itemn in scool_list:scool = Selector(text=itemn) # 这里item是字符串的htmldata.append({'排名': scool.xpath('.//td[1]//text()').get().strip(),'校名': scool.css('.name-cn::text').get().strip(),'详情': urljoin(url, scool.css('a::attr(href)').get().strip()),'城市': scool.xpath('.//td[3]/text()').get().strip(),'评分': scool.xpath('.//td[5]/text()').get().strip()}) print(json.dumps(data, indent=4, ensure_ascii=False))else:print('状态码不为200: ', resp.text)if __name__ == '__main__':parse()

在这里插入图片描述

目标页面: https://movie.douban.com/top250
打印终端
import requests
import json
from urllib.parse import urljoin
from parsel import Selectorurl = 'https://movie.douban.com/top250?'headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36'
}data = []def parse():resp = requests.get(url, headers=headers)if resp.status_code == 200:html_data = resp.textselector = Selector(text=html_data)move_html_list = selector.css('#content > div > div.article > ol > li').getall()for item in move_html_list:move = Selector(text=item)data.append({'排名': move.xpath('.//em/text()').get().strip(),'电影名称': move.css('div > div.info > div.hd > a > span:nth-child(1)::text').get().strip(),'评分': move.css('div > div.info > div.bd > div > span.rating_num::text').get().strip(),'详情链接': move.css('div > div.pic > a::attr(href)').get().strip(),'图片链接': move.css('div > div.pic > a > img::attr(src)').get().strip()})print(json.dumps(data, indent=4, ensure_ascii=False))else:print('状态码不为200', resp.text)if __name__ == '__main__':parse()

在这里插入图片描述

相关文章:

爬虫案例4: parsel 模块的运用

目标页面: https://www.shanghairanking.cn/rankings/bcur/2023 打印在终端import requests import json from urllib.parse import urljoin from parsel import Selectorurl https://www.shanghairanking.cn/rankings/bcur/2023headers {User-Agent: Mozilla/5.0 (Macintosh…...

数据结构·复杂度

目录 1 时间复杂度 2 大O渐进表示法 举例子(计算时间复杂度为多少) 3 空间复杂度 前言:复杂度分为时间复杂度和空间复杂度,两者是不同维度的,所以比较不会放在一起比较,但是时间复杂度和空间复杂度是用…...

数学建模理论与实践国防科大版

目录 1.数学建模概论 2.生活中的数学建模 2.1.行走步长问题 2.2.雨中行走问题 2.3.抽奖策略 2.4.《非诚勿扰》女生的“最优选择” 3.集体决策模型 3.1.简单多数规则 3.2.Borda数规则 3.3.群体决策模型公理和阿罗定理 1.数学建模概论 1.数学模型的概念 2.数学建模的概…...

Yakit爆破模块应用

yakit介绍 一款集成了各种渗透测试功能的集成软件。(类似于burp,但我感觉他功能挺强大) 爆破模块位置 按照下面图标点击 界面就是如下。 左侧可以选择爆破的类型,各种数据库http,ssh等都支持。 爆破参数 可以选择…...

【3GPP】【核心网】【5G】NAS连接管理和UE注册管理状态(超详细)

1. NAS连接管理 NAS连接管理包括通过N1接口在UE和AMF之间建立和释放NAS信令连接的功能。NAS信令连接用于实现UE与核心网络之间的NAS信令交换。当UE接入5G网络时,首先与基站建立RRC连接,当RRC连接建立完成后,UE与基站的空口连接成功建立。随后…...

细粒度IP定位参文2(Corr-SLG):A street-level IP geolocation method (2021年)

[2]S. Ding, F. Zhao, and X. Luo, “A street-level IP geolocation method based on delay-distance correlation and multilayered common routers,” Secur. Commun. Netw., vol. 2021, no. 1, pp. 1–10, 2021. 智能设备的地理位置可以帮助提供多媒体内容提供商和5G网络中…...

Mac上使用M1或M2芯片的设备安装Node.js时遇到一些问题,比如卡顿或性能问题

对于Mac上使用M1或M2芯片的设备可能会遇到在安装Node.js时遇到一些问题,比如卡顿或性能问题。这可能是因为某些软件包或工具在M1或M2芯片上的兼容性不佳。为了解决这个问题,您可以尝试以下方法: 1. 使用Rosetta模式 对于一些尚未适配M1或M2…...

学习vue3第四节(ref以及ref相关api)

主要记录以下api:ref()、isRef()、unref()、 shallowRef()、triggerRef()、customRef() 1、ref() 定义 接受一个内部值,返回一个响应式的、可更改的 ref 对象,此对象只有一个指向其内部值的属性 .value,.value属性用于追踪并且存…...

关于电脑无法开启5G频段热点的解决方案

tips:本文是本着解决校园网开热点后限速的问题的目的,具体情况具体对待。 1.找到设备管理器 右键该选项 2.在新弹出窗口选择首选频带 3.选择首选5GHz频带 确定之后重新连接wifi,重新开启热点,大功告成。 后记:在使用2.4ghz开热点…...

清理磁盘空间 - Win系统

清理磁盘空间 - Win系统 前言系统方案TreeSize FreeSpaceSniffer 前言 我们在使用电脑时经常会出现硬盘空间不足的情况,下文介绍如何清理磁盘空间,包含系统方案、TreeSize Free和SpaceSniffer。清理Window更新等系统文件推荐使用系统方案,清…...

科技革新的引擎-2024年AI辅助研发趋势

随着科技的飞速发展,人工智能(AI)已经在许多领域展现出了其强大的潜力和价值。特别是在研发领域,AI的辅助作用日益凸显,成为推动科技革新的重要引擎。在2024年,这种趋势将更加明显,我们可以从以…...

【PTA】L1-021 L1-022 L1-023 L1-024 L1-025(C)第四天

目录 L1-021 重要的话说三遍 题解: L1-022 奇偶分家 题解: L1-023 输出GPLT 题解: L1-024 后天 题解: L1-025 正整数AB 题解: L1-021 重要的话说三遍 分数 5 作者 陈越 单位 浙江大学 这道超级简单的题目没…...

Stable Diffusion 如何写好提示词(Prompt)

本文收录于《AI绘画从入门到精通》专栏,专栏总目录:点这里。 大家好,我是水滴~~ 本文深入探讨了如何撰写出优质的提示词,内容涵盖多个维度:提示词的多样化分类、模型应用中的经典提示词案例、提供丰富资源的提示词参考…...

树莓派Py程序加入开机自启

创建服务文件 为你的服务创建一个 .service 文件。这个文件通常位于 /etc/systemd/system/ 目录下。例如,如果你的服务名称为 my_python_script.service: sudo nano /etc/systemd/system/my_python_script.service 在打开的编辑器中,输入以下…...

Java EasyExcel注解详解和实战案例

文章目录 前言一、导入依赖二、基础知识1. @ExcelProperty1.1 作用1.2 注解参数1.3 示例2. @ExcelIgnore2.1 作用2.2 示例3. @ExcelIgnoreUnannotated3.1 作用3.2 示例4. DateTimeFormat...

AHU 汇编 实验二

一、实验名称:实验二 不同寻址方式的灵活运用 二、实验内容:定义数组a[6],用多种寻址方式访问对应元素,实现(a[0]a[1])*(a[2]-a[3])/a[4],将结果保存在内存a[5]中,用debug查询结果。 实验过程&a…...

Spring Boot单元测试与热部署简析

1 Spring Boot的简介 Spring Boot是一个用于构建独立的、生产级别的Spring应用程序的框架。它简化了Spring应用程序的开发过程,提供了自动配置和默认配置,使得开发者只需专注于业务逻辑的实现,而不用去关注繁琐的配置问题。 Spring …...

3.12练习题解

1.台阶问题: 这道题目一看其实很容易想到可以用dp的板子去做,并且只需要用一维dp即可,其中dp的下标表示到达当前阶梯总共有多少种方法,由于结果有可能会很大所以一定要记得边记录边模,代码实现如下: #incl…...

Java中实现双向链表

一、目标 最近项目中实现双向链表,同时转为满二叉树。 二、代码 用java实现双向链表的代码如下: class TreeNode {int val;TreeNode left;TreeNode right;TreeNode(int x) { val x; } }public class FullBinaryTree {public TreeNode createTree(int[…...

【DevOps实战之k8s】使用Prometheus和Grafana监控K8S集群

【DevOps实战之k8s】使用Prometheus和Grafana监控K8S集群 目录 【DevOps实战之k8s】使用Prometheus和Grafana监控K8S集群系统架构Kubernetes集群指标抓取指标可视化警告PromQL示例按命名空间统计集群中的Pod数按命名空间重启Pod未就绪的PodCPU过度使用Memory过度使用健康的集群…...

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...

【Oracle APEX开发小技巧12】

有如下需求: 有一个问题反馈页面,要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据,方便管理员及时处理反馈。 我的方法:直接将逻辑写在SQL中,这样可以直接在页面展示 完整代码: SELECTSF.FE…...

以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:

一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...

蓝牙 BLE 扫描面试题大全(2):进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1):从基础到实战的深度解析-CSDN博客,但实际面试中,企业更关注候选人对复杂场景的应对能力(如多设备并发扫描、低功耗与高发现率的平衡)和前沿技术的…...

令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍

文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...

C# SqlSugar:依赖注入与仓储模式实践

C# SqlSugar:依赖注入与仓储模式实践 在 C# 的应用开发中,数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护,许多开发者会选择成熟的 ORM(对象关系映射)框架,SqlSugar 就是其中备受…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

企业如何增强终端安全?

在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

HubSpot推出与ChatGPT的深度集成引发兴奋与担忧

上周三,HubSpot宣布已构建与ChatGPT的深度集成,这一消息在HubSpot用户和营销技术观察者中引发了极大的兴奋,但同时也存在一些关于数据安全的担忧。 许多网络声音声称,这对SaaS应用程序和人工智能而言是一场范式转变。 但向任何技…...