当前位置: 首页 > news >正文

爬虫案例—抓取小米商店应用

爬虫案例—抓取小米商店应用

代码如下:

# 抓取第一页的内容
import requests
from lxml import etree

url = ‘https://app.mi.com/catTopList/0?page=1’

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36’
}

获取响应内容

res = requests.get(url, headers=headers)
content = res.content.decode(‘utf-8’)

解析响应内容

tree = etree.HTML(content)

应用排行榜应用程序的名称和超链接xpath路径

path = ‘//li/h5/a’

a_list = tree.xpath(path)
for a in a_list:
print(a.xpath(‘./text()’)[0], end=’ ‘)
print(‘https://app.mi.com’ + a.xpath(’./@href’)[0])


```shell
/Library/Frameworks/Python.framework/Versions/3.9/bin/python3 /Users/bruce_liu/PycharmProjects/路飞/day04/requests/爬虫案例1.py
王者荣耀-S34赛季云梦有灵 https://app.mi.com/details?id=com.tencent.tmgp.sgame
夸克-新生代智能搜索 https://app.mi.com/details?id=com.quark.browser
抖音 https://app.mi.com/details?id=com.ss.android.ugc.aweme
钉钉-让进步发生 https://app.mi.com/details?id=com.alibaba.android.rimet
作业帮-作业检查和辅导工具 https://app.mi.com/details?id=com.baidu.homework
QQ https://app.mi.com/details?id=com.tencent.mobileqq
快对-原快对作业 https://app.mi.com/details?id=com.kuaiduizuoye.scan
UC浏览器-好搜好看好好用 https://app.mi.com/details?id=com.UCMobile
快手 https://app.mi.com/details?id=com.smile.gifmaker
拼多多 https://app.mi.com/details?id=com.xunmeng.pinduoduo
快手极速版 https://app.mi.com/details?id=com.kuaishou.nebula
哔哩哔哩 https://app.mi.com/details?id=tv.danmaku.bili
京东 https://app.mi.com/details?id=com.jingdong.app.mall
腾讯会议 https://app.mi.com/details?id=com.tencent.wemeet.app
小红书 https://app.mi.com/details?id=com.xingin.xhs
虎牙直播 https://app.mi.com/details?id=com.duowan.kiwi
地铁跑酷-开年即开跑 https://app.mi.com/details?id=com.kiloo.subwaysurf
QQ浏览器 https://app.mi.com/details?id=com.tencent.mtt
迅雷 https://app.mi.com/details?id=com.xunlei.downloadprovider
知乎 https://app.mi.com/details?id=com.zhihu.android
抖音极速版 https://app.mi.com/details?id=com.ss.android.ugc.aweme.lite
淘宝 https://app.mi.com/details?id=com.taobao.taobao
和平精英 https://app.mi.com/details?id=com.tencent.tmgp.pubgmhd
美图秀秀 https://app.mi.com/details?id=com.mt.mtxx.mtxx
百度 https://app.mi.com/details?id=com.baidu.searchbox
番茄免费小说 https://app.mi.com/details?id=com.dragon.read
剪映 https://app.mi.com/details?id=com.lemon.lv
微信 https://app.mi.com/details?id=com.tencent.mm
闲鱼 https://app.mi.com/details?id=com.taobao.idlefish
腾讯视频-黑土无言全网独播 https://app.mi.com/details?id=com.tencent.qqlive
微博 https://app.mi.com/details?id=com.sina.weibo
爱奇艺-大江大河3首播 https://app.mi.com/details?id=com.qiyi.video
迷你世界 https://app.mi.com/details?id=com.minitech.miniworld.TMobile.mi
美团-美好生活小帮手 https://app.mi.com/details?id=com.sankuai.meituan
优酷视频-你也有今天全网独播 https://app.mi.com/details?id=com.youku.phone
百度网盘 https://app.mi.com/details?id=com.baidu.netdiskProcess finished with exit code 0

相关文章:

爬虫案例—抓取小米商店应用

爬虫案例—抓取小米商店应用 代码如下: # 抓取第一页的内容 import requests from lxml import etree url ‘https://app.mi.com/catTopList/0?page1’ headers { ‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (K…...

geemap学习笔记047:边缘检测

前言 边缘检测适用于众多的图像处理任务,除了上一节[[geemap046:线性卷积–低通滤波器和拉普拉斯算子|线性卷积]]中描述的边缘检测核之外,Earth Engine 中还有几种专门的边缘检测算法。其中Canny 边缘检测算法使用四个独立的滤波器来识别对角…...

《Git学习笔记:IDEA整合Git》

在IDEA中集成Git去使用 通过Git命令可以完成Git相关操作,为了简化操作过程,我们可以在IDEA中配置Git,配置好后就可以在IDEA中通过图形化的方式来操作Git。 在IDEA开发工具中可以集成Git: 集成后在IDEA中可以看到Git相关图标&…...

Scipy 高级教程——统计学

Python Scipy 高级教程:统计学 Scipy 提供了强大的统计学工具,用于描述、分析和推断数据的分布和性质。本篇博客将深入介绍 Scipy 中的统计学功能,并通过实例演示如何应用这些工具。 1. 描述性统计 描述性统计是统计学中最基本的任务之一&…...

《向量数据库指南》RAG 应用中的指代消解——解决方案初探

随着 ChatGPT 等大语言模型(LLM)的不断发展,越来越多的研究人员开始关注语言模型的应用。 其中,检索增强生成(Retrieval-augmented generation,RAG)是一种针对知识密集型 NLP 任务的生成方法,它通过在生成过…...

CSS 一行三列布局,可换行(含grid网格布局、flex弹性布局/inline-block布局 + 伪类选择器)

效果 一、HTML <div class"num-wrap"><div class"num-item" v-for"num in 8" :key"num">{{ num }}</div></div> 二、CSS 1、grid网格布局&#xff08;推荐&#xff09; .num-wrap {// grid网格布局display…...

class_3:lambda表达式

1、lambda表达式是c11引入的一种匿名函数的方式&#xff0c;它允许你在需要函数的地方内联的定义函数&#xff0c;而无需单独命名函数&#xff1b; #include <iostream>using namespace std;bool compare(int a,int b) {return a > b; }int getMax(int a,int b,bool (…...

Hadoop 实战 | 词频统计WordCount

词频统计 通过分析大量文本数据中的词频&#xff0c;可以识别常见词汇和短语&#xff0c;从而抽取文本的关键信息和概要&#xff0c;有助于识别文本中频繁出现的关键词&#xff0c;这对于理解文本内容和主题非常关键。同时&#xff0c;通过分析词在文本中的相对频率&#xff0…...

SpringCloud.04.熔断器Hystrix( Spring Cloud Alibaba 熔断(Sentinel))

目录 熔断器概述 使用Sentinel工具 什么是Sentinel 微服务集成Sentinel 配置provider文件&#xff0c;在里面加入有关控制台的配置 实现一个接口的限流 基本概念 重要功能 Sentinel规则 流控规则 简单配置 配置流控模式 配置流控效果 降级规则 SentinelResource…...

python 八大排序_python-打基础-八大排序

## 排序篇 #### 二路归并排序 - 介绍 - 归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。归并排序是一种稳定的排序方法。将已有序的子序列合并&#xff0c;得到完全有序的序列&#xff1b;即先使每个子序列…...

运维知识点-Sqlite

Sqlite 引入 依赖 引入 依赖 <dependency><groupId>org.xerial</groupId><artifactId>sqlite-jdbc</artifactId><version>3.36.0.3</version></dependency>import javafx.scene.control.Alert; import java.sql.*;public clas…...

我为什么要写RocketMQ消息中间件实战派上下册这本书?

我与RocketMQ结识于2018年&#xff0c;那个时候RocketMQ还不是Apache的顶级项目&#xff0c;并且我还在自己的公司做过RocketMQ的技术分享&#xff0c;并且它的布道和推广&#xff0c;还是在之前的首席架构师的带领下去做的&#xff0c;并且之前有一个技术神经质的人&#xff0…...

24校招,Moka测试开发工程师一面

前言 大家好&#xff0c;今天回顾一下楼主当时参加moka测试开发工程师的面试 对其中一些重要问题&#xff0c;我也给出了相应的答案 过程 自我介绍挑一个项目&#xff0c;详细介绍你在其中担任的职责如何安排工作的&#xff0c;有什么成果&#xff1f;回归测试如何设计&…...

Docker(网络,网络通信,资源控制,数据管理,CPU优化,端口映射,容器互联)

目录 docker网络 网络实现原理 网络实现实例 网络模式 查看Docker中的网络列表&#xff1a; 指定容器网络模式 模式详解 Host模式&#xff08;主机模式&#xff09;&#xff1a; Container模式&#xff08;容器模式&#xff09;&#xff1a; None模式&#xff08;无网…...

开发实践5_project

要求&#xff1a; &#xff08;对作业要求的"Student"稍作了变换&#xff0c;表单名称为“Index”。&#xff09;获得后台 Index 数据&#xff0c;作展示&#xff0c;要求使用分页器&#xff0c;包含上一页、下一页、当前页/总页。 结果&#xff1a; ① preparatio…...

蓝桥杯准备

书籍获取&#xff1a;Z-Library – 世界上最大的电子图书馆。自由访问知识和文化。 (zlibrary-east.se) 书评&#xff1a;(豆瓣) (douban.com) 一、观千曲而后晓声 别人常说蓝桥杯拿奖很简单&#xff0c;但是拿奖是一回事&#xff0c;拿什么奖又是一回事。况且&#xff0c;如果…...

AtCoder Beginner Contest 336 A-E 题解

比赛链接&#xff1a;https://atcoder.jp/contests/abc336比赛时间&#xff1a;2024 年 1 月 14 日 20:00-21:40 A题&#xff1a;Long Loong 标签&#xff1a;模拟题意&#xff1a;给定一个 n n n&#xff0c;输出 L L L、 n n n个 o o o和 n g ng ng。题解&#xff1a;按题意…...

node各个版本的下载地址

下载地址&#xff1a; https://nodejs.org/dist/ 可以下载多个版本&#xff0c;使用nvm控制切换&#xff08;需要先安装nvm再安装node&#xff09; nvm下载地址&#xff08;访问的是github&#xff0c;请科学上网&#xff0c;下载后解压安装exe即可&#xff09;&#xff1a;h…...

JVM实战(17)——模拟对象晋升

作者简介&#xff1a;大家好&#xff0c;我是smart哥&#xff0c;前中兴通讯、美团架构师&#xff0c;现某互联网公司CTO 联系qq&#xff1a;184480602&#xff0c;加我进群&#xff0c;大家一起学习&#xff0c;一起进步&#xff0c;一起对抗互联网寒冬 学习必须往深处挖&…...

帆软笔记-决策表报对象使用(两表格联动)

效果描述如下&#xff1a; 数据库中有个聚合商表&#xff0c;和一个储能表&#xff0c;储能属于聚合商&#xff0c;桩表中有个字段是所属聚合商。 要求帆软有2个表格&#xff0c;点击某个聚合商&#xff0c;展示指定的储能数据。 操作&#xff1a; 帆软选中表格单元&#xf…...

从丰田SUA事件看安全关键系统软件可靠性:设计原则与工程实践

1. 项目概述&#xff1a;当软件缺陷成为致命威胁我干了十多年嵌入式开发&#xff0c;从单片机玩到复杂的汽车域控制器&#xff0c;经手的代码行数自己都数不清了。但每次看到“软件缺陷导致车辆突然加速”这类新闻&#xff0c;后背还是会发凉。这行干久了&#xff0c;你会对代码…...

瑞昱RTL8762CMF蓝牙5.0芯片烧录避坑指南:从MPTool配置到功耗优化实战

瑞昱RTL8762CMF蓝牙5.0芯片工程化烧录与性能调优全解析 当产品开发进入小批量试产阶段&#xff0c;工程师面临的核心挑战从"功能实现"转向"量产稳定性"和"性能优化"。瑞昱RTL8762CMF作为一款集成蓝牙5.0功能的低功耗芯片&#xff0c;其烧录配置与…...

JY901陀螺仪数据解析实战:从原始字节到工程可用的姿态角(附完整代码)

JY901陀螺仪数据解析实战&#xff1a;从原始字节到工程可用的姿态角&#xff08;附完整代码&#xff09; 在嵌入式开发中&#xff0c;姿态感知是实现自动平衡、导航定位等功能的基石。JY901作为一款高性价比的9轴运动传感器&#xff0c;其输出的原始数据需要经过精确解析才能转…...

光伏电站实现IEC104数据采集远程监控系统案例

在某山地光伏电站&#xff0c;由于占地广阔且地处丘陵地带&#xff0c;植被茂密、地形起伏大&#xff0c;运维团队在进行设备巡检时十分劳累&#xff0c;工作强度较大&#xff0c;数据汇总缓慢&#xff1b;同时对于突发的异常故障往往不能及时发现并采取措施&#xff0c;各种因…...

终极PT资源管理指南:如何用auto_feed_js实现100+站点一键转载

终极PT资源管理指南&#xff1a;如何用auto_feed_js实现100站点一键转载 【免费下载链接】auto_feed_js PT站一键转载脚本 项目地址: https://gitcode.com/gh_mirrors/au/auto_feed_js 在PT&#xff08;Private Tracker&#xff09;社区中&#xff0c;资源分享是核心价值…...

长期使用Token Plan套餐在Taotoken平台带来的月度成本控制体验

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 长期使用Token Plan套餐在Taotoken平台带来的月度成本控制体验 对于个人开发者或小型团队而言&#xff0c;在探索和集成大模型能力…...

从`find -mtime`到`find -newermt`:Linux文件时间查找的进阶玩法与避坑指南

从find -mtime到find -newermt&#xff1a;Linux文件时间查找的进阶玩法与避坑指南 在Linux系统管理中&#xff0c;文件查找是开发者和运维工程师的日常高频操作。当我们需要追踪最近修改的配置文件、清理过期日志或备份特定时间段的文档时&#xff0c;find命令的时间参数便成为…...

HTML5中Canvas文本对齐TextAlign与基线控制

...

PowerToys中文汉化终极指南:3步快速实现Windows效率工具完全本地化

PowerToys中文汉化终极指南&#xff1a;3步快速实现Windows效率工具完全本地化 【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱 自制汉化 项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 你是否曾因PowerToys的英文…...

JPlag:17种编程语言的代码抄袭检测利器,如何精准识别学术不端与代码剽窃?

JPlag&#xff1a;17种编程语言的代码抄袭检测利器&#xff0c;如何精准识别学术不端与代码剽窃&#xff1f; 【免费下载链接】JPlag State-of-the-Art Source Code Plagiarism & Collusion Detection. Check for plagiarism in a set of programs. 项目地址: https://gi…...