当前位置：首页 > news >正文

爬虫日常实战

news 2026/2/9 10:30:10

爬取美团新闻信息，此处采用两种方法实现：

注意点：因为此处的数据都是动态数据，所以一定要考虑好向下滑动数据包会更新的情况，不然就只能读取当前页即第一页数据，方法一通过更新ajax数据包网址页数，方法二通过计算网页高度滚动到底部实现持续向下滑动过程。

方法一：

使用寻找包含数据的ajax请求（json数据）的数据包，通过jsonpath定位提取出想要的数据：

# -- coding: utf-8 --
# 爬取内容：标题，标签，简介
import requests
import json
import jsonpath
import pprintnum = 1
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36','cookie': '_lxsdk_cuid=192b4109d3bc8-0ab8530f770fd3-26001051-144000-192b4109d3bc8; logan_session_token=s9yzimqoliqqqa0xxruc; cookie_consent=true; _lxsdk_s=192b4109d3c-294-7f6-c00%7C%7C12'
}
while num <= 10:url = f'https://www.meituan.com/smart/view/news/r/tNewsService_pageGetByQuery?pageSize=10&pageNo={num}&newsClassifyId=&lanType=zh-CN'response = requests.get(url, headers=headers)dict_data = json.loads(response.content)# pprint.pprint(dict_data)titles = jsonpath.jsonpath(dict_data, '$..title')signs = jsonpath.jsonpath(dict_data, '$..newsClassifyName')contents = jsonpath.jsonpath(dict_data, '$..newsAbstract')comment_list = []for title, sign, comment in zip(titles, signs, contents):comment_dict = {"标题": title,"标签": sign,"简介": comment,}comment_list.append(comment_dict)print(json.dumps(comment_list, ensure_ascii=False, indent=4))num += 1

爬取结果：

方法二：

使用selenium进行自动化操作，通过xpath定位数据实现对数据的提取：

# -- coding: utf-8 --
from selenium import webdriver
from selenium.webdriver.common.by import By
import timedriver = webdriver.Chrome()
driver.get('https://www.meituan.com/news?requestCode=b872f8728bc74f9f9c90688d88b58e1d&responseCode=ff49426a9e664f6ba92cbaa7fc9b9b08')# 等待页面加载
time.sleep(3)
# 设置滚动和爬取参数
scroll_pause_time = 2  # 每次滚动后的等待时间
previous_height = driver.execute_script("return document.body.scrollHeight") #JavaScript 代码返回当前网页的总高度# 循环进行滚动和数据爬取
while True:# 获取当前页面的元素列表el_list = driver.find_elements(By.XPATH, '//*[@id="__next"]/div[2]/div[2]/div/div[2]/a/div/div[1]/div')# 输出当前爬取的内容for el in el_list:title = el.find_element(By.XPATH, './/h2').textsign = el.find_element(By.XPATH, './/div[2]/span[1]/span').textcontent = el.find_element(By.XPATH, './/div[1]').textcomment_dict = {"标题": title,"标签": sign,"简介": content,}print(comment_dict)  # 输出当前获取的数据# 滚动到页面底部driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")# 等待新内容加载time.sleep(scroll_pause_time)# 计算新的滚动高度new_height = driver.execute_script("return document.body.scrollHeight")if new_height == previous_height:break  # 如果没有更多内容，退出循环previous_height = new_heightdriver.quit()

爬取结果：

爬虫日常实战

爬取美团新闻信息，此处采用两种方法实现： 注意点：因为此处的数据都是动态数据，所以一定要考虑好向下滑动数据包会更新的情况，不然就只能读取当前页即第一页数据，方法一通过更新ajax数据包网址页数&#xf…...

编程日记 2024/10/23 14:51:30

复写零--双指针

一：题目描述题目链接：. - 力扣（LeetCode） 二：算法原理分析三：代码编写 void duplicateZeros3(vector<int>& arr) {int dest -1, cur 0, n arr.size();//1.找到要复写的最后一个数字while …...

编程日记 2024/10/23 14:49:27

跟着小土堆学习pytorch（二）——TensorBoard和Transform

文章目录一、TensorBoard1.1 add_scalar()1.1,1 报错：TypeError: MessageToJson() got an unexpected keyword argument including_default_value_fields1.1.2 图像重叠1.1.3 代码展示 1.2 add_image()1.2.1 代码二、transform2.1 介绍——对图片进行一些变化2.2 …...

编程日记 2024/10/23 14:48:26

自由学习记录（10）

Sprite Packer ~Mode & 图集 packer Project Setting经常是金屋藏娇创建的项目如果不是2d项目，则默认disable打包编辑模式就是你没点运行看游戏效果，在狼狈敲码创对象写逻辑的那个状态， 运行模式从点了|>之后，就一直…...

编程日记 2024/10/23 14:46:23

Redis提供了专门的命令来实现自增操作

Redis中的自增操作并不是直接通过CAS（Compare and Set）操作实现的。Redis提供了专门的命令来实现自增操作，这些命令能够确保操作的原子性，而不需要显式地使用CAS机制。 Redis中的自增操作 Redis中的自增操作主要依赖于以下几个命…...

编程日记 2024/10/23 14:44:19

uniapp修改input中placeholder样式

Uniapp官方提供了两种修改的属性方法，但经过测试，只有 placeholder-class 属性能够生效 <input placeholder"请输入手机验证码" placeholder-class"input-placeholder"/> <style lang"scss" s…...

编程日记 2024/10/23 14:41:13

GenerativeU：生成式开放目标检测

论文：https://arxiv.org/abs/2403.10191 代码：https://github.com/FoundationVision/GenerateU 感想目标检测任务已经逐渐从闭集场景专项开集场景，在LLM加持下，速读越来越快。该方法仍然依赖于预先定义的类别，这意味着…...

编程日记 2024/10/23 14:40:11

element plus e-table表格中使用多选,当翻页时已选中的数据丢失

摘要： 点击第一页选中两个，再选择第二页，选中，回到第一页，之前选中的要保留！ element ui table 解决办法： :row-key“getRowKeys” （写在el-table中） methods中声明 ge…...

编程日记 2024/10/23 14:38:09

CentOS 7 网络连接显示“以太网（ens33）不可用”

1.创建linux虚拟机，配置网络和主机名显示" 以太网（ens33，被拔出）" 2.桌面右键此电脑，管理，找到“服务和应用程序”，点击“服务”，找到下图两个服务，点击圈起来…...

编程日记 2024/10/23 14:36:07

qt QNetworkProxy详解

一、概述 QNetworkProxy通过设置代理类型、主机、端口和认证信息，可以使应用程序的所有网络请求通过代理服务器进行。它支持为Qt网络类（如QAbstractSocket、QTcpSocket、QUdpSocket、QTcpServer、QNetworkAccessManager等）配置网络层代理支持…...

编程日记 2024/10/23 14:34:04

【华为HCIP实战课程十五】OSPF的环路避免及虚链路，网络工程师

一、避免域间路由环路 1、区域内部的防环：区域内同步了LSA，SPF就决定了区域内部没有环路 2、区间的防环机制：非正常的ABR不更新3类LSA 为防止区域间的环路OSPF定义了骨干区域和非骨干区域和三类LSA的传递规则 1）、OSPF划分了骨干区域和非骨干区域，所有非骨干区域均直接…...

编程日记 2024/10/23 14:27:57

【编程语言】正则表达式：POSIX 与 PCRE 的全面比较及应用

目录正则表达式：POSIX 与 PCRE 的全面比较及应用1. 正则表达式的基本概念1.1 基本元素1.2 正则表达式的历史 2. POSIX 正则表达式2.1 POSIX 正则表达式的语法2.1.1 基本正则表达式 (BRE)2.1.2 扩展正则表达式 (ERE) 2.2 POSIX 正则表达式的使用场景2.3 使用 POSIX …...

编程日记 2024/10/23 14:26:55

Spark Streaming 数据流处理

一、创建Spark Streaming 环境二、读取数据（监听端口） 三、任务处理四、启动程序我这里写的是简单的单词数量统计 import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.{SparkConf, SparkConte…...

编程日记 2024/10/23 14:23:53

高效规划神器 markmap：一键将 Markdown 变思维导图！

❤️ 如果你也关注大模型与 AI 的发展现状，且对大模型应用开发非常感兴趣，我会快速跟你分享最新的感兴趣的 AI 应用和热点信息，也会不定期分享自己的想法和开源实例，欢迎关注我哦！ 微信公众号｜搜一搜&…...

编程日记 2024/10/23 14:22:52

微服务基础架构（图）

微服务基础架构是一种现代化的软件架构模式，旨在将大型复杂的应用程序拆分为多个小型、独立的服务。每个微服务专注于特定的业务功能，可独立开发、部署和扩展。在微服务基础架构中，通常会使用轻量级的通信机制，如 RESTful API 或…...

编程日记 2024/10/23 14:18:48

中电金信：大模型时代金融机构企业架构转型如何更智能化？

随着人工智能技术的不断进步，AI大模型在金融行业已经广泛应用，推动金融机构实现更高效、智能化的服务，同时也为金融科技领域的发展带来新的挑战。中电金信基于业务建模的企业架构转型解决方案也顺势而动，关注大模型在具体场景上的…...

编程日记 2024/10/23 14:16:46

基于CRNN模型的多位数字序列识别的应用【代码+数据集+python环境+GUI系统】

基于CRNN模型的多位数字序列识别的应用【代码数据集python环境GUI系统】基于CRNN模型的多位数字序列识别的应用【代码数据集python环境GUI系统】背景意义多位手写数字识别，即计算机从纸张文档、照片、触摸屏等来源接收并解释可理解的手写数字输入的能力。随着…...

编程日记 2024/10/23 14:14:43

windows中命令行批处理脚本学习

目录一基础知识二常见命令1. 输出 echo2. 注释 rem .... %...% :: goto if (10) ()3. 变量 set4. 获取参数 %数字 %*5. 退出 exit6. 复制 copy7.读取输出文件内容 type8. 帮助命令xxx /?9.等待当前命令运行结束后,才执行下一条命令 call10. 修改字体编码 chcp11. 特殊变量…...

编程日记 2024/10/23 14:12:41

版本工具报错：Error Unity Version Control

NotConfiguredClientException: Unity VCS client is not correctly configured for the current user:Client config file....

编程日记 2024/10/23 14:09:38

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

摘要拍照搜题系统采用“三层管道（多模态 OCR → 语义检索 → 答案渲染）、两级检索（倒排 BM25 向量 HNSW）并以大语言模型兜底”的整体框架： 多模态 OCR 层将题目图片经过超分、去噪、倾斜校正后，分别用…...

编程新知 2026/2/8 4:32:38

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向深度学习与微纳光子学的结合主要集中在以下几个方向： 逆向设计通过神经网络快速预测微纳结构的光学响应，替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。特征提取与优化从复杂的光学数据中自…...

编程新知 2026/2/8 15:03:04

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下： struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

编程新知 2025/11/27 21:52:13

在rocky linux 9.5上在线安装 docker

前面是指南，后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...

编程新知 2025/7/27 10:03:12

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2026/1/25 3:21:09

基础测试工具使用经验

背景 vtune，perf, nsight system等基础测试工具，都是用过的，但是没有记录，都逐渐忘了。所以写这篇博客总结记录一下，只要以后发现新的用法，就记得来编辑补充一下 perf 比较基础的用法： 先改这…...

编程新知 2025/11/22 7:38:58

（转）什么是DockerCompose?它有什么作用？

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用，而无需手动一个个创建和运行容器。 Compose文件是一个文本文件，通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...

编程新知 2026/1/31 22:59:12

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

每日一言今天的每一份坚持，都是在为未来积攒底气。案例：OLED显示一个A 这边观察到一个点，怎么雪花了就是都是乱七八糟的占满了屏幕。。解释 ： 如果代码里信号切换太快（比如 SDA 刚变，SCL 立刻变&#…...

编程新知 2026/2/6 0:50:24

Mac下Android Studio扫描根目录卡死问题记录

环境信息操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象在项目开发过程中，提示一个依赖外部头文件的cpp源文件需要同步，点…...

编程新知 2026/2/6 1:00:00

基于TurtleBot3在Gazebo地图实现机器人远程控制

1. TurtleBot3环境配置 # 下载TurtleBot3核心包 mkdir -p ~/catkin_ws/src cd ~/catkin_ws/src git clone -b noetic-devel https://github.com/ROBOTIS-GIT/turtlebot3.git git clone -b noetic https://github.com/ROBOTIS-GIT/turtlebot3_msgs.git git clone -b noetic-dev…...

编程新知 2026/2/6 11:54:58

爬虫日常实战

方法一：

方法二：

相关文章：

爬虫日常实战

复写零--双指针

跟着小土堆学习pytorch（二）——TensorBoard和Transform

自由学习记录（10）

Redis提供了专门的命令来实现自增操作

uniapp修改input中placeholder样式

GenerativeU：生成式开放目标检测

element plus e-table表格中使用多选,当翻页时已选中的数据丢失

CentOS 7 网络连接显示“以太网（ens33）不可用”

qt QNetworkProxy详解

推荐IDE中实用AI编程插件，目前无限次使用

【华为HCIP实战课程十五】OSPF的环路避免及虚链路，网络工程师

【编程语言】正则表达式：POSIX 与 PCRE 的全面比较及应用

Spark Streaming 数据流处理

高效规划神器 markmap：一键将 Markdown 变思维导图！

微服务基础架构（图）

中电金信：大模型时代金融机构企业架构转型如何更智能化？

基于CRNN模型的多位数字序列识别的应用【代码+数据集+python环境+GUI系统】

windows中命令行批处理脚本学习

版本工具报错：Error Unity Version Control

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

深度学习在微纳光子学中的应用

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

在rocky linux 9.5上在线安装 docker

前端导出带有合并单元格的列表

基础测试工具使用经验

（转）什么是DockerCompose?它有什么作用？

学习STC51单片机32（芯片为STC89C52RCRC）OLED显示屏2

Mac下Android Studio扫描根目录卡死问题记录

基于TurtleBot3在Gazebo地图实现机器人远程控制