Selenium实战案例2:东方财富网股吧评论爬取
上一篇文章,我们使用Selenium完成了网页内文件的自动下载,本文我们将使用Selenium来爬取东方财富网股吧内笔记的评论数据。
网页内容分析
网页内容的分析是web自动化中的关键一步。通过分析网页结构,我们可以确定需要抓取的数据位置以及操作元素的方式。
与爬虫不同的是,web自动化通常是对浏览器渲染后的html网页直接进行操作,因此,我们不需要像爬虫那样进行抓包分析,只需要在原网页中定位元素并进行相应的操作即可。
登录弹窗关闭
这里,我们在东方财富网的网页端随机进入一支股票的股吧,Edge浏览器ctrl+shift+i,Chrome浏览器F12一键打开开发者工具后,进行分析。

首先,进入后,引入眼帘的便是广告弹窗,对于这种弹窗我们直接使用XPATH定位到右上角的XX,然后点击关闭即可。
单页评论定位

每一页的评论,都被放在了一个table内,并且tabel内 <tr>class=listitem</tr> 每一个名为listitem的行,即是该页内每条评论存放的位置。
那么在代码中,我们只需要这样写变可以将改页内所有评论爬取下来:
trs=webdriver.find_elements(By.CLASS_NAME,'listitem')
comments=[tr.text for tr in trs]
多页评论定位
当我们切换页面的时候,观察网页url,发现:

第1页内评论

第2页内评论
在切换页数时,url唯一变换的是查询参数,而查询参数实际上就是由 股票代码_页数构成,当然第一页除外,所以,当我们想要爬取一支股票多页的评论时,便可以简单的在一个页数循环内,让webdriver打开新的一个网页,接着重复之前的工作即可。
源代码
import time
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
class 东方财富网():def __init__(self,StockCode:str,pages:int=1,headless:bool=False):'''Args:pages:爬取评论页数。headless:是否开启无头模式。StockCode:股票代码。'''self.StockCode=StockCodeself.pages=pagesself.headless=headlessself.urls=[f'https://guba.eastmoney.com/list,{self.StockCode}.html']self.comments={page:[] for page in range(1,self.pages+1)}#构建一个字典格式为{页数i:[第i页的评论列表]}def comments_scraper(self):#根据股票代码和页数构建所有待爬取的urlfor page in range(2,self.pages+1):self.urls.append(f'https://guba.eastmoney.com/list,{self.StockCode}_{page}.html')#配置webdriver的optionsself.Options=Options()self.Options.add_argument('--disable-blink-features=AutomationControlled')#隐藏自动化控制self.Options.add_argument('--ignore-ssl-errosr')#忽略ssl错误self.Options.add_argument('--ignore-certificate-errors')#忽略证书错误self.Options.add_experimental_option('excludeSwitches', ['enable-logging'])#隐藏自动化控制self.Options.add_experimental_option('excludeSwitches',['enable-automation'])#隐藏自动化控制if self.headless:#无头模式运行自动化代码self.Options.add_argument('--headless')self.Options.add_argument('--disable-gpu')self.browser=webdriver.ChromiumEdge(self.Options)for i in range(self.pages):self.browser.get(self.urls[i])self.browser.maximize_window()#webdriver全屏self.browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {#执行一段js代码,隐藏自动化控制"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})time.sleep(2)#登录弹窗只在第一页弹出,我们在第一页弹出点击关闭后就不痛再点击了,因此第二页之后是不存在关闭弹窗的按钮的#因此这里使用try来捕获第二页及以后的NosuchelementException,先尝试点击关闭按钮,如果存在点击,不存在引发异常直接pass什么也不用管#接着怕我们的数据就行try:close=self.browser.find_element(By.XPATH,'/html/body/div[5]/img[1]')close.click()except NoSuchElementException:passcomments=self.browser.find_elements(By.CLASS_NAME,'listitem')comments=[comment.text for comment in comments]self.comments[i+1]=commentsprint(f'共计爬取{self.pages}页评论,第{i+1}页评论已爬取完毕')self.browser.quit()with open(f'{self.StockCode}股评爬取.txt','w',encoding='utf-8') as f:for i in range(1,self.pages+1):f.write(f'第{i}页股评\n{self.comments[i]}\n\n')
东方财富网(headless=False,pages=5,StockCode='600600').comments_scraper()
爬取结果


总结
本文介绍了Selenium爬取页面内容的实例,通过上述实例我们不难总结出一个Selenium爬虫的基本思路:
1.开发者工具定位爬取内容在源代码中区域。
2.使用合适的合适的selenium定位方式定位爬取内容。
3.选择合适的等待机制与异常处理机制(可能非必须)。
4.根据爬取内容的特性,选择适当的处理方式:对于文字内容,我们通常使用text属性获取其文字内容。
总重要的是,所有的操作必须要考虑到各种情况,并且合乎逻辑!
相关文章:
Selenium实战案例2:东方财富网股吧评论爬取
上一篇文章,我们使用Selenium完成了网页内文件的自动下载,本文我们将使用Selenium来爬取东方财富网股吧内笔记的评论数据。 网页内容分析 网页内容的分析是web自动化中的关键一步。通过分析网页结构,我们可以确定需要抓取的数据位置以及操作元素的方式。…...
python的多线程机制和构造
Python的多线程机制和构造是一个复杂且多方面的主题,涉及到线程的基本概念、实现方式、同步机制以及实际应用。以下将详细介绍Python中的多线程机制和构造。 1. 线程的基本概念 线程是进程内的执行单元,每个线程共享进程的地址空间和资源。一个进程至少…...
webmin配置终端显示样式,模仿UbuntuDesktop终端
webmin配置终端显示样式,模仿UbuntuDesktop终端 在webmin中,默认情况下是没有图形化桌面的,因此终端界面也不会像 Ubuntu Desktop 那样有预设的紫色背景和颜色主题。不过,你可以通过修改 ~/.bashrc 文件,并结合安装和…...
移动通信发展史
概念解释 第一代网络通信 1G 第二代网络通信 2G 第三代网络通信 3G 第四代网络通信 4G 4g网络有很高的速率和很低的延时——高到500M的上传和1G的下载 日常中的4G只是用到了4G技术 运营商 移动-从民企到国企 联通-南方教育口有人 电信 铁通:成立于 2000 年…...
OutOfMemoryError unable to create new native thread
现象 生产环境大量的报OutOfMemoryError: unable to create new native thread Caused by: java.lang.OutOfMemoryError: unable to create new native threadat java.lang.Thread.start0(Native Method) [na:1.8.0_291]at java.lang.Thread.start(Thread.java:717) [na:1.8.…...
探索无网用Deepseek+qwen来助力Solidworks二次开发
在本教程中,我们将详细介绍如何在本地环境中使用 DeepSeek 和 Qwen 模型,结合 AnythingLLM,构建一个用于 SolidWorks 二次开发的私有化智能知识库。 目录 前言 环境准备 2.1 安装 Ollama 2.2 安装 Docker Desktop DeepSeek 本地部署 3.1…...
MAC快速本地部署Deepseek (win也可以)
MAC快速本地部署Deepseek (win也可以) 下载安装ollama 地址: https://ollama.com/ Ollama 是一个开源的大型语言模型(LLM)本地运行框架,旨在简化大模型的部署和管理流程,使开发者、研究人员及爱好者能够高效地在本地环境中实验和…...
deepseek清华大学第二版 如何获取 DeepSeek如何赋能职场应用 PDF文档 电子档(附下载)
deepseek清华大学第二版 DeepSeek如何赋能职场 pdf文件完整版下载 https://pan.baidu.com/s/1aQcNS8UleMldcoH0Jc6C6A?pwd1234 提取码: 1234 或 https://pan.quark.cn/s/3ee62050a2ac...
ResponseUtil.out 方法分析
文章目录 1. 问题背景2. ResponseUtil.out 方法分析a. 方法功能b. 序列化过程c. 注解 JsonInclude(JsonInclude.Include.NON_NULL) 的作用 3. Java 对象如何被序列化为 JSON4. 序列化的时机5. 谁操作序列化6. 自动序列化的条件7. 总结8. 可能的问题和注意 1. 问题背景 在 Admi…...
基于Flask框架的食谱数据可视化分析系统的设计与实现
【Flask】基于Flask框架的食谱数据可视化分析系统的设计与实现 (完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 在当今数字化时代,信息可视化已成为一种高效的数据理解和传播手段。…...
【量化策略】布林带突破策略
【量化策略】布林带突破策略 🚀量化软件开通 🚀量化实战教程 技术背景与应用场景 布林带(Bollinger Bands)是由约翰布林格(John Bollinger)在1980年代初期开发的一种技术分析工具,它通过计算…...
java后端开发day18--学生管理系统
(以下内容全部来自上述课程) 1.业务分析并搭建主菜单 1.需求 采取控制台的方式去书写学生管理系统 2.分析 1.初始菜单 2.学生类 属性:id,姓名,年龄,家庭住址 3.添加功能 键盘录入每一个学生信息并添…...
工厂车辆排队系统
工厂车辆排队系统是一种智能化调度管理系统,用于管理工厂内部所有车辆的进出和排队方式。采用JAVA语言开发,对接了仰邦控制卡硬件。 工厂车辆排队系统是一种智能化调度管理系统,用于管理工厂内部所有车辆的进出和排队方式。该系统可以提高车…...
深度理解多态的底层实现
前言 首先先回顾一下上次的知识 一、多态的概念 多态(polymorphism)的概念:通俗来说,就是多种形态。多态分为编译时多态(静态多态)和运⾏时多态(动态多态),这⾥我们重点讲运⾏时多态,编译时多态(静态多态)和运⾏时多态(动态多态…...
【深度学习】Pytorch项目实战-基于协同过滤实现物品推荐系统
一、推荐系统的了解 1. 定义 推荐系统是一个信息过滤系统,旨在为用户提供个性化的内容推荐。它利用用户的历史行为、偏好以及其他相关数据来推测用户可能感兴趣的项目或信息。推荐系统广泛应用于电子商务、社交媒体、流媒体服务等领域,帮助用户发现商品…...
空字符串““、空白字符串“ “和 null 三者的区别
空字符串、空白字符串和 null 三者的区别表格: 类型定义示例长度是否有值空字符串字符串长度为 0,但不是 null,即存在一个有效的空字符串对象。""0有值(空值)空白字符串字符串包含空格、制表符等空白字符&a…...
【Pandas】pandas Series sample
Pandas2.2 Series Computations descriptive stats 方法描述Series.align(other[, join, axis, level, …])用于将两个 Series 对齐,使其具有相同的索引Series.case_when(caselist)用于根据条件列表对 Series 中的元素进行条件判断并返回相应的值Series.drop([lab…...
AF3 _build_query_to_hit_index_mapping函数解读
AlphaFold3 中templates模块的_build_query_to_hit_index_mapping函数是将原始查询序列(original_query_sequence)中的索引与hit 序列(hit_sequence)中的索引进行映射。 在蛋白质序列比对(如 HHsearch)中,hit 是与查询序列部分匹配的区域。由于存在缺口(-)和部分比对…...
在mfc中使用自定义三维向量类和计算多个三维向量的平均值
先添加一个普通类, Vector3.h, // Vector3.h: interface for the Vector3 class. // //#if !defined(AFX_VECTOR3_H__53D34D26_95FF_4377_BD54_57F4271918A4__INCLUDED_) #define AFX_VECTOR3_H__53D34D26_95FF_4377_BD54_57F4271918A4__INCLUDED_#if _MSC_VER > 1000 #p…...
UE_C++ —— Container TSet
目录 一,TSet 二,Creating and Filling a Set Editing UPROPERTY TSets 三,Iteration 四,Queries 五,Removal 六,Sorting 七,Operators 八,Slack 九,DefaultKe…...
多线程和并发篇
多线程和并发篇 创建一个对象时底层汇编指令实现步骤(cpu可能会进行指令重排序):一、二、三级缓存的实现:并发编程三要素:线程的五大状态:创建线程的三种方式:线程的特征和状态:Thre…...
【3.5JavaScript】JavaScript字符串对象
文章目录 1.获取字符串长度2.大小写转换3.获取某一个字符4.截取字符串5.替换字符串6.分割字符串7.检索字符串位置8.例题:统计某一个字符的个数 在 JavaScript 中,对象是非常重要的知识点。对象分为两种:一种是 ”自定义对象“,另…...
Apache Flink架构深度解析:任务调度、算子数据同步与TaskSlot资源管理机制
Apache Flink是一个分布式流处理框架,其核心架构设计围绕有界与无界数据流的统一处理能力展开。以下从任务分配、算子数据同步、TaskManager与JobManager的TaskSlot机制三个维度展开详细分析: 一、任务分配机制 Flink的任务分配基于并行度(P…...
路由基本配置
学习目标 • 根据拓扑图进行网络布线。 • 清除启动配置并将路由器重新加载为默认状态。 • 在路由器上执行基本配置任务。 • 配置并激活以太网接口。 • 测试并检验配置。 • 思考网络实施方案并整理成文档。 任务 1:网络布线 使用适当的电缆类型连接网络设备。…...
windows上vscode cmake工程搭建
安装vscode插件: 1.按装fastc(主要是安装MinGW\mingw64比较方便) 2.安装C,cmake,cmake tools插件 3.准备工作完成之后,按F1,选择cmake:Quick Start就可以创建一个cmake工程。 4.设置Cmake: G…...
VUE3+TS+element-plus项目从0开始入门 - 创建项目、认识基本结构
文章目录 写在前面1、创建vue3项目npm create vuelatestnpm i 2、项目结构.vscodevue3结构a、项目树结构b、package.jsonc、tsconfig.jsond、index.htmld、srce、main.tsf、App.vue 写在前面 开前请自行下载vs code、node.js, 在vs code里面安装Vue - Official插件。本文使用的…...
shared_ptr 不析构的问题记录
片段1: 片段2: 你们猜 哪个有问题 ?...
DeepSeek模型量化
技术背景 大语言模型(Large Language Model,LLM),可以通过量化(Quantization)操作来节约内存/显存的使用,并且降低了通讯开销,进而达到加速模型推理的效果。常见的就是把Float16的浮…...
原生稀疏注意力机制(NSA):硬件对齐且可原生训练的稀疏注意力机制-论文阅读
摘要 长上下文建模对于下一代语言模型至关重要,但标准注意力机制的高计算成本带来了巨大的计算挑战。稀疏注意力提供了一种在保持模型能力的同时提高效率的有前途的方向。本文提出了一种名为 NSA(原生可训练稀疏注意力机制) 的方法ÿ…...
从0到1:固件分析
固件分析 0x01 固件提取 1、从厂商官网下载 例如D-link的固件: https://support.dlink.com/resource/products/ 2、代理或镜像设备更新时的流量 发起中间人攻击MITM #启用IP转发功能 echo 1 > /proc/sys/net/ipv4/ip_forward#配置iptables,将目…...
