当前位置: 首页 > article >正文

Selenium 3.141.0 + Chrome 109 爬取B站热门视频数据的避坑指南(附完整代码)

Selenium 3.141.0与Chrome 109爬取B站数据的实战避坑指南1. 环境配置的版本陷阱当使用Selenium进行网页数据采集时版本兼容性问题往往是第一个拦路虎。以Selenium 3.141.0和Chrome 109这对组合为例我们需要特别注意以下几个关键点1.1 驱动版本精确匹配ChromeDriver必须与Chrome浏览器版本严格对应。例如Chrome 109.0.5414.120对应的驱动版本是ChromeDriver 109.0.5414.74。版本不匹配会导致如下典型错误SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 114 Current browser version is 109.0.5414.120解决方案通过以下命令查看Chrome精确版本google-chrome --version到ChromeDriver官网下载对应版本将驱动文件放在系统PATH路径或项目目录下1.2 浏览器自动更新防御Chrome默认会自动更新这会导致驱动突然失效。禁用自动更新的方法如下Windows系统进入Chrome安装目录通常为C:\Program Files\Google\Chrome\Application修改Update文件夹权限为拒绝写入Mac系统# 禁用自动更新服务 sudo launchctl unload -w /Library/LaunchDaemons/com.google.keystone.daemon.plist2. 实战爬取B站热门数据2.1 爬取热门视频排行榜以下是获取B站全站热门TOP100视频数据的完整代码框架from selenium import webdriver from selenium.webdriver.common.by import By import pandas as pd import time def get_top100(): driver webdriver.Chrome() driver.get(https://www.bilibili.com/v/popular/rank/all) results [] for i in range(1, 101): item {} # 使用相对XPath提高稳定性 item[title] driver.find_element( By.XPATH, f//li[{i}]//div[classinfo]/a).text item[up] driver.find_element( By.XPATH, f//li[{i}]//div[classdetail]/a/span).text item[view] format_num( driver.find_element(By.XPATH, f//li[{i}]//div[classdetail]/span[1]).text) item[danmu] format_num( driver.find_element(By.XPATH, f//li[{i}]//div[classdetail]/span[2]).text) results.append(item) pd.DataFrame(results).to_csv(top100.csv, indexFalse) driver.quit() def format_num(s): 处理万单位数据 if 万 in s: return str(float(s.replace(万,))*10000) return s关键技巧使用//相对路径替代绝对路径提高XPath适应性对含万的数据进行标准化处理每次操作后添加适当延时避免触发反爬2.2 处理动态加载内容B站很多数据是通过AJAX动态加载的需要特殊处理from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def get_comments(video_url): driver webdriver.Chrome() driver.get(video_url) # 等待评论区加载 WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME, reply-item)) ) # 滚动加载更多评论 for _ in range(5): driver.execute_script(window.scrollTo(0, document.body.scrollHeight);) time.sleep(2) comments [e.text for e in driver.find_elements(By.CLASS_NAME, reply-content)] pd.DataFrame(comments, columns[comment]).to_csv(comments.csv)3. 常见问题解决方案3.1 元素定位失败处理错误类型解决方案代码示例NoSuchElementException增加显式等待WebDriverWait(driver,10).until()StaleElementReference重新定位元素element driver.find_element()ElementNotInteractable使用JS点击driver.execute_script(arguments[0].click(), element)3.2 反爬机制规避策略请求频率控制import random time.sleep(random.uniform(1, 3))User-Agent轮换from selenium.webdriver.chrome.options import Options options Options() options.add_argument(user-agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36) driver webdriver.Chrome(optionsoptions)无头模式设置options.add_argument(--headless) options.add_argument(--disable-gpu)4. 数据可视化实战使用pyecharts创建专业级可视化图表4.1 热门视频数据对比from pyecharts.charts import Bar from pyecharts import options as opts def create_bar_chart(): df pd.read_csv(top100.csv) bar ( Bar() .add_xaxis(df[title].tolist()[:10]) .add_yaxis(播放量, df[view].astype(float).tolist()[:10]) .add_yaxis(弹幕数, df[danmu].astype(float).tolist()[:10]) .set_global_opts( title_optsopts.TitleOpts(titleB站热门视频TOP10), datazoom_opts[opts.DataZoomOpts()] ) ) bar.render(top10_bar.html)4.2 评论情感分析饼图from pyecharts.charts import Pie def create_pie_chart(): sentiment {正面: 65, 中性: 20, 负面: 15} pie ( Pie() .add(, list(sentiment.items())) .set_series_opts(label_optsopts.LabelOpts(formatter{b}: {c} ({d}%))) ) pie.render(sentiment_pie.html)5. 高级技巧与优化5.1 使用Page Object模式创建bilibili_page.py提高代码可维护性class BilibiliRankPage: def __init__(self, driver): self.driver driver self.url https://www.bilibili.com/v/popular/rank/all def open(self): self.driver.get(self.url) return self def get_video_info(self, index): return { title: self._get_text(f//li[{index}]//div[classinfo]/a), up: self._get_text(f//li[{index}]//div[classdetail]/a/span) } def _get_text(self, xpath): return self.driver.find_element(By.XPATH, xpath).text5.2 使用代理IP池PROXY 12.34.56.78:8080 options Options() options.add_argument(f--proxy-serverhttp://{PROXY}) driver webdriver.Chrome(optionsoptions)5.3 异常自动重试机制from retrying import retry retry(stop_max_attempt_number3, wait_fixed2000) def safe_click(element): try: element.click() except Exception as e: print(f点击失败: {str(e)}) raise e在实际项目中建议将配置信息如驱动路径、代理IP等提取到单独的配置文件中方便维护和修改。对于大规模采集任务可以考虑结合Scrapy等框架构建更健壮的爬虫系统。

相关文章:

Selenium 3.141.0 + Chrome 109 爬取B站热门视频数据的避坑指南(附完整代码)

Selenium 3.141.0与Chrome 109爬取B站数据的实战避坑指南 1. 环境配置的版本陷阱 当使用Selenium进行网页数据采集时,版本兼容性问题往往是第一个拦路虎。以Selenium 3.141.0和Chrome 109这对组合为例,我们需要特别注意以下几个关键点: 1.…...

LangBot:企业级即时通讯 AI 机器人平台 系统环境配置篇

LangBot:企业级即时通讯 AI 机器人平台 系统环境配置篇 “专为企业打造的即时通讯 AI 机器人平台,无缝集成飞书(Lark)、钉钉、企业微信等企业通讯工具,与 Dify 等 AI 应用平台深度整合,让企业 AI 应用快速落…...

Ubuntu 22.04自动登录设置指南:告别每次开机输密码的烦恼

Ubuntu 22.04自动登录完全指南:安全与便捷的平衡艺术 每次开机都要输入密码,对于个人开发者或家庭用户来说,确实是个不小的麻烦。特别是在家里使用的电脑,安全性要求相对较低的情况下,自动登录功能可以大幅提升使用体验…...

3MF转STP格式转换全攻略:迪威模型网+FreeCAD双方案实测(附常见错误修复)

3MF转STP格式转换实战手册:双轨方案与工业级修复技巧 当3D打印模型需要融入传统制造流程时,格式转换就像两种语言之间的精准翻译。3MF文件承载着丰富的打印意图,而STP格式则是工业设计领域的通用语。本文将带您深入探索两种截然不同却同样高效…...

Qwen3-ASR-0.6B方言识别效果实测:粤语、四川话等22种方言

Qwen3-ASR-0.6B方言识别效果实测:粤语、四川话等22种方言 1. 引言 语音识别技术发展到现在,能听懂普通话已经不算什么新鲜事了。但真正让人头疼的是那些五花八门的方言——粤语的九声六调、四川话的抑扬顿挫、闽南语的古音遗存,这些对传统的…...

继电器模块驱动设计与GD32F470嵌入式实现

1. 继电器模块技术解析与嵌入式驱动实现继电器作为机电混合型开关器件,在工业控制、智能家居、电源管理等嵌入式系统中承担着关键的电气隔离与功率切换功能。其核心价值在于利用微控制器(MCU)的低压GPIO信号,安全、可靠地控制高电…...

基于树莓派的CODESYS与KepServer OPC UA通信实战

1. 树莓派上的工业自动化通信基础 第一次在树莓派上搭建CODESYS和KepServer的OPC UA通信时,我遇到了不少麻烦。这个组合听起来可能有点小众,但在工业自动化领域其实非常实用。想象一下,树莓派就像个迷你工业电脑,而CODESYS是它的&…...

bge-large-zh-v1.5实战教程:结合Milvus构建高并发中文向量数据库

bge-large-zh-v1.5实战教程:结合Milvus构建高并发中文向量数据库 1. 引言:为什么需要高并发向量检索? 如果你正在构建一个智能问答系统、一个文档搜索引擎,或者一个内容推荐平台,你可能会遇到一个核心问题&#xff1…...

YOLOv12性能优化指南:降低显存占用,提升训练速度

YOLOv12性能优化指南:降低显存占用,提升训练速度 1. 引言:为什么需要性能优化? 目标检测模型的训练过程往往面临两大挑战:显存不足和训练速度慢。这些问题在YOLOv12这样的先进模型中尤为突出,因为其注意力…...

在Ubuntu 20.04上,用ONNX Runtime和OpenCV 4.5.2部署XFeat图像匹配模型(C++实战)

在Ubuntu 20.04上部署XFeat图像匹配模型的完整C实战指南 图像匹配技术正在重塑计算机视觉应用的开发范式。作为该领域的新锐代表,XFeat凭借其双尺度特征提取和高效匹配能力,在无人机航拍、增强现实等场景中展现出独特优势。本文将带您从零开始&#xff0…...

前端十年:从0到资深开发者的10堂必修课【第10篇】

前端十年:从0到资深开发者的10堂必修课 第10篇:架构篇——设计模式、微前端、SSR与未来趋势经过前面九篇的系统学习,我们已经掌握了从基础到工程化、性能优化、安全测试等全方位的前端技能。本篇作为收官之作,将带你站上更高的视角…...

别再死记公式了!用LTspice仿真带你直观理解BUCK电路三种工作模式(CCM/DCM/BCM)

用LTspice仿真解锁BUCK电路:动态观察CCM/DCM/BCM模式切换的实战指南 你是否曾在学习BUCK电路时,被那些复杂的公式和理论推导搞得晕头转向?电感电流、伏秒平衡、占空比计算...这些抽象的概念是否让你感到困惑?本文将带你换一种方式…...

魔兽争霸III闪退问题系统性解决方案:从诊断到优化的完整路径

魔兽争霸III闪退问题系统性解决方案:从诊断到优化的完整路径 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 一、精准定位:闪退…...

Apache POI实战:从零构建高效Excel报表生成系统

1. Apache POI入门:为什么选择它处理Excel报表? 如果你正在寻找一个能够稳定处理Excel报表的Java工具,Apache POI绝对是绕不开的选择。我在金融行业做数据系统开发时,每天要处理上万份交易报表,POI就像个不知疲倦的Exc…...

5分钟搞定Paimon+Flink CDC实时同步MySQL数据(附完整配置流程)

5分钟实现MySQL到Paimon的实时数据同步:Flink CDC实战指南 在数据驱动的业务场景中,实时同步MySQL变更到数据湖已成为现代数据架构的标配需求。Apache Paimon与Flink CDC的深度整合,为开发者提供了一种开箱即用的解决方案。本文将带您快速搭建…...

Zabbix告警实战:通过Webhook脚本将监控信息精准推送至飞书群

1. 为什么需要Zabbix告警对接飞书? 在日常运维工作中,我们经常会遇到服务器宕机、服务异常、性能瓶颈等问题。Zabbix作为一款强大的监控工具,能够实时监控这些异常情况,但如何让告警信息第一时间触达相关责任人,就成了…...

ArcGIS for Server 10.1安装避坑指南:从零配置到成功部署的完整流程

ArcGIS for Server 10.1实战部署手册:从环境准备到高效运维 在数字化转型浪潮中,地理信息系统(GIS)作为空间数据分析的核心平台,正成为企业基础设施的重要组成部分。ArcGIS for Server 10.1虽非最新版本,但其稳定的性能和成熟的生…...

BOOST升压电路设计实战:从占空比到电感电容的完整计算指南

BOOST升压电路设计实战:从占空比到电感电容的完整计算指南 在电源设计领域,BOOST升压电路因其结构简单、效率较高而广泛应用于各类电子设备中。无论是便携式设备的锂电池升压、LED驱动,还是工业领域的功率转换,掌握BOOST电路的设计…...

OpenCV+C语言双剑合璧:5分钟搞定椒盐噪声消除(中值滤波完整教程)

OpenCV与C语言实战:5分钟掌握椒盐噪声消除的中值滤波技术 第一次接触图像处理时,我被那些突然出现的黑白噪点困扰了很久——直到发现中值滤波这个神器。作为计算机视觉领域最经典的噪声消除技术之一,中值滤波不仅能快速清除椒盐噪声&#xff…...

从Webpack迁移到Rsbuild:Vue3项目改造实战指南

从Webpack迁移到Rsbuild:Vue3项目改造实战指南 在当今快节奏的前端开发领域,构建工具的性能直接影响着开发效率和团队生产力。对于长期使用Webpack的Vue3项目团队而言,Rsbuild作为基于Rust的新一代构建工具,提供了令人瞩目的10倍以…...

大屏开发避坑指南:为什么你的scale()方案会留白?

大屏开发避坑指南:为什么你的scale()方案会留白? 在数据可视化领域,大屏展示已成为企业决策和业务监控的重要窗口。然而,当开发者满怀信心地将精心设计的19201080界面部署到客户现场时,却常常遭遇令人尴尬的留白问题—…...

【MCP SDK版本兼容性生死线】:从v1.2到v3.0升级全链路回滚方案(含ABI断裂修复手册)

第一章:MCP跨语言SDK版本兼容性治理总纲MCP(Multi-language Compatibility Protocol)跨语言SDK是支撑微服务间异构语言互通的核心基础设施,其版本兼容性直接影响系统稳定性、升级效率与多团队协同成本。本章确立统一的兼容性治理原…...

CMake跨平台构建的终极指南:2025年命令行参数详解

CMake跨平台构建的终极指南:2025年命令行参数详解 在当今多平台开发环境中,CMake已成为构建系统的实际标准。无论是开发跨平台桌面应用、嵌入式系统还是云原生服务,掌握CMake命令行参数的精髓都能显著提升构建效率。本文将深入剖析2025年最新…...

三步掌握跨平台存档管理:Apollo Save Tool数据安全实践指南

三步掌握跨平台存档管理:Apollo Save Tool数据安全实践指南 【免费下载链接】apollo-ps4 Apollo Save Tool (PS4) 项目地址: https://gitcode.com/gh_mirrors/ap/apollo-ps4 Apollo Save Tool是一款专为PlayStation玩家设计的开源存档管理工具,通…...

GLM-OCR模型内网穿透部署方案:实现本地服务的公网安全访问

GLM-OCR模型内网穿透部署方案:实现本地服务的公网安全访问 你是不是也遇到过这样的烦恼?好不容易在本地电脑或者公司内网服务器上部署好了GLM-OCR模型,服务跑得挺顺畅,识别效果也不错。但问题来了:这个服务只能自己或…...

基于Verilog的BCD码转余三码电路设计与FPGA实现

1. 从零理解BCD码与余三码 第一次接触数字电路设计时,看到BCD码和余三码这些专业名词确实有点懵。后来在实际项目中频繁使用才发现,它们就像是我们日常生活中的"翻译官"——把人类熟悉的十进制数翻译成机器能处理的二进制形式。 **BCD码&#…...

MIPI D-PHY 物理层自动化测试方案设计与实现

1. MIPI D-PHY物理层测试的核心挑战 MIPI D-PHY作为移动设备中连接处理器、摄像头和显示屏的高速串行总线,其物理层测试面临着三大核心难题。首先是双模信号切换的复杂性,HS(高速)模式下差分信号速率可达2.5Gbps,而LP&…...

实战分享:如何用C++编写自定义Shellcode加载器绕过主流杀软(附完整代码)

C高级Shellcode加载器开发实战:从原理到定制化免杀方案 在安全研究领域,Shellcode加载器的开发一直是攻防对抗的前沿阵地。随着终端安全防护技术的不断升级,传统的公开加载器方案已难以应对现代杀毒软件的多维度检测。本文将深入探讨如何从底…...

C++ std::vector:对象与元素的存储位置及实现原理

C std::vector:对象与元素的存储位置及实现原理 本文说明如何回答「std::vector 在堆上还是栈上」这类面试题,并梳理典型实现思路;后半部分对照本机已安装的 GNU libstdc(GCC 13)源码,把教科书里的「三成员…...

高校科研平台:Vue3如何扩展百度WebUploader实现实验数据文件夹的目录结构分片秒传与备份?

咱福州网工仔实锤了!最近为了毕设焦头烂额——要搞个能打的大文件管理系统,还要兼容IE8这种“上古浏览器”(学校机房那台Win7IE9的老古董,点个按钮都像在玩心跳)。找了一圈后端教程,不是“自己悟”就是“付…...