当前位置: 首页 > news >正文

python实现YouTube关键词爬虫(2025/02/11)

在当今数字化时代,YouTube作为全球最大的视频分享平台之一,拥有海量的视频资源。无论是进行市场调研、内容创作还是学术研究,能够高效地获取YouTube上的相关视频信息都显得尤为重要。今天,我将为大家介绍一个基于Python实现的YouTube视频搜索爬虫,帮助大家快速获取特定关键词相关的视频基本信息。

废话不多说,先上结果:

一、项目背景与需求

随着信息的爆炸式增长,如何从海量的YouTube视频中快速找到符合特定需求的内容成为了一个挑战。例如,对于内容创作者来说,了解某一热门话题下的视频趋势和优秀作品能够为自己的创作提供灵感;对于市场研究人员而言,分析特定品牌或产品的相关视频数据有助于洞察市场动态和用户反馈。因此,开发一个能够自动搜索并提取YouTube视频信息的爬虫工具具有重要的应用价值。

二、技术选型与实现思路

1.技术选型

  • Python语言:Python以其简洁易读的语法和强大的库支持,成为了爬虫开发的首选语言。它提供了丰富的网络请求库(如requests)、数据处理库(如pandas)以及JSON解析等功能,能够高效地实现爬虫的各项功能。

  • requests:用于发送HTTP请求,获取YouTube网页的响应数据。它支持自定义请求头、参数和数据,能够灵活地模拟浏览器行为,从而获取到我们需要的视频搜索结果数据。

  • pandas:主要用于数据的存储和处理。在爬取到视频信息后,我们可以将其存储为DataFrame对象,方便后续的数据分析、筛选和导出为CSV文件等操作。

2.实现思路

  • 模拟搜索请求:通过分析YouTube的搜索功能,我们发现其搜索结果是通过向特定的API接口发送请求并携带相应的参数和数据来获取的。因此,我们需要构造类似的请求,包括设置合适的请求头(如User-AgentReferer等)、参数(如搜索关键词、分页令牌等)以及请求体(包含搜索的上下文信息等),以模拟用户在浏览器中进行搜索的行为。

  • 解析响应数据:YouTube返回的搜索结果数据是JSON格式的,其中包含了视频的基本信息,如视频链接、标题、播放量、发布时间、作者昵称和主页链接等。我们需要编写解析逻辑,从JSON数据中提取出这些有用的信息,并将其整理成结构化的数据格式,以便后续的存储和分析。

  • 分页爬取与数据存储:由于YouTube的搜索结果通常会有很多页,为了完整地获取所有相关视频信息,我们需要实现分页爬取的功能。在每次请求中,我们可以通过解析返回数据中的分页令牌来判断是否存在下一页,并循环发送请求直到获取到所有页面的数据。同时,我们将爬取到的视频数据存储到CSV文件中,方便用户后续查看和使用。

三、代码实现

1.发送搜索请求

我们实现了get方法,用于发送搜索请求并获取YouTube的响应数据。在这个方法中,我们根据是否是首次请求(通过token参数判断),构造不同的请求体数据。首次请求时,我们直接传递搜索关键词;后续分页请求时,则使用分页令牌来获取下一页的数据。

def get(self, keyword, token):url = "https://www.youtube.com/youtubei/v1/search"params = {"prettyPrint": "false"}if token != "-1":data = {"context": {"client": {"hl": "zh-CN","gl": "HK","remoteHost": "103.17.98.17","deviceMake": "","deviceModel": "","visitorData": "CgthSS1jZ09JTTY3ayj44Iy9BjIKCgJISxIEGgAgWg%3D%3D","userAgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36,gzip(gfe)","clientName": "WEB","clientVersion": "2.20250203.06.01","osName": "Windows","osVersion": "10.0","originalUrl": f"https://www.youtube.com/results?search_query={quote(keyword)}&themeRefresh=1","platform": "DESKTOP","clientFormFactor": "UNKNOWN_FORM_FACTOR",
…………}else:data = {"context": {"client": {"hl": "zh-CN","gl": "HK","remoteHost": "103.17.98.17","deviceMake": "","deviceModel": "","visitorData": "CgthSS1jZ09JTTY3ayj44Iy9BjIKCgJISxIEGgAgWg%3D%3D","userAgent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/132.0.0.0 Safari/537.36,gzip(gfe)","clientName": "WEB","clientVersion": "2.20250203.06.01","osName": "Windows","osVersion": "10.0","originalUrl": f"https://www.youtube.com/results?search_query={quote(keyword)}","platform": "DESKTOP","clientFormFactor": "UNKNOWN_FORM_FACTOR",
…………}data = json.dumps(data, separators=(',', ':'))response = requests.post(url, headers=headers, cookies=cookies, params=params, data=data, timeout=(3, 10))return response.json()

2.解析响应数据

在获取到YouTube的响应数据后,我们需要从中提取出有用的视频信息。这部分逻辑由parse_data方法实现。我们首先解析出视频的基本信息,如视频链接、标题、播放量、发布时间、作者昵称和主页链接等,并将这些信息存储到一个列表中。同时,我们还会尝试从响应数据中获取分页令牌,以便后续进行分页爬取。

def parse_data(self, keyword, contents):token = Nonecontents_1 = contents[0]['itemSectionRenderer']['contents']result_list = []for c in contents_1:videoRenderer = c.get('videoRenderer')if videoRenderer:videoId = videoRenderer.get('videoId')video_url = f"https://www.youtube.com/watch?v={videoId}"title = "".join([tt['text'] for tt in videoRenderer['title'].get('runs', [])])viewCountText = videoRenderer.get('viewCountText', {}).get('simpleText', '')publishedTimeText = videoRenderer.get('publishedTimeText', {}).get('simpleText', '')username = videoRenderer['ownerText']['runs'][0]['text']uid_ = videoRenderer['ownerText']['runs'][0]['navigationEndpoint']['browseEndpoint']['canonicalBaseUrl']p_url = f"https://www.youtube.com{uid_}"item = {"关键词": keyword,"视频链接": video_url,"标题": title,"发布时间": publishedTimeText,"播放量": viewCountText,"昵称": username,"主页链接": p_url,}self.log(f"找到视频:{title}")result_list.append(item)try:token = contents[1]['continuationItemRenderer']['continuationEndpoint']['continuationCommand']['token']except:passif result_list:self.save_data(self.saveFileName, result_list)return token

3.主逻辑与分页爬取

最后,我们实现了run方法和main方法。run方法用于控制爬虫的运行逻辑,包括发送搜索请求、解析响应数据、存储数据以及分页爬取等功能。main方法则用于读取关键词文件,并依次对每个关键词启动爬虫。

 

def run(self, keyword, token="-1"):self.current_token = tokenself.saveFileName = keywordwhile self.is_running and self.current_token:try:# 检查页数限制if self.max_pages and self.current_page >= self.max_pages:self.log(f"已达到设定的{self.max_pages}页限制,停止爬取")breakself.log(f"正在爬取第 {self.current_page + 1} 页")dataJson = self.get(keyword, self.current_token)if self.current_token == "-1":contents = dataJson["contents"]["twoColumnSearchResultsRenderer"]["primaryContents"]["sectionListRenderer"]["contents"]else:contents = dataJson["onResponseReceivedCommands"][0]["appendContinuationItemsAction"]["continuationItems"]self.current_token = self.parse_data(keyword, contents)self.current_page += 1except Exception as e:self.log(f"发生错误:{str(e)}")breakdef main(self):keyword_list = [k.strip() for k in open('关键词.txt', encoding='utf-8').readlines() if k.strip() != ""]xuhao = 0for index, keyword in enumerate(keyword_list[xuhao:], xuhao):print((index, keyword))self.run(keyword)

 

四、总结

通过以上代码的实现,我们成功地开发了一个能够自动搜索并提取YouTube视频信息的爬虫工具。它可以帮助我们快速获取特定关键词相关的视频数据,并将其存储到CSV文件中,方便后续的分析和使用。在实际应用中,我们还可以根据需求对爬虫进行进一步的优化和扩展,例如增加代理支持、设置爬取频率等,以提高爬虫的稳定性和效率。


希望这篇文章能够帮助你更好地理解和实现YouTube视频搜索爬虫。如果有任何问题或建议,欢迎在评论区留言交流!

 

相关文章:

python实现YouTube关键词爬虫(2025/02/11)

在当今数字化时代,YouTube作为全球最大的视频分享平台之一,拥有海量的视频资源。无论是进行市场调研、内容创作还是学术研究,能够高效地获取YouTube上的相关视频信息都显得尤为重要。今天,我将为大家介绍一个基于Python实现的YouT…...

【效率技巧】怎么做思维导图||数学思维||费曼学习法

目录标题 常见问题:认知误区和建议:思维导图按照功能分类思维导图好处步骤(拆解的步骤) 常见问题: 1、做好的思维导图浪费时间 2、做简单的思维导图没有效果 认知误区和建议: 1、做思维导图工具&#xf…...

LabVIEW与USB设备开发

开发一台USB设备并使用LabVIEW进行上位机开发,涉及底层驱动的编写、USB通信协议的实现以及LabVIEW与设备的接口设计。本文将详细介绍如何开发USB设备驱动、实现LabVIEW与USB设备的通信以及优化数据传输,帮助用户顺利完成项目开发。下面是一个详细的说明&…...

动态规划LeetCode-416.分割等和子集

给你一个 只包含正整数 的 非空 数组 nums 。请你判断是否可以将这个数组分割成两个子集,使得两个子集的元素和相等。 示例 1: 输入:nums [1,5,11,5] 输出:true 解释:数组可以分割成 [1, 5, 5] 和 [11] 。 示例 2&…...

云原生(五十五) | ECS中自建数据库迁移到RDS

文章目录 ECS中自建数据库迁移到RDS 一、场景说明 二、ECS中自建数据库迁移到RDS实现步骤 三、 创建wordpress数据库 四、登录ECS导出wordpress数据库 五、返回RDS数据库管理控制台 六、开启外网地址并设置白名单 七、获取RDS外网访问地址 八、重新设置wordpress的wp-…...

【吾爱出品】 视频批量分段工具

视频批量分段工具 链接:https://pan.xunlei.com/s/VOJDvtHQE7GOiJ84WNea5Ay1A1?pwd5nta# 选择视频文件 启动程序后,点击 "文件" 菜单下的 "选择视频文件" 按钮,或者直接将视频文件拖放到程序窗口中的视频列表区域。支…...

HTML【详解】input 标签

input 标签主要用于接收用户的输入,随 type 属性值的不同,变换其具体功能。 通用属性 属性属性值功能name字符串定义输入字段的名称,在表单提交时,服务器通过该名称来获取对应的值disabled布尔值禁用输入框,使其无法被…...

二叉搜索树的实现(C++)

前言 二叉搜索树(搜索二叉树,Binary search tree)是一种特殊的二叉树。其规则为:左子树的值一定小于等于根,右子树的值一定大于等于根,并且左右子树也为搜索二叉树。 二叉搜索树的插入 1.若树为空&#xf…...

vue2老版本 npm install 安装失败_安装卡主

vue2老版本 npm install 安装失败_安装卡主 特别说明:vue2老版本安装慢、运行慢,建议升级vue3element plus vite 解决方案1: 第一步、修改npm 镜像为国内镜像 使用淘宝镜像: npm config set registry https://registry.npmmir…...

【MySQL】索引篇

1.什么时候适用索引? 字段有唯一限制,比如商品编码经常用于where查询条件的字段经常用于group by和order by 的字段 2.什么时候不需要创建索引? 字段中存在大量重复经常更新的字段表数据太少的时候 where条件、group by,order by里…...

Arduino 第十六章:pir红外人体传感器练习

Arduino 第十六章:PIR 传感器练习 一、引言 在 Arduino 的众多有趣项目中,传感器的应用是非常重要的一部分。今天我们要学习的主角是 PIR(被动红外)传感器。PIR 传感器能够检测人体发出的红外线,常用于安防系统、自动…...

鸿蒙面试题

1.0penHarmony的系统架构是怎样的? 2.电话服务的框架? 3.OpenHarmony与HarmonyOS有啥区别?...

Rust 语言入门(一):打印与格式化输出

对于初学者来说,掌握 Rust 的基本 I/O 操作是入门的第一步。本篇博客将介绍 Rust 语言的打印机制,包括基本的 print!、println! 宏,格式化输出方式,并探讨其底层原理。 Rust 的基本打印 在 Rust 中,最常见的输出方式…...

vue3.x 的 toRef详细解读

在 Vue 3.x 中,toRef 是一个用于创建响应式引用的工具函数。它可以将一个响应式对象的某个属性转换为一个独立的 ref 对象,同时保持与原始属性的响应式连接。以下是 toRef 的详细解读和示例。 1. toRef 的作用 核心功能 toRef 用于从响应式对象&#x…...

wordpress资讯类网站整站打包

wordpress程序,内置了价值499元的模板.但是有了模板没有全自动采集相信大多数人都搞不懂,目录那么多,全靠原创几乎是不可能的事情,除非你是大公司,每人控制一个板块, 这套源码里面最有价值的应该是这个采集…...

GitHub基本操作及Git简单命令

GitHub简介 GitHub就是一个远程仓库,远程仓库可以理解为就是一个可以保存自己代码的地方,在实际开发当中一个项目往往是有多个人来共同协作开发完成的,那么就需要一个统一代码保存的地方,而GitHub就是起到一个共享和汇总代码的作…...

记一次MySQL故障解决

记一次MySQL故障解决 1 故障现象2 故障排查2.1 查看MySQL服务状态2.2 查看服务日志 3 解决方法3.1 增加 wait_timeout 和 interactive_timeout 参数的值,确保连接不会因超时而被关闭:3.2 检查服务已经恢复正常,不过以上只是临时修改&#xff…...

DeepSeek-R1私有化部署教程 | Linux服务器搭建AI大语言模型

**云服务器用LinuxDockerOllamaOpenWebUI部署DeepSeek-R1大语言模型(LLMs),DeepSeek本地化部署教程(在自己电脑上部署也可以参考此教程)。**超详细教程,手把手。 在当今数字化时代,大型语言模型…...

「软件设计模式」桥接模式(Bridge Pattern)

深入解析桥接模式:解耦抽象与实现的艺术 一、模式思想:正交维度的优雅解耦 桥接模式(Bridge Pattern)通过分离抽象(Abstraction)与实现(Implementation),使二者可以独立…...

【Flink快速入门-5.流处理之多流转换算子】

流处理之多流转换算子 实验介绍 前面实验中介绍的算子已经能够满足我们的大部分开发需求了,但是在实际工作中有时候还会遇到一些业务场景,例如需要摄入多个输入流并将其合并处理,或者需要将一条输入流分割为多条子流,在不同的子…...

Vim 调用外部命令学习笔记

Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M:百万(Million) B:十亿(Billion) 1 B 1000 M 1B 1000M 1B1000M 参数存储精度 模型参数是固定的,但是一个参数所表示多少字节不一定,需要看这个参数以什么…...

3.3.1_1 检错编码(奇偶校验码)

从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...

Cloudflare 从 Nginx 到 Pingora:性能、效率与安全的全面升级

在互联网的快速发展中,高性能、高效率和高安全性的网络服务成为了各大互联网基础设施提供商的核心追求。Cloudflare 作为全球领先的互联网安全和基础设施公司,近期做出了一个重大技术决策:弃用长期使用的 Nginx,转而采用其内部开发…...

反射获取方法和属性

Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...

零基础设计模式——行为型模式 - 责任链模式

第四部分:行为型模式 - 责任链模式 (Chain of Responsibility Pattern) 欢迎来到行为型模式的学习!行为型模式关注对象之间的职责分配、算法封装和对象间的交互。我们将学习的第一个行为型模式是责任链模式。 核心思想:使多个对象都有机会处…...

【JavaWeb】Docker项目部署

引言 之前学习了Linux操作系统的常见命令,在Linux上安装软件,以及如何在Linux上部署一个单体项目,大多数同学都会有相同的感受,那就是麻烦。 核心体现在三点: 命令太多了,记不住 软件安装包名字复杂&…...

安卓基础(aar)

重新设置java21的环境,临时设置 $env:JAVA_HOME "D:\Android Studio\jbr" 查看当前环境变量 JAVA_HOME 的值 echo $env:JAVA_HOME 构建ARR文件 ./gradlew :private-lib:assembleRelease 目录是这样的: MyApp/ ├── app/ …...

【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)

LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...

深入理解Optional:处理空指针异常

1. 使用Optional处理可能为空的集合 在Java开发中,集合判空是一个常见但容易出错的场景。传统方式虽然可行,但存在一些潜在问题: // 传统判空方式 if (!CollectionUtils.isEmpty(userInfoList)) {for (UserInfo userInfo : userInfoList) {…...