当前位置：首页 > news >正文

Scrapy 爬取m3u8视频

news 2026/5/12 21:20:56

Scrapy 爬取m3u8视频

【一】效果展示

爬取ts文件样式

在这里插入图片描述

合成的MP4文件

在这里插入图片描述

【二】分析m3u8文件路径

视频地址：[在线播放我独自升级第03集 - 高清资源](https://www.physkan.com/ph/175552-8-3.html)

【1】找到m3u8文件

这里任务目标很明确
- 就是找m3u8文件
打开浏览器
- 进入开发者模式F12
- 搜索m3u8文件
- 查看响应内容含有ts文件的m3u8文件
- 再次查看标头地址即可

在这里插入图片描述

【2】分析m3u8路径

https://leshiyuncdn.36s.top/20240121/0RS6t7a1/2000kb/hls/index.m3u8
- 按照/拆分：leshiyuncdn.36s.top----20240121----0RS6t7a1----2000kb----hls
- 笨办法：一个个的进行搜索
- 查看哪个找到m3u8的路径
其中搜索leshiyuncdn.36s.top这个的时候
- 查看响应中含有m3u8地址
- 那么就继续分析这个地址

在这里插入图片描述

https://bfnb1sx.phvod.top/?url=O0O0OlHnRp0hcpHM6Ly9sZXNoO0O0OXl1bmNkbi4zNnMuo000oG9wLzIwMjQwMTIxLzBSUzZ0N2ExL2luZGV4Lm0zo000oTgoo00o&next=//www.physkan.com/ph/175552-8-4.html
- 同样的采用笨方法：拆分一个一个的找
在搜索O0O0OlHnRp0hcpHM6Ly9sZXNoO0O0OXl1bmNkbi4zNnMuo000oG9wLzIwMjQwMTIxLzBSUzZ0N2ExL2luZGV4Lm0zo000oTgoo00o的时候
- 找到https://www.physkan.com/ph/175552-8-3.html里面含有我们搜索的内容
- 并且这个地址就是浏览器的访问视频的地址
- 好了，就是它了

在这里插入图片描述

【三】scrapy代码

【1】基础内容

class M3U8Spider(scrapy.Spider):# 爬虫文件名name = "m3u8"# 可访问的域名列表allowed_domains = ["www.physkan.com", 'bfnb1sx.phvod.top', 'leshiyuncdn.36s.top', 'tscdn.hyz1.top']# 起始地址start_urls = ["https://www.physkan.com/ph/175552-8-3.html"]# 视频存储路径video_path = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(__file__))), 'video')# 确保文件创建好os.makedirs(video_path, exist_ok=True)# m3u8文件路径m3u8_path = os.path.join(video_path, 'index.m3u8')# ts文件路径ts_info_path = os.path.join(video_path, 'ts.txt')

【2】分析获取m3u8路径

我们需要的数据发现在script的player_aaaa中
- 正则匹配，json格式转换为字典格式，方便读取数据
- 其中url含有我们需要的路径参数，但是不全
- 所以补全路径发起请求

def parse(self, response):# 获取网页源码page_source = response.text# 分析源码可以发现需要的地址在script的player_aaaa中# 通过正则匹配获取pattern = r'var player_aaaa=({.*?})</script>'url_info_str = re.findall(pattern, page_source, re.DOTALL)[0]# json格式转换为字典，方便拿数据url_info_dict = json.loads(url_info_str)# 拼接m3u8路径m3u8_info_url = 'https://bfnb1sx.phvod.top/?url=' + url_info_dict['url']yield scrapy.Request(url=m3u8_info_url, callback=self.get_m3u8_url)

这个地址还并非是直接的m3u8路径
- 同样的获取m3u8路径参数
- 拼接完整路径参数，就可以得到m3u8的真正路径

def get_m3u8_url(self, response):page_source = response.textpattern = r'var config = ({.*?})'m3u8_info_str = re.findall(pattern, page_source, re.DOTALL)[0]m3u8_info_dict = json.loads(m3u8_info_str)m3u8_url = m3u8_info_dict['url']m3u8_url = m3u8_url.rsplit('/', 1)[0] + '/2000kb/hls/index.m3u8'yield scrapy.Request(url=m3u8_url, callback=self.get_ts_list)

【3】获取过滤ts

通过上面的地址获取到了index.m3u8文件
- 先保存在本地一份，方便查看
- 使用正则表达式过滤出ts视频
- 还要保存一份ts文件路径在本地
  - 因为接下来使用ffmpeg工具进行视频合成
  - 格式要求：file '视频路径.ts'
- 最后异步发起ts视频文件请求

def get_ts_list(self, response):# 获取页面txt信息page_source = response.text# 保存在index.m3u8文件在本地with open(self.m3u8_path, mode='wt', encoding='utf8') as fp:fp.write(page_source)# 使用正则过滤拿出ts路径ts_urls = re.findall(r'https://tscdn.hyz1.top/[^\s]+.ts', page_source)# 保存的ts视频文件需要按照合成视频ffmpeg的格式拼接with open(self.ts_info_path, mode='wt', encoding='utf8') as fp:for ts in ts_urls:file_name = ts.rsplit('/', 1)[-1]file_path = os.path.join(self.video_path, file_name)# 保存ts文件，保存的为ts文件路径fp.write(f"file '{file_path}'" + '\n')# 异步发起ts视频文件的请求yield scrapy.Request(url=ts, callback=self.save_ts_file, meta={'file_path': file_path})

（3.1）小插曲

在m3u8文件中
- 你会发现这个不一样的地址
- 其实这部分是广告，可以过滤掉

在这里插入图片描述

【4】保存ts文件、合成MP4文件

首先进行ts文件保存
- 这个没有什么好说的
- 直接保存吧

def save_ts_file(self, response):# 保存ts文件本地file_path = response.meta.get('file_path')with open(file_path, mode='wb') as fp:fp.write(response.body)# 输出日志写不写都行self.log(f'保存成功:>>>{file_path.rsplit("/", 1)[-1]}')

拼接ts文件为MP4视频文件
- 需要用的工具是ffmpeg
- 官网：Download FFmpeg
- 去安装配置好环境变量即可
合成MP4视频
- 首先使用os模块切换到保存的ts文件路径下
- 然后执行ffmpeg命令
  - ffmpeg -f concat -safe 0 -i ts.txt -c copy output.mp4
- ts.txt是之前的保存的ts文件路径文件
  - 格式要求：file '视频路径.ts'
- output.mp4是合成后的mp4文件
  - 可自定义文件名等

    def close(spider, reason):# 爬虫执行完毕以后，拼接视频  工具：ffmpegos.chdir(f'{spider.video_path}')os.system(f'ffmpeg -f concat -safe 0 -i ts.txt -c copy output.mp4')

免责声明

本爬虫仅用于收集特定网站的信息，目的是进行数据分析，不得用于非法目的或侵犯他人隐私。对于因使用本爬虫造成的任何损失或法律责任，本人概不负责。
本爬虫的数据可能存在不准确、不完整或不可用的情况，对于用户或第三方可能因此造成的任何损失，本人概不负责。

Scrapy 爬取m3u8视频

Scrapy 爬取m3u8视频【一】效果展示爬取ts文件样式合成的MP4文件【二】分析m3u8文件路径视频地址：[在线播放我独自升级第03集 - 高清资源](https://www.physkan.com/ph/175552-8-3.html) 【1】找到m3u8文件这里任务目标很明确就是找m3u8文件打开浏览器…...

编程日记 2024/4/15 1:33:13

LVGL简单记录

1、 vs中代码旁边有个小锁删除git 2、Visual Studio 试图编译已删除的文件， 如果这个文件也是你不再需要编译的文件，且已经从文件系统中删除，你需要从 .vcxproj 文件中移除或者注释掉这一行，以停止Visual Studio尝试去编译一个不…...

编程日记 2024/4/15 1:31:11

计算机网络——ARP协议

前言本博客是博主用于复习计算机网络的博客，如果疏忽出现错误，还望各位指正。这篇博客是在B站掌芝士zzs这个UP主的视频的总结，讲的非常好。可以先去看一篇视频，再来参考这篇笔记（或者说直接偷走）。 …...

编程日记 2024/4/15 1:26:04

【C++]C/C++的内存管理

这篇博客将会带着大家解决以下几个问题 1. C/C内存分布 2. C语言中动态内存管理方式 3. C中动态内存管理 4. operator new与operator delete函数 5. new和delete的实现原理 6. 定位new表达式(placement-new) 1. C/C内存分布我们先来看下面的一段代码和相关问题 int global…...

编程日记 2024/4/15 1:25:03

深入理解计算机网络分层结构

一、为什么要分层？ 计算机网络分层的主要目的是将复杂的网络通信过程分解为多个相互独立的层次，每个层次负责特定的功能。这样做有以下几个好处： 模块化设计：每个层次都有清晰定义的功能和接口，使得网络系统更易于设…...

编程日记 2024/4/15 1:23:00

亚马逊云科技CTO带你学习云计算降本增效秘诀

2023亚马逊云科技一年一度的重磅春晚--Re:invent上有诸多不同话题的主题Keynote，这次小李哥带大家复盘来自亚马逊CTO: Wener博士的主题演讲: 云架构节俭之道1️⃣节俭对于云计算为什么重要？ ▶️企业基础设施投入大，利用好降本策略可以减少巨…...

编程日记 2024/4/15 1:21:59

快速上手Vue

目录概念创建实例插值表达式 Vue响应式特性概念 Vue是一个用于构建用户界面的渐进式框架构建用户界面：基于数据渲染出用户看到的页面渐进式：Vue相关生态：声明式渲染<组件系统<客户端路由<大规模状态管理<构建工具 V…...

编程日记 2024/4/15 1:19:57

java 目录整理

Java知识相关目录主要参考黑马程序员风清扬老师的视屏，参考链接为 Java_黑马刘意(风清扬)2019最新版_Java入门视频_Java入门_Java编程_Java入门教程_黑马教程_黑马程序员_idea版_哔哩哔哩_bilibili 1、java 基础 java基本认识？java跨平台原理？jdk、jre、jvm的联系？链接：…...

编程日记 2024/4/15 1:18:56

使用Python的Pillow库进行图像处理书法参赛作品

介绍： 在计算机视觉和图像处理领域，Python是一种强大而流行的编程语言。它提供了许多优秀的库和工具，使得图像处理任务变得轻松和高效。本文将介绍如何使用Python的wxPython和Pillow库来选择JPEG图像文件，并对选中的图像进行调整和…...

编程日记 2024/4/15 1:14:52

docker 容器指定utf-8编码

在运行 Docker 容器的时候，如果容器内应用需要使用 UTF-8 编码来正常处理中文，你可以通过设置环境变量来指定编码。可以使用 -e 或者 --env 标志来设置环境变量。比如，设置 LANG 和 LC_ALL 环境变量为 C.UTF-8 或者 en_US.UTF-8&#xff1a…...

编程日记 2024/4/15 1:13:51

单例模式以及常见的两种实现模式

单例模式是校招中最常考的设计模式之一. 设计模式其实就是类似于“规章制度”，按照这个套路来进行操作。单例模式能保证某个类在程序中只存在唯一一份实例。而不会创建出多个实例，如果创建出了多个实例，就会编译报错。而不会创建出多个实…...

编程日记 2024/4/15 1:10:48

Java hashCode() 和 equals()的若干问题解答

Java hashCode() 和 equals()的若干问题解答本章的内容主要解决下面几个问题： 1 equals() 的作用是什么？ 2 equals() 与的区别是什么？ 3 hashCode() 的作用是什么？ 4 hashCode() 和 equals() 之间有什么联系？ …...

编程日记 2024/4/15 1:08:45

高级IO——React服务器简单实现

3.4Reactor服务器实现 1.connect封装每一个连接都要有一个文件描述符和输入输出缓冲区，还有读、写、异常处理的回调方法； 还包括指向服务器的回指指针； class connection; class tcpserver;using func_t std::function<void(s…...

编程日记 2024/4/15 1:05:41

Qt使用插件QPluginLoader 机制开发

简介： 插件(Plug-in,又称addin、add-in、addon或add-on,又译外挂)是一种遵循一定规范的应用程序接口编写出来的程序。 Qt 提供了2种APIs来创建插件： 一种高级API，用于为Qt本身编写插件：自定义数据库驱动程序，图像格…...

编程日记 2024/4/15 1:02:38

双子座 Gemini1.5和谷歌的本质

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2024/4/15 1:00:37

二百三十、MySQL——MySQL表的索引

1 目的梳理一下目前MySQL维度表的索引情况，当然网上也有其他博客专门讲MySQL索引的，我这边只是梳理一下目前的索引状况而已 2单列索引 2.1 索引截图 2.2 建表语句 3 联合索引 3.1 索引截图 3.2 建表语句 4 参考的优秀博客 http://t.csdnimg.cn/ZF7…...

编程日记 2024/4/15 0:58:34

ThreadLocal主要是为了解决线程安全性问题的非线程安全举例 public class ThreadLocalDemo {// 非线程安全的private static final SimpleDateFormat sdf new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");public static Date parse(String strDate) throws ParseExc…...

编程日记 2024/4/15 0:57:33

软件测试测试开发丨Pytest结合数据驱动-yaml，熬夜整理蚂蚁金服软件测试高级笔试题

编程语言 languages: PHPJavaPython book: Python入门: # 书籍名称 price: 55.5 author: Lily available: True repertory: 20 date: 2018-02-17 Java入门: price: 60 author: Lily available: False repertory: Null date: 2018-05-11 yaml 文件使用查看 yaml 文件 pych…...

编程日记 2024/4/15 0:56:32

软考数据库---2.SQL语言

主要记忆：表、索引、视图操作语句；数据操作；通配符、转义符；授权；存储过程；触发器这部分等等整理一下: “”" 1、数据定义语言。 SQL DDL提供定义关系模式和视图、删除关系和视图、修改关系模式的…...

编程日记 2024/4/15 0:51:28

基于顺序表实现通讯录

上篇我们讲了顺序表是什么，和如何实现顺序表。这篇文章我们将基于顺序表来实现通讯录。文章目录前言一、基于顺序表是如何实现的二、通讯录的头文件和实现文件三、通讯录的实现3.1 定义通讯录结构3.2 初始化通讯录3.3 销毁通讯录3.4 通讯录添加数据3.5 查找联系人…...

编程日记 2024/4/15 0:49:26

斐讯K3从梅林‘变砖’到官复原职：一个手残党的硬核救砖全记录（附TTL/编程器操作避坑点）

斐讯K3救砖实战：从梅林固件崩溃到完美恢复的完整指南 1. 当路由器变成"砖头"：一个普通用户的崩溃瞬间那是一个普通的周末下午，我正兴冲冲地准备给我的斐讯K3刷上梅林固件，幻想着能获得更强大的功能和更稳定的性能。按照…...

编程新知 2026/5/12 19:11:46

软件测试行业的结构性变化：外包测试正在消失，高端测试供不应求

一个正在被重新定义的职业如果你是一位在软件测试领域工作了三到五年的从业者，大概率会在某个加班的深夜产生过这样的困惑：为什么招聘网站上“功能测试工程师”的岗位越来越少，薪资也停滞不前？为什么同事群里讨论的不再是如何设…...

编程新知 2026/5/12 18:09:34

避坑指南：用Qt为STM32项目写上位机时，我遇到的5个串口和界面难题

避坑指南：用Qt为STM32项目写上位机时，我遇到的5个串口和界面难题第一次用Qt给STM32开发上位机时，我以为串口通信不过是简单的数据收发，界面设计拖拖控件就能搞定。直到项目进度被各种诡异bug拖慢两周后，才意识到自己踩…...

编程新知 2026/5/12 17:52:16

Muse：现代化多仓库管理工具，提升开发效率与协作体验

1. 项目概述：一个面向开发者的现代化代码库管理工具最近在和一些团队交流时，发现一个挺普遍的现象：大家手头的项目代码库越来越多，有的是自己维护的开源项目，有的是公司内部的核心业务模块，还有一堆实验性的…...

编程新知 2026/5/12 17:01:43

如何轻松掌握开源OCR插件的实用技巧：5步快速上手指南

如何轻松掌握开源OCR插件的实用技巧：5步快速上手指南【免费下载链接】Umi-OCR_plugins Umi-OCR 插件库项目地址: https://gitcode.com/gh_mirrors/um/Umi-OCR_plugins 你是否曾被纸质文档的数字化问题困扰？或者需要从图片中提取数学公式却找不到…...

编程新知 2026/5/12 16:40:30

MODCAR：一种高效并发工业通信协议

什么是 MODCAR？MODCAR 是一个面向工业现场总线与以太网的并发通信协议。它的名字由两部分组成：MOD —— 致敬经典的 Modbus 协议，继承了其功能码、寄存器/位操作等易用特性。CAR —— Concurrent Access & Response（并发访问与…...

编程新知 2026/5/12 14:32:03

告别配置烦恼！Qt 5.14.2下QCustomPlot源码集成与QChart开箱即用全攻略

Qt 5.14.2图表库极简集成指南：QCustomPlot源码直连与QChart零配置实战刚接手一个需要快速实现数据可视化的Qt项目时，开发者往往会在图表库的选择和集成上耗费大量时间。传统方案如Qwt需要繁琐的编译配置，而官方文档又常常默认读者已经熟悉Qt…...

编程新知 2026/5/12 14:30:30

基于RAG与MCP协议构建实时新闻AI助手：newsmcp项目实战解析

1. 项目概述：一个让AI“读新闻”的智能工具最近在折腾AI应用开发的朋友，可能都绕不开一个核心问题：如何让大语言模型（LLM）获取并理解最新的、模型训练数据之外的信息？比如，你想让ChatGPT帮你分析…...

编程新知 2026/5/12 13:22:02

暗黑破坏神2存档编辑器完整指南：快速免费修改d2s文件终极方案

暗黑破坏神2存档编辑器完整指南：快速免费修改d2s文件终极方案【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 你是否曾经在暗黑破坏神2中因为技能点分配错误而懊悔？是否因为刷不到心仪的装备而浪费时间&a…...

编程新知 2026/5/12 13:07:18

资源受限场景下基于强化学习的自适应AI安全框架设计与实践

1. 项目概述：当AI安全遇上资源与伦理的双重挑战最近和几位在非洲做技术援助的朋友聊起他们的工作，他们提到一个很有意思的困境：在乌干达这样的地区，网络安全监测的需求日益增长，但本地计算资源极其有限，网络…...

编程新知 2026/5/12 13:02:56

Scrapy 爬取m3u8视频

【一】效果展示

【二】分析m3u8文件路径

【1】找到m3u8文件

【2】分析m3u8路径

【三】scrapy代码

【1】基础内容

【2】分析获取m3u8路径

【3】获取过滤ts

（3.1）小插曲

【4】保存ts文件、合成MP4文件

相关文章：