当前位置：首页 > news >正文

基础篇3 浅试Python爬虫爬取视频，m3u8标准的切片视频

news 2026/2/11 1:10:23

浅试Python爬取视频

1.页面分析

使用虾米视频在线解析
使用方式：https://jx.xmflv.cc/?url=目标网站视频链接
例如某艺的视频原视频链接

解析结果:
在这里插入图片描述

1.1 F12查看页面结构

在这里插入图片描述
我们发现页面内容中什么都没有，video标签中的src路径也不是视频的数据。

1.2 老规矩看网络请求中的过滤的XHR

发现一堆没卵用的数据返回，直到我们看到这个mixed.m3u3结尾的返回结果，及后续高度相似的请求数据
在这里插入图片描述

1.3解析mp2t媒体文件

将上一步中的mp2t媒体文件随机挑选一个下载下来。打开后就是我们的目标视频。ok目的达到。
在这里插入图片描述接下来我们要做的就是将返回的mixed.m3u8解析出来

2.功能实现

2.1 拿到m3u8的文件

#-*- coding:UTF-8 -*-import requests
import os
import sysres = requests.get('https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8')
m3u8_obj = res.text
print(m3u8_obj)

可以看到打印结果
在这里插入图片描述
到这里我们就需要拿到ts结尾的字符串,然后筛选出以ts结尾的字符串。

2.2 解析m3u8的信息

m3u8 = m3u8_obj.split('\n')
# 匹配*.ts结尾的字符串
rst = [s for s in m3u8 if s.endswith('.ts')]
print(rst)

我们可以看到打印结果
在这里插入图片描述

接下来就需要拼接字符串获取到视频的路径，下载下来之后再进行拼接。

2.3 下载视频

baseurl= 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'
# 下载并保存TS分片
for i, url in enumerate(rst):response = requests.get(baseurl+url, stream=True)with open(f'segment{i + 1}.ts', 'wb') as out_file:out_file.write(response.content)

于是我们可以看到
在这里插入图片描述
现在切片视频正确拿到了

可以利用第三方软件进行视频合并
可以先创建一个.MP4格式的文件使用python写入文件的方法进行合并

2.4 合并

# 将下载的视频合并起来
# 拿到文件名
file_names = os.listdir('./video')
# 最终视频路径
target_video = open('./output.mp4','ab')
# 遍历全部视频集合
for file in file_names:with open('./video/'+file,"rb") as f:target_video.write(f.read())f.close()
target_video.close()

我只是下载的部分视频，成功合成看结果：

在这里插入图片描述

3.整合一下

# -*- coding:utf-8 -*-import requests
import os
import sysclass getvideo(object):def __init__(self) -> None:self.baseurl = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/'  # ts视频的路径self.m3u8url = 'https://vip.ffzy-online2.com/20221231/3848_0533f6da/2000k/hls/mixed.m3u8' # m3u8文件的路径self.ts_video = [] # 存放解析后的ts视频信息def geturlbyts(self):res = requests.get(self.m3u8url)m3u8_obj = res.text m3u8 = m3u8_obj.split('\n')  # 按照换行分割# 匹配*.ts结尾的字符串self.ts_video = [s for s in m3u8 if s.endswith('.ts')]# 下载并保存TS分片def downloadvideobyts(self):for i, url in enumerate(self.ts_video):response = requests.get(self.baseurl+url, stream=True)with open(f'.\\video\\'+self.ts_video[i], 'wb') as out_file:sys.stdout.write("下载进度:{0:.2f}%" .format(float((i+1)/len(self.ts_video))*100)  + '\r')sys.stdout.flush()out_file.write(response.content)def mergevideo(self):# 将下载的视频合并起来# 拿到文件名file_names = os.listdir('./video')# 最终视频路径target_video = open('./output.mp4','ab')# 遍历全部视频集合for file in file_names:with open('./video/'+file,"rb") as f:print("当前合并到{}".format(file))target_video.write(f.read())f.close()target_video.close()dlvideo = getvideo()
dlvideo.geturlbyts()
# 当前目录创建一个video文件夹 用来存储ts分片视频
# 创建个文件夹存储视频
os.makedirs('video',exist_ok=True)
dlvideo.downloadvideobyts()
dlvideo.mergevideo()
print("合并完成")

单线程着实慢，后续继续更新学习。
在这里插入图片描述
以上仅供学习使用，下载后请于24小时内删除。

基础篇3 浅试Python爬虫爬取视频，m3u8标准的切片视频

浅试Python爬取视频 1.页面分析使用虾米视频在线解析使用方式：https://jx.xmflv.cc/?url目标网站视频链接例如某艺的视频原视频链接解析结果: 1.1 F12查看页面结构我们发现页面内容中什么都没有，video标签中的src路径也不是视频的数据。 1.2 …...

编程日记 2024/4/3 14:48:20

Adaboost集成学习 | Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列预测（股票价格预测）

目录效果一览基本介绍模型设计程序设计参考资料效果一览基本介绍 Matlab实现基于BiLSTM-Adaboost双向长短期记忆神经网络结合Adaboost集成学习时间序列预测（股票价格预测）模型设计股票价格预测是一个具有挑战性的时间序列预测问题，可以使用深度学习模型如双向长短期记忆…...

编程日记 2024/4/3 14:38:10

MySQL两表联查之分组成绩第几问题

MySQL 数据库操作实践：两表联查之分组成绩第几问题在本篇博客中，我将展示MySQL 从创建表、到插入数据，并进行一些复杂的查询操作。 1. 建立表格首先，我们创建两个表：department（部门）和 em…...

编程日记 2024/4/3 14:36:08

每日一题(leetcode2952):添加硬币最小数量初识贪心算法

这道题如果整体去思考，情况会比较复杂。因此我们考虑使用贪心算法。 1 我们可以假定一个X，认为[1,X-1]区间的金额都可以取到，不断去扩张X直到大于target。（这里为什么要用[1,X-1]而不是[1,X],总的来说是方便，潜在思想…...

编程日记 2024/4/3 14:35:07

[Errno 2] No such file or directory: ‘g++‘

报错解释：这个错误表明系统试图访问名为g++的文件或目录，但没有找到。g++是GNU编译器集合（GNU Compiler Collection）中的C++编译器。如果系统中没有安装g++或者g++不在环境变量的路径中，就会出现这个错误。解决方法：确认g++是否已安装：在Linux上，可以尝试运行g+…...

编程日记 2024/4/3 14:34:05

go的通信Channel

一、channel是什么 1.一种通信机制 channel是goroutine与goroutine之间数据通信的一种通信机制。一般都是2个g及以上一起工作。 channel与关键字range和select紧密相关。二、channel的结构 go源码：GitHub - golang/go: The Go programming language src/runt…...

编程日记 2024/4/3 14:31:02

手写红黑树【数据结构】

手写红黑树【数据结构】前言版权推荐手写红黑树一、理论知识红黑树的特征增加删除二、手写代码初始-树结点初始-红黑树初始-遍历初始-判断红黑树是否有效查找增加-1.父为黑，直接插入增加-2. 父叔为红，颜色调换增加-3. 父红叔黑，颜色调换&am…...

编程日记 2024/4/3 14:29:00

kruskal做法(加边) #include <bits/stdc.h> using namespace std; int x[10005],y[10005],z[10005];//存储i点的x与y坐标 int bcj[10005];//并查集 struct Edge{//边 int v1,v2; double w; }edge[2000005]; int cmp(Edge a, Edge b){return a.w < b.w;} int find(i…...

编程日记 2024/4/3 14:24:54

安全算法 - 摘要算法

摘要算法是一种将任意长度的数据转换为固定长度字节串的算法。它具有以下特点和应用。首先，摘要算法能够生成一个唯一且固定长度的摘要值，用于验证数据的完整性和一致性。无论输入数据有多长，生成的摘要值始终是固定长度的，且即…...

编程日记 2024/4/3 14:22:51

操作系统：动静态库

目录 1.动静态库 1.1.如何制作一个库 1.2.静态库的使用和管理 1.3.安装和使用库 1.4.动态库 1.4.1.动态库的实现 1.4.2.动态库与静态库的区别 1.4.3.共享动态库给系统的方法 2.动态链接 2.1.操作系统层面的动态链接 1.动静态库静态库（.a）&…...

编程日记 2024/4/3 14:21:49

车载电子电器架构 —— 局部网络管理汇总

车载电子电器架构 —— 局部网络管理汇总我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：屏蔽力是信息过载时代一个人的特殊竞争力，任何消耗你的人和事，多看一眼都是你的不对。非必要不费力证明…...

编程日记 2024/4/3 14:20:48

网络安全 | 什么是DDoS攻击？

关注WX：CodingTechWork DDoS-介绍 DoS：Denial of Service，拒绝服务。DDoS是通过大规模的网络流量使得正常流量不能访问受害者目标，是一种压垮性的网络攻击，而不是一种入侵手段。NTP网络时间协议，设备需要…...

编程日记 2024/4/3 14:18:45

[Godot] 3D拾取

CollisionObject3D文档 Camera3D文档 CollisionObject3D有个信号_input_event，可以用于处理3D拾取。 Camera3D也有project_position用于将屏幕空间坐标投影到3D空间。 extends Node3D#是否处于选中状态 var selected : bool false #摄像机的前向量 var front : V…...

编程日记 2024/4/3 14:15:42

知识融合：知识图谱构建的关键技术

目录一、引言二、知识图谱基础2.1 知识表示三元组属性图 2.2 知识抽取实体抽取关系抽取属性抽取三、知识融合的核心问题3.1 实体识别与链接实体识别实体链接 3.2 重复实体合并方法示例 3.3 关系融合挑战方法示例四、知识融合技术深度解析4.1 基于规则的方法规则设计原则规则…...

编程日记 2024/4/3 14:14:40

外贸建站：WordPress搭建外贸独立站零基础自建站完整教程（2024）

对于做外贸来说，拥有自己的外贸独立网站真的非常重要。在外贸领域，如今各平台竞争激烈，规则多，成本高，价格战、政策变化快，还存在封店风险等等因素。在这种情况下，拥有外贸独立站就能很好规避上…...

编程日记 2024/4/3 14:11:37

【教程】Kotlin语言学习笔记（五）——Lambda表达式与条件控制

写在前面： 如果文章对你有帮助，记得点赞关注加收藏一波，利于以后需要的时候复习，多谢支持！ 【Kotlin语言学习】系列文章第一章《认识Kotlin》第二章《数据类型》第三章《数据容器》第四章《方法》第五章《L…...

编程日记 2024/4/3 14:10:36

C++的并发世界（三）——线程对象生命周期

0.案例代码先看下面一个例子： #include <iostream> #include <thread>void ThreadMain() {std::cout << "begin sub thread:" << std::this_thread::get_id()<<std::endl;for (int i 0; i < 10; i){std::cout <&…...

编程日记 2024/4/3 14:03:29

SAD法（附python实现）和Siamese神经网络计算图像的视差图

1 视差图视差图：以左视图视差图为例，在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标视差图和深度图： z f b d z \frac{fb}{d} zdfb 其中 d d d 是视差， f f f 是焦距， b b…...

编程日记 2024/4/3 14:01:26

基于DWT（离散小波变换）的图像加密水印算法，Matlab实现

博主简介： 专注、专一于Matlab图像处理学习、交流，matlab图像代码代做/项目合作可以联系（QQ:3249726188） 个人主页：Matlab_ImagePro-CSDN博客原则：代码均由本人编写完成，非中介，提供…...

编程日记 2024/4/3 13:57:20

【威胁情报综述阅读3】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense

【威胁情报综述阅读1】Cyber Threat Intelligence Mining for Proactive Cybersecurity Defense: A Survey and New Perspectives 写在最前面一、介绍二、网络威胁情报挖掘方法和分类A. 研究方法1） 第 1 步 - 网络场景分析：2） 第 2 步 - 数据…...

编程日记 2024/4/3 13:55:17

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

编程新知 2026/2/10 3:29:01

《Playwright：微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络，将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具，支持 Chrome、Firefox、Safari 等主流浏览器，提供多语言 API（Python、JavaScript、Java、.NET）。它的特点包括&a…...

编程新知 2025/7/23 15:00:00

vscode（仍待补充）

写于2025 6.9 主包将加入vscode这个更权威的圈子 vscode的基本使用侧边栏 vscode还能连接ssh？ debug时使用的launch文件 1.task.json {"tasks": [{"type": "cppbuild","label": "C/C: gcc.exe 生成活动文件"…...

编程新知 2026/1/24 13:04:10

iPhone密码忘记了办？iPhoneUnlocker，iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享

平时用 iPhone 的时候，难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵，或者买了二手 iPhone 却被原来的 iCloud 账号锁住，这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...

编程新知 2026/1/29 10:22:28

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/10/4 21:24:40

Linux nano命令的基本使用

参考资料 GNU nanoを使いこなすnano基础目录一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件三. 文件查看3.1 打开文件时，显示行号3.2 翻页查看四. 文件编辑4.1 Ctrl K 复制和 Ctrl U 粘贴4.2 Alt/Esc U 撤回五. 文件保存与退出5.1 Ctrl …...

编程新知 2026/1/31 2:17:41