当前位置: 首页 > news >正文

Python +Pyqt5 简单视频爬取学习(一)

文章目录

前言

一、演示

二、查找网页视频流的索引文件

三、分析视频流的url和视频流索引文件的差异性

四、判断视频数据是否需要转化为ts

五、判断视频是否被加密,如若被加密,需要先解密

六、合并所有的ts视频,以MP4模式输出完整视频

总结


前言

目的:将网站上的m3u8视频下载到本地-----仅娱乐使用;

流程:

  1. 通过网页调试模式,获取网页视频流的索引文件;
  2. 分析视频流的url和视频流索引文件的差异性;
  3. 通过视频流的url,下载视频数据至本地;
  4. 判断视频数据是否需要转化为ts;
  5. 判断视频是否被加密,如若被加密,需要先解密;
  6. 合并所有的ts视频,以MP4模式输出完整视频;

一、演示


二、查找网页视频流的索引文件

F12调试模式后,找到该文件,双击后,可直接下载视频索引文件,其中存在视频片段的部分url或者完整url;

User-Agent 用户代理查询

代码实现如下:

# 视频索引文件下载网址
m3u8_url = "https://v.gsuus.com/play/PdyY7qzd/index.m3u8"
# User-Agent 即用户代理,在网站中可以查询
hea = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0"
user_agent_list = [# 在这里可以写多个headers,然后随机选一个进行访问,这样可以防止频繁访问ip被封hea,]
headers = {'user-agent': random.choice(user_agent_list),'Connection': 'close',
}resp = requests.get(m3u8_url, headers, verify=False)
data = resp.text
print(data)

三、分析视频流的url和视频流索引文件的差异性

通过分析视频流的地址,来下载所有的片段视频

代码实现如下:

# 视频文件下载网址
url_dow = "https://gs.gszyi.com:999/hls/499/20241002/2923112/plist0.ts"# User-Agent 即用户代理,在网站中可以查询
hea = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36 Edg/130.0.0.0"
user_agent_list = [# 在这里可以写多个headers,然后随机选一个进行访问,这样可以防止频繁访问ip被封hea,]
headers = {'user-agent': random.choice(user_agent_list),'Connection': 'close',
}# url_dow:下载ts视频文件的url
# headers:自定义 HTTP 请求头
# timeout:请求超时时间设置
res = requests.get(url_dow, headers,timeout=20)save_path = "000.ts"
# 判断页面是否正确
if res.status_code == 200:data = res.content# 以二进制模式打开文件,写入二进制数据with open(save_path, 'wb+') as f:f.write(data)f.flush()print("视频{}下载完毕!!!".format(save_path))

四、判断视频数据是否需要转化为ts

视频为ts格式,则不需要进行转化,如若是其他格式,比如jpeg,jpg格式则需要转化为ts格式,即是重命名文件名称(用该功能函数即可实现 os.rename() )。


五、判断视频是否被加密,如若被加密,需要先解密

如若显示该key网址url,则表示视频被加密,一般所有视频都只有一个key,但也有例外,有些视频每个片段都会进行加密,目前还在研究如何解决,不过也够用了,嘿嘿。

前面下载的视频打开便会显示错误,则就是说明视频需要解密。(注意:某些情况下,可能解密后视频依然无法正常打开,造成原因可能是解密方法不对或者下载视频数据异常。)

代码实现如下:

from Crypto.Cipher import AES# 解密ts视频
def jiemi(src,dec,key):# src:要解密的文件; dec:解密后的文件;  key、iv 从m3u8可见try:# 以二进制格式打开已下载的ts文件with open(src, 'rb') as f1:# 读取文件数据part = f1.read()  # key密钥的长度等于IV的向量长度if len(key) == 16: IV=b'0000000000000000'elif len(key) == 32:     IV=b'00000000000000000000000000000000'# 解密数据cipher = AES.new(key, AES.MODE_CBC,IV) plain_data = cipher.decrypt(part)if part:# 创建新文件with open(dec, 'wb') as f2:# 将解密后的数据写入到创建的新文件中f2.write(plain_data)  print("解密成功!") except Exception as error:print(src)print("错误异常:%s" % error )print("原始异常信息:{}".format(traceback.format_exc())) # 返回异常信息# src:要解密的文件; dec:解密后的文件;  key、iv 从m3u8可见src = "000.ts"dec = "111.ts"# key文件中读取key = "qG6ikBmMJpJGNulz"# 需要将key和iv转换为字节形式的数据key = bytes(key, encoding='utf-8')jiemi(src,dec,key)

实例演示:


六、合并所有的ts视频,以MP4模式输出完整视频

前置条件:

1、需要配置ffmpeg 的运行环境【可以自行下载,或者我的资源中也有安装包】;

2、下载ffmpeg 完成后,配置环境变量即可。

使用该命令合并视频:

#file_names_file:表示所有ts文件的路径

#output.mp4 输出视频名称

os.system(f'ffmpeg -f concat -safe 0 -i {file_names_file} -c copy output.mp4')

所以,合并视频之前,我们需要将file_names_file文件创造出来,否则执行合并命令会失败;

如下图所示(这里就不写代码实现了,思路就是将存放视频流的文件目录列出来,然后判断是否为视频文件,并将对应的路径写入到txt文件内即可。);

然后,我们有了这个file_names_file文件后,便可直接运行合并命令(视频流必须完整,视频流必须与文件内的视频路径对应,否则会执行失败);

代码实现如下:

import threading
def getvideo():# 3.2 大量 ts 文件file_names_file = 'video.txt'os.system(f'ffmpeg -f concat -safe 0 -i {file_names_file} -c copy output.mp4')# os.remove(file_names_file)t = threading.Thread(target=getvideo)
t.start()
t.join()
print("视频合并结束!")

总结

至此,整个流程完结,可以下载到我们需要的视频了,说实话,比在网站上看要快不少,还是比较有趣的。

并且,请求频繁会导致资源请求失败,这个也要考虑,我用的是多线程,速度很快,所以加入了获取资源失败时会重新获取资源,至少不会漏掉视频资源。

网页请求失败的话,则是表示网站拒绝你的访问,这个问题还待解决,不解决也足够使用了,反正自己使用即可。

后续完善整个工具,目前只实现单个视频下载,后续完成多个视频下载....

相关文章:

Python +Pyqt5 简单视频爬取学习(一)

文章目录 前言 一、演示 二、查找网页视频流的索引文件 三、分析视频流的url和视频流索引文件的差异性 四、判断视频数据是否需要转化为ts 五、判断视频是否被加密,如若被加密,需要先解密 六、合并所有的ts视频,以MP4模式输出完整视频 总结 前…...

Python Requests模块全面教程

Python Requests模块全面教程 在现代软件开发中,网络请求是一个不可或缺的部分。无论是获取网页数据、调用API接口,还是进行数据交互,都会涉及到HTTP请求。Python的Requests模块是一个非常强大的库,能够让我们轻松地发送HTTP请求…...

PyQt入门指南六十 与Python其他库的集成方法

PyQt是一个强大的GUI库,它可以与Python的其他库无缝集成,以实现更复杂的功能。以下是一些常见的集成方法和示例: 1. NumPy NumPy是Python中用于科学计算的基础库。您可以在PyQt应用程序中使用NumPy来处理数据和进行数值计算。 import sys …...

Android15之解决:Dex checksum does not match for dex:framework.jar问题(二百三十九)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【…...

车企自动驾驶功能策略 --- 硬件预埋(卷传感器配置)

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己,无利益不试图说服别人,是精神上的节…...

【已为网站上传证书,却显示不安全】

已为网站上传证书,却显示不安全 错误显示解决办法分析原因 错误显示 此站点有一个由受信任的颁发机构颁发的有效证书但是网站的某些部分不安全 解决办法 删除浏览器所有历史记录, 如果是Edge浏览器显示不安全,那就删除Edge浏览器的所有历史记录; 如果是Google Chrome浏览器显…...

docker busybox作为initContainers

一、上传到私有仓储 docker pull busybox:1.33.1 docker tag busybox:1.33.1 192.168.31.185/public/busybox:1.33.1 docker push 192.168.31.185/public/busybox:1.33.1 --- apiVersion: apps/v1 kind: Deployment metadata:annotations: {}labels: {}name: saas-ali-apiname…...

20.UE5UI预构造,开始菜单

2-22 开始菜单、事件分发器、UI预构造_哔哩哔哩_bilibili 目录 1.UI预构造 2.开始菜单和开始关卡 2.1开始菜单 2.2开始关卡 2.3将开始菜单展示到开始关卡 3.事件分发器 1.UI预构造 如果我们直接再画布上设计我们的按钮,我们需要为每一个按钮进行编辑&#x…...

Electron教程1-初学入门

玩转Electron Electron 是什么注意事项环境安装安装 vscode安装 git 第一个实例第二个实例第二个实例解读 总结问题解答 Electron 是什么 Electron是一个使用 JavaScript、HTML 和 CSS 构建桌面应用程序的框架。 嵌入 Chromium 和 Node.js 到 二进制的 Electron 允许您保持一个…...

从北美火到中国,大数据洞察品牌“STANLEY”的突围之路

保守直筒大头的“硬汉”外形,以百变颜色踩中时尚命脉,与各路大牌“梦幻联动”,不少时尚弄潮儿没能逃过其“真香”诱惑。 这就是今年以来从北美火到中国的STANLEY,在“巨无霸”水杯中突围出属于自己的一条路。 最近STANLEY又整活…...

深度学习之GAN应用

1 GAN的应用(文本生成) 1.1 GAN为什么不适合文本任务? ​ GAN在2014年被提出之后,在图像生成领域取得了广泛的研究应用。然后在文本领域却一直没有很惊艳的效果。主要在于文本数据是离散数据,而GAN在应用于离散数据时…...

鸿蒙生态下的安全隐私保护:打造用户信任的应用体验

鸿蒙生态下的安全隐私保护:打造用户信任的应用体验 随着华为鸿蒙系统的快速发展,越来越多的设备开始支持这一操作系统,不仅限于智能手机,还包括智能穿戴设备、智能家居产品等。作为开发者,在享受鸿蒙生态系统带来的广…...

用pandoc工具实现ipynb,md,word,pdf之间的转化

Pandoc 是一个强大的工具,可以实现多种文件格式之间的转换,包括 Jupyter Notebook (.ipynb)、Markdown (.md)、Word (.docx)、PDF 等格式。以下是具体的实现方法: 1. 安装 Pandoc 确保已安装 Pandoc: Linux: sudo apt install p…...

第三十一天|贪心算法| 56. 合并区间,738.单调递增的数字 , 968.监控二叉树

目录 56. 合并区间 方法1:fff 看方法2:fff优化版 方法3: 738.单调递增的数字 968.监控二叉树(贪心二叉树) 56. 合并区间 判断重叠区间问题,与452和435是一个套路 方法1:fff 看方法2&am…...

力扣 最长公共前缀-14

最长公共前缀-14 class Solution { public:string longestCommonPrefix(vector<string>& strs) {//定义一个字符数组&#xff0c;用于存储strs字符串数组第一个字符串&#xff0c;方便与后面的字符串进行比较判断char s[200];//定义一个字符数组&#xff0c;用来返回…...

IDEA调整警告级别【IntelliJ IDEA 2024.2.0.1】

文章目录 目前现状鼠标悬停&#xff0c;选择配置筛选 > 取消选择OK效果 目前现状 需要把提示改成只要显示error的5个 鼠标悬停&#xff0c;选择配置 筛选 > 取消选择 OK 效果...

Vulnhub靶场 Billu_b0x 练习

目录 0x00 准备0x01 主机信息收集0x02 站点信息收集0x03 漏洞查找与利用1. 文件包含2. SQL注入3. 文件上传4. 反弹shell5. 提权&#xff08;思路1&#xff1a;ssh&#xff09;6. 提权&#xff08;思路2&#xff1a;内核&#xff09;7. 补充 0x04 总结 0x00 准备 下载链接&#…...

Essential Cell Biology--Fifth Edition--Chapter one (6)

1.1.4.4 Internal Membranes Create Intracellular Compartments with Different Functions [细胞膜形成具有不同功能的细胞内隔室] 细胞核、线粒体和叶绿体并不是真核细胞中唯一的膜包围细胞器。细胞质中含有大量的[ a profusion of]其他细胞器&#xff0c;这些细胞器被单层膜…...

Jupyter Book 快捷键总结大全

快捷键完整分类与功能 1. 模式切换 在 jb 中&#xff0c;您可以通过快捷键快速切换编辑模式和命令模式&#xff1a; 快捷键功能Esc切换到命令模式Enter切换到编辑模式 2. 单元格操作 单元格是 jb 的基本操作单位&#xff0c;以下快捷键可以帮助您快速编辑和管理单元格&…...

Spring Authorization Server OAuth2.1

Spring Authorization Server介绍 Spring Authorization Server 是一个框架&#xff0c;它提供了 OAuth 2.1 和 OpenID Connect 1.0 规范以及其他相关规范的实现。 它建立在 Spring Security 之上&#xff0c;为构建 OpenID Connect 1.0 身份提供者和 OAuth2 授权服务器产品提供…...

解决”重复文件名重命名“问题【根据Word系统方式】

提示&#xff1a;工作中遇到的功能需求&#xff0c;在此记录&#xff0c;不喜勿喷&#xff01;谢谢 文章目录 前言一、需求分析二、需求实现 前言 最近工作中遇到的我认为有必要记录的需求实现&#xff0c;希望可以帮助到有同样需求的小伙伴们&#xff01; 提示&#xff1a;以…...

【PyTorch】PyTorch Geometric(PyG)安装指南:如何高效配置图神经网络环境

目录 引言一、通过 Anaconda 安装二、通过 PyPi 安装三、从 Wheels 安装四、从 ROCm 安装五、从源代码安装5.1 确保 CUDA 环境设置正确5.1.1 检查 PyTorch 是否支持 CUDA5.1.2 设置 CUDA 环境变量5.1.3 验证 nvcc 是否可用 5.2 安装 PyTorch Geometric 所需软件包5.3 强制重新安…...

SolidWorks21装配体中一个零件无法改为线架图

右键零件弹出栏中选择零部件显示改为默认显示&#xff0c;再切换线架图&#xff0c;就会发现整个装配体都能切换为线架图了&#xff01;...

11.11机器学习_介绍和定义

一、 机器学习介绍与定义 1. 机器学习定义 机器学习&#xff08;Machine Learning&#xff09;本质上就是让计算机自己在数据中学习规律&#xff0c;并根据所得到的规律对未来数据进行预测。 机器学习包括如聚类、分类、决策树、贝叶斯、神经网络、深度学习&#xff08;Deep…...

【代码审计】常见漏洞专项审计-业务逻辑漏洞审计

❤️博客主页&#xff1a; iknow181 &#x1f525;系列专栏&#xff1a; 网络安全、 Python、JavaSE、JavaWeb、CCNP &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐评论✍ 0x01 漏洞介绍 1、 原理 业务逻辑漏洞是一类特殊的安全漏洞&#xff0c;业务逻辑漏洞属于设计漏洞而非实…...

SpringBoot单体服务无感更新启动,动态检测端口号并动态更新

SpringBoot单体服务无感更新启动 package com.basaltic.warn;import cn.hutool.core.io.IoUtil; import lombok.SneakyThrows; import org.apache.commons.lang3.StringUtils; import org.mybatis.spring.annotation.MapperScan; import org.springframework.boot.SpringApplic…...

CSS基础知识04

文本溢出通常是指在限定的空间内不能容纳所输入的文字&#xff0c;导致文字超出了容器的边界 一、文本溢出 1.1.css属性处理 所用到的属性 属性属性值overflowvisible&#xff1a;默认值&#xff0c;内容不会被修剪&#xff0c;会呈现在元素框之外。hidden&#xff1a;内容会…...

python程序对服务器cpu和内存资源占用的管理。

背景 在服务器上部署了一套目标检测的程序&#xff0c;做成while true 的轮询检测数据更新的定时任务。 结果没想到那台服务器还有一套可视化程序要给领导演示看&#xff0c;结果演示的时候平台各种报错。 然后通过top查看了一下资源利用率发现python的程序cpu 130。&#xf…...

java算法性能调优:详尽探讨时间复杂度与空间复杂度的分析与优化“

接下来我将带领大家进入Java数据结构的深入学习&#xff0c;让我们一同享受Java数据结构中的奥秘。 一、引言 二、时间复杂度 三、空间复杂度 四、Java中的时间复杂度和空间复杂度 五、优化时间复杂度和空间复杂度 七、时间复杂度和空间复杂度的重要性 一&#xff1a;时间…...

人工智能:塑造未来的工作与生活

目录 人工智能技术的应用前景与影响 人工智能的历史与现状 人工智能的应用领域 人工智能的前景与挑战 个人视角&#xff1a;人工智能的应用前景与未来 人工智能在生活中的潜力 面对人工智能带来的挑战 我的观点与建议 结语 人工智能技术的应用前景与影响 随着人工智能…...