【JavaScript爬虫记录】记录一下使用JavaScript爬取m4s流视频过程(内含ffmpeg合并)
前言
前段时间发现了一个很喜欢的视频,可惜网站不让下载,简单看了一下视频是被切片成m4s格式的流文件,初步想法是将所有的流文件下载下来然后使用ffmpeg合并成一个完整的mp4,于是写了一段脚本来实现一下,电脑没有配python环境,所以使用JavaScript实现,合并功能需要安装ffmpeg,没有的小伙伴自行安装哦
前置知识
m4s文件(复制百度)
M4S文件是使用MPEG-DASH 流技术通过 Internet 流式传输的一小段视频。它包含二进制数据形式的视频片段。接收应用程序(通常是网络浏览器或媒体播放器)按接收顺序播放这些片段。第一个 M4S 段由它包含的初始化数据标识。在summary中,m4s文件是完整文件的单个小媒体片段。M4S文件基于ISO基础媒体文件 (ISOBMFF) 格式。大文件的这些小片段可以通过HTTP独立下载。因此,如果您有一个大的MP4电影文件,则可以使用MPEG-DASH(HTTP上的动态自适应流式传输)技术将其分段为M4S分段文件,从而对其进行流式传输。如果将此大型电影文件作为M4S下载到光盘,则会下载多个M4S文件。如果将所有这些.m4s段连接起来,就会生成一个完整的可播放文件。除非文件的第一个初始化段也可用,否则媒体播放器无法播放文件。
思路整理
- 找到目标
m4s文件的接口,观察接口规律,拼接URL批量下载 - 然后将文件写入本地,再遍历目录生成
ffmpeg合并用的文化列表目录 - 然后调用
ffmpeg终端命令合并 - 最后清理临时文件
开始实现
首先观察到目标m4s文件的url格式都是https://xxxxxx/1080.mp4/seg-1-v1-a1.m4s / https://xxxxxx/1080.mp4/seg-2-v1-a1.m4s等等,猜测只是通过目标的序号来管理分片,那考虑使用循环来批量下载,先写几个函数来处理基本的功能,例如下载文件 / 生成临时目录 / 本地写入 / 清理临时文件等
请求函数
const fetchData = async (url) => {try {let response = await fetch(url, {method: 'GET',headers: {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.60"}});if (!response.ok) {throw new Error(`HTTP error! status: ${response.status}`);}let m4sData = await response.blob();if (m4sData instanceof Blob) {console.log(m4sData.size); // 打印 Blob 对象的大小} else {console.log("m4sData.data 不是一个 Blob 对象");}return m4sData;} catch (error) {console.log("get_m4sData下载失败");console.log(error);}
};
本地写入的函数
const writeFile = async (fileName, file) => {fs.writeFile(fileName, file, (err) => {if (err) {console.log("写入失败:", err);return}console.log(`${fileName}写入成功`);})
}
生成临时目录的函数
const generateFileList = () => {// 获取 assets 目录下所有目标文件const files = fs.readdirSync(folderPath).filter(file => file.endsWith('.ts')).sort((a, b) => {// 提取文件名中的数字部分进行比较const numA = parseInt(a.match(/seg-(\d+)-v1-a1\.ts/)[1], 10);const numB = parseInt(b.match(/seg-(\d+)-v1-a1\.ts/)[1], 10);return numA - numB;});// 生成文件列表内容(使用 Unix 路径分隔符)const listContent = files.map(file => `file '${path.join(file).replace(/\\/g, '/')}'`).join('\n');// 写入文件列表const listPath = path.join(folderPath, 'list.txt');fs.writeFileSync(listPath, listContent);console.log('文件列表已生成:', listPath);return listPath;
};
合并视频的函数
const mergeSegments = () => {const listPath = path.join(folderPath, 'list.txt').replace(/\\/g, '/');const outputFile = './mergeVideo/merged_video.mp4';console.log(listPath);// 检查文件列表是否存在if (!fs.existsSync(listPath)) {console.error('错误:文件列表未生成');process.exit(1);}execSync(`ffmpeg -f concat -safe 0 -i "${listPath}" -c copy "${outputFile}"`,{ stdio: 'inherit' });console.log('合并完成:', outputFile);};
移除临时文件和善后优化的函数
// 删除 assets 目录下的所有文件
const deleteAllFilesInAssets = () => {const folderPath = path.join('./assets');const files = fs.readdirSync(folderPath);files.forEach(file => {const filePath = path.join(folderPath, file);fs.unlinkSync(filePath);});console.log('assets 目录下的所有文件已删除');
};// 随机改名
const renameMergedVideo = () => {const oldPath = path.join('./mergeVideo', 'merged_video.mp4');const videoFileName = generateRandomString()const newPath = path.join('./mergeVideo', `video_${videoFileName}.mp4`);if (fs.existsSync(oldPath)) {fs.renameSync(oldPath, newPath);console.log(`文件已重命名为video_${videoFileName}.mp4 `);} else {console.log('文件 merged_video.mp4 不存在');}
};
// 生成一个随机的8位数字加大小写字母的字符串
const generateRandomString = () => {const characters = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789';let results = '';const length = 8;for (let i = 0; i < length; i++) {const randomIndex = Math.floor(Math.random() * characters.length);results += characters.charAt(randomIndex);}return results;
};
接下来就可以编写我们的main函数了,只需要挨个调用上面的辅助函数即可
export const main = async (Number_of_data_segments,BASE_URL,rootPath = folderPath) => {for (let i = 1; i <= Number_of_data_segments; i++) {let url = `seg-${i}-v1-a1.ts`console.log(`正在下载第${i}个数据段,标识为${url}`);let m4s = await fetchData(BASE_URL + url)console.log(`第${i}个数据段下载完成`);await writeFile(`${rootPath}/${url}`, Buffer.from(await m4s.arrayBuffer()))}console.log(`下载完成`);console.log(`生成目录映射`);generateFileList();console.log(`合并数据段`);mergeSegments();deleteAllFilesInAssets()renameMergedVideo()
}
总结
最后试了一下,效果还是蛮不错的,这些都是最终合成的视频
这只是个简单的脚本,很多地方都可以优化,例如可以通过网络状态来判断分片数量,就不再需要手动去查看分片数量了,这些地方有兴趣的小伙伴可以自行尝试
相关文章:
【JavaScript爬虫记录】记录一下使用JavaScript爬取m4s流视频过程(内含ffmpeg合并)
前言 前段时间发现了一个很喜欢的视频,可惜网站不让下载,简单看了一下视频是被切片成m4s格式的流文件,初步想法是将所有的流文件下载下来然后使用ffmpeg合并成一个完整的mp4,于是写了一段脚本来实现一下,电脑没有配python环境,所以使用JavaScript实现,合并功能需要安装ffmpeg,…...
CSDN2024年度总结|乾坤未定你我皆是黑马|2025一起为了梦想奋斗加油少年!!!
CSDN2024年我的创作纪念日1024天|不忘初心|努力上进|积极向前 一、前言:二、2024个人成长经历:HarmonyOS鸿蒙应用生态构建与扩展——杭州站AGI创新工坊&神经网络大模型——杭州站 三、2024年度创作总结:2024创作数据总结:博客…...
【前端】 react项目使用bootstrap、useRef和useState之间的区别和应用
一、场景描述 我想写一个轮播图的程序,只是把bootstrap里面的轮播图拉过来就用上感觉不是很合适,然后我就想自己写自动轮播,因此,这篇文章里面只是自动轮播的部分,没有按键跟自动轮播的衔接部分。 Ps: 本文用的是函数…...
联想电脑如何进入BIOS?
打开设置 下滑找到更新与安全 点击恢复和立即重新启动 选择疑难解答 选择UEFI固件设置 然后如果有重启点击重启 重启开机时一直点击FNF10进入BIOS界面...
蓝桥杯单片机大模板(西风)
#include <REGX52.H> #include "Key.h" #include "Seg.h" //变量声明区 unsigned char Key_Val,Key_Down,Key_Old;//按键扫描专用变量 unsigned char Key_Slow_Down;//按键减速专用变量 10ms unsigned int Seg_Slow_Down;//按键扫描专用变量 500ms …...
20250213刷机飞凌的OK3588-C_Linux5.10.209+Qt5.15.10_用户资料_R1
20250213刷机飞凌的OK3588-C_Linux5.10.209Qt5.15.10_用户资料_R1 2025/2/13 15:10 缘起:OK3588-C_Linux5.10.66Qt5.15.2的R5都出来了。但是公司一直在R4上面开发的,不想动了。 不过我的原则,只要是有新的系统SDK/BSP放出来,都先在…...
2.13学习记录
web ezSSTI 根据题意,这题考察ssti漏洞,查询有关信息得知这是一种模版攻击漏洞。这种题目可以利用工具进行解决,用焚靖,这是一个针对CTF比赛中Jinja SSTI绕过WAF的全自动脚本 根据教程安装工具和对应的依赖就可以了这个脚本会自…...
【DeepSeek】Deepseek辅组编程-通过卫星轨道计算终端距离、相对速度和多普勒频移
引言 笔者在前面的文章中,介绍了基于卫星轨道参数如何计算终端和卫星的距离,相对速度和多普勒频移。 【一文读懂】卫星轨道的轨道参数(六根数)和位置速度矢量转换及其在终端距离、相对速度和多普勒频移计算中的应用 Matlab程序 …...
JavaEE架构
一.架构选型 1.VM架构 VM架构通常指的是虚拟机(Virtual Machine)的架构。虚拟机是一种软件实现的计算机系统,它模拟了物理计算机的功能,允许在单一物理硬件上运行多个操作系统实例。虚拟机架构主要包括以下几个关键组件ÿ…...
Docker 网络的几种常见类型
目录 Docker 网络类型 桥接网络(Bridge) 通俗解释 特点 使用场景 示例 主机网络(Host) 通俗解释 特点 使用场景 示例 None 网络 通俗解释 特点 使用场景 示例 Overlay 网络 通俗解释 特点 使用场景 示例 Ma…...
C++ 常用的设计模式
1:单例模式:首先能想到的,最为重要的一个设计模式。确保一个类仅有一个实例,提供一个 全局访问点,惯用做法是屏蔽构造数访问(设为private),通过static 权限达到间接访问调用的目的…...
【设计模式】01- 一文理解常用设计模式-“创建型模式”篇
一、前言 最近在复习设计模式,撰写、整理了内容和代码片段,和大家一起交流学习。 设计模式是软件设计中常见问题的典型解决方案。 修改记录 更新内容更新时间第一版 250212 更新了对文章中的模式代码示范的解释250214 二、模式分类 模式可以根据其意图…...
在ArcGIS JS API中使用WebGL实现波纹扩散特效
在现代WebGIS开发中,ArcGIS JS API 是一个非常强大的工具,它允许开发者创建丰富的地理信息应用。结合WebGL技术,我们可以实现更加复杂和炫酷的可视化效果。本文将介绍如何使用ArcGIS JS API结合WebGL实现一个波纹扩散特效。 波纹扩散效果 1 概…...
我用AI做数据分析之四种堆叠聚合模型的比较
我用AI做数据分析之四种堆叠聚合模型的比较 这里AI数据分析不仅仅是指AI生成代码的能力,我想是测试AI数据分析方面的四个能力,理解人类指令的能力、撰写代码的能力、执行代码的能力和解释结果的能力。如果这四个能力都达到了相当的水准,才可…...
《LSTM与HMM:序列建模领域的双雄对决》
在序列建模的广阔领域中,长短期记忆网络(LSTM)和隐马尔可夫模型(HMM)都是极为重要的工具,它们各自有着独特的优势和应用场景。下面将对两者在序列建模上的异同进行深入探讨。 相同点 序列数据处理能力&…...
Flutter 的 Widget Key 提议大调整?深入聊一聊 Key 的作用
Flutter 的 Widget Key 提议大调整?深入聊一聊 Key 的作用 在 Flutter 里,Key 对象存在的目的主要是区分和维持 Widget 的状态,它是控件在渲染树里的「复用」标识之一,这一点在之前的《深入 Flutter 和 Compose 在 UI 渲染刷新时…...
只需三步!5分钟本地部署deep seek——MAC环境
MAC本地部署deep seek 第一步:下载Ollama第二步:下载deepseek-r1模型第三步:安装谷歌浏览器插件 第一步:下载Ollama 打开此网址:https://ollama.com/,点击下载即可,如果网络比较慢可使用文末百度网盘链接 注:Ollama是…...
网络工程师 (31)VLAN
前言 VLAN(Virtual Local Area Network)即虚拟局域网,是一种将物理局域网划分成多个逻辑上独立的虚拟网络的技术。 一、定义与特点 定义:VLAN是对连接到的第二层交换机端口的网络用户的逻辑分段,不受网络用户的物理位置…...
浏览器网络请求全流程深度解析
一、核心流程概述 现代浏览器的网络请求过程是一个分层协作的精密系统,涉及应用层协议、传输层协议、操作系统内核及网络基础设施的协同工作。整个过程可抽象为以下关键阶段: 请求构建与初始化DNS解析与寻址TCP连接建立HTTP协议交互响应处理与资源解析…...
React历代主要更新
一、React 16之前更新 React Fiber是16版本之后的一种更新机制,使用链表取代了树,是一种fiber数据结构,其有三个指针,分别指向了父节点、子节点、兄弟节点,当中断的时候会记录下当前的节点,然后继续更新&a…...
sed文本处理实战:从基础语法到高阶场景解析
1. 为什么你需要掌握sed? 第一次接触sed时,我也觉得这个命令行工具看起来晦涩难懂。直到有次需要处理一个500MB的日志文件,用文本编辑器直接打开卡死,用Excel根本加载不了,这时候sed只用一行命令就搞定了数据清洗&…...
用Arduino和MAX30102做个心率血氧仪,从硬件连线到算法调试全流程避坑
从零构建Arduino心率血氧仪:MAX30102实战指南 开篇:为什么选择MAX30102? 在可穿戴健康设备爆发的时代,心率血氧监测已成为智能手环的标配功能。而MAX30102这颗高度集成的光学传感器,正以医用级精度和低功耗特性成为创客…...
别再只会用t检验了!用Python的statsmodels库做单因素方差分析,5分钟搞定A/B测试结果解读
用Python实现单因素方差分析:A/B测试中的多组比较实战指南 当产品经理同时测试三种新按钮颜色对转化率的影响时,连续做了三次t检验对比各组差异——这个在互联网公司会议室里反复上演的场景,实际上犯了一个统计学上的典型错误。就像用三把尺…...
NVIDIA配置工具深度解析:驱动级游戏性能调优技术实践
NVIDIA配置工具深度解析:驱动级游戏性能调优技术实践 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector NVIDIA Profile Inspector是一款专业的显卡驱动配置工具,它允许技术爱好者深…...
词源探秘|从orient到panorama:解码英语单词背后的文明密码
1. 从日出东方到现代导航:ori词根的文明之旅 当古人第一次观察到太阳从东方升起时,拉丁语用"oriri"(升起)记录这个现象。这个词根演变为ori,像一条暗线贯穿人类文明: orient(东方&a…...
SpringBoot的服装商城系统毕设源码
博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在构建一个基于Spring Boot与Vue框架的服装商城系统以解决传统电商平台在用户体验优化与业务逻辑实现方面的局限性。当前电子商务领域面临商品信息展示不…...
写了三年CRUD我觉得自己废了,直到产品经理说了一句话
2024年秋天,我在工位上改一个按钮的颜色。从#1890FF改成#4096FF,产品经理说原来的颜色「太老气了」。改完之后,我盯着屏幕发了十分钟的呆。不是因为这个需求有多难,而是我突然意识到,这是我今天写的第四个CSS微调了。上…...
ATE PCB组装:半导体测试中的精密工艺与挑战解析
1. ATE PCB组装:半导体测试的基石与挑战 在半导体行业,一颗芯片从设计到最终封装出厂,其性能与可靠性的验证是决定产品成败的最后一环。随着芯片工艺节点不断微缩,集成度呈指数级增长,对测试环节的要求也达到了前所未有…...
STM32F4的DSP库怎么在CLion里用起来?保姆级CMake配置指南(含FPU开启)
STM32F4的DSP库在CLion中的完整CMake配置指南(含FPU优化) 第一次在CLion里看到STM32的DSP库报错时,我盯着满屏的"undefined reference"发了半小时呆。作为从Keil转战CLion的老嵌入式开发者,我太清楚DSP库在信号处理项目…...
法律即代码:开源项目vericlaw如何用规则引擎实现合同自动化
1. 项目概述与核心价值最近在折腾一些自动化流程,特别是涉及到合同、协议这类法律文书的生成与审核时,发现了一个挺有意思的开源项目:Sheygoodbai/vericlaw。乍一看这个名字,结合其仓库描述,就能猜到它大概和法律&…...
