当前位置：首页 > news >正文

python爬虫--小白篇【爬取B站视频】

news 2026/2/11 2:51:41

一、任务分析

二、网页分析

三、任务实现

一、任务分析

将B站视频爬取并保存到本地，经过分析可知可以分为四个步骤，分别是：

爬取视频页的网页源代码；
提取视频和音频的播放地址；
下载并保存视频和音频；
合并视频和音频,使用ffmpeg模块；

二、网页分析

在分析网页前，需要明白爬取的数据是什么，由于b站的视频跟音频是分开存放的，所以我们需要分别找到视频和音频的url，然后在对其发起请求将视频和音频保存至本地；最后将两者合并在一起，才能形成完整的视频文件。

1、先登录B站，选择想要下载的视频，打开浏览器开发者模式，刷新网页，寻找数据接口；

2、经过分析，在文档下发现了一个文件，该文件源码中就存放了视频和音频的url地址，向该文件接口发起请求，将视频和音频的url地址解析出来；

3、得到该数据接口的请求url和请求参数；

4、找到所需的数据接口后，先分析一下网页源码，我们发现视频url存放在一个 <script>标签下的 video下，发现音频url在 audio 下的 baseUrl中；

三、任务实现

前期准备：编写代码前，需要大家安装一个第三方工具ffmpeg，用于合并视频和音频。

代码实现：

"""
@Author :江上挽风&sty
@Blog(个人博客地址):https://blog.csdn.net/weixin_56097064
@File :B站视频爬取
@Time :2024/12/11 9:28
@Motto:一直努力，一直奋进，保持平常心"""
import os
import pprint
import re# 1、爬取视频页的网页源代码
import requests
import json
from lxml import etree
header = {"referer": "https://www.bilibili.com","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0"
}# 2、提取视频和音频的播放地址
def get_play_url(url):r = requests.get(url, headers=header)# print(r.text)info = re.findall('window.__playinfo__=(.*?)</script>', r.text)[0]video_url = json.loads(info)["data"]["dash"]["video"][0]["baseUrl"]audio_url = json.loads(info)["data"]["dash"]["audio"][0]["baseUrl"]# print(video_url)# print(audio_url)html = etree.HTML(r.text)filename = html.xpath('//h1/text()')[0]# print(filename)return video_url, audio_url, filename# 3、下载并保存视频和音频
def download_files(video_url, audio_url, filename, video_path,audio_path):print("开始下载视频和音频")video_content = requests.get(video_url, headers=header).contentaudio_content = requests.get(audio_url, headers=header).contentwith open(f'{video_path}/{filename}.mp4', 'wb') as f:f.write(video_content)print("视频部分下载完毕")with open(f'{audio_path}/{filename}.mp3', 'wb') as f:f.write(audio_content)print("音频部分下载完毕")# 4、合并视频和音频,使用ffmpeg模块
def combin_video_audio(filename, video_path, audio_path):# cmd = fr"ffmpeg -i {video_path}{filename}.mp4 -i {audio_path}{filename}.mp3 -c:v copy -c:a aac -strict experimental -map 0:v -map 1:a {video_path}\output-{filename}.mp4 -loglevel quiet"  # -loglevel quiet 表示隐藏日志，不加问题不大cmd = fr"D:\ApplicationsSoftware\FFmpeg\ffmpeg-7.1-full_build\ffmpeg-7.1-full_build\bin\ffmpeg -i {video_path}/{filename}.mp4 -i {audio_path}/{filename}.mp3 -c:v copy -c:a aac -strict experimental -map 0:v -map 1:a {video_path}/output-{filename}.mp4 -loglevel quiet"  # -loglevel quiet 表示隐藏日志，不加问题不大os.system(cmd)print("音频视频合并完毕")print("--"*10)os.remove(f'{video_path}/{filename}.mp4')os.remove(f'{audio_path}/{filename}.mp3')print('已删除多余的文件')if __name__ == '__main__':# url = 'https://www.bilibili.com/video/BV1AA4y1D7h2/?spm_id_from=333.337.search-card.all.click&vd_source=d9407807cd22419d13fabdc976906958'url = 'https://www.bilibili.com/video/BV1F6qnYoEz1/?t=6&spm_id_from=333.1007.tianma.3-3-9.click'video_path = r'D:\ProjectCode\Spider\StudySpider07\videos'audio_path = r'D:\ProjectCode\Spider\StudySpider07\audio'video_url, audio_url, filename = get_play_url(url)download_files(video_url, audio_url, filename, video_path, audio_path)combin_video_audio(filename, video_path, audio_path)

python爬虫--小白篇【爬取B站视频】

目录一、任务分析二、网页分析三、任务实现一、任务分析将B站视频爬取并保存到本地，经过分析可知可以分为四个步骤，分别是： 爬取视频页的网页源代码；提取视频和音频的播放地址；下载并保存视频和音频&#x…...

编程日记 2024/12/15 20:53:23

Three.js入门-模型加载

Three.js 支持多种 3D 模型格式，每种格式有其独特的优势和适用场景。根据项目的需求，选择合适的格式可以提高开发效率和用户体验。下面将详细介绍几种常见的模型格式及其特点，并补充每种格式的典型使用场景。支持的模型类型及特点 Three.j…...

编程日记 2024/12/15 20:51:20

ECharts实现数据可视化入门详解

文章目录 ECharts实现数据可视化入门详解一、引言二、基础配置1.1、代码示例三、动态数据与交互2.1、代码示例四、高级用法1、多图表组合1.1、在同一容器中绘制多个图表1.2、创建多个容器并分别初始化 ECharts 实例1.3、实现多图联动五、总结 ECharts实现数据可视化入门详解…...

编程日记 2024/12/15 20:50:19

C++(举例说明类的实例化方式)

太多的信息会让你抓不住重点，下面通过间短的举例说明了类的几种实例化方式，熟悉以后再阅读代码的时候就能减少疑惑。 1.直接实例化：使用类名直接实例化对象 MyClass obj; 2.使用 new 关键字动态分配内存：使用 new 关键字来在堆上…...

编程日记 2024/12/15 20:48:14

LeetCode32. 最长有效括号（2024冬季每日一题 32）

给你一个只包含 ( 和 ) 的字符串，找出最长有效（格式正确且连续）括号子串的长度。示例 1： 输入：s “(()” 输出：2 解释：最长有效括号子串是 “()” 示例 2： 输入：s “…...

编程日记 2024/12/15 20:47:13

Textfocals ——基于大言模型的用户驱动型文本改进工具让用户在审阅自己的写作时对其进行修改

概述论文地址：https://arxiv.org/abs/2403.01055 大规模语言模型可以生成媲美专业作家撰写的文本。目前使用的对话技术主要有两种：一种是交互式（如 OpenAI 的 ChatGPT 和 Google 的 Gemini），另一种是预测性文本补全&…...

编程日记 2024/12/15 20:46:12

docker 部署 redis 1. 下载 redis 镜像 # docker images | grep redis bitnami/redis 7.2.4-debian-11-r5 45de196aef7e 10 months ago 95.2MB2. docker-compose 部署 version: "3" services:redis:image: bitnami/redis:7.2.4-debian-11-…...

编程日记 2024/12/15 20:45:11

微信小程序横屏页面跳转后，自定义navbar样式跑了？

文章目录问题原因：解决方案： 今天刚遇到的问题，横屏的页面完成操作后跳转页面后，自定义的tabbar样式乱了，跑到最顶了，真机调试后发现navbar跑到手机状态栏了，它正常应该跟右边胶囊一行。知道问…...

编程日记 2024/12/15 20:44:07

回归预测 | MATLAB实现BiGRU(双向门控循环单元)多输入单输出

回归预测 | MATLAB实现BiGRU(双向门控循环单元)多输入单输出文章目录回归预测 | MATLAB实现BiGRU(双向门控循环单元)多输入单输出预测效果基本介绍程序设计参考资料致谢预测效果基本介绍 BiGRU（双向门控循环单元）多输入单输出模型是一种结合了双向门控循环单元（BiGRU）的…...

编程日记 2024/12/15 20:41:59

智能时代的基石：神经网络

智能时代的基石：神经网络第一节：神经网络简介课程目标本节课程旨在全面介绍神经网络的基本概念、结构以及其在历史发展中的重要里程碑。通过深入理解神经网络的工作原理和演变过程，学员将能够掌握神经网络在现实世界中的多种应用&#…...

编程日记 2024/12/15 20:37:52

红与黑,,

有一间长方形的房子，地上铺了红色、黑色两种颜色的正方形瓷砖。你站在其中一块黑色的瓷砖上，只能向相邻（上下左右四个方向）的黑色瓷砖移动。请写一个程序，计算你总共能够到达多少块黑色的瓷砖。输入格式输入包…...

编程日记 2024/12/15 20:34:48

嵌入式驱动开发详解16（音频驱动开发）

文章目录前言WM8960简介I2S协议接口说明 SAI音频接口简介驱动框架简介设备树配置内核使能声卡设置与测试后续参考文献前言该专栏主要是讲解嵌入式相关的驱动开发，但是由于ALSA驱动框架过于复杂，实现音频编解码芯片的驱动不是一个人能完成的&#xf…...

编程日记 2024/12/15 20:32:46

【嵌入式软件】跑开发板的前置服务配置

在嵌入式开发中，通常需要在开发板和主机之间共享、传输和挂载文件。这篇文章是关于如何在 Ubuntu 中配置 Samba、TFTP 和 NFS 协议的详细步骤。这些协议分别用于远程文件共享、文件传输和内核挂载文件系统。如何安装协议: 参考:ubuntu18配置：详细的内容我手写了一份文档。…...

编程日记 2024/12/15 20:30:44

如何高效实现进程间通信

实现进程间通信（IPC）有多种高效的方法，以下是一些常见的技术及其简要说明： 1. 共享内存： 共享内存是一种高效的进程间通信机制，允许多个进程共享同一块内存区域以实现快速的数据交换。与其他IPC机制相比&a…...

编程日记 2024/12/15 20:29:42

scala基础学习_变量

文章目录 scala中的变量常量 val（不可变变量）变量 var变量声明多变量声明匿名变量 _ 声明变量类型声明变量命名规范 scala中的变量常量 val（不可变变量） 使用val关键字声明变量是不可变的，一旦赋值后不能被修改对…...

编程日记 2024/12/15 20:28:41

Java 身份证校验工具类（15位校验、18位校验与15转18）

文章目录身份证简介（一）身份证号码的组成（二）一代和二代身份证一代身份证二代身份证检验思路分析（一）15位身份证号码（二）18位身份证号码（三）校验算法示例&a…...

编程日记 2024/12/15 20:27:40

HTML+CSS+Vue3的静态网页，免费开源，可当作作业使用

拿走请吱一声，点个关注吧，代码如下，网页有移动端适配 HTML <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width…...

编程日记 2024/12/15 20:25:33

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit（8）

1.问题描述： 在AGC中，推送服务的消息回执新建成功后，有一个有效期 1，这个有效期是什么意思，过期后，会影响什么呢？ 2，这个有效期是否可以修改成一直不过期？ 解决方案&…...

编程日记 2024/12/15 20:23:30

HCIA-Access V2.5_2_2_2网络通信基础_IP编址与路由

网络层数据封装首先IP地址封装在网络层，它用于标识一台网络设备，其中IP地址分为两个部分，网络地址和主机地址，通过我们采用点分十进制的形式进行表示。 IP地址分类对IP地址而言，它细分为五类，A,B,C,D,E,…...

编程日记 2024/12/15 20:19:26

音频客观测评方法PESQ

一、简介语音质量感知评估（Perceptual Evaluation of Speech Quality）是一系列的标准，包括一种用于自动评估电话系统用户所体验到的语音质量的测试方法。该标准于2001年被确定为ITU-T P.862建议书[1]。PESQ被电话制造商、网络设备供应商和电…...

编程日记 2024/12/15 20:16:21

后进先出（LIFO）详解

LIFO 是 Last In, First Out 的缩写，中文译为后进先出。这是一种数据结构的工作原则，类似于一摞盘子或一叠书本： 最后放进去的元素最先出来 -想象往筒状容器里放盘子： （1）你放进的最后一个盘子&#xff08…...

编程新知 2026/2/8 1:22:58

条件运算符

C中的三目运算符（也称条件运算符，英文：ternary operator）是一种简洁的条件选择语句，语法如下： 条件表达式 ? 表达式1 : 表达式2• 如果“条件表达式”为true，则整个表达式的结果为“表达式1”…...

编程新知 2025/12/6 22:50:48

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一）

宇树机器人多姿态起立控制强化学习框架论文解析论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（一） 论文解读：交大&港大&上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化…...

编程新知 2025/8/27 0:58:09

C# 类和继承(抽象类)

抽象类抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。不能创建抽象类的实例。抽象类使用abstract修饰符声明。抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

编程新知 2026/1/29 16:25:24

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

在现代战争中，电磁频谱已成为继陆、海、空、天之后的 “第五维战场”，雷达作为电磁频谱领域的关键装备，其干扰与抗干扰能力的较量，直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器，凭借数字射…...

编程新知 2026/2/1 7:18:47

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2026/2/2 3:06:53

vue3+vite项目中使用.env文件环境变量方法

vue3vite项目中使用.env文件环境变量方法 .env文件作用命名规则常用的配置项示例使用方法注意事项在vite.config.js文件中读取环境变量方法 .env文件作用 .env 文件用于定义环境变量，这些变量可以在项目中通过 import.meta.env 进行访问。Vite 会自动加载这些环境变…...

编程新知 2026/1/26 19:12:01

零基础在实践中学习网络安全-皮卡丘靶场（第九期-Unsafe Fileupload模块）（yakit方式）

本期内容并不是很难，相信大家会学的很愉快，当然对于有后端基础的朋友来说，本期内容更加容易了解，当然没有基础的也别担心，本期内容会详细解释有关内容本期用到的软件：yakit（因为经过之前好多期…...

编程新知 2026/1/21 12:29:04

Caliper 负载(Workload)详细解析

Caliper 负载(Workload)详细解析负载(Workload)是 Caliper 性能测试的核心部分，它定义了测试期间要执行的具体合约调用行为和交易模式。下面我将全面深入地讲解负载的各个方面。一、负载模块基本结构一个典型的负载模块(如 workload.js)包含以下基本结构： use strict;/…...

编程新知 2025/10/31 21:11:39

实战三：开发网页端界面完成黑白视频转为彩色视频

一、需求描述设计一个简单的视频上色应用，用户可以通过网页界面上传黑白视频，系统会自动将其转换为彩色视频。整个过程对用户来说非常简单直观，不需要了解技术细节。效果图二、实现思路总体思路： 用户通过Gradio界面上…...

编程新知 2026/2/5 5:03:25

一、任务分析

二、网页分析

三、任务实现

相关文章：