当前位置：首页 > news >正文

爬虫基础之爬取某站视频

news 2026/2/9 5:11:29

目标网址:为了1/4螺口买小米SU7，开了一个月，它值吗？_哔哩哔哩_bilibili

**本案例所使用到的模块**
requests (发送HTTP请求)	subprocess(执行系统命令)
re (正则表达式操作)	json (处理JSON数据)

需求分析:

视频的名称 F12 打开开发者工具 or 右击点检查
分析包含视频下载链接的数据包
发送请求解析数据下载到本地

打开开发者工具刷新页面等待数据包的加载
点击网络(network)下面的媒体此筛选的为视频文件发现没有数据包返回

接着我们点击XHR 动态加载数据 --- 左边的.m4都为视频文件点击一个数据包复制里面url的一段参数找到总的接口

搜索出来有很多一样的数据包就是刚刚看到的找到唯一不同的接口
这里面有我们想要的视频名字和下载链接

接着点击响应 Ctrl+F 打开快捷键搜索所需要的视频名称

往下拉下面有视频下载地址和音频下载地址
# Explain: B站的视频和音频是分开的我们可以通过下载一个软件来合并或者通过剪视频软件合成

分析完毕,开始写代码

第一步模拟浏览器向服务器发送请求

复制标头中的请求URL地址
构建请求头
提取数据
保存数据

#导包
import requestsurl = 'https://www.bilibili.com/video/BV1Cw4m1U7kS/?spm_id_from=333.337.search-card.all.click&vd_source=bc0862702cb8c55fb7829d6676ee3f45'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0','referer':'https://www.bilibili.com/'
}
resp = requests.get(url=url, headers=headers)

提取数据 --使用正则提取视频标题

# 导包
import re
# 获取视频名称 对列表取值
v_name = re.findall(r'<title data-vue-meta="true">(.*?)_哔哩哔哩_bilibili</title>', resp.text)[0].replace('？', '').replace('/', '')

上图的代码可以通过 pprint.pprint(content) 格式化打印方便取值

content = re.findall(r'<script>window.__playinfo__=(.*?)</script>', resp.text)[0]
# 将获取到的数据转换为JSON格式的
json_data = json.loads(content)
# 通过键值对取值 提取视频 音频的下载链接
a_url = json_data["data"]["dash"]["audio"][0]["baseUrl"]
v_url = json_data["data"]["dash"]["video"][0]["baseUrl"]

保存数据 --发送请求获取二进制的数保存到本地

# 图片 视频 音频等都是以二进制的格式保存
a_content = requests.get(url=a_url, headers=headers).content
v_content = requests.get(url=v_url, headers=headers).content
with open(v_name+'.mp3', 'wb') as f:f.write(a_content)
with open(v_name+'.mp4', 'wb') as f:f.write(v_content)

视频和音频保存完毕接着就是将其合并

进入这个官网下载软件并解压然后配置环境变量 Builds - CODEX FFMPEG @ gyan.dev

往下拉找到release builds 下载如下图箭头的zip压缩包

然后找到解压缩的文件复制到bin目录例如我的是 C:\下载\ffmpeg-7.0.2-essentials_build\bin

右击此电脑的属性高级系统设置

添加到环境变量中就可以了

#导包
import subprocess
def combine_audio_video(video_path, audio_path, output_path):# 使用 subprocess 模块调用 ffmpeg 命令行工具，避免 shell 命令注入风险command = ['ffmpeg', '-i', video_path, '-i', audio_path, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', output_path]subprocess.run(command)# 提供视频和音频的文件路径
video_path = '为了14螺口买小米SU7，开了一个月，它值吗.mp4'
audio_path = '为了14螺口买小米SU7，开了一个月，它值吗.mp3'
output_path = 'all.mp4'
combine_audio_video(video_path, audio_path, output_path)

出现这串代码时就合并成功啦

以下是本次的源码供大家参考学习使用

import json
import pprint
import re
import requests
import subprocessurl = 'https://www.bilibili.com/video/BV1Cw4m1U7kS/?spm_id_from=333.337.search-card.all.click&vd_source=bc0862702cb8c55fb7829d6676ee3f45'headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/131.0.0.0 Safari/537.36 Edg/131.0.0.0','referer':'https://www.bilibili.com/'
}
resp = requests.get(url=url, headers=headers)
# 获取视频名称 对列表取值
v_name = re.findall(r'<title data-vue-meta="true">(.*?)_哔哩哔哩_bilibili</title>', resp.text)[0].replace('？','').replace('/', '')content = re.findall(r'<script>window.__playinfo__=(.*?)</script>', resp.text)[0]
json_data = json.loads(content)
a_url = json_data["data"]["dash"]["audio"][0]["baseUrl"]
v_url = json_data["data"]["dash"]["video"][0]["baseUrl"]
a_content = requests.get(url=a_url, headers=headers).content
v_content = requests.get(url=v_url, headers=headers).content# with open(v_name+'.mp3', 'wb') as f:
#     f.write(a_content)
# with open(v_name+'.mp4', 'wb') as f:
#     f.write(v_content)def combine_audio_video(video_path, audio_path, output_path):# 使用 subprocess 模块调用 ffmpeg 命令行工具，避免 shell 命令注入风险command = ['ffmpeg', '-i', video_path, '-i', audio_path, '-c:v', 'copy', '-c:a', 'aac', '-strict', 'experimental', output_path]subprocess.run(command)video_path = '为了14螺口买小米SU7，开了一个月，它值吗.mp4'
audio_path = '为了14螺口买小米SU7，开了一个月，它值吗.mp3'
output_path = 'all.mp4'
combine_audio_video(video_path, audio_path, output_path)

本次的案例分析就到此结束啦感谢大家的观看您的点赞和关注是我更新的动力

爬虫基础之爬取某站视频

目标网址:为了1/4螺口买小米SU7，开了一个月，它值吗？_哔哩哔哩_bilibili 本案例所使用到的模块 requests (发送HTTP请求)subprocess(执行系统命令)re (正则表达式操作)json (处理JSON数据) 需求分析: 视频的名称 F12 打开开发者工具 or 右击…...

编程日记 2025/1/25 17:48:47

mongoDB常见指令

即使我们自己开发用不到mongoDB，但是接手别人项目的时候，别人如果用了，我们也要会简单调试一下虽然mongoDB用的不是sql语句，但语句的逻辑都是相似的，比如查看数据库、数据表，增删改查这些我们下面以doc…...

编程日记 2025/1/25 17:45:43

人工智能之深度学习_[5]-神经网络优化学习率衰减优化正则化方法

文章目录神经网络入门二3 神经网络优化方法3.1 梯度下降算法回顾3.2 反向传播（BP算法）3.2.1 反向传播概念3.2.2 反向传播详解 3.3 梯度下降优化方法3.3.1 指数加权平均3.3.2 动量算法Momentum3.3.3 AdaGrad3.3.4 RMSProp3.3.5 Adam3.3.6 小结 4 学习率衰…...

编程日记 2025/1/25 17:39:36

Oracle之Merge into函数使用

Merge into函数为Oracle 9i添加的语法，用来合并update和insert语句。所以也经常用于update语句的查询优化： 一、语法格式： merge into A using B on (A.a B.a) --注意on后面带括号，且不能更新join的字段 when matched then upd…...

编程日记 2025/1/25 17:38:32

深度解析：哪种心磁图技术是心脏检查的精准之选？

在全球心血管疾病的阴影日益笼罩的今天，医学界正积极寻求一种无损、无创、无辐射的心脏健康监测方式。心磁图仪（MCG），这一前沿技术，凭借其独特的优势，悄然成为心脏电磁功能监测的新星。它不仅为心肌缺血、心…...

编程日记 2025/1/25 17:37:29

SpringBoot--基本使用（配置、整合SpringMVC、Druid、Mybatis、基础特性）

这里写目录标题一.介绍1.为什么依赖不需要写版本？2.启动器(Starter)是何方神圣？3.SpringBootApplication注解的功效？4.启动源码5.如何学好SpringBoot 二.SpringBoot3配置文件2.1属性配置文件使用2.2 YAML配置文件使用2.3 YAML配置文件使用2.…...

编程日记 2025/1/25 17:36:25

单片机-STM32 IIC通信（OLED屏幕）(十一)

一、屏幕的分类 1、LED屏幕： 由无数个发光的LED灯珠按照一定的顺序排列而成，当需要显示内容的时候，点亮相关的LED灯即可，市场占有率很高，主要是用于户外，广告屏幕，成本低。 LED屏是一种用发光…...

编程日记 2025/1/25 17:35:23

观察者模式 - 观察者模式的应用场景

引言观察者模式（Observer Pattern）是设计模式中行为型模式的一种，它定义了对象之间的一对多依赖关系，使得当一个对象的状态发生改变时，所有依赖于它的对象都会自动收到通知并更新。观察者模式广泛应用于事件处理系统…...

编程日记 2025/1/25 17:33:20

【C++】详细讲解继承（下）

本篇来继续说说继承。上篇可移步至【C】详细讲解继承（上） 1.继承与友元友元关系不能继承 ，也就是说基类友元不能访问派⽣类私有和保护成员。 class Student;//前置声明class Same //基类 { public:friend void Fun(const Same& p, con…...

编程日记 2025/1/25 17:31:17

消息队列篇--原理篇--Pulsar（Namespace，BookKeeper，类似Kafka甚至更好的消息队列）

Apache Pulusar是一个分布式、多租户、高性能的发布/订阅（Pub/Sub）消息系统，最初由Yahoo开发并开源。它结合了Kafka和传统消息队列的优点，提供高吞吐量、低延迟、强一致性和可扩展的消息传递能力，适用于大规模分布式系…...

编程日记 2025/1/25 17:28:13

扬帆数据结构算法之舟，启航C++探索征途——LeetCode深度磨砺：顺序表技术精进实践

人无完人，持之以恒，方能见真我！！！ 共同进步！！ 文章目录顺序表练习1.移除数组中指定的元素方法1（顺序表）方法2（双指针） 2.删除有序数组中的重复项…...

编程日记 2025/1/25 17:26:10

基于本地事务表+MQ实现分布式事务

基于本地事务表MQ实现分布式事务引言1、原理2、本地消息表优缺点3、代码实现3.1、代码执行流程3.2、项目结构3.3、项目源码引言本地消息表的方案最初由ebay的工程师提出，核心思想是将分布式事务拆分成本地事务进行处理。本地消息表实现最终一致性。本文主要学习…...

编程日记 2025/1/25 17:25:07

数据结构：二叉树—面试题（一）

目录 1、相同的树 2、另一棵树的子树 3、翻转二叉树 4、平衡二叉树 5、对称二叉树 6、二叉树遍历 7、二叉树的分层遍历 1、相同的树习题链接https://leetcode.cn/problems/same-tree/description/https://leetcode.cn/problems/same-tree/description/ 描述&#xff1a…...

编程日记 2025/1/25 17:22:02

【Wordpress网站制作】切换语言的问题

前言自学笔记，解决问题为主，欢迎补充。本文重点：如何将页面语言从默认的【英语】修改成【中文】。问题描述安装完wordpress，在【Setting】→【General】的语言中，选项只有英语。无法切换成中文方法1: 在 wp-c…...

编程日记 2025/1/25 17:19:59

【第二天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-五种常见的排序算法（持续更新）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的排序算法1.排序算法的介绍2.五种详细的排序算法代码总结前言提示：这里可以添加本文要记…...

编程日记 2025/1/25 17:14:54

Neural networks 神经网络

发展时间线基础概念多层神经网络结构神经网络中一个网络层的数学表达 TensorFlow实践创建网络层神经网络的创建、训练与推理推理推理可以理解为执行一次前向传播前向传播前向传播直观数学表达前向传播直观数学表达的Python实现前向传播向量化实现相关数学知识…...

编程日记 2025/1/25 17:11:50

汽车免拆诊断案例 | 2007 款日产天籁车起步加速时偶尔抖动

故障现象　一辆2007款日产天籁车，搭载VQ23发动机（气缸编号如图1所示，点火顺序为1-2-3-4-5-6），累计行驶里程约为21万km。车主反映，该车起步加速时偶尔抖动，且行驶中加速无力。图1　VQ23发动机…...

编程日记 2025/1/25 17:06:36

203:移除链表元素：注意虚拟头节点的使用 ListNode* removeElements(ListNode* head, int val) {ListNode* result new ListNode();result->next head;ListNode* current result;while(current ! nullptr && current->next ! nullptr){if(current-…...

编程日记 2025/1/25 17:04:47

Spring 面试题【每日20道】【其一】

1、Spring 当中什么是循环依赖（常问）？ 中等在Spring框架中，循环依赖（Circular Dependency）是指两个或多个bean互相之间直接或间接地依赖对方的注入。例如： A bean依赖于B bean。B bean又依赖…...

编程日记 2025/1/25 17:00:36

leetcode刷题记录（八十九）——35. 搜索插入位置

（一）问题描述 35. 搜索插入位置 - 力扣（LeetCode）35. 搜索插入位置 - 给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位…...

编程日记 2025/1/25 16:58:33

conda相比python好处

Conda 作为 Python 的环境和包管理工具，相比原生 Python 生态（如 pip 虚拟环境）有许多独特优势，尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处： 一、一站式环境管理&#xff1a…...

编程新知 2025/11/29 6:54:19

【Java学习笔记】Arrays类

Arrays 类 1. 导入包：import java.util.Arrays 2. 常用方法一览表方法描述Arrays.toString()返回数组的字符串形式Arrays.sort()排序（自然排序和定制排序）Arrays.binarySearch()通过二分搜索法进行查找（前提：数组是…...

编程新知 2025/12/3 9:38:15

全球首个30米分辨率湿地数据集(2000—2022)

数据简介今天我们分享的数据是全球30米分辨率湿地数据集，包含8种湿地亚类，该数据以0.5X0.5的瓦片存储，我们整理了所有属于中国的瓦片名称与其对应省份，方便大家研究使用。该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

编程新知 2026/1/31 17:15:25

Cinnamon修改面板小工具图标

Cinnamon开始菜单-CSDN博客设置模块都是做好的，比GNOME简单得多！ 在 applet.js 里增加 const Settings imports.ui.settings;this.settings new Settings.AppletSettings(this, HTYMenusonichy, instance_id); this.settings.bind(menu-icon, menu…...

编程新知 2026/1/31 14:56:22

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案，允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。概念解析 Module Federation (模块联邦) Modul…...

编程新知 2026/1/31 13:48:37