爬虫下载B站视频简单程序(仅供学习)
请输入视频链接:https://www.bilibili.com/video/BV1owFSeREoh (示例地址) 程序显示结果如下:
下载进度: 100.00%
下载完成
视频已保存到: ./video.mp4
核心功能
1. 视频信息解析
- 自动识别B站视频格式(新版DASH/旧版FLV)
- 提取最高画质视频流地址
- 支持分段视频检测
2.下载
- 多线程分块下载(1MB/块)
- 自动重试机制(最多5次)
- 实时下载进度显示
- 支持代理和反爬策略
- 通过正则提取B站视频核心数据
- 包含分辨率、码率、分段地址等关键信息 re.search(r'<script>window\.__playinfo__=(.*?)</script>', html)
注意:
- 仅下载已获得观看权限的内容
- 本代码仅供学习使用,请遵守B站用户协议和版权法规
import re
import json
import requests
from urllib.parse import urlparse
import subprocess
import timeclass BilibiliDownloader:def __init__(self, url):self.url = urlself.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36','Referer': 'https://www.bilibili.com/'}def get_video_info(self):# 获取视频页面源码response = requests.get(self.url, headers=self.headers)html = response.text# 提取JSON格式的视频信息match = re.search(r'<script>window\.__playinfo__=(.*?)</script>', html)if match:return json.loads(match.group(1))else:raise Exception("无法提取视频信息")def download_video(self, save_path='./video.mp4'):# 获取视频下载链接video_info = self.get_video_info()# 处理不同视频格式(优先dash格式)try:if video_info['data'].get('dash'):# Dash格式视频流video_list = video_info['data']['dash']['video']best_quality = max(video_list, key=lambda x: x['bandwidth'])video_url = best_quality['baseUrl']else: # 旧版FLV格式video_list = video_info['data']['durl']best_quality = max(video_list, key=lambda x: x['size'])video_url = best_quality['url']# 处理分段视频(需要合并多个flv)if len(video_list) > 1:print("检测到分段视频,需要合并多个文件...")return self._download_flv_segments(video_list, save_path)except KeyError as e:raise Exception(f"不支持的视频格式: {str(e)}")# 使用requests流式下载(带重试机制)max_retries = 5timeout = 15 # 设置超时时间(秒)chunk_size = 1024 * 1024 # 1MB chunksfor attempt in range(max_retries):try:with requests.get(video_url, headers=self.headers, stream=True, timeout=timeout) as r:r.raise_for_status()total_size = int(r.headers.get('content-length', 0))with open(save_path, 'wb') as f:downloaded = 0for chunk in r.iter_content(chunk_size=chunk_size):if chunk: # 过滤保持连接的空白chunkf.write(chunk)downloaded += len(chunk)print(f"\r下载进度: {downloaded/total_size:.2%}", end='')print("\n下载完成")breakexcept (requests.exceptions.Timeout, requests.exceptions.ConnectionError) as e:print(f"\n第 {attempt+1} 次尝试失败: {str(e)}")if attempt == max_retries - 1:raise Exception("多次尝试下载失败,请检查网络连接")time.sleep(2 ** attempt) # 指数退避# 合并音视频(需要ffmpeg)self._merge_audio_video(save_path)print(f"视频已保存到: {save_path}")def _download_flv_segments(self, segments, save_path):"""下载并合并FLV分段视频"""temp_files = []for i, seg in enumerate(segments):part_url = seg['url']part_file = f"{save_path}.part{i}"temp_files.append(part_file)with requests.get(part_url, headers=self.headers, stream=True) as r:with open(part_file, 'wb') as f:for chunk in r.iter_content(chunk_size=8192):f.write(chunk)self._merge_files(temp_files, save_path)if __name__ == "__main__":video_url = input("请输入视频链接:")downloader = BilibiliDownloader(video_url)downloader.download_video()
相关文章:
爬虫下载B站视频简单程序(仅供学习)
请输入视频链接:https://www.bilibili.com/video/BV1owFSeREoh (示例地址) 程序显示结果如下: 下载进度: 100.00% 下载完成 视频已保存到: ./video.mp4 核心功能 1. 视频信息解析…...
2.5 运算符2
版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的 2.5.3 赋值运算符 赋值运算符将值存储在左操作数指定的对象中。有两种赋值操作: 1、简单赋值,使用。其中第二…...
DeepSeek + 自由职业 发现新大陆,从 0 到 1 全流程跑通商业 IP
DeepSeek 自由职业 发现新大陆,从 0 到 1 全流程跑通商业 IP 商业定位1. 商业定位分析提示词2. 私域引流策略提示词3. 变现模型计算器提示词4. 对标账号分析提示词5. 商业IP人设打造提示词6. 内容选题策略提示词7. 用户人群链分析提示词8. 内容布局与转化路径设计提…...
仿12306购票系统(3)
前面完成了乘车人登录功能的实现,本篇主要是控制台方面的管理 对于整体的控制台的设计,为了能够快速的检验,不进行登录拦截,在控制台的这个模块的controller层增加admin,以及在登录界面的拦截器排除掉admin. 车站 即…...
2025年2月个人工作生活总结
本文为 2025年2月工作生活总结。 工作记录 AI浪潮 AI非常火,春节至今,到处充斥着大量和AI、DeepSeek有关的新闻。领导也一再强调要用AI,甚至纳入到新一年的考核里。再往上,大领导开会的新闻稿里也作出要求,不能停下脚…...
【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云
目录 一、功能介绍 二、关键技术 1、安装WordCloud 2、利用WordCloud 1、WordCloud的基础用法 **相关参数介绍** **WordCloud 提供的方法如下** 2、WordCloud的应用举例 3、设置停用词 4、WordCloud使用词频 三、程序设计的步骤 1、抓取网页数据 2、数据清洗 3、…...
第39天:安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化
时间轴: Java知识点: 功能:数据库操作,文件操作,序列化数据,身份验证,框架开发,第三方组件使用等. 框架库:MyBatis,SpringMVC,SpringBoot…...
综合练习 —— 递归、搜索与回溯算法
目录 一、1863. 找出所有子集的异或总和再求和 - 力扣(LeetCode) 算法代码: 代码思路 问题分析 核心思想 实现细节 代码解析 初始化 DFS 函数 时间复杂度 空间复杂度 示例运行 输入 运行过程 总结 二、 47. 全排列 II - 力扣&a…...
c++ 中的 auto 与 const 关键字
总是看到这两个关键字,根据 AI 的回复进行了一些整理总结。 文章目录 **1. auto 关键字****基本用法****与指针、引用结合****与 const 结合****在函数返回值推导****auto 不能用于** **2. const 关键字****修饰变量****修饰指针****修饰函数参数****修饰成员函数**…...
.pem文件是什么
.pem 文件通常是一个 Privacy-Enhanced Mail 格式的文件,它是一个常见的 证书文件 格式,可以存储加密密钥、证书或其他加密数据。最常见的用途是 SSH 密钥 和 SSL/TLS 证书。 在 SSH 使用中,.pem 文件一般是 私钥 文件,用于通过公…...
【Java SE】Java中String的内存原理
参考笔记: Java String 类深度解析:内存模型、常量池与核心机制_java stringx、-CSDN博客 解析java中String的内存原理_string s1 new string("ab");内存分析-CSDN博客 目录 1.String初识 2.字符串字面量 3.内存原理图 4. 示例验证 4.…...
IDEA提示将方法形参更改为(什么什么类型),要检查对应的实体类中的字段类型是否正确
IDEA提示inviteCodeId应该是字符串,明显不对,后来检查发现是FakeRegistration类中把inviteCodeId定义为String类型了。...
DeepSeek-OpenSourceWeek-第五天-Launch of 3FS and Smallpond Framework
2025 年 2 月 28 日,DeepSeek 在开源周的最后一天宣布推出了 Fire-Flyer File System(3FS)和 Smallpond 数据处理框架。这些创新旨在提升数据访问和处理能力,特别是针对 AI 训练和推理工作负载。 Fire-Flyer File System (3FS) 3FS 是一种高性能的分布式文件系统,专为应对…...
【芯片设计】NPU芯片前端设计工程师面试记录·20250227
应聘公司 某NPU/CPU方向芯片设计公司。 小声吐槽两句,前面我问了hr需不需要带简历,hr不用公司给打好了,然后我就没带空手去的。结果hr小姐姐去开会了,手机静音( Ĭ ^ Ĭ )面试官、我、另外的hr小姐姐都联系不上,结果就变成了两个面试官和我一共三个人在会议室里一人拿出…...
初阶数据结构(C语言实现)——3顺序表和链表(3)
3.链表 3.1 链表的概念及结构 概念:链表是一种物理存储结构上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的 链表的物理结构 1.从上图可看出,链式结构在逻辑上是连续的,但是在物理上不一定连续…...
Kubernetes故障排查实战指南
前言 在云原生时代,Kubernetes已成为容器编排的事实标准。然而,随着系统规模和复杂度的增加,故障排查变得越来越具有挑战性。本文将从实战角度,系统化介绍K8s故障排查方法和最佳实践。 © ivwdcwso (ID: u012172506) 一、故障排查方法论 1.1 三步排查法 问题定位:快…...
使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169
使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169 一、安装 VSCode二、搭建 NXP JN5169 ZigBee 3.0 开发环境和下载示例工程三、配置 VSCode1、配置环境变量 MYSYS_HOME2、VSCode 安装以下插件3、VSCode 配置头文件路径 四、编译工程1、JN-AN-1219 有 6 个构建选项2、修改 …...
Python常见面试题的详解24
1. 如何对关键词触发模块进行测试 要点 功能测试:验证正常关键词触发、边界情况及大小写敏感性,确保模块按预期响应不同输入。 性能测试:关注响应时间和并发处理能力,保证模块在不同负载下的性能表现。 兼容性测试:测…...
加载大数据时性能压力优化
1. 减少数据请求量 分页加载(Pagination) 原理:将数据拆分为多页,按需加载。实现: 传统分页(页码切换)。无限滚动(滚动到底部自动加载下一页,如社交媒体)。…...
动态自定义标签属性页面(Tomcat 9)
java文件 ,包名org.rain.tag package org.rain.tag; import java.io.IOException; import java.util.HashMap; import java.util.Map; import javax.servlet.jsp.JspException; import javax.servlet.jsp.tagext.DynamicAttributes; import javax.servlet.jsp.…...
使用Fuse-DFS挂载文件存储 HDFS-后端存储ceph
1. 编译环境准备 yum install cmake3 ln -s /usr/bin/cmake3 /usr/bin/cmake yum install gcc-c安装挂载依赖 yum -y install fuse fuse-devel fuse-libs执行以下命令,载入FUSE模块 modprobe fuse2. 下载源码包 hadoop-3.3.4-src.tar.gz解压后执行以下命令 打开…...
DBGPT安装部署使用
简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…...
How to use VRX on ubuntu20.04 with ROS1 Noetic?[2]
How to use VRX on ubuntu20.04 with ROS1 Noetic?[2] 1.Which topics2.Control1.1操作模拟船(1)命令行直接发布(2)启动键盘控制文件 3.Customer your VRX world3.1Which world parameters3.2改变风的参数 3.2.1更改默认参数&…...
yolov8 目标追踪 (源码 +效果图)
1.在代码中 增加了s键开始追踪 e键结束追踪 显示移动距离(代码中可调标尺和像素的比值 以便接近实际距离) 2.绘制了监测区域 只在区域内的检测 3.规定了检测的类别 只有人类才绘制轨迹 import osimport cv2 from ultralytics import YOLO from collections import defaultdic…...
运维Apache面试题及参考答案
目录 简述 Apache Web 服务器的主要特点及适用场景 Apache 的默认监听端口是什么?如何修改为其他端口? Apache 的主配置文件名称及路径是什么?不同 Linux 发行版的默认路径有何差异? 解释 Apache 的 MPM(Multi-Processing Module)机制,列举常见的工作模式(如 prefor…...
基于Python的web漏洞挖掘,漏洞扫描系统(附源码,部署)
本次技术通过利用Python技术来开发一款针对web漏洞挖掘扫描的技术,通过web漏洞的挖掘扫描来实现对网站URL的漏洞检测,通过高中低风险的判断来实现对一款网站中存在的漏洞进行可视化的分析,从而能够找到问题并且尽快的实现问题的解决。 博主介…...
K8s部署主从结构MySQL服务
01 介绍 RC、Deployment、DaemonSet都是面向无状态的服务,它们所管理的Pod的IP、名字、启停顺序等都是随机分配的,而StatefulSet,管理所有有状态的服务。 StatefulSet为了解决有状态服务的问题,它所管理的Pod拥有固定的Pod名称,一定的启停顺序,在StatefulSet中,Pod名字…...
岳阳市美术馆预约平台(小程序论文源码调试讲解)
第4章 系统设计 一个成功设计的系统在内容上必定是丰富的,在系统外观或系统功能上必定是对用户友好的。所以为了提升系统的价值,吸引更多的访问者访问系统,以及让来访用户可以花费更多时间停留在系统上,则表明该系统设计得比较专…...
ubuntu22.04系统如何自建2级ntp服务器
一:ntp服务器详情 服务器型号 系统版本 IP地址 主机名 ntp服务版本 虚拟机8c-32g-1T Ubuntu22.04 10.20.30.2 DMZ-NTP-SERVER 4.2.8p15 二:ntp服务端部署配置脚本 #!/bin/bash # 脚本信息 echo "--------------------------…...
DeepSeek赋能智慧社区:提升社区治理,优化资源配置,带来全新变革
在数字化浪潮的推动下,智慧社区正逐渐成为城市发展的重要方向。作为一款先进的人工智能大模型,DeepSeek凭借其强大的多模态数据分析和智能决策能力,正在为智慧社区的建设注入新的活力。 标准规范及顶层设计指南、供应商整体解决方案合集、供应…...
