当前位置: 首页 > news >正文

使用C#和HtmlAgilityPack打造强大的Snapchat视频爬虫

亿牛云代理.png

概述

Snapchat作为一款备受欢迎的社交媒体应用,允许用户分享照片和视频。然而,由于其特有的内容自动消失特性,爬虫开发面临一些挑战。本文将详细介绍如何巧妙运用C#和HtmlAgilityPack库,构建一个高效的Snapchat视频爬虫。该爬虫能够从Snapchat网页版中提取视频链接,并将其下载保存到本地。为了提升爬虫的效率和可靠性,我们将使用代理IP技术和多线程技术,以规避Snapchat的反爬机制。

细节

C#和HtmlAgilityPack库

C#作为一门功能强大、易用的面向对象编程语言,适用于各类应用程序的开发。C#可以在.NET Framework或.NET Core上运行,这两者提供了丰富的类库和工具,方便开发者进行应用开发。

HtmlAgilityPack是一款专为.NET平台设计的HTML解析库,支持XPath和LINQ查询,能够轻松从HTML文档中提取数据。其强大之处在于能够处理不规范的HTML结构,同时支持对HTML文档结构和内容进行修改。HtmlAgilityPack是一个开源项目,源码和文档可在其官方网站查阅。

为使用HtmlAgilityPack库,我们需在Visual Studio中创建一个控制台应用项目,通过NuGet包管理器安装HtmlAgilityPack库。NuGet是.NET平台的包管理工具,可便捷管理项目依赖关系。

代理IP技术

代理IP技术是一种隐藏真实IP地址的方法,通过中间服务器访问目标网站,既可保护隐私安全,又能绕过地域限制和反爬机制,提高爬虫的成功率和效率。爬虫代理是一个专业服务平台,提供高质量的代理IP资源,支持多种协议和认证方式,适用于各种爬虫场景。

在C#中,使用HttpClient对象发送请求,可通过设置Proxy属性指定代理服务器的地址和认证信息,以实现代理IP的应用。

多线程技术

多线程技术是提高程序性能的有效手段,可同时执行多个任务,最大程度利用CPU资源,提高响应速度和吞吐量。对于爬虫而言,多线程技术有助于实现并发爬取,提高效率和覆盖范围。

在C#中,可通过创建Task对象,使用Task.Run方法启动新线程执行指定方法,并结合SemaphoreSlim对象限制并发线程数,保证程序稳定性。

Snapchat视频爬虫的实现

Snapchat网页版的地址是https://story.snapchat.com/,通过分析网页结构和请求,我们可以发现Snapchat网页是一个单页应用,使用React框架进行渲染。数据通过Ajax请求获取,其中包括一个token参数用于身份验证。在C#中,我们通过HttpClient对象发送请求,提取并保存token值。

主要请求为https://story.snapchat.com/api/v1/stories,获取故事列表。每个故事有id和title,可根据这些信息筛选感兴趣的故事。为获取故事的视频,需发送https://story.snapchat.com/api/v1/story/{story_id}请求,其中{story_id}是故事id。使用HttpClient对象发送这些请求,HtmlAgilityPack解析返回的JSON数据,提取视频链接,再用HttpClient对象下载并保存视频到本地。

为提升效率,采用多线程技术,为每个故事创建一个线程同时获取和下载视频。通过SemaphoreSlim对象控制线程数量,以避免Snapchat的反爬机制。

以下是完整代码,包含中文注释,可在Visual Studio中运行测试:

using System;
using System.IO;
using System.Net;
using System.Net.Http;
using System.Threading;
using System.Threading.Tasks;
using HtmlAgilityPack;namespace SnapchatVideoCrawler
{class Program{// 定义HttpClient对象,用于发送和接收HTTP请求和响应static HttpClient httpClient = new HttpClient();// 定义HtmlDocument对象,用于解析HTML文档static HtmlDocument htmlDocument = new HtmlDocument();// 定义SemaphoreSlim对象,用于控制并发线程数static SemaphoreSlim semaphoreSlim = new SemaphoreSlim(10);// 定义Snapchat网页版的网址static string snapchatUrl = "https://story.snapchat.com/";// 定义Snapchat的token值,用于验证身份,需要从浏览器的本地存储中获取static string snapchatToken = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzbmFwY2hhdCIsInN1YiI6ImFub255bW91cyIsImF1ZCI6InN0b3J5LnNuYXBjaGF0LmNvbSIsImlhdCI6MTYxNjQ4MjE3NCwiZXhwIjoxNjE2NTY4NTc0LCJqdGkiOiI1ZjYyYzQ4Zi1kYjQyLTQ3ZjUtYjEzZC0wZjQwZjEzZjIwYjgifQ.0t7gqf7Z8p0VZyXQy0sXnOa7l0o0Z8fZ6Z0T0f0f0f0";// 定义亿牛云爬虫代理的域名、端口、用户名和密码,需要从官网获取static string proxyHost = "http://www.16yun.cn";static int proxyPort = 9010;static string proxyUser = "16YUN";static string proxyPass = "16IP";// 定义视频保存的文件夹路径static string videoFolder = @"C:\SnapchatVideos\";static async Task Main(string[] args){// 创建视频保存的文件夹,如果不存在Directory.CreateDirectory(videoFolder);// 设置HttpClient对象的默认请求头,添加token值httpClient.DefaultRequestHeaders.Add("token", snapchatToken);// 获取Snapchat的故事列表var stories = await GetStoriesAsync();// 遍历每个故事foreach (var story in stories){// 获取故事的id和titlevar storyId = story.Id;var storyTitle = story.Title;// 打印故事的信息Console.WriteLine($"Story: {storyTitle} ({storyId})");// 创建并启动一个新的线程,执行GetAndDownloadVideos方法,传入故事的id和titleTask.Run(() => GetAndDownloadVideos(storyId, storyTitle));}// 等待所有线程完成await semaphoreSlim.WaitAsync();semaphoreSlim.Release();// 打印完成信息Console.WriteLine("All videos downloaded!");}// 定义一个异步方法,用于获取Snapchat的故事列表static async Task<HtmlNodeCollection> GetStoriesAsync(){// 定义Snapchat的故事列表的请求地址string storiesUrl = snapchatUrl + "api/v1/stories";// 发送GET请求,获取故事列表的JSON数据var storiesJson = await httpClient.GetStringAsync(storiesUrl);// 使用HtmlDocument对象解析JSON数据,返回一个HtmlNode对象var storiesNode = htmlDocument.Parse(storiesJson);// 使用XPath查询,从HtmlNode对象中提取故事列表,返回一个HtmlNodeCollection对象var stories = storiesNode.SelectNodes("//stories/story");// 返回故事列表return stories;}// 定义一个异步方法,用于获取并下载一个故事的视频static async Task GetAndDownloadVideos(string storyId, string storyTitle){// 使用SemaphoreSlim对象的WaitAsync方法,尝试进入该区域,如果成功则返回一个Task对象,否则等待直到有空位await semaphoreSlim.WaitAsync();try{// 定义一个故事的详细信息的请求地址,使用故事的id替换占位符string storyUrl = snapchatUrl + $"api/v1/story/{storyId}";// 创建一个新的HttpClient对象,用于发送该请求var storyClient = new HttpClient();// 设置HttpClient对象的默认请求头,添加token值storyClient.DefaultRequestHeaders.Add("token", snapchatToken);// 创建一个新的WebProxy对象,用于设置代理服务器的地址和认证信息,使用亿牛云爬虫代理的域名、端口、用户名和密码var proxy = new WebProxy(proxyHost, proxyPort);proxy.Credentials = new NetworkCredential(proxyUser, proxyPass);// 设置HttpClient对象的Proxy属性,指定代理服务器storyClient.Proxy = proxy;// 发送GET请求,获取故事的详细信息的JSON数据var storyJson = await storyClient.GetStringAsync(storyUrl);// 使用HtmlDocument对象解析JSON数据,返回一个HtmlNode对象var storyNode = htmlDocument.Parse(storyJson);// 使用XPath查询,从HtmlNode对象中提取视频列表,返回一个HtmlNodeCollection对象var videos = storyNode.SelectNodes("//story/snaps/snap/media/video");// 遍历每个视频foreach (var video in videos){// 获取视频的链接var videoUrl = video.GetAttributeValue("url", "");// 打印视频的链接Console.WriteLine($"Video: {videoUrl}");// 下载并保存视频到本地,使用故事的title和视频的url作为文件名await DownloadVideoAsync(videoUrl, videoFolder + storyTitle + "_" + videoUrl.Split('/').Last());}}catch (Exception ex){// 如果发生异常,打印异常信息Console.WriteLine($"Error: {ex.Message}");}finally{// 使用SemaphoreSlim对象的Release方法,离开该区域,释放一个空位semaphoreSlim.Release();}}// 定义一个异步方法,用于下载并保存一个视频static async Task DownloadVideoAsync(string videoUrl, string videoPath){// 创建一个新的HttpClient对象,用于发送该请求var videoClient = new HttpClient();// 设置HttpClient对象的默认请求头,添加token值videoClient.DefaultRequestHeaders.Add("token", snapchatToken);// 创建一个新的WebProxy对象,用于设置代理服务器的地址和认证信息,使用亿牛云爬虫代理的域名、端口、用户名和密码var proxy = new WebProxy(proxyHost, proxyPort);proxy.Credentials = new NetworkCredential(proxyUser, proxyPass);// 设置HttpClient对象的Proxy属性,指定代理服务器videoClient.Proxy = proxy;// 发送GET请求,获取视频的字节数据var videoBytes = await videoClient.GetByteArrayAsync(videoUrl);// 使用File类的WriteAllBytes方法,将视频的字节数据写入到指定的文件路径File.WriteAllBytes(videoPath, videoBytes);}}
}

结束语

通过本文,我们深入探讨了如何使用C#和HtmlAgilityPack库构建一个高效的Snapchat视频爬虫。代理IP技术和多线程技术的巧妙应用使得爬虫更具稳定性和高效性。希望这篇文章对你理解爬虫技术和应用有所帮助,欢迎在实际项目中应用并根据需要进行定制。祝愿你的爬虫项目取得圆满成功!

相关文章:

使用C#和HtmlAgilityPack打造强大的Snapchat视频爬虫

概述 Snapchat作为一款备受欢迎的社交媒体应用&#xff0c;允许用户分享照片和视频。然而&#xff0c;由于其特有的内容自动消失特性&#xff0c;爬虫开发面临一些挑战。本文将详细介绍如何巧妙运用C#和HtmlAgilityPack库&#xff0c;构建一个高效的Snapchat视频爬虫。该爬虫能…...

c/c++的字符和字符串输入输出

注&#xff1a; 1.下面这些为本人大学四年所用过的处理办法&#xff0c; 至今为止遇到的所有编程题都能够使用。如果需要了解更多关于putchar,cin.get,cin.getline等的请自行搜索。 2.getchar相当于获取一个字符&#xff0c;可以实现单个字符的输入以及通过循环实现多个字符输…...

学习设计模式的网站

Refactoring and Design Patternshttps://refactoring.guru/...

Hadoop学习笔记(HDP)-Part.08 部署Ambari集群

目录 Part.01 关于HDP Part.02 核心组件原理 Part.03 资源规划 Part.04 基础环境配置 Part.05 Yum源配置 Part.06 安装OracleJDK Part.07 安装MySQL Part.08 部署Ambari集群 Part.09 安装OpenLDAP Part.10 创建集群 Part.11 安装Kerberos Part.12 安装HDFS Part.13 安装Ranger …...

IDEA加载阿里Java规范插件

IDEA加载阿里巴巴Java开发手册插件&#xff0c;在写代码的时候会自动扫描代码规范。 1、打开Settings 2、打开Plugins 3、搜索Alibaba Java Code Guidelines&#xff08;XenoAmess TPM&#xff09;插件&#xff0c;点击Install进行安装&#xff0c;然后重启IDE生效。 4、鼠标右…...

【CSP】202305-1_重复局面Python实现

文章目录 [toc]试题编号试题名称时间限制内存限制题目背景问题描述输入格式输出格式样例输入样例输出样例说明子任务提示Python实现 试题编号 202305-1 试题名称 重复局面 时间限制 1.0s 内存限制 512.0MB 题目背景 国际象棋在对局时&#xff0c;同一局面连续或间断出现3次或3…...

html5各行各业官网模板源码下载(1)

文章目录 1.来源2.源码模板2.1 HTML5白色简洁设计师网站模板2.2 HTML5保护野生动物响应式网站模板 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418/article/details/134682321 html5各行各业官网模板源码下载&#xff0c;这个主题覆盖各行…...

6 Redis缓存设计与性能优化

缓存穿透 缓存穿透是指查询一个根本不存在的数据&#xff0c; 缓存层和存储层都不会命中&#xff0c; 通常出于容错的考虑&#xff0c; 如果从存储层查不到数据则不写入缓存层。缓存穿透将导致不存在的数据每次请求都要到存储层去查询&#xff0c; 失去了缓存保护后端存储的意义…...

SpringCloud常见问题

1、什么是Spring Cloud&#xff1f; Spring Cloud是一款基于Spring Boot框架开发的微服务框架&#xff0c;它为开发人员提供了一系列的组件和工具&#xff0c;可以帮助开发人员快速构建和部署微服务&#xff0c;提高开发效率和项目可维护性。Spring Cloud提供了包括服务注册与…...

实战演练 | 在 Navicat 中格式化日期和时间

Navicat 支持团队收到来自用户常问的一个问题是&#xff0c;如何将网格和表单视图中的日期和时间进行格式化。其实这个很简单。今天&#xff0c;我们将介绍在 Navicat Premium 中进行全局修改日期和时间格式的步骤。 如果你想边学边用&#xff0c;欢迎点击 这里 下载免费全功能…...

mysql面试题分享带答案

数据库索引的原理&#xff0c;为什么要用B树&#xff0c;为什么不用二叉树&#xff1f; 可以从几个维度去看这个问题&#xff0c;查询是否够快&#xff0c;效率是否稳定&#xff0c;存储数据多少&#xff0c;以及查找磁盘次数&#xff0c;为什么不是二叉树&#xff0c;为什么不…...

利用 Python进行数据分析实验(一)

一、实验目的 使用Python解决简单问题 二、实验要求 自主编写并运行代码&#xff0c;按照模板要求撰写实验报告 三、实验步骤 本次实验共有5题&#xff1a; 有四个数字&#xff1a;1、2、3、4&#xff0c;能组成多少个互不相同且无重复数字的三位数&#xff1f;各是多少&…...

Jupyter Notebook工具

Jupyter Notebook 是一个交互式的笔记本环境&#xff0c;允许用户以网页形式编写和分享代码、文本、图像以及其它多媒体内容。它支持超过 40 种编程语言&#xff0c;最常用的是 Python。 以下是 Jupyter Notebook 工具的一些特点和用法&#xff1a; 1. 特点&#xff1a; 交互式…...

c语言上机小练(有点难)

1.题目 用指向数组的指针编程实现&#xff1a;输入一个字符串&#xff0c;内有数字和非数字符号&#xff0c;如&#xff1a;a123x456&#xff08;此处一个空格&#xff09;17960?302tab5876。将其中连续的数字作为一个十进制整数&#xff0c;依次存放到一个数组a中。例如&…...

<JavaEE> 什么是线程安全?产生线程不安全的原因和处理方式

目录 一、线程安全的概念 二、线程不安全经典示例 三、线程不安全的原因和处理方式 3.1 线程的随机调度和抢占式执行 3.2 修改共享数据 3.3 关键代码或指令不是“原子”的 3.4 内存可见性和指令重排序 四、Java标准库自带的线程安全类 一、线程安全的概念 线程安全是指…...

Kotlin 中的 also 和 run:选择正确的作用域函数

在 Kotlin 中&#xff0c;also 和 run 是两个十分有用的作用域函数。 虽然它们在功能上相似&#xff0c;但各自有独特的用途和适用场景。 一、分析&#xff1a; also&#xff1a;在对象的上下文中执行给定的代码块&#xff0c;并返回对象本身。它的参数是一个接收对象并返回…...

ZKP Understanding Nova (1): MinRoot Example

Understanding Nova Kothapalli, Abhiram, Srinath Setty, and Ioanna Tzialla. “Nova: Recursive zero-knowledge arguments from folding schemes.” Annual International Cryptology Conference. Cham: Springer Nature Switzerland, 2022. Nova: Paper Code 1. Unders…...

0基础学java-day14

一、集合 前面我们保存多个数据使用的是数组&#xff0c;那么数组有不足的地方&#xff0c;我们分析一下 1.数组 2 集合 数据类型也可以不一样 3.集合的框架体系 Java 的集合类很多&#xff0c;主要分为两大类&#xff0c;如图 &#xff1a;[背下来] package com.hspedu.c…...

创建conan包-工具链

创建conan包-工具链 1 Toolchains 本文是基于对conan官方文档Toolchains翻译而来&#xff0c; 更详细的信息可以去查阅conan官方文档。 1 Toolchains Toolchains are the new way to integrate with build systems in Conan. Recipes can define a generate() method that wi…...

IntelliJ IDE 插件开发 | (二)UI 界面与数据持久化

系列文章 IntelliJ IDE 插件开发 |&#xff08;一&#xff09;快速入门 前言 在上一篇文章中介绍了在IDEA下开发、运行和安装插件的基本步骤&#xff0c;因此创建项目等基础步骤不再赘述&#xff0c;本文则开始介绍如何进行 UI 界面的开发以及相关数据的持久化存储&#xff…...

React第五十七节 Router中RouterProvider使用详解及注意事项

前言 在 React Router v6.4 中&#xff0c;RouterProvider 是一个核心组件&#xff0c;用于提供基于数据路由&#xff08;data routers&#xff09;的新型路由方案。 它替代了传统的 <BrowserRouter>&#xff0c;支持更强大的数据加载和操作功能&#xff08;如 loader 和…...

从深圳崛起的“机器之眼”:赴港乐动机器人的万亿赛道赶考路

进入2025年以来&#xff0c;尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断&#xff0c;但全球市场热度依然高涨&#xff0c;入局者持续增加。 以国内市场为例&#xff0c;天眼查专业版数据显示&#xff0c;截至5月底&#xff0c;我国现存在业、存续状态的机器人相关企…...

Module Federation 和 Native Federation 的比较

前言 Module Federation 是 Webpack 5 引入的微前端架构方案&#xff0c;允许不同独立构建的应用在运行时动态共享模块。 Native Federation 是 Angular 官方基于 Module Federation 理念实现的专为 Angular 优化的微前端方案。 概念解析 Module Federation (模块联邦) Modul…...

Axios请求超时重发机制

Axios 超时重新请求实现方案 在 Axios 中实现超时重新请求可以通过以下几种方式&#xff1a; 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

图表类系列各种样式PPT模版分享

图标图表系列PPT模版&#xff0c;柱状图PPT模版&#xff0c;线状图PPT模版&#xff0c;折线图PPT模版&#xff0c;饼状图PPT模版&#xff0c;雷达图PPT模版&#xff0c;树状图PPT模版 图表类系列各种样式PPT模版分享&#xff1a;图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

【电力电子】基于STM32F103C8T6单片机双极性SPWM逆变(硬件篇)

本项目是基于 STM32F103C8T6 微控制器的 SPWM(正弦脉宽调制)电源模块,能够生成可调频率和幅值的正弦波交流电源输出。该项目适用于逆变器、UPS电源、变频器等应用场景。 供电电源 输入电压采集 上图为本设计的电源电路,图中 D1 为二极管, 其目的是防止正负极电源反接, …...

省略号和可变参数模板

本文主要介绍如何展开可变参数的参数包 1.C语言的va_list展开可变参数 #include <iostream> #include <cstdarg>void printNumbers(int count, ...) {// 声明va_list类型的变量va_list args;// 使用va_start将可变参数写入变量argsva_start(args, count);for (in…...

论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing

Muffin 论文 现有方法 CRADLE 和 LEMON&#xff0c;依赖模型推理阶段输出进行差分测试&#xff0c;但在训练阶段是不可行的&#xff0c;因为训练阶段直到最后才有固定输出&#xff0c;中间过程是不断变化的。API 库覆盖低&#xff0c;因为各个 API 都是在各种具体场景下使用。…...

沙箱虚拟化技术虚拟机容器之间的关系详解

问题 沙箱、虚拟化、容器三者分开一一介绍的话我知道他们各自都是什么东西&#xff0c;但是如果把三者放在一起&#xff0c;它们之间到底什么关系&#xff1f;又有什么联系呢&#xff1f;我不是很明白&#xff01;&#xff01;&#xff01; 就比如说&#xff1a; 沙箱&#…...

DAY 26 函数专题1

函数定义与参数知识点回顾&#xff1a;1. 函数的定义2. 变量作用域&#xff1a;局部变量和全局变量3. 函数的参数类型&#xff1a;位置参数、默认参数、不定参数4. 传递参数的手段&#xff1a;关键词参数5 题目1&#xff1a;计算圆的面积 任务&#xff1a; 编写一…...