当前位置：首页 > news >正文

C#网络爬虫开发

news 2026/2/9 0:29:44

1前言

爬虫一般都是用Python来写，生态丰富，动态语言开发速度快，调试也很方便

但是

我要说但是，动态语言也有其局限性，笔者作为老爬虫带师，几乎各种语言都搞过，现在这个任务并不复杂，用我最喜欢的C#做小菜一碟~

2开始

之前做onecat项目的时候，最开始的数据采集模块，就是用 C# 做的，同时还集成了 Chloe 作为 ORM，用 Nancy 做 HTTP 接口，结合 C# 强大的并发功能，做出来的效果不错。

这次是要爬一些壁纸，很简单的场景，于是沿用了之前 OneCat 项目的一些工具类，并且做了一些改进。

3HttpHelper

网络请求直接使用 .Net Core 标准库的 HttpClient，这个库要求使用单例，在 AspNetCore 里一般用依赖注入，不过这次简单的爬虫直接用 Console 程序就行。

把 HTML 爬下来后，还需要解析，在Python中一般用 BeautifulSoup，在C#里可以用 AngleSharp ，也很好用~

为了使用方便，我又封装了一个工具类，把 HttpClient 和 AngleSharp 集成在一起。

public static class HttpHelper {public const string UserAgent ="Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36";public static HttpClientHandler Handler { get; }public static HttpClient Client { get; }static HttpHelper() {Handler = new HttpClientHandler();Client = new HttpClient(Handler);Client.DefaultRequestHeaders.Add("User-Agent", UserAgent);}public static async Task<IHtmlDocument> GetHtmlDocument(string url) {var html = await Client.GetStringAsync(url);// todo 这个用法有内存泄漏问题，得优化一下return new HtmlParser().ParseDocument(html);}public static async Task<IHtmlDocument> GetHtmlDocument(string url, string charset) {var res = await Client.GetAsync(url);var resBytes = await res.Content.ReadAsByteArrayAsync();var resStr = Encoding.GetEncoding(charset).GetString(resBytes);// todo 这个用法有内存泄漏问题，得优化一下return new HtmlParser().ParseDocument(resStr);}
}

这段代码里面有俩 todo ，这个内存泄漏的问题在简单的爬虫中影响不大，所以后面有大规模的需求再来优化吧~

4搞HTML

大部分爬虫是从网页上拿数据

如果网页是后端渲染出来的话，没有js动态加载数据，基本上用CSS选择器+正则表达式就可以拿到任何想要的数据。

经过前面的封装，请求网页+解析HTML只需要一行代码

IHtmlDocument data = await HttpHelper.GetHtmlDocument(url);

拿到 IHtmlDocument 对象之后，用 QuerySelector 传入css选择器，就可以拿到各种元素了。

例如这样，取出 <li> 元素下所有链接的地址

var data = await HttpHelper.GetHtmlDocument(url);
foreach (var item in data.QuerySelectorAll(".pagew li")) {var link = item.QuerySelector("a");var href = link?.GetAttribute("href");if (href != null) await CrawlItem(href);
}

或者结合正则表达式

var data = await HttpHelper.GetHtmlDocument(url);
var page = data.QuerySelector(".pageinfo");
Console.WriteLine("拿到分页信息：{0}", page?.TextContent);
var match = Regex.Match(page?.TextContent ?? "", @"共\s(\d+)页(\d+)条");
var pageCount = int.Parse(match.Groups[1].Value);
for (int i = 1; i <= pageCount; i++) {await CrawlPage(i);
}

正则表达式非常好用，爬虫必备~

5JSON 处理

老生常谈的问题了

JSON 在 web 开发中很常见，无论是接口交互，还是本地保存数据，这都是一种很好的格式

.Net Core 自带的 System.Text.Json 还不错，不需要手动安装依赖，没有特殊需求的话，直接用这个就好了

这里的场景是要把采集的数据存到 JSON 里，即序列化，用以下的配置代码一把梭即可，可以应付大多数场景

var jsonOption = new JsonSerializerOptions {WriteIndented = true,Encoder = JavaScriptEncoder.UnsafeRelaxedJsonEscaping
};

写入文件

await File.WriteAllTextAsync("path", JsonSerializer.Serialize(data, jsonOption));

6下载文件

最简单就是直接用 HttpClient 获取 Response，然后 CopyToAsync 写到文件流里面

这个用法拿来下载几个小文件还可以，但多线程下载、断点重连、失败重试等方法就得自己实现了，比较繁琐。

所以这次我直接用了第三方库 Downloader，这个库看起来很猛，功能很多，我就不翻译了

同样的，我把下载的功能也封装到 HttpHelper中

增加这部分代码

public static IDownloadService Downloader { get; }public static DownloadConfiguration DownloadConf => new DownloadConfiguration {BufferBlockSize = 10240, // 通常，主机最大支持8000字节，默认值为8000。ChunkCount = 8, // 要下载的文件分片数量，默认值为1// MaximumBytesPerSecond = 1024 * 50, // 下载速度限制，默认值为零或无限制MaxTryAgainOnFailover = 5, // 失败的最大次数ParallelDownload = true, // 下载文件是否为并行的。默认值为falseTimeout = 1000, // 每个 stream reader  的超时（毫秒），默认值是1000RequestConfiguration = {Accept = "*/*",AutomaticDecompression = DecompressionMethods.GZip | DecompressionMethods.Deflate,CookieContainer = new CookieContainer(), // Add your cookiesHeaders = new WebHeaderCollection(), // Add your custom headersKeepAlive = true,ProtocolVersion = HttpVersion.Version11, // Default value is HTTP 1.1UseDefaultCredentials = false,UserAgent = UserAgent}
};static HttpHelper() {// ...Downloader = new DownloadService(DownloadConf);
}

使用方法依然是一行代码

await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);

不过这次没有直接封装一个下载的方法，而是把 IDownloadService 对象做成属性，因为下载的时候往往要加一些“buff”

比如监听下载进度，看下面的代码

HttpHelper.Downloader.DownloadStarted += DownloadStarted;
HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;
HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;
HttpHelper.Downloader.ChunkDownloadProgressChanged += ChunkDownloadProgressChanged;

这个库提供了四个事件，分别是：

下载开始

下载完成

下载进度变化

分块下载进度变化

7进度条

有了这些事件，就可以实现下载进度条展示了，接下来介绍的进度条，也是 Downloader 这个库官方例子中使用的

首先，把官网上的例子忘记吧，那几个例子实际作用不大。

Tick模式

这个进度条有两种模式，一种是它自己的 Tick 方法，先定义总任务数量，执行一次表示完成一个任务，比如这个：

using var bar = new ProgressBar(10, "正在下载所有图片", BarOptions);

上面代码定义了10个任务，每执行一次 bar.Tick() 就表示完成一次任务，执行10次后就整个完成~

IProgress<T> 模式

这个 IProgress<T> 是C#标准库的类型，用来处理进度条的。

ProgressBar 对象可以使用 AsProgress<T> 方法转换称 IProgress<T> 对象，然后调用 IProgress<T> 的 Report 方法，报告进度。

这个就很适合下载进度这种非线性的任务，每次更新时，完成的进度都不一样

Downloader的下载进度更新事件，用的是百分比，所以用这个 IProgress<T> 模式就很合适。

进度条嵌套

本爬虫项目是要采集壁纸，壁纸的形式是按图集组织的，一个图集下可能有多个图片

为了应对这种场景，可以用一个进度条显示总进度，表示当前正在下载某个图集

然后再嵌套子进度条，表示正在下载当前图集的第n张图片

然后的然后，再套娃一个孙子进度条，表示具体图片的下载进度（百分比）

这里用到的是 ProgressBar 的 Spawn 方法，会生成一个 ChildProgressBar 对象，此时更新子进度条对象的值就好了。

直接看代码吧

var list = // 加载图集列表using var bar = new ProgressBar(list.Count, "正在下载所有图片", BarOptions);foreach (var item in list) {bar.Message = $"图集：{item.Name}";bar.Tick();foreach (var imgUrl in item.Images) {using (var childBar = bar.Spawn(item.ImageCount,$"图片：{imgUrl}",ChildBarOptions)) {childBar.Tick();// 具体的下载代码}}
}

这样就实现了主进度条显示下载了第几个图集，子进度条显示下载到第几张图片。

然后具体下载代码中，使用 Downloader 的事件监听，再 Spawn 一个新的进度条显示单张图片的下载进度。

代码如下：

private async Task Download(IProgressBar bar, string url, string filepath) {var percentageBar = bar.Spawn(100, $"正在下载：{Path.GetFileName(url)}", PercentageBarOptions);HttpHelper.Downloader.DownloadStarted += DownloadStarted;HttpHelper.Downloader.DownloadFileCompleted += DownloadFileCompleted;HttpHelper.Downloader.DownloadProgressChanged += DownloadProgressChanged;await HttpHelper.Downloader.DownloadFileTaskAsync(url, filepath);void DownloadStarted(object? sender, DownloadStartedEventArgs e) {Trace.WriteLine($"图片, FileName:{Path.GetFileName(e.FileName)}, TotalBytesToReceive:{e.TotalBytesToReceive}");}void DownloadFileCompleted(object? sender, AsyncCompletedEventArgs e) {Trace.WriteLine($"下载完成, filepath:{filepath}");percentageBar.Dispose();}void DownloadProgressChanged(object? sender, DownloadProgressChangedEventArgs e) {percentageBar.AsProgress<double>().Report(e.ProgressPercentage);}
}

注意所有的 ProgressBar 对象都需要用完释放，所以这里在 DownloadFileCompleted 事件里面 Dispose 了。

上面的是直接用 using 语句，自动释放。

进度条配置

这个东西的自定义功能还不错。

可以配置颜色、显示字符、显示位置啥的

var barOptions = new ProgressBarOptions {ForegroundColor = ConsoleColor.Yellow,BackgroundColor = ConsoleColor.DarkYellow,ForegroundColorError = ConsoleColor.Red,ForegroundColorDone = ConsoleColor.Green,BackgroundCharacter = '\u2593',ProgressBarOnBottom = true,EnableTaskBarProgress = RuntimeInformation.IsOSPlatform(OSPlatform.Windows),DisplayTimeInRealTime = false,ShowEstimatedDuration = false
};

EnableTaskBarProgress 这个选项可以同时更新Windows任务状态栏上的进度

具体配置选项可以直接看源码，里面注释很详细。

如果 Spawn 出来的子进度条没配置选项，那就会继承上一级的配置。

8小结

用 C# 来做爬虫还是舒服的，至少比 Java 好很多

做控制台应用，打包成exe也方便分发

C#网络爬虫开发

1前言爬虫一般都是用Python来写，生态丰富，动态语言开发速度快，调试也很方便但是我要说但是，动态语言也有其局限性，笔者作为老爬虫带师，几乎各种语言都搞过，现在这个任务并不复杂，用我…...

编程日记 2023/5/12 5:50:26

Fastjson 总结

0x00 前言这一篇主要是针对已经完成的fastjson系列做一个知识点总结，一来是为了更加有条理的梳理已经存在的内容，二来是为了更好的复习和利用。 0x01 Fastjson基础知识点 1.常见问题： 问：fastjson的触发点是什么？…...

编程日记 2023/4/17 11:37:38

文件路径模块os.path

文件路径模块os.path 文章目录文件路径模块os.path1.概述2.解析路径2.1.拆分路径和文件名split2.2.获取文件名称basename2.3.返回路径第一部分dirname2.4.扩展名称解析路径splitext2.5.返回公共前缀路径commonprefix3.创建路径3.1.拼接路径join3.2.获取家目录3.3.规范化路径nor…...

编程日记 2023/5/23 8:09:20

Kerberos简单介绍及使用

Kerberos作用简单来说安全相关一般涉及以下方面：用户认证（Kerberos的作用）、用户授权、用户管理.。而Kerberos功能是用户认证，通俗来说解决了证明A是A 的问题。认证过程（时序图） 核心角色/概念 KDC&…...

编程日记 2023/5/23 8:12:07

DOM编程-全选、全不选和反选

<!DOCTYPE html> <html> <head> <meta charset"utf-8"> <title>全选、全不选和反选</title> </head> <body bgcolor"antiquewhite"> <script type"text/jav…...

编程日记 2023/5/30 11:22:00

C++11可变模板参数

C11可变模板参数一、简介二、语法三、可变模版参数函数3.1、递归函数方式展开参数包3.2、逗号表达式展开参数包一、简介 C11的新特性–可变模版参数（variadic templates）是C11新增的最强大的特性之一，它对参数进行了高度泛化，它能…...

编程日记 2023/5/30 11:23:12

Linux多线程

目录一、认识线程 1.1 线程概念 1.2 页表 1.3 线程的优缺点 1.3.1 优点 1.3.2 缺点 1.4 线程异常二、进程 VS 线程三、Linux线程控制 3.1 POSIX线程库 3.1 线程创建 3.3 线程等待 3.4 线程终止 3.4.1 return退出 3.4.2 pthread_exit() 3.4.3 pthread_cancel…...

编程日记 2023/5/23 8:13:49

Webpack5 环境下 Openlayers 标注（Icon） require 引入图片问题

Webpack5 环境下 Openlayers 标注（Icon） require 引入图片问题环境版本Openlayers 使用 require 问题Webpack5 正确配置构建新环境的时候，偶然发现 Openlayers 使用 require 的方式加载图片（Icon）报错，开始…...

编程日记 2023/5/23 8:14:51

文章目录Zookeeper安装部署Zookeeper安装部署将Zookeeper安装包解压缩， [rootlocalhost opt]# ll 总用量 14032 -rw-r--r--. 1 root root 12392394 10月 13 11:44 apache-zookeeper-3.6.0-bin.tar.gz drwxrwxr-x. 6 root root 4096 10月 18 01:44 redis-5.0.4 …...

编程日记 2023/5/13 3:54:54

Cow Acrobats ( 临项交换贪心 )

题目大意： N 头牛 ， 每头牛有一个重量(Weight)和一个力量(Strenth) ， N头牛进行排列 ， 第 i 头牛的风险值为其上所有牛总重减去自身力量 ， 问如何排列可以使最大风险值最小 ， 求出这个最小的最大风险值&am…...

编程日记 2023/5/30 11:24:36

MySQL：为什么说应该优先选择普通索引，尽量避免使用唯一索引

前言在使用MySQL的过程中，随着表数据的逐渐增多，为了更快的查询我们需要的数据，我们会在表中建立不同类型的索引。今天我们来聊一聊，普通索引和唯一索引的使用场景， 以及为什么说推荐大家优先使用普通索引&#xf…...

编程日记 2023/5/14 8:19:23

Spring Cloud alibaba之Feign

JAVA项目中如何实现接口调用？HttpclientHttpclient是Apache Jakarta Common下的子项目，用来提供高效的、最新的、功能丰富的支持Http协议的客户端编程工具包，并且它支持HTTP协议最新版本和建议。HttpClient相比传统JDK自带的URL Connection&a…...

编程日记 2023/5/13 3:57:59

零信任-Google谷歌零信任介绍(3)

谷歌零信任的介绍？ "Zero Trust" 是一种网络安全模型，旨在通过降低网络中的信任级别来防止安全威胁。在零信任模型中，不论请求来自内部网络还是外部网络，系统都将对所有请求进行详细的验证和审核。这意味着每次请求都需…...

编程日记 2023/5/12 5:51:23

Numpy基础——人工智能基础

文章目录一、Numpy概述1.优势2.numpy历史3.Numpy的核心：多维数组4.numpy基础4.1 ndarray数组4.2 内存中的ndarray对象一、Numpy概述 1.优势 Numpy(Nummerical Python),补充了Python语言所欠缺的数值计算能力；Numpy是其它数据分析及机器学习库的底层库&…...

编程日记 2023/4/15 2:58:10

电商仓储与配送云仓是什么？

仓库是整个供给链的关键局部。它们是产品暂停和触摸的点，耗费空间和时间(工时)。空间和时间反过来也是费用。经过开发数学和计算机模型来微调仓库的规划和操作，经理能够显著降低与产品分销相关的劳动力本钱，进步仓库空间应用率，并…...

编程日记 2023/5/23 8:16:26

【零基础入门前端系列】—HTML介绍（一）

【零基础入门前端系列】—HTML介绍（一） 一、什么是HTML HTML是用来描述网页的一种语言HTML指的是超文本标记语言：HyperText Markup LanguageHTML不是一种编程语言，而是一种超文本标记语言，标记语言是一套标记标签(ma…...

编程日记 2023/5/30 11:25:47

Elasticsearch索引库和文档的相关操作

前言：最近一直在复习Elasticsearch相关的知识，公司搜索相关的技术用到了这个，用公司电脑配了环境，借鉴网上的课程进行了总结。希望能够加深自己的印象以及帮助到其他的小伙伴儿们😉😉。如果文章有什么需要…...

编程日记 2023/5/15 13:16:14

使用Python，Opencv检测图像，视频中的猫

使用Python，Opencv检测图像，视频中的猫🐱 这篇博客将介绍如何使用Python，OpenCV库附带的默认Haar级联检测器来检测图像中的猫。同样的技术也可以应用于视频流。这些哈尔级联由约瑟夫豪斯（Joseph Howse）训练…...

编程日记 2023/2/13 16:14:06

浅谈域名和服务器集约化管理的误区

一个正常的网站通常由域名、网站程序、服务器三个部分组成，网站程序由单位开发设计，而域名和服务器则需要租用购买，那么域名和服务器之间的关系是什么？如何实现域名和服务器的有效管理呢？ 服务器和域名的关系服务器…...

编程日记 2023/5/27 15:22:37

迪赛智慧数——柱状图（正负条形图）：20212022人才求职最关注的因素

效果图从近两年职场跳槽方向看，相比此前人们对高薪大厂趋之若鹜，如今职场人更关注业务前景。根据相关数据显示，职场人求职最关注的因素中，“薪资福利”权重下降，“个人发展”权重上升，“业务前景”首次进入…...

编程日记 2023/5/27 15:23:02

SkyWalking 10.2.0 SWCK 配置过程

SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外，K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案，全安装在K8S群集中。具体可参…...

编程新知 2025/8/23 5:51:08

Java 8 Stream API 入门到实践详解

一、告别 for 循环！ 传统痛点： Java 8 之前，集合操作离不开冗长的 for 循环和匿名类。例如，过滤列表中的偶数： List<Integer> list Arrays.asList(1, 2, 3, 4, 5); List<Integer> evens new ArrayList…...

编程新知 2026/1/12 10:41:22

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2026/1/22 15:36:10

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2026/1/24 14:31:01

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2026/1/26 14:19:52

Selenium常用函数介绍

目录一，元素定位 1.1 cssSeector 1.2 xpath 二，操作测试对象三，窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口四，弹窗五，等待六，导航七，文件上传 …...

编程新知 2026/1/29 3:55:23

力扣热题100 k个一组反转链表题解

题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...

编程新知 2026/1/31 8:25:07