当前位置: 首页 > news >正文

一步步实现知乎热榜采集:Scala与Sttp库的应用

亿牛云.png

背景

在大数据时代,网络爬虫技术发挥着不可或缺的作用。它不仅能够帮助我们快速地获取互联网上的信息,还能处理和分析这些数据,为我们提供深刻的洞察。知乎,作为中国领先的问答社区,汇聚了各行各业的专家和广大用户的智慧,其内容丰富,涵盖了从科技到艺术的各个领域。因此,知乎的热榜数据不仅反映了公众的关注点,也是研究市场趋势和公众兴趣的宝贵资源。
本文将探讨如何利用Scala语言和Sttp库,结合代理IP技术,有效地采集知乎热榜数据,并对采集的数据进行归类和统计。

正文

我们将详细分步骤讲解如何实现知乎热榜的采集和数据处理,包括环境准备、依赖库的引入、代码实现和数据处理。

环境准备

首先,确保你的系统中安装了Scala和SBT(Scala的构建工具)。如果没有,请按照以下步骤安装:

  1. 安装Scala:可以从Scala官网下载并安装最新版本。
  2. 安装SBT:可以从SBT官网下载并安装。
引入依赖库

在项目的build.sbt文件中,引入Sttp库和相关依赖:

name := "ZhihuHotlistCrawler"version := "0.1"scalaVersion := "2.13.6"libraryDependencies ++= Seq("com.softwaremill.sttp.client3" %% "core" % "3.3.13","com.softwaremill.sttp.client3" %% "async-http-client-backend-future" % "3.3.13","io.circe" %% "circe-parser" % "0.14.1","io.circe" %% "circe-generic" % "0.14.1"
)
代码实现

下面是完整的Scala代码,展示了如何通过代理IP技术,使用Sttp库采集知乎热榜数据,并对数据进行归类和统计:

import sttp.client3._
import sttp.client3.asynchttpclient.future.AsyncHttpClientFutureBackend
import io.circe.parser._
import io.circe.generic.auto._
import scala.concurrent.ExecutionContext.Implicits.global
import scala.concurrent.Future
import java.util.Base64object ZhihuHotlistCrawler {// 代理服务器的配置信息(使用“亿牛云爬虫代理加强版”)private val proxyHost: String = "www.16yun.cn"private val proxyPort: Int = 31111private val proxyUser: String = "your_username"private val proxyPassword: String = "your_password"private val proxyAuth: String = Base64.getEncoder.encodeToString(s"$proxyUser:$proxyPassword".getBytes)// 设置User-Agent和Cookieprivate val userAgent: String = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"private val cookies: String = "d_c0=your_cookie_value"def main(args: Array[String]): Unit = {// 初始化Sttp客户端implicit val backend = AsyncHttpClientFutureBackend()// 知乎热榜的URLval url: String = "https://www.zhihu.com/api/v3/feed/topstory/hot-lists/total"// 发送HTTP请求获取知乎热榜数据val response: Future[String] = fetchZhihuHotlist(url)// 处理响应数据response.map { data =>println(s"获取的数据: $data")// 解析并处理数据parseAndProcessZhihuHotlist(data)}.recover {case ex: Exception => println(s"请求失败: ${ex.getMessage}")}}private def fetchZhihuHotlist(url: String)(implicit backend: SttpBackend[Future, Any]): Future[String] = {basicRequest.get(uri"$url").header("User-Agent", userAgent).header("Cookie", cookies).proxy(proxyHost, proxyPort).header("Proxy-Authorization", s"Basic $proxyAuth").send().map(response => response.body match {case Right(data) => datacase Left(error) => throw new RuntimeException(s"请求失败: $error")})}private def parseAndProcessZhihuHotlist(jsonData: String): Unit = {decode[Map[String, Any]](jsonData) match {case Right(data) =>println("解析成功!")val hotList = data("data").asInstanceOf[List[Map[String, Any]]]val categorizedData = categorizeData(hotList)println(s"归类后的数据: $categorizedData")val statistics = generateStatistics(categorizedData)println(s"统计结果: $statistics")case Left(error) =>println(s"解析失败: $error")}}private def categorizeData(hotList: List[Map[String, Any]]): Map[String, List[Map[String, Any]]] = {hotList.groupBy(item => item("target").asInstanceOf[Map[String, Any]]("type").toString)}private def generateStatistics(categorizedData: Map[String, List[Map[String, Any]]]): Map[String, Int] = {categorizedData.mapValues(_.size)}
}

代码说明

  1. 代理服务器配置:我们使用了爬虫代理的域名、端口、用户名和密码,并通过Base64编码进行认证。
  2. HTTP请求设置:通过Sttp库设置User-Agent和Cookie,以模拟真实用户访问。使用代理IP以增强隐私。
  3. 数据处理
    • parseAndProcessZhihuHotlist方法用于解析JSON数据,并调用categorizeData方法对数据进行归类。
    • categorizeData方法根据数据类型将热榜数据分类。
    • generateStatistics方法对归类后的数据进行统计,计算每种类型的数量。

实例

运行上述代码,我们可以获取并解析知乎热榜数据,并进行归类和统计。以下是运行输出的示例:

获取的数据: { "data": [ ... ] }
解析成功!
归类后的数据: Map(article -> List(...), question -> List(...))
统计结果: Map(article -> 10, question -> 15)

通过进一步处理解析后的数据,可以将其存储到数据库或文件中,以便后续分析和使用。

结论

本文详细介绍了如何使用Scala和Sttp库,通过代理IP技术采集知乎热榜数据,并对数据进行归类和统计。通过合理设置HTTP请求头和使用爬虫代理IP,可以有效提高爬虫的稳定性和隐私保护。希望本文的内容能为读者提供实用的参考和指导。

相关文章:

一步步实现知乎热榜采集:Scala与Sttp库的应用

背景 在大数据时代,网络爬虫技术发挥着不可或缺的作用。它不仅能够帮助我们快速地获取互联网上的信息,还能处理和分析这些数据,为我们提供深刻的洞察。知乎,作为中国领先的问答社区,汇聚了各行各业的专家和广大用户的…...

Windows和Linux系统部署Docker(2)

目录 一、Linux系统部署docker 前置环境: 1.安装需要的软件包, yum-util 提供yum-config-manager功能 2.添加阿里云 docker-ce 仓库 3.安装docker软件包 4.启动 docker并设置开机自启 5.查看版本: 二、windows系统部署docker 1.查看…...

PyCharm中快速搭建Python虚拟环境的指南

在 PyCharm 中创建一个新的 Python 虚拟环境可以帮助你为不同的项目管理不同的依赖包,避免版本冲突。以下是在 PyCharm 中创建虚拟环境的步骤: 打开或创建一个项目: 如果你还没有打开 PyCharm,首先打开它,然后选择“Open”打开一个…...

C++模板元编程

C模板元编程 为什么需要模板函数&#xff1f; 避免重复写代码 模板函数定义 使用template <class T> 或者template <typename T>其中T是可以变成任何类型调用时候T会替换成需要的类型 twice<int>会将T替换成int template <class T> T twice(T t) {re…...

Lambda表达式与函数式接口

### 泛型&#xff08;Generics&#xff09; 泛型是Java SE 5引入的一个重要特性&#xff0c;它允许在类、接口和方法中使用类型参数&#xff0c;从而提供编译时的类型安全检查和更高的重用性。java public class GenericsExample {public static <T> void printList(Li…...

Java字符串String详解

Java中的String类作为存储和操作文本数据的基本类型&#xff0c;是开发过程中最常用的类型。 String类型的声明及初始化与基本数据类型非常相似&#xff1a; String name "lcy";但是String类型是引用类型&#xff0c;有着非常丰富的处理字符串的方法。正是因为其重…...

互联网政务应用安全管理规定:使用安全连接方式访问

前几日&#xff0c;由中央网络安全和信息化委员会办公室、中央机构编制委员会办公室、工业和信息化部、公安部等4部门联合制定的《互联网政务应用安全管理规定》&#xff08;以下简称规定&#xff09;发布了&#xff0c;规定定义了互联网政务应用&#xff0c;也对互联网政务应用…...

安全测试用例及解析(Word原件,直接套用检测)

5 信息安全性测试用例 5.1 安全功能测试 5.1.1 标识和鉴别 5.1.2 访问控制 5.1.3 安全审计 5.1.4 数据完整性 5.1.5 数据保密性 5.1.6 软件容错 5.1.7 会话管理 5.1.8 安全漏洞 5.1.9 外部接口 5.1.10 抗抵赖 5.1.11 资源控制 5.2 应用安全漏洞扫描 5.2.1 应用安全漏洞扫描 5.3…...

github将默认分支main改为master

github将默认分支main改为master 1.进入github&#xff0c;点击setting 2.在setting中&#xff0c;选择Respositories&#xff0c;更新默认分支为master 3.选择要更新的项目&#xff0c;在项目中选择setting->general->切换默认分支...

java.lang.NoClassDefFoundError: org/dom4j/io/SAXReader

问题描述&#xff1a;在maven项目中&#xff0c;给SAXReader创建实例&#xff0c;启动tomcat服务器后报异常java.lang.NoClassDefFoundError: org/dom4j/io/SAXReader。我在pom文件中是引入了dom4j依赖得&#xff0c;但是不知道为什么在上传到web时就找不到了 解决办法&#x…...

读后感:《SQL数据分析实战》运营SQL实用手册

学习SQL&#xff0c;先有用起来&#xff0c;有了使用价值&#xff0c;之后才是去了解它的原理&#xff0c;让使用更加顺畅。 在大部分业务场景中&#xff0c;通过SQL可以快速的实现数据处理与统计。《SQL数据分析实战》区别于其他工具书&#xff0c;它并没有介绍SQL是什么&…...

建设人工智能平台,主流GPU卡选型分析

国内外主流GPU卡性能分析&#xff01;2024&#xff01; 大模型兴起助推算力需求激增 2024年&#xff0c;深度学习与人工智能技术飞速跃进&#xff0c;Transformer、GPT-3等大模型在自然语言处理、图像识别、语音合成等领域大放异彩&#xff0c;开启AI新纪元。其庞大的参数与数…...

RTSPtoWebRTC、RTSPtoWeb ( 自HTML播放):页面中预览摄像机视频,无插件的播放方式,适合局域网使用,无需流媒体服务器

文章目录 引言I 环境准备II RTSPtoWebRTC2.1 下载和编译2.2 配置config.jsonIII RTSPtoWebRTC问题优化: 使用http接口生成视频资源进行播放3.1 调用http接口生成视频资源进行播放3.2 启动关闭IV RTSPtoWeb4.1 config.json4.2 RTSPPlayersee also引言 需求: 海域感知,云台监控…...

C语言| 三个整数从小到大排序

【分析思路】 三个整数从小到大排序 这个程序的算法是&#xff1a; 先把第一个数num1跟它后面所有的数相比较&#xff0c;找出最小的&#xff0c;通过中间变量temp交换,赋给num1&#xff1b; 接着中间值num2和它后面所有的数相比较&#xff0c;找出第二小的&#xff0c;然后赋给…...

C语言基础编程题目解析:探索逻辑与算法的奥秘

C语言基础编程题目解析&#xff1a;探索逻辑与算法的奥秘 在编程的世界里&#xff0c;C语言作为一门基础且强大的编程语言&#xff0c;其题目往往涵盖了丰富的逻辑和算法知识。下面&#xff0c;我们将从四个方面、五个方面、六个方面和七个方面&#xff0c;对一系列C语言基础编…...

jmeter基础入门练习题

jmeter存在A,B两个线程组的情况下&#xff0c;默认设置下&#xff0c;运行顺序是&#xff1a;A A&#xff1a;A,B同时运行 B&#xff1a;先运行A&#xff0c;在运行B C&#xff1a;先运行A&#xff0c;等待2s运行B D:先A运行完&#xff0c;等待默认设置时间后运行B 下列说法正…...

大数据技术原理(三):HDFS 最全面的 API 操作,你值得收藏

&#xff08;实验二 熟悉常用的HDFS操作&#xff09; -------------------------------------------------------------------------------------------------------------------------------- 一、实验目的 1.理解 HDFS在 Hadoop体系结构中的角色。 HDFS是一个分布式文件系…...

Flink系列二:DataStream API中的Source,Transformation,Sink详解(^_^)

在上面篇文章中已经对flink进行了简单的介绍以及了解了Flink API 层级划分&#xff0c;这一章内容我们主要介绍DataStream API 流程图解&#xff1a; 一、DataStream API Source Flink 在流处理和批处理上的 source 大概有 4 类&#xff1a; &#xff08;1&#xff09;基于本…...

最好的电脑数据恢复软件是什么

由于硬件故障、恶意软件攻击或意外删除而丢失文件可能会造成巨大压力。数据丢失会扰乱日常运营&#xff0c;造成宝贵的业务时间和资源损失。在这些情况下&#xff0c;数据恢复软件是检索丢失或损坏数据的最简单方法。 数据恢复软件何时起作用&#xff1f; 对于 Windows 数据恢…...

机器学习模型调试学习总结

1.学习内容 模型调试方法&#xff1a;冻结部分层&#xff0c;训练剩余层 实践&#xff1a;在一个预训练的 BERT 模型上冻结部分层&#xff0c;并训练剩余的层 模型调试方法&#xff1a;线性探测&#xff08;Linear Probe&#xff09; 实践&#xff1a;在一个预训练的 BERT …...

测试微信模版消息推送

进入“开发接口管理”--“公众平台测试账号”&#xff0c;无需申请公众账号、可在测试账号中体验并测试微信公众平台所有高级接口。 获取access_token: 自定义模版消息&#xff1a; 关注测试号&#xff1a;扫二维码关注测试号。 发送模版消息&#xff1a; import requests da…...

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

PHP和Node.js哪个更爽?

先说结论&#xff0c;rust完胜。 php&#xff1a;laravel&#xff0c;swoole&#xff0c;webman&#xff0c;最开始在苏宁的时候写了几年php&#xff0c;当时觉得php真的是世界上最好的语言&#xff0c;因为当初活在舒适圈里&#xff0c;不愿意跳出来&#xff0c;就好比当初活在…...

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户&#xff0c;但你不希望用 root 权限运行 ns-3&#xff08;这是对的&#xff0c;ns3 工具会拒绝 root&#xff09;&#xff0c;你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案&#xff1a;创建非 roo…...

C++ Visual Studio 2017厂商给的源码没有.sln文件 易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj&#xff0c;再用Visual Studio 2022打开。再保侟就有.sln文件了。 易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念&#xff0c;确保一个租户&#xff08;在这个系统中可能是一个公司或一个独立的客户&#xff09;的数据对其他租户是不可见的。在 RuoYi 框架&#xff08;您当前项目所使用的基础框架&#xff09;中&#xff0c;这通常是通过在数据表中增加一个…...

嵌入式学习笔记DAY33(网络编程——TCP)

一、网络架构 C/S &#xff08;client/server 客户端/服务器&#xff09;&#xff1a;由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序&#xff0c;负责提供用户界面和交互逻辑 &#xff0c;接收用户输入&#xff0c;向服务器发送请求&#xff0c;并展示服务…...

免费数学几何作图web平台

光锐软件免费数学工具&#xff0c;maths,数学制图&#xff0c;数学作图&#xff0c;几何作图&#xff0c;几何&#xff0c;AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

沙箱虚拟化技术虚拟机容器之间的关系详解

问题 沙箱、虚拟化、容器三者分开一一介绍的话我知道他们各自都是什么东西&#xff0c;但是如果把三者放在一起&#xff0c;它们之间到底什么关系&#xff1f;又有什么联系呢&#xff1f;我不是很明白&#xff01;&#xff01;&#xff01; 就比如说&#xff1a; 沙箱&#…...

如何在Windows本机安装Python并确保与Python.NET兼容

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…...