当前位置: 首页 > news >正文

一步步实现知乎热榜采集:Scala与Sttp库的应用

亿牛云.png

背景

在大数据时代,网络爬虫技术发挥着不可或缺的作用。它不仅能够帮助我们快速地获取互联网上的信息,还能处理和分析这些数据,为我们提供深刻的洞察。知乎,作为中国领先的问答社区,汇聚了各行各业的专家和广大用户的智慧,其内容丰富,涵盖了从科技到艺术的各个领域。因此,知乎的热榜数据不仅反映了公众的关注点,也是研究市场趋势和公众兴趣的宝贵资源。
本文将探讨如何利用Scala语言和Sttp库,结合代理IP技术,有效地采集知乎热榜数据,并对采集的数据进行归类和统计。

正文

我们将详细分步骤讲解如何实现知乎热榜的采集和数据处理,包括环境准备、依赖库的引入、代码实现和数据处理。

环境准备

首先,确保你的系统中安装了Scala和SBT(Scala的构建工具)。如果没有,请按照以下步骤安装:

  1. 安装Scala:可以从Scala官网下载并安装最新版本。
  2. 安装SBT:可以从SBT官网下载并安装。
引入依赖库

在项目的build.sbt文件中,引入Sttp库和相关依赖:

name := "ZhihuHotlistCrawler"version := "0.1"scalaVersion := "2.13.6"libraryDependencies ++= Seq("com.softwaremill.sttp.client3" %% "core" % "3.3.13","com.softwaremill.sttp.client3" %% "async-http-client-backend-future" % "3.3.13","io.circe" %% "circe-parser" % "0.14.1","io.circe" %% "circe-generic" % "0.14.1"
)
代码实现

下面是完整的Scala代码,展示了如何通过代理IP技术,使用Sttp库采集知乎热榜数据,并对数据进行归类和统计:

import sttp.client3._
import sttp.client3.asynchttpclient.future.AsyncHttpClientFutureBackend
import io.circe.parser._
import io.circe.generic.auto._
import scala.concurrent.ExecutionContext.Implicits.global
import scala.concurrent.Future
import java.util.Base64object ZhihuHotlistCrawler {// 代理服务器的配置信息(使用“亿牛云爬虫代理加强版”)private val proxyHost: String = "www.16yun.cn"private val proxyPort: Int = 31111private val proxyUser: String = "your_username"private val proxyPassword: String = "your_password"private val proxyAuth: String = Base64.getEncoder.encodeToString(s"$proxyUser:$proxyPassword".getBytes)// 设置User-Agent和Cookieprivate val userAgent: String = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"private val cookies: String = "d_c0=your_cookie_value"def main(args: Array[String]): Unit = {// 初始化Sttp客户端implicit val backend = AsyncHttpClientFutureBackend()// 知乎热榜的URLval url: String = "https://www.zhihu.com/api/v3/feed/topstory/hot-lists/total"// 发送HTTP请求获取知乎热榜数据val response: Future[String] = fetchZhihuHotlist(url)// 处理响应数据response.map { data =>println(s"获取的数据: $data")// 解析并处理数据parseAndProcessZhihuHotlist(data)}.recover {case ex: Exception => println(s"请求失败: ${ex.getMessage}")}}private def fetchZhihuHotlist(url: String)(implicit backend: SttpBackend[Future, Any]): Future[String] = {basicRequest.get(uri"$url").header("User-Agent", userAgent).header("Cookie", cookies).proxy(proxyHost, proxyPort).header("Proxy-Authorization", s"Basic $proxyAuth").send().map(response => response.body match {case Right(data) => datacase Left(error) => throw new RuntimeException(s"请求失败: $error")})}private def parseAndProcessZhihuHotlist(jsonData: String): Unit = {decode[Map[String, Any]](jsonData) match {case Right(data) =>println("解析成功!")val hotList = data("data").asInstanceOf[List[Map[String, Any]]]val categorizedData = categorizeData(hotList)println(s"归类后的数据: $categorizedData")val statistics = generateStatistics(categorizedData)println(s"统计结果: $statistics")case Left(error) =>println(s"解析失败: $error")}}private def categorizeData(hotList: List[Map[String, Any]]): Map[String, List[Map[String, Any]]] = {hotList.groupBy(item => item("target").asInstanceOf[Map[String, Any]]("type").toString)}private def generateStatistics(categorizedData: Map[String, List[Map[String, Any]]]): Map[String, Int] = {categorizedData.mapValues(_.size)}
}

代码说明

  1. 代理服务器配置:我们使用了爬虫代理的域名、端口、用户名和密码,并通过Base64编码进行认证。
  2. HTTP请求设置:通过Sttp库设置User-Agent和Cookie,以模拟真实用户访问。使用代理IP以增强隐私。
  3. 数据处理
    • parseAndProcessZhihuHotlist方法用于解析JSON数据,并调用categorizeData方法对数据进行归类。
    • categorizeData方法根据数据类型将热榜数据分类。
    • generateStatistics方法对归类后的数据进行统计,计算每种类型的数量。

实例

运行上述代码,我们可以获取并解析知乎热榜数据,并进行归类和统计。以下是运行输出的示例:

获取的数据: { "data": [ ... ] }
解析成功!
归类后的数据: Map(article -> List(...), question -> List(...))
统计结果: Map(article -> 10, question -> 15)

通过进一步处理解析后的数据,可以将其存储到数据库或文件中,以便后续分析和使用。

结论

本文详细介绍了如何使用Scala和Sttp库,通过代理IP技术采集知乎热榜数据,并对数据进行归类和统计。通过合理设置HTTP请求头和使用爬虫代理IP,可以有效提高爬虫的稳定性和隐私保护。希望本文的内容能为读者提供实用的参考和指导。

相关文章:

一步步实现知乎热榜采集:Scala与Sttp库的应用

背景 在大数据时代,网络爬虫技术发挥着不可或缺的作用。它不仅能够帮助我们快速地获取互联网上的信息,还能处理和分析这些数据,为我们提供深刻的洞察。知乎,作为中国领先的问答社区,汇聚了各行各业的专家和广大用户的…...

Windows和Linux系统部署Docker(2)

目录 一、Linux系统部署docker 前置环境: 1.安装需要的软件包, yum-util 提供yum-config-manager功能 2.添加阿里云 docker-ce 仓库 3.安装docker软件包 4.启动 docker并设置开机自启 5.查看版本: 二、windows系统部署docker 1.查看…...

PyCharm中快速搭建Python虚拟环境的指南

在 PyCharm 中创建一个新的 Python 虚拟环境可以帮助你为不同的项目管理不同的依赖包,避免版本冲突。以下是在 PyCharm 中创建虚拟环境的步骤: 打开或创建一个项目: 如果你还没有打开 PyCharm,首先打开它,然后选择“Open”打开一个…...

C++模板元编程

C模板元编程 为什么需要模板函数&#xff1f; 避免重复写代码 模板函数定义 使用template <class T> 或者template <typename T>其中T是可以变成任何类型调用时候T会替换成需要的类型 twice<int>会将T替换成int template <class T> T twice(T t) {re…...

Lambda表达式与函数式接口

### 泛型&#xff08;Generics&#xff09; 泛型是Java SE 5引入的一个重要特性&#xff0c;它允许在类、接口和方法中使用类型参数&#xff0c;从而提供编译时的类型安全检查和更高的重用性。java public class GenericsExample {public static <T> void printList(Li…...

Java字符串String详解

Java中的String类作为存储和操作文本数据的基本类型&#xff0c;是开发过程中最常用的类型。 String类型的声明及初始化与基本数据类型非常相似&#xff1a; String name "lcy";但是String类型是引用类型&#xff0c;有着非常丰富的处理字符串的方法。正是因为其重…...

互联网政务应用安全管理规定:使用安全连接方式访问

前几日&#xff0c;由中央网络安全和信息化委员会办公室、中央机构编制委员会办公室、工业和信息化部、公安部等4部门联合制定的《互联网政务应用安全管理规定》&#xff08;以下简称规定&#xff09;发布了&#xff0c;规定定义了互联网政务应用&#xff0c;也对互联网政务应用…...

安全测试用例及解析(Word原件,直接套用检测)

5 信息安全性测试用例 5.1 安全功能测试 5.1.1 标识和鉴别 5.1.2 访问控制 5.1.3 安全审计 5.1.4 数据完整性 5.1.5 数据保密性 5.1.6 软件容错 5.1.7 会话管理 5.1.8 安全漏洞 5.1.9 外部接口 5.1.10 抗抵赖 5.1.11 资源控制 5.2 应用安全漏洞扫描 5.2.1 应用安全漏洞扫描 5.3…...

github将默认分支main改为master

github将默认分支main改为master 1.进入github&#xff0c;点击setting 2.在setting中&#xff0c;选择Respositories&#xff0c;更新默认分支为master 3.选择要更新的项目&#xff0c;在项目中选择setting->general->切换默认分支...

java.lang.NoClassDefFoundError: org/dom4j/io/SAXReader

问题描述&#xff1a;在maven项目中&#xff0c;给SAXReader创建实例&#xff0c;启动tomcat服务器后报异常java.lang.NoClassDefFoundError: org/dom4j/io/SAXReader。我在pom文件中是引入了dom4j依赖得&#xff0c;但是不知道为什么在上传到web时就找不到了 解决办法&#x…...

读后感:《SQL数据分析实战》运营SQL实用手册

学习SQL&#xff0c;先有用起来&#xff0c;有了使用价值&#xff0c;之后才是去了解它的原理&#xff0c;让使用更加顺畅。 在大部分业务场景中&#xff0c;通过SQL可以快速的实现数据处理与统计。《SQL数据分析实战》区别于其他工具书&#xff0c;它并没有介绍SQL是什么&…...

建设人工智能平台,主流GPU卡选型分析

国内外主流GPU卡性能分析&#xff01;2024&#xff01; 大模型兴起助推算力需求激增 2024年&#xff0c;深度学习与人工智能技术飞速跃进&#xff0c;Transformer、GPT-3等大模型在自然语言处理、图像识别、语音合成等领域大放异彩&#xff0c;开启AI新纪元。其庞大的参数与数…...

RTSPtoWebRTC、RTSPtoWeb ( 自HTML播放):页面中预览摄像机视频,无插件的播放方式,适合局域网使用,无需流媒体服务器

文章目录 引言I 环境准备II RTSPtoWebRTC2.1 下载和编译2.2 配置config.jsonIII RTSPtoWebRTC问题优化: 使用http接口生成视频资源进行播放3.1 调用http接口生成视频资源进行播放3.2 启动关闭IV RTSPtoWeb4.1 config.json4.2 RTSPPlayersee also引言 需求: 海域感知,云台监控…...

C语言| 三个整数从小到大排序

【分析思路】 三个整数从小到大排序 这个程序的算法是&#xff1a; 先把第一个数num1跟它后面所有的数相比较&#xff0c;找出最小的&#xff0c;通过中间变量temp交换,赋给num1&#xff1b; 接着中间值num2和它后面所有的数相比较&#xff0c;找出第二小的&#xff0c;然后赋给…...

C语言基础编程题目解析:探索逻辑与算法的奥秘

C语言基础编程题目解析&#xff1a;探索逻辑与算法的奥秘 在编程的世界里&#xff0c;C语言作为一门基础且强大的编程语言&#xff0c;其题目往往涵盖了丰富的逻辑和算法知识。下面&#xff0c;我们将从四个方面、五个方面、六个方面和七个方面&#xff0c;对一系列C语言基础编…...

jmeter基础入门练习题

jmeter存在A,B两个线程组的情况下&#xff0c;默认设置下&#xff0c;运行顺序是&#xff1a;A A&#xff1a;A,B同时运行 B&#xff1a;先运行A&#xff0c;在运行B C&#xff1a;先运行A&#xff0c;等待2s运行B D:先A运行完&#xff0c;等待默认设置时间后运行B 下列说法正…...

大数据技术原理(三):HDFS 最全面的 API 操作,你值得收藏

&#xff08;实验二 熟悉常用的HDFS操作&#xff09; -------------------------------------------------------------------------------------------------------------------------------- 一、实验目的 1.理解 HDFS在 Hadoop体系结构中的角色。 HDFS是一个分布式文件系…...

Flink系列二:DataStream API中的Source,Transformation,Sink详解(^_^)

在上面篇文章中已经对flink进行了简单的介绍以及了解了Flink API 层级划分&#xff0c;这一章内容我们主要介绍DataStream API 流程图解&#xff1a; 一、DataStream API Source Flink 在流处理和批处理上的 source 大概有 4 类&#xff1a; &#xff08;1&#xff09;基于本…...

最好的电脑数据恢复软件是什么

由于硬件故障、恶意软件攻击或意外删除而丢失文件可能会造成巨大压力。数据丢失会扰乱日常运营&#xff0c;造成宝贵的业务时间和资源损失。在这些情况下&#xff0c;数据恢复软件是检索丢失或损坏数据的最简单方法。 数据恢复软件何时起作用&#xff1f; 对于 Windows 数据恢…...

机器学习模型调试学习总结

1.学习内容 模型调试方法&#xff1a;冻结部分层&#xff0c;训练剩余层 实践&#xff1a;在一个预训练的 BERT 模型上冻结部分层&#xff0c;并训练剩余的层 模型调试方法&#xff1a;线性探测&#xff08;Linear Probe&#xff09; 实践&#xff1a;在一个预训练的 BERT …...

工业安全零事故的智能守护者:一体化AI智能安防平台

前言&#xff1a; 通过AI视觉技术&#xff0c;为船厂提供全面的安全监控解决方案&#xff0c;涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面&#xff0c;能够实现对应负责人反馈机制&#xff0c;并最终实现数据的统计报表。提升船厂…...

Qt Widget类解析与代码注释

#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码&#xff0c;写上注释 当然可以&#xff01;这段代码是 Qt …...

visual studio 2022更改主题为深色

visual studio 2022更改主题为深色 点击visual studio 上方的 工具-> 选项 在选项窗口中&#xff0c;选择 环境 -> 常规 &#xff0c;将其中的颜色主题改成深色 点击确定&#xff0c;更改完成...

HTML 列表、表格、表单

1 列表标签 作用&#xff1a;布局内容排列整齐的区域 列表分类&#xff1a;无序列表、有序列表、定义列表。 例如&#xff1a; 1.1 无序列表 标签&#xff1a;ul 嵌套 li&#xff0c;ul是无序列表&#xff0c;li是列表条目。 注意事项&#xff1a; ul 标签里面只能包裹 li…...

Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持续更新中&#xff01;&#xff08;长期更新&#xff09; 目前2025年06月05日更新到&#xff1a; AI炼丹日志-28 - Aud…...

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路 在Android中&#xff0c;可以通过监听键盘的显示和隐藏事件&#xff0c;动态调整弹窗的位置。关键点在于获取键盘高度&#xff0c;并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

USB Over IP专用硬件的5个特点

USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中&#xff0c;从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备&#xff08;如专用硬件设备&#xff09;&#xff0c;从而消除了直接物理连接的需要。USB over IP的…...

MacOS下Homebrew国内镜像加速指南(2025最新国内镜像加速)

macos brew国内镜像加速方法 brew install 加速formula.jws.json下载慢加速 &#x1f37a; 最新版brew安装慢到怀疑人生&#xff1f;别怕&#xff0c;教你轻松起飞&#xff01; 最近Homebrew更新至最新版&#xff0c;每次执行 brew 命令时都会自动从官方地址 https://formulae.…...

苹果AI眼镜:从“工具”到“社交姿态”的范式革命——重新定义AI交互入口的未来机会

在2025年的AI硬件浪潮中,苹果AI眼镜(Apple Glasses)正在引发一场关于“人机交互形态”的深度思考。它并非简单地替代AirPods或Apple Watch,而是开辟了一个全新的、日常可接受的AI入口。其核心价值不在于功能的堆叠,而在于如何通过形态设计打破社交壁垒,成为用户“全天佩戴…...