当前位置: 首页 > news >正文

Jsoup库具体怎么用?

Jsoup 是一个非常强大的 Java 库,用于解析和操作 HTML 文档。它提供了丰富的功能,包括发送 HTTP 请求、解析 HTML 内容、提取数据、修改 HTML 元素等。以下将详细介绍 Jsoup 的基本用法和一些高级功能,帮助你更好地使用 Jsoup 进行网络爬虫开发。

1. Jsoup 的基本用法

(1)添加依赖

首先,确保你的项目中已经添加了 Jsoup 的依赖。如果你使用 Maven,可以在 pom.xml 文件中添加以下依赖:

<dependencies><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.3</version></dependency>
</dependencies>

如果你使用 Gradle,可以在 build.gradle 文件中添加以下依赖:

dependencies {implementation 'org.jsoup:jsoup:1.15.3'
}
(2)发送 HTTP 请求

Jsoup 提供了 Jsoup.connect() 方法,用于发送 HTTP 请求并获取网页内容。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {// 发送 GET 请求Document document = Jsoup.connect(url).get();System.out.println(document.title());  // 打印网页标题} catch (IOException e) {e.printStackTrace();}}
}
(3)解析 HTML 内容

Jsoup 提供了强大的解析功能,可以轻松解析 HTML 文档并提取所需的数据。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();System.out.println(document.title());  // 打印网页标题// 提取所有 <h1> 标签Elements h1Elements = document.select("h1");for (Element h1 : h1Elements) {System.out.println(h1.text());}// 提取特定类名的元素Element specificElement = document.select("div.some-class").first();if (specificElement != null) {System.out.println(specificElement.text());}} catch (IOException e) {e.printStackTrace();}}
}

2. 设置请求头

在发送请求时,可以设置请求头,例如 User-Agent,以模拟真实用户的浏览器行为。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3").get();System.out.println(document.title());} catch (IOException e) {e.printStackTrace();}}
}

3. 处理表单提交

Jsoup 也支持处理表单提交,例如发送 POST 请求。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com/login";try {Document document = Jsoup.connect(url).data("username", "your_username").data("password", "your_password").post();System.out.println(document.title());} catch (IOException e) {e.printStackTrace();}}
}

4. 解析和操作 HTML 元素

Jsoup 提供了丰富的 API 来解析和操作 HTML 元素。

(1)提取元素
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();// 提取所有 <a> 标签Elements links = document.select("a");for (Element link : links) {System.out.println(link.attr("href"));  // 打印链接地址System.out.println(link.text());        // 打印链接文本}// 提取特定 ID 的元素Element specificElement = document.getElementById("some-id");if (specificElement != null) {System.out.println(specificElement.text());}} catch (IOException e) {e.printStackTrace();}}
}
(2)修改元素
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();// 修改特定元素的文本Element specificElement = document.getElementById("some-id");if (specificElement != null) {specificElement.text("New text content");}// 修改特定元素的属性Element link = document.select("a").first();if (link != null) {link.attr("href", "https://www.newurl.com");}// 打印修改后的 HTMLSystem.out.println(document.html());} catch (IOException e) {e.printStackTrace();}}
}

5. 处理分页数据

在实际应用中,可能需要爬取多个页面的数据。以下代码展示了如何实现翻页功能:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.util.Random;
import java.util.concurrent.TimeUnit;public class SalesCrawler {public static void main(String[] args) {String baseUrl = "https://www.example.com/product-page.html";int totalPages = 5;  // 假设总页数为5for (int page = 1; page <= totalPages; page++) {String url = baseUrl + "?page=" + page;try {Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0").get();Elements products = document.select("li.product-item");for (Element product : products) {String productName = product.select("h2.product-title").text();String salesCount = product.select("span.sales-count").text();System.out.println("商品名称: " + productName);System.out.println("销量: " + salesCount);}randomDelay(1, 3);  // 随机延迟1到3秒} catch (IOException e) {e.printStackTrace();}}}public static void randomDelay(int minDelay, int maxDelay) {Random random = new Random();int delay = random.nextInt(maxDelay - minDelay + 1) + minDelay;try {TimeUnit.SECONDS.sleep(delay);} catch (InterruptedException e) {e.printStackTrace();}}
}

6. 保存数据

提取到的数据可以保存到文件或数据库中,方便后续分析。以下代码展示了如何将数据保存到 CSV 文件:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Random;
import java.util.concurrent.TimeUnit;public class SalesCrawler {public static void main(String[] args) {String baseUrl = "https://www.example.com/product-page.html";int totalPages = 5;  // 假设总页数为5try (BufferedWriter writer = new BufferedWriter(new FileWriter("product_sales.csv"))) {writer.write("商品名称,销量\n");for (int page = 1; page <= totalPages; page++) {String url = baseUrl + "?page=" + page;Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0").get();Elements products = document.select("li.product-item");for (Element product : products) {String productName = product.select("h2.product-title").text();String salesCount = product.select("span.sales-count").text();System.out.println("商品名称: " + productName);System.out.println("销量: " + salesCount);writer.write(productName + "," + salesCount + "\n");}randomDelay(1, 3);  // 随机延迟1到3秒}} catch (IOException e) {e.printStackTrace();}}public static void randomDelay(int minDelay, int maxDelay) {Random random = new Random();int delay = random.nextInt(maxDelay - minDelay + 1) + minDelay;try {TimeUnit.SECONDS.sleep(delay);} catch (InterruptedException e) {e.printStackTrace();}}
}

7. 注意事项与合规建议

在使用爬虫获取数据时,必须遵守相关法律法规和电商平台的使用条款,确保数据使用的合法性和合规性。

(1)遵守法律法规

未经授权爬取和使用用户数据可能涉及侵权行为,包括侵犯知识产权、隐私权等。在使用销量数据时,应确保数据的使用符合法律法规要求,避免用于商业目的或未经授权的用途。

(2)尊重网站反爬虫策略

电商平台通常会设置反爬虫机制,如限制请求频率、检查请求头等。为了避免被封禁 IP,建议:

  1. 合理设置请求频率:避免过于频繁地发送请求。

  2. 使用代理 IP:通过代理服务器分散请求来源。

  3. 模拟真实用户行为:设置随机的请求间隔和请求头信息。

(3)数据安全与隐私保护

在存储和处理销量数据时,必须采取严格的安全措施,保护用户隐私。例如:

  1. 加密存储:对敏感数据进行加密存储。

  2. 访问控制:限制数据的访问权限,确保只有授权人员可以访问。

  3. 匿名化处理:在分析和展示数据时,对用户信息进行匿名化处理,避免泄露用户隐私。


总结

通过上述方法,你可以高效地使用 Jsoup 获取商品销量详情,并确保数据使用的合法性和合规性。Jsoup 提供了强大的功能,可以帮助你轻松解析和操作 HTML 文档,无论是发送 HTTP 请求、提取数据还是修改 HTML 元素,都能满足你的需求。希望本文能为你在 Java 爬虫开发中提供一些帮助。如果你在使用 Jsoup 或其他爬虫开发过程中遇到任何问题,欢迎随时交流。

相关文章:

Jsoup库具体怎么用?

Jsoup 是一个非常强大的 Java 库&#xff0c;用于解析和操作 HTML 文档。它提供了丰富的功能&#xff0c;包括发送 HTTP 请求、解析 HTML 内容、提取数据、修改 HTML 元素等。以下将详细介绍 Jsoup 的基本用法和一些高级功能&#xff0c;帮助你更好地使用 Jsoup 进行网络爬虫开…...

python:如何播放 .spx 声音文件

.spx 是 Speex音频编解码器的文件扩展名&#xff0c;它是一种开源的、免费的音频编解码器&#xff0c;主要用于语音压缩和语音通信领域。spx 文件通常用于语音记录、VoIP应用、语音信箱等场景。 .mp3 是一种广泛使用的音频格式&#xff0c;它采用了有损压缩算法&#xff0c;可…...

HTML学习笔记(6)

利用dom操作实现&#xff0c;对一个表格的增删改查 代码如下&#xff1a; todolist.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, …...

走向基于大语言模型的新一代推荐系统:综述与展望

HightLight 论文题目&#xff1a;Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond作者机构&#xff1a;吉林大学、香港理工大学、悉尼科技大学、Meta AI论文地址&#xff1a; https://arxiv.org/abs/2410.1974 基于大语言模型的下一代推荐系统&…...

【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

https://github.com/open-webui/open-webui Deepseek开源R1系列模型&#xff0c;纯RL助力推理能力大跃升&#xff01; 2060显卡下使用deepseek-r1-1.5B deepseek开源小模型需要的显存&#xff08;根据显存来选模型大小&#xff09; &#xff0c;图from: DeepSeek本地部署&…...

《翻转组件库之发布》

背景 继《翻转组件库之打包》_杨晓风-linda的博客-CSDN博客之后&#xff0c;组件库已经可以正常构建&#xff0c;那如何像elementUI等组件库那样&#xff0c;用npm安装&#xff0c;按照既定的用法使用即可呢&#xff1f;本篇便为你揭晓 资料相关 1、npm官方文档&#xff1a;…...

在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高

在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高 在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高而其他的中奖倍数较低。这种不均衡会导致模型偏向于高频样本(低中奖倍数的),…...

语言月赛 202311【基因】题解(AC)

》》》点我查看「视频」详解》》》 [语言月赛 202311] 基因 题目描述 有一个长度为 n n n 的字符串 S S S。其只包含有大写字母。 小 A 将 S S S 进行翻转后&#xff0c;得到另一个字符串 S ′ S S′。两个字符串 S S S 与 S ′ S S′ 对应配对。例如说&#xff0c;对…...

unity学习26:用Input接口去监测: 鼠标,键盘,虚拟轴,虚拟按键

目录 1 用Input接口去监测&#xff1a;鼠标&#xff0c;键盘&#xff0c;虚拟轴&#xff0c;虚拟按键 2 鼠标 MouseButton 事件 2.1 鼠标的基本操作 2.2 测试代码 2.3 测试情况 3 键盘Key事件 3.1 键盘的枚举方式 3.2 测试代码同上 3.3 测试代码同上 3.4 测试结果 4…...

GB/T 43698-2024 《网络安全技术 软件供应链安全要求》标准解读

一、43698-2024标准图解 https://mmbiz.qpic.cn/sz_mmbiz_png/rwcfRwCticvgeBPR8TWIPywUP8nGp4IMFwwrxAHMZ9Enfp3wibNxnfichT5zs7rh2FxTZWMxz0je9TZSqQ0lNZ7lQ/640?wx_fmtpng&fromappmsg 标准在线预览&#xff1a; 国家标准|GB/T 43698-2024 相关标准&#xff1a; &a…...

ASP.NET Core与EF Core的集成

目录 分层项目中EF Core的用法 数据库的配置 数据库迁移 步骤汇总 注意&#xff1a; 批量注册上下文 分层项目中EF Core的用法 创建一个.NET类库项目BooksEFCore&#xff0c;放实体等类。NuGet&#xff1a;Microsoft.EntityFrameworkCore.RelationalBooksEFCore中增加实…...

【AI大模型】Ubuntu18.04安装deepseek-r1模型+服务器部署+内网访问

以下内容主要参考博文&#xff1a;DeepSeek火爆全网&#xff0c;官网宕机&#xff1f;本地部署一个随便玩「LLM探索」 - 程序设计实验室 - 博客园 安装 ollama Download Ollama on Linux curl -fsSL https://ollama.com/install.sh | sh 配置 ollama 监听地址 ollama 安装后…...

SpringAI系列 - 使用LangGPT编写高质量的Prompt

目录 一、LangGPT —— 人人都可编写高质量 Prompt二、快速上手2.1 诗人 三、Role 模板3.1 Role 模板3.2 Role 模板使用步骤3.3 更多例子 四、高级用法4.1 变量4.2 命令4.3 Reminder4.4 条件语句4.5 Json or Yaml 方便程序开发 一、LangGPT —— 人人都可编写高质量 Prompt La…...

Github - 记录一次对“不小心包含了密码的PR”的修复

Github - 记录一次对“不小心包含了密码的PR”的修复 前言 和好朋友一起开发一个字节跳动青训营抖音电商后端(now private)的项目&#xff0c;某大佬不小心把本地一密码commit上去并提了PR。 PR一旦发出则无法被删除&#xff0c;且其包含的commit也能被所有能看到这个仓库的…...

【玩转 Postman 接口测试与开发2_014】第11章:测试现成的 API 接口(下)——自动化接口测试脚本实战演练 + 测试集合共享

《API Testing and Development with Postman》最新第二版封面 文章目录 3 接口自动化测试实战3.1 测试环境的改造3.2 对列表查询接口的测试3.3 对查询单个实例的测试3.4 对新增接口的测试3.5 对修改接口的测试3.6 对删除接口的测试 4 测试集合的共享操作4.1 分享 Postman 集合…...

前后端通过docker部署笔记

项目背景&#xff1a;这是一个SpringBootvue3的项目&#xff0c;通过maven打包后&#xff0c;需要在Linux服务器上部署&#xff0c;本篇博客主要记录docker-compose.yaml文件的含义&#xff1a; docker-compose.yml 文件中定义了一个 algorithm_platform_frontend 容器&#…...

五十天精通硬件设计第四天-场效应管知识及选型

场效应管(FET,Field-Effect Transistor)是一种利用电场效应控制电流的半导体器件,广泛应用于放大、开关等电路中。以下是场效应管的基本知识及选型要点: 一、场效应管的基本知识 1. 类型: - **结型场效应管(JFET)**: - N沟道和P沟道两种类型。 - 栅极与…...

了解 ALV 中的 field catalog (ABAP List Viewer)

在 ABAP 中&#xff0c;字段目录是使用 ALV &#xff08;ABAP List Viewer&#xff09; 定义内部表中的数据显示方式的关键元素。它提供对 ALV 中显示的字段的各种属性的控制&#xff0c;例如列标题、对齐方式、可见性、可编辑性等。关键概念&#xff1a; Field Catelog 字段目…...

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之修改密码和个人资料

&#x1f9f8;安清h&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;【Spring篇】【计算机网络】【Mybatis篇】 &#x1f6a6;作者简介&#xff1a;一个有趣爱睡觉的intp&#xff0c;期待和更多人分享自己所学知识的真诚大学生。 目录 &#x1f383;1.修改密码 -持久…...

十一、CentOS Stream 9 安装 Docker

一、Docker 环境安装 1、软件源(仓库)信息 使用如下命令可列出当前系统配置的所有软件源(仓库)信息 # 列出所有软件源 dnf repolist 这表明系统有三个仓库 AppStream 、 BaseOS、Extras-Common 被启用 2、配置软件源镜像 使用如下命令可配置 Docker 软件包下载的镜像地址 …...

Docker 运行 Kafka 带 SASL 认证教程

Docker 运行 Kafka 带 SASL 认证教程 Docker 运行 Kafka 带 SASL 认证教程一、说明二、环境准备三、编写 Docker Compose 和 jaas文件docker-compose.yml代码说明&#xff1a;server_jaas.conf 四、启动服务五、验证服务六、连接kafka服务七、总结 Docker 运行 Kafka 带 SASL 认…...

高频面试之3Zookeeper

高频面试之3Zookeeper 文章目录 高频面试之3Zookeeper3.1 常用命令3.2 选举机制3.3 Zookeeper符合法则中哪两个&#xff1f;3.4 Zookeeper脑裂3.5 Zookeeper用来干嘛了 3.1 常用命令 ls、get、create、delete、deleteall3.2 选举机制 半数机制&#xff08;过半机制&#xff0…...

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架&#xff0c;支持"一次开发&#xff0c;多端部署"&#xff0c;可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务&#xff0c;为旅游应用带来&#xf…...

【论文笔记】若干矿井粉尘检测算法概述

总的来说&#xff0c;传统机器学习、传统机器学习与深度学习的结合、LSTM等算法所需要的数据集来源于矿井传感器测量的粉尘浓度&#xff0c;通过建立回归模型来预测未来矿井的粉尘浓度。传统机器学习算法性能易受数据中极端值的影响。YOLO等计算机视觉算法所需要的数据集来源于…...

是否存在路径(FIFOBB算法)

题目描述 一个具有 n 个顶点e条边的无向图&#xff0c;该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序&#xff0c;确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数&#xff0c;分别表示n 和 e 的值&#xff08;1…...

vulnyx Blogger writeup

信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面&#xff0c;gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress&#xff0c;说明目标所使用的cms是wordpress&#xff0c;访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...

R 语言科研绘图第 55 期 --- 网络图-聚类

在发表科研论文的过程中&#xff0c;科研绘图是必不可少的&#xff0c;一张好看的图形会是文章很大的加分项。 为了便于使用&#xff0c;本系列文章介绍的所有绘图都已收录到了 sciRplot 项目中&#xff0c;获取方式&#xff1a; R 语言科研绘图模板 --- sciRplothttps://mp.…...

【无标题】湖北理元理律师事务所:债务优化中的生活保障与法律平衡之道

文/法律实务观察组 在债务重组领域&#xff0c;专业机构的核心价值不仅在于减轻债务数字&#xff0c;更在于帮助债务人在履行义务的同时维持基本生活尊严。湖北理元理律师事务所的服务实践表明&#xff0c;合法债务优化需同步实现三重平衡&#xff1a; 法律刚性&#xff08;债…...

在Zenodo下载文件 用到googlecolab googledrive

方法&#xff1a;Figshare/Zenodo上的数据/文件下载不下来&#xff1f;尝试利用Google Colab &#xff1a;https://zhuanlan.zhihu.com/p/1898503078782674027 参考&#xff1a; 通过Colab&谷歌云下载Figshare数据&#xff0c;超级实用&#xff01;&#xff01;&#xff0…...

python打卡day49@浙大疏锦行

知识点回顾&#xff1a; 通道注意力模块复习空间注意力模块CBAM的定义 作业&#xff1a;尝试对今天的模型检查参数数目&#xff0c;并用tensorboard查看训练过程 一、通道注意力模块复习 & CBAM实现 import torch import torch.nn as nnclass CBAM(nn.Module):def __init__…...