当前位置: 首页 > news >正文

Jsoup库具体怎么用?

Jsoup 是一个非常强大的 Java 库,用于解析和操作 HTML 文档。它提供了丰富的功能,包括发送 HTTP 请求、解析 HTML 内容、提取数据、修改 HTML 元素等。以下将详细介绍 Jsoup 的基本用法和一些高级功能,帮助你更好地使用 Jsoup 进行网络爬虫开发。

1. Jsoup 的基本用法

(1)添加依赖

首先,确保你的项目中已经添加了 Jsoup 的依赖。如果你使用 Maven,可以在 pom.xml 文件中添加以下依赖:

<dependencies><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.3</version></dependency>
</dependencies>

如果你使用 Gradle,可以在 build.gradle 文件中添加以下依赖:

dependencies {implementation 'org.jsoup:jsoup:1.15.3'
}
(2)发送 HTTP 请求

Jsoup 提供了 Jsoup.connect() 方法,用于发送 HTTP 请求并获取网页内容。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {// 发送 GET 请求Document document = Jsoup.connect(url).get();System.out.println(document.title());  // 打印网页标题} catch (IOException e) {e.printStackTrace();}}
}
(3)解析 HTML 内容

Jsoup 提供了强大的解析功能,可以轻松解析 HTML 文档并提取所需的数据。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();System.out.println(document.title());  // 打印网页标题// 提取所有 <h1> 标签Elements h1Elements = document.select("h1");for (Element h1 : h1Elements) {System.out.println(h1.text());}// 提取特定类名的元素Element specificElement = document.select("div.some-class").first();if (specificElement != null) {System.out.println(specificElement.text());}} catch (IOException e) {e.printStackTrace();}}
}

2. 设置请求头

在发送请求时,可以设置请求头,例如 User-Agent,以模拟真实用户的浏览器行为。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3").get();System.out.println(document.title());} catch (IOException e) {e.printStackTrace();}}
}

3. 处理表单提交

Jsoup 也支持处理表单提交,例如发送 POST 请求。

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com/login";try {Document document = Jsoup.connect(url).data("username", "your_username").data("password", "your_password").post();System.out.println(document.title());} catch (IOException e) {e.printStackTrace();}}
}

4. 解析和操作 HTML 元素

Jsoup 提供了丰富的 API 来解析和操作 HTML 元素。

(1)提取元素
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();// 提取所有 <a> 标签Elements links = document.select("a");for (Element link : links) {System.out.println(link.attr("href"));  // 打印链接地址System.out.println(link.text());        // 打印链接文本}// 提取特定 ID 的元素Element specificElement = document.getElementById("some-id");if (specificElement != null) {System.out.println(specificElement.text());}} catch (IOException e) {e.printStackTrace();}}
}
(2)修改元素
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;import java.io.IOException;public class JsoupExample {public static void main(String[] args) {String url = "https://www.example.com";try {Document document = Jsoup.connect(url).get();// 修改特定元素的文本Element specificElement = document.getElementById("some-id");if (specificElement != null) {specificElement.text("New text content");}// 修改特定元素的属性Element link = document.select("a").first();if (link != null) {link.attr("href", "https://www.newurl.com");}// 打印修改后的 HTMLSystem.out.println(document.html());} catch (IOException e) {e.printStackTrace();}}
}

5. 处理分页数据

在实际应用中,可能需要爬取多个页面的数据。以下代码展示了如何实现翻页功能:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.IOException;
import java.util.Random;
import java.util.concurrent.TimeUnit;public class SalesCrawler {public static void main(String[] args) {String baseUrl = "https://www.example.com/product-page.html";int totalPages = 5;  // 假设总页数为5for (int page = 1; page <= totalPages; page++) {String url = baseUrl + "?page=" + page;try {Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0").get();Elements products = document.select("li.product-item");for (Element product : products) {String productName = product.select("h2.product-title").text();String salesCount = product.select("span.sales-count").text();System.out.println("商品名称: " + productName);System.out.println("销量: " + salesCount);}randomDelay(1, 3);  // 随机延迟1到3秒} catch (IOException e) {e.printStackTrace();}}}public static void randomDelay(int minDelay, int maxDelay) {Random random = new Random();int delay = random.nextInt(maxDelay - minDelay + 1) + minDelay;try {TimeUnit.SECONDS.sleep(delay);} catch (InterruptedException e) {e.printStackTrace();}}
}

6. 保存数据

提取到的数据可以保存到文件或数据库中,方便后续分析。以下代码展示了如何将数据保存到 CSV 文件:

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.util.Random;
import java.util.concurrent.TimeUnit;public class SalesCrawler {public static void main(String[] args) {String baseUrl = "https://www.example.com/product-page.html";int totalPages = 5;  // 假设总页数为5try (BufferedWriter writer = new BufferedWriter(new FileWriter("product_sales.csv"))) {writer.write("商品名称,销量\n");for (int page = 1; page <= totalPages; page++) {String url = baseUrl + "?page=" + page;Document document = Jsoup.connect(url).header("User-Agent", "Mozilla/5.0").get();Elements products = document.select("li.product-item");for (Element product : products) {String productName = product.select("h2.product-title").text();String salesCount = product.select("span.sales-count").text();System.out.println("商品名称: " + productName);System.out.println("销量: " + salesCount);writer.write(productName + "," + salesCount + "\n");}randomDelay(1, 3);  // 随机延迟1到3秒}} catch (IOException e) {e.printStackTrace();}}public static void randomDelay(int minDelay, int maxDelay) {Random random = new Random();int delay = random.nextInt(maxDelay - minDelay + 1) + minDelay;try {TimeUnit.SECONDS.sleep(delay);} catch (InterruptedException e) {e.printStackTrace();}}
}

7. 注意事项与合规建议

在使用爬虫获取数据时,必须遵守相关法律法规和电商平台的使用条款,确保数据使用的合法性和合规性。

(1)遵守法律法规

未经授权爬取和使用用户数据可能涉及侵权行为,包括侵犯知识产权、隐私权等。在使用销量数据时,应确保数据的使用符合法律法规要求,避免用于商业目的或未经授权的用途。

(2)尊重网站反爬虫策略

电商平台通常会设置反爬虫机制,如限制请求频率、检查请求头等。为了避免被封禁 IP,建议:

  1. 合理设置请求频率:避免过于频繁地发送请求。

  2. 使用代理 IP:通过代理服务器分散请求来源。

  3. 模拟真实用户行为:设置随机的请求间隔和请求头信息。

(3)数据安全与隐私保护

在存储和处理销量数据时,必须采取严格的安全措施,保护用户隐私。例如:

  1. 加密存储:对敏感数据进行加密存储。

  2. 访问控制:限制数据的访问权限,确保只有授权人员可以访问。

  3. 匿名化处理:在分析和展示数据时,对用户信息进行匿名化处理,避免泄露用户隐私。


总结

通过上述方法,你可以高效地使用 Jsoup 获取商品销量详情,并确保数据使用的合法性和合规性。Jsoup 提供了强大的功能,可以帮助你轻松解析和操作 HTML 文档,无论是发送 HTTP 请求、提取数据还是修改 HTML 元素,都能满足你的需求。希望本文能为你在 Java 爬虫开发中提供一些帮助。如果你在使用 Jsoup 或其他爬虫开发过程中遇到任何问题,欢迎随时交流。

相关文章:

Jsoup库具体怎么用?

Jsoup 是一个非常强大的 Java 库&#xff0c;用于解析和操作 HTML 文档。它提供了丰富的功能&#xff0c;包括发送 HTTP 请求、解析 HTML 内容、提取数据、修改 HTML 元素等。以下将详细介绍 Jsoup 的基本用法和一些高级功能&#xff0c;帮助你更好地使用 Jsoup 进行网络爬虫开…...

python:如何播放 .spx 声音文件

.spx 是 Speex音频编解码器的文件扩展名&#xff0c;它是一种开源的、免费的音频编解码器&#xff0c;主要用于语音压缩和语音通信领域。spx 文件通常用于语音记录、VoIP应用、语音信箱等场景。 .mp3 是一种广泛使用的音频格式&#xff0c;它采用了有损压缩算法&#xff0c;可…...

HTML学习笔记(6)

利用dom操作实现&#xff0c;对一个表格的增删改查 代码如下&#xff1a; todolist.html <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, …...

走向基于大语言模型的新一代推荐系统:综述与展望

HightLight 论文题目&#xff1a;Towards Next-Generation LLM-based Recommender Systems: A Survey and Beyond作者机构&#xff1a;吉林大学、香港理工大学、悉尼科技大学、Meta AI论文地址&#xff1a; https://arxiv.org/abs/2410.1974 基于大语言模型的下一代推荐系统&…...

【DeepSeek-R1 +1.5B】2060显卡ollama本地部署+open-webui界面使用

https://github.com/open-webui/open-webui Deepseek开源R1系列模型&#xff0c;纯RL助力推理能力大跃升&#xff01; 2060显卡下使用deepseek-r1-1.5B deepseek开源小模型需要的显存&#xff08;根据显存来选模型大小&#xff09; &#xff0c;图from: DeepSeek本地部署&…...

《翻转组件库之发布》

背景 继《翻转组件库之打包》_杨晓风-linda的博客-CSDN博客之后&#xff0c;组件库已经可以正常构建&#xff0c;那如何像elementUI等组件库那样&#xff0c;用npm安装&#xff0c;按照既定的用法使用即可呢&#xff1f;本篇便为你揭晓 资料相关 1、npm官方文档&#xff1a;…...

在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高

在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高 在深度学习中,样本不均衡问题是一个常见的挑战,尤其是在你的老虎机任务中,某些的中奖倍数较高而其他的中奖倍数较低。这种不均衡会导致模型偏向于高频样本(低中奖倍数的),…...

语言月赛 202311【基因】题解(AC)

》》》点我查看「视频」详解》》》 [语言月赛 202311] 基因 题目描述 有一个长度为 n n n 的字符串 S S S。其只包含有大写字母。 小 A 将 S S S 进行翻转后&#xff0c;得到另一个字符串 S ′ S S′。两个字符串 S S S 与 S ′ S S′ 对应配对。例如说&#xff0c;对…...

unity学习26:用Input接口去监测: 鼠标,键盘,虚拟轴,虚拟按键

目录 1 用Input接口去监测&#xff1a;鼠标&#xff0c;键盘&#xff0c;虚拟轴&#xff0c;虚拟按键 2 鼠标 MouseButton 事件 2.1 鼠标的基本操作 2.2 测试代码 2.3 测试情况 3 键盘Key事件 3.1 键盘的枚举方式 3.2 测试代码同上 3.3 测试代码同上 3.4 测试结果 4…...

GB/T 43698-2024 《网络安全技术 软件供应链安全要求》标准解读

一、43698-2024标准图解 https://mmbiz.qpic.cn/sz_mmbiz_png/rwcfRwCticvgeBPR8TWIPywUP8nGp4IMFwwrxAHMZ9Enfp3wibNxnfichT5zs7rh2FxTZWMxz0je9TZSqQ0lNZ7lQ/640?wx_fmtpng&fromappmsg 标准在线预览&#xff1a; 国家标准|GB/T 43698-2024 相关标准&#xff1a; &a…...

ASP.NET Core与EF Core的集成

目录 分层项目中EF Core的用法 数据库的配置 数据库迁移 步骤汇总 注意&#xff1a; 批量注册上下文 分层项目中EF Core的用法 创建一个.NET类库项目BooksEFCore&#xff0c;放实体等类。NuGet&#xff1a;Microsoft.EntityFrameworkCore.RelationalBooksEFCore中增加实…...

【AI大模型】Ubuntu18.04安装deepseek-r1模型+服务器部署+内网访问

以下内容主要参考博文&#xff1a;DeepSeek火爆全网&#xff0c;官网宕机&#xff1f;本地部署一个随便玩「LLM探索」 - 程序设计实验室 - 博客园 安装 ollama Download Ollama on Linux curl -fsSL https://ollama.com/install.sh | sh 配置 ollama 监听地址 ollama 安装后…...

SpringAI系列 - 使用LangGPT编写高质量的Prompt

目录 一、LangGPT —— 人人都可编写高质量 Prompt二、快速上手2.1 诗人 三、Role 模板3.1 Role 模板3.2 Role 模板使用步骤3.3 更多例子 四、高级用法4.1 变量4.2 命令4.3 Reminder4.4 条件语句4.5 Json or Yaml 方便程序开发 一、LangGPT —— 人人都可编写高质量 Prompt La…...

Github - 记录一次对“不小心包含了密码的PR”的修复

Github - 记录一次对“不小心包含了密码的PR”的修复 前言 和好朋友一起开发一个字节跳动青训营抖音电商后端(now private)的项目&#xff0c;某大佬不小心把本地一密码commit上去并提了PR。 PR一旦发出则无法被删除&#xff0c;且其包含的commit也能被所有能看到这个仓库的…...

【玩转 Postman 接口测试与开发2_014】第11章:测试现成的 API 接口(下)——自动化接口测试脚本实战演练 + 测试集合共享

《API Testing and Development with Postman》最新第二版封面 文章目录 3 接口自动化测试实战3.1 测试环境的改造3.2 对列表查询接口的测试3.3 对查询单个实例的测试3.4 对新增接口的测试3.5 对修改接口的测试3.6 对删除接口的测试 4 测试集合的共享操作4.1 分享 Postman 集合…...

前后端通过docker部署笔记

项目背景&#xff1a;这是一个SpringBootvue3的项目&#xff0c;通过maven打包后&#xff0c;需要在Linux服务器上部署&#xff0c;本篇博客主要记录docker-compose.yaml文件的含义&#xff1a; docker-compose.yml 文件中定义了一个 algorithm_platform_frontend 容器&#…...

五十天精通硬件设计第四天-场效应管知识及选型

场效应管(FET,Field-Effect Transistor)是一种利用电场效应控制电流的半导体器件,广泛应用于放大、开关等电路中。以下是场效应管的基本知识及选型要点: 一、场效应管的基本知识 1. 类型: - **结型场效应管(JFET)**: - N沟道和P沟道两种类型。 - 栅极与…...

了解 ALV 中的 field catalog (ABAP List Viewer)

在 ABAP 中&#xff0c;字段目录是使用 ALV &#xff08;ABAP List Viewer&#xff09; 定义内部表中的数据显示方式的关键元素。它提供对 ALV 中显示的字段的各种属性的控制&#xff0c;例如列标题、对齐方式、可见性、可编辑性等。关键概念&#xff1a; Field Catelog 字段目…...

【基于SprintBoot+Mybatis+Mysql】电脑商城项目之修改密码和个人资料

&#x1f9f8;安清h&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;【Spring篇】【计算机网络】【Mybatis篇】 &#x1f6a6;作者简介&#xff1a;一个有趣爱睡觉的intp&#xff0c;期待和更多人分享自己所学知识的真诚大学生。 目录 &#x1f383;1.修改密码 -持久…...

十一、CentOS Stream 9 安装 Docker

一、Docker 环境安装 1、软件源(仓库)信息 使用如下命令可列出当前系统配置的所有软件源(仓库)信息 # 列出所有软件源 dnf repolist 这表明系统有三个仓库 AppStream 、 BaseOS、Extras-Common 被启用 2、配置软件源镜像 使用如下命令可配置 Docker 软件包下载的镜像地址 …...

Houdini POP入门学习05 - 物理属性

接下来随着教程学习碰撞部分&#xff0c;当粒子较为复杂或者下载了一些粒子模板进行修改时&#xff0c;会遇到一些较奇怪问题&#xff0c;如粒子穿透等&#xff0c;这些问题实际上可以通过调节参数解决。 hip资源文件&#xff1a;https://download.csdn.net/download/grayrail…...

GOOUUU ESP32-S3-CAM 果云科技开发板开发指南(一)(超详细!)Vscode+espidf 通过摄像头拍摄照片并存取到SD卡中,文末附源码

看到最近好玩的开源项目比较多&#xff0c;就想要学习一下esp32的开发&#xff0c;目前使用比较多的ide基本上是arduino、esp-idf和platformio&#xff0c;前者编译比较慢&#xff0c;后两者看到开源大佬的项目做的比较多&#xff0c;所以主要学习后两者。 本次使用的硬件是GO…...

用HTML5 Canvas打造交互式心形粒子动画:从基础到优化实战

用HTML5 Canvas打造交互式心形粒子动画&#xff1a;从基础到优化实战 引言 在Web交互设计中&#xff0c;粒子动画因其动态美感和视觉吸引力被广泛应用于节日特效、情感化界面等场景。本文将通过实战案例&#xff0c;详细讲解如何使用HTML5 Canvas和JavaScript实现一个「心之律…...

【超详细】英伟达Jetson Orin NX-YOLOv8配置与TensorRT测试

文章主要内容如下&#xff1a; 1、基础运行环境配置 2、Torch-GPU安装 3、ultralytics环境配置 4、Onnx及TensorRT导出详解 5、YOLOv8推理耗时分析 基础库版本&#xff1a;jetpack5.1.3, torch-gpu2.1.0, torchvision0.16.0, ultralytics8.3.146 设备的软件开发包基础信息 需…...

Imprompter: Tricking LLM Agents into Improper Tool Use

原文&#xff1a;Imprompter: Tricking LLM Agents into Improper Tool Use 代码&#xff1a;Reapor-Yurnero/imprompter: Codebase of https://arxiv.org/abs/2410.14923 实机演示&#xff1a;Imprompter 摘要&#xff1a; 新兴发展的Agent可以将LLM与外部资源工具相结合&a…...

Kafka 快速上手:安装部署与 HelloWorld 实践(一)

一、Kafka 是什么&#xff1f;为什么要学&#xff1f; ** 在大数据和分布式系统的领域中&#xff0c;Kafka 是一个如雷贯耳的名字。Kafka 是一种分布式的、基于发布 / 订阅的消息系统&#xff0c;由 LinkedIn 公司开发&#xff0c;后成为 Apache 基金会的顶级开源项目 。它以…...

使用Python和Flask构建简单的机器学习API

在机器学习项目中&#xff0c;将模型部署为一个Web API是一种常见的需求。这样可以方便地将模型集成到其他应用程序中&#xff0c;例如移动应用、Web应用或其他后端服务。Flask是一个轻量级的Python Web框架&#xff0c;非常适合用于构建简单的API。本文将通过一个具体的例子&a…...

kafka消息积压排查

kafka监控搭建&#xff1a;https://insights.blog.csdn.net/article/details/139129552?spm1001.2101.3001.6650.1&utm_mediumdistribute.pc_relevant.none-task-blog-2%7Edefault%7Ebaidujs_baidulandingword%7EPaidSort-1-139129552-blog-132216491.235%5Ev43%5Econtrol…...

03 Deep learning神经网络的编程基础 代价函数(Cost function)--吴恩达

深度学习中的损失函数(Cost Function)用于量化模型预测与真实数据的差距,是优化神经网络的核心指标。以下是常见类型及数学表达: 核心原理 逻辑回归通过sigmoid函数将线性预测结果转换为概率: y ^ ( i ) \hat{y}^{(i)}...

STM32实战: CAN总线数据记录仪设计方案

以下是基于STM32的CAN总线数据记录仪/转发器的设计与实现方案&#xff0c;结合了核心功能和进阶需求&#xff1a; 系统架构 graph TBA[CAN总线] -->|CAN_H/CAN_L| B(STM32 bxCAN)B --> C[数据处理核心]C --> D[SD卡存储<br>FATFS文件系统]C --> E[串口输出…...