当前位置：首页 > news >正文

Java爬虫翻页

news 2026/5/12 22:19:07

编写一个Java爬虫以进行翻页通常涉及到使用HTTP客户端（如Apache HttpClient或OkHttp）来发送请求，解析HTML页面（如使用Jsoup库），以及处理分页逻辑（如通过URL参数或页面内的链接进行翻页）。

1. 使用Jsoup和Apache HttpClient的Java爬虫示例

以下是一个使用Jsoup和Apache HttpClient的Java爬虫示例，该爬虫从一个假设的博客网站抓取文章标题，该网站具有分页功能（例如，通过URL中的page=参数控制）。

首先，请确保在项目的pom.xml文件中添加必要的依赖项（如果我们使用的是Maven）：

<dependencies>  <dependency>  <groupId>org.jsoup</groupId>  <artifactId>jsoup</artifactId>  <version>1.14.3</version>  </dependency>  <dependency>  <groupId>org.apache.httpcomponents</groupId>  <artifactId>httpclient</artifactId>  <version>4.5.13</version>  </dependency>  
</dependencies>

接下来是爬虫的实现代码：

import org.apache.http.client.methods.CloseableHttpResponse;  
import org.apache.http.client.methods.HttpGet;  
import org.apache.http.impl.client.CloseableHttpClient;  
import org.apache.http.impl.client.HttpClients;  
import org.apache.http.util.EntityUtils;  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
import org.jsoup.nodes.Element;  
import org.jsoup.select.Elements;  public class BlogSpider {  private static final String BASE_URL = "http://example.com/blog?page=";  public static void main(String[] args) {  int maxPages = 5; // 假设我们只爬取前5页  for (int i = 1; i <= maxPages; i++) {  String url = BASE_URL + i;  System.out.println("Fetching page: " + url);  fetchAndParsePage(url);  }  }  private static void fetchAndParsePage(String url) {  try (CloseableHttpClient httpClient = HttpClients.createDefault()) {  HttpGet request = new HttpGet(url);  try (CloseableHttpResponse response = httpClient.execute(request)) {  if (response.getStatusLine().getStatusCode() == 200) {  String html = EntityUtils.toString(response.getEntity(), "UTF-8");  Document doc = Jsoup.parse(html);  // 假设每个文章标题都在<h2>标签内  Elements articleTitles = doc.select("h2.post-title"); // 可能需要根据实际情况调整选择器  for (Element title : articleTitles) {  System.out.println(title.text());  }  }  }  } catch (Exception e) {  e.printStackTrace();  }  }  
}

代码解释：

（1）依赖项：我们使用Jsoup来解析HTML，使用Apache HttpClient来发送HTTP请求。

（2）基础URL：设置要爬取的网站的URL基础部分，这里假设分页通过URL中的page=参数控制。

（3）主函数：设置要爬取的最大页数，并在循环中调用fetchAndParsePage方法。

（4）fetchAndParsePage：

使用HttpClient发送GET请求到指定的URL。
检查响应状态码是否为200（成功）。
使用Jsoup解析HTML字符串。
选择页面上的文章标题元素（这里假设标题在<h2 class="post-title">中，我们可能需要根据实际情况调整选择器）。
打印出每个找到的标题。

注意：

请确保我们遵守目标网站的robots.txt规则和版权政策。
本示例中的URL和选择器是假设的，我们需要根据目标网站的实际结构进行调整。
在实际应用中，我们可能还需要处理异常（如网络错误、HTML解析错误等）和进行性能优化（如设置合理的请求头、连接超时时间等）。

2. 完整的代码示例

下面是一个完整的Java代码示例，它使用Apache HttpClient和Jsoup库来从一个假设的博客网站抓取文章标题。这个示例包括了必要的异常处理和一些基本的HTTP请求配置。

首先，确保我们已经将Apache HttpClient和Jsoup作为依赖项添加到我们的项目中。如果我们使用的是Maven，可以在pom.xml中添加以下依赖：

<dependencies>  <dependency>  <groupId>org.jsoup</groupId>  <artifactId>jsoup</artifactId>  <version>1.14.3</version>  </dependency>  <dependency>  <groupId>org.apache.httpcomponents</groupId>  <artifactId>httpclient</artifactId>  <version>4.5.13</version>  </dependency>  
</dependencies>

接下来是完整的Java代码示例：

import org.apache.http.client.methods.CloseableHttpResponse;  
import org.apache.http.client.methods.HttpGet;  
import org.apache.http.impl.client.CloseableHttpClient;  
import org.apache.http.impl.client.HttpClients;  
import org.apache.http.util.EntityUtils;  
import org.jsoup.Jsoup;  
import org.jsoup.nodes.Document;  
import org.jsoup.nodes.Element;  
import org.jsoup.select.Elements;  public class BlogSpider {  private static final String BASE_URL = "http://example.com/blog?page=";  public static void main(String[] args) {  int maxPages = 5; // 假设我们只爬取前5页  for (int i = 1; i <= maxPages; i++) {  String url = BASE_URL + i;  System.out.println("Fetching page: " + url);  try {  fetchAndParsePage(url);  } catch (Exception e) {  System.err.println("Error fetching and parsing page " + i + ": " + e.getMessage());  }  }  }  private static void fetchAndParsePage(String url) throws Exception {  try (CloseableHttpClient httpClient = HttpClients.createDefault()) {  HttpGet request = new HttpGet(url);  // 我们可以在这里设置请求头，比如User-Agent  // request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36");  try (CloseableHttpResponse response = httpClient.execute(request)) {  if (response.getStatusLine().getStatusCode() == 200) {  String html = EntityUtils.toString(response.getEntity(), "UTF-8");  Document doc = Jsoup.parse(html);  // 假设每个文章标题都在<h2 class="post-title">标签内  Elements articleTitles = doc.select("h2.post-title");  for (Element title : articleTitles) {  System.out.println(title.text());  }  } else {  System.err.println("Failed to fetch page: HTTP status code " + response.getStatusLine().getStatusCode());  }  }  } catch (Exception e) {  throw e; // 或者我们可以在这里处理特定的异常，比如IOException  }  }  
}

在这个示例中，我添加了一个try-catch块来捕获fetchAndParsePage方法中可能抛出的任何异常，并将其错误消息打印到标准错误输出。同时，我添加了一个注释掉的请求头设置示例，我们可以根据需要取消注释并修改它。

请注意，这个示例中的BASE_URL和选择器h2.post-title是假设的，我们需要根据我们要爬取的实际网站的HTML结构来修改它们。

此外，这个示例使用了try-with-resources语句来自动关闭CloseableHttpClient和CloseableHttpResponse资源，这是一种更简洁且安全的资源管理方式。

Java爬虫翻页

1. 使用Jsoup和Apache HttpClient的Java爬虫示例

2. 完整的代码示例

相关文章：

Java爬虫翻页

.net6 当连接用户的shell断掉后,dotnet会自动关闭,达不到长期运行的效果。.NET 进程守护

02 源码编译构建LAMP

【Axure视频教程】页面滚动距离函数

【Linux】：程序替换

使用ResizeObserver观察DOM元素的尺寸变化

前端使用Vue和Element实现可拖动弹框效果，且不影响底层元素操作（可拖拽的视频实时播放弹框，底层元素可以正常操作）

文华财经多空K变色支撑压力画线趋势波段指标公式

tomcat9漏洞CVE-2024-23672

ChatGLM-6B入门

项目实战--Spring Boot + GraphQL实现实时数据推送

ASPICE是汽车软件开发中的质量保证流程

Linux调试器-gdb使用以及Linux项目自动化构建工具-make/Makefile

Html5前端基本知识整理与回顾下篇

vmware 虚拟机扩容 centos 硬盘扩容 kylinos v10扩容

什么样的开放式耳机好用？，五大超强卷王单品推荐！

java使用poi-tl模版引擎导出word之饼状图生成及循环批量生成饼状图

指定版本ceph-common安装

C++语言特性——关键字（static、volatile、extern、const、mutable、inline）

在Ubuntu 16.04上安装和配置VNC的方法

告别答辩PPT焦虑：百考通AI如何智能化解你的毕业展示难题

通用大模型vs行业垂直AI Agent，制造业落地对比：2026年企业级智能体选型深度解析

SkillSync MCP：为AI技能市场构建自动化安全门禁系统

大数据量存储终极指南：10个高效数据分片技巧

Flutter + 开源鸿蒙实战 | 极简记账本 Day1：项目初始化 + 底部导航框架搭建

通过 curl 命令在 Ubuntu 终端快速测试 Taotoken 的 API 连通性

使用Nodejs和Taotoken为前端应用构建AI聊天后端

MySQL 数据库基础入门：从概念到实战

词达人自动化工具：如何用智能技术将30分钟学习任务压缩到3分钟完成？

Cursor Free VIP：如何一键突破AI编程助手使用限制？