当前位置: 首页 > article >正文

使用Jsoup爬取豆瓣电影Top250(附Java代码)

在日常开发中我们经常需要从网页上获取数据而手动复制粘贴显然太低效。今天我们就来学习如何使用Java的Jsoup库快速爬取豆瓣电影Top250的片名和评分只需几十行代码就能搞定。一、Jsoup简介Jsoup 是一个开源的Java HTML解析器它提供了一套非常便利的API用于从URL、文件或字符串中解析HTML提取和操作数据。它的核心功能包括从一个URL、文件或字符串中解析HTML使用DOM或CSS选择器来查找、提取数据操作HTML元素、属性和文本Jsoup的语法类似于jQuery对于熟悉前端选择器的开发者来说非常友好。二、爬取豆瓣电影Top250的思路豆瓣电影Top250的页面结构比较清晰我们只需要分析HTML找到包含电影信息的列表然后提取每个条目的排名、电影名和评分即可。目标URLhttps://movie.douban.com/top250经过查看网页源码或使用浏览器开发者工具我们发现每部电影信息都包裹在一个li标签中其父级选择器为#content div div.article ol。每个li内部排名在div.pic em中电影名在div.info div.hd a span:nth-child(1)即第一个span评分在div.info div.bd div.star span.rating_num中因此我们可以通过CSS选择器精确定位这些元素。三、代码实现下面是完整的Java程序使用Jsoup爬取豆瓣电影Top250的第一页25条数据。import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import java.io.IOException; public class DouBanTop250 { public static void main(String[] args) { String url https://movie.douban.com/top250; crawlMovies(url); } public static void crawlMovies(String url) { try { // 模拟浏览器发起GET请求获取整个页面的HTML Document doc Jsoup.connect(url) .userAgent(Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36) .get(); // 使用CSS选择器选中所有电影条目所在的li标签 Elements elements doc.select(#content div div.article ol li); // 遍历每个li提取排名、电影名、评分 for (Element element : elements) { String rank element.select(div.pic em).text(); String name element.select(div.info div.hd a span:nth-child(1)).text(); String score element.select(div.info div.bd div.star span.rating_num).text(); System.out.println(rank name score); } } catch (IOException e) { e.printStackTrace(); } } }四、代码详解1. 添加Jsoup依赖如果你使用Maven在pom.xml中添加dependency groupIdorg.jsoup/groupId artifactIdjsoup/artifactId version1.17.2/version /dependency如果是Gradlegradleimplementation org.jsoup:jsoup:1.17.22. 模拟浏览器请求豆瓣对爬虫有一定防护直接使用Jsoup.connect(url).get()可能会被拒绝因此我们添加一个常见的User-Agent头模拟真实浏览器java.userAgent(Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...)这样能有效降低被拦截的概率。3. 解析HTMLdoc.select(String cssQuery)方法使用CSS选择器选取元素。这里的选择器#content div div.article ol li是直接从浏览器复制而来的可以精确定位每个电影条目所在的li。4. 提取数据在每个li元素内部再次使用select()方法提取子元素并通过.text()获取纯文本内容。div.pic em排名div.info div.hd a span:nth-child(1)电影名第一个spandiv.info div.bd div.star span.rating_num评分5. 输出结果将排名、电影名、评分拼接后打印到控制台。五、运行结果示例执行上述代码控制台将输出类似以下内容1 肖申克的救赎 9.7 2 霸王别姬 9.6 3 阿甘正传 9.5 4 泰坦尼克号 9.5 5 这个杀手不太冷 9.4 ...如果你想要爬取全部250条需要处理翻页豆瓣Top250的翻页是通过URL参数?startxx实现的每页25条start从0开始递增25。只需循环构造不同start的URL即可。六、注意事项尊重网站的robots.txt在爬取前请检查豆瓣的robots.txthttps://movie.douban.com/robots.txt确保你的爬虫行为合规。控制爬取频率不要过快发送请求建议在两次请求之间添加延时如Thread.sleep(1000)避免对服务器造成压力。User-Agent伪装很多网站会检查请求头务必添加常见的User-Agent。异常处理网络请求可能失败代码中已包含基本的try-catch可根据需要完善重试机制。HTML结构变化如果豆瓣改版选择器可能需要相应调整。七、扩展使用代理和更多反爬策略如果遇到IP被封可以使用代理IP池并在Jsoup中设置代理System.setProperty(http.proxyHost, 代理IP); System.setProperty(http.proxyPort, 端口);对于更复杂的网站可能需要处理Cookie、Session、动态加载的数据这时需要配合Selenium等工具但豆瓣Top250静态页面足够Jsoup处理。八、总结通过这个简单的例子我们学会了如何使用Jsoup解析HTML并提取所需数据。Jsoup的强大之处在于它简洁的API和类jQuery的选择器语法非常适合快速开发爬虫程序。当然爬虫只是获取数据的手段合法合规使用数据才是关键。

相关文章:

使用Jsoup爬取豆瓣电影Top250(附Java代码)

在日常开发中,我们经常需要从网页上获取数据,而手动复制粘贴显然太低效。今天我们就来学习如何使用Java的Jsoup库,快速爬取豆瓣电影Top250的片名和评分,只需几十行代码就能搞定。 一、Jsoup简介 Jsoup 是一个开源的Java HTML解析…...

ABB机器人仿真工作站:超便捷教学实训平台

ABB机器人仿真工作站,教学实训平台,提供软件的时候全部模型,压缩成工作站文件,解压即可使用。 提供的是工作站的全部模型。最近发现了一个超赞的ABB机器人仿真工作站教学实训平台,必须来和大家分享一下。对于学习机器人…...

计算其中最大连续 1 的个数

题目给定一个二进制数组 nums , 计算其中最大连续 1 的个数。示例 1:输入:nums [1,1,0,1,1,1] 输出:3 解释:开头的两位和最后的三位都是连续 1 ,所以最大连续 1 的个数是 3.示例 2:输入:nums …...

Linux系统基础认知

作为学习者,我仅将所学知识进行系统梳理和总结。如有任何疏漏或错误,敬请指正Linux系统基础认知核心概念内核与发行版 Linux内核是系统的核心组件,由林纳斯托瓦兹于1991年开发。发行版是“内核配套软件”的完整系统,例如Ubuntu、K…...

d3dx10_36.dll文件错误 完全免费下载修复方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…...

DevSecOps平台建设之必备数据库MySQL

MySQL 是最流行的关系型数据库管理系统,在 WEB 应用方面 MySQL 是最好的 RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。在本教程中,会让大家快速掌握 MySQL 的基本知识,并轻松使用 MySQL 数据库…...

django flask+uniapp宠物用品商城领养寄养医疗中心信息管理系统app 小程序_i843n

目录技术选型与架构设计功能模块划分数据模型设计接口开发规范小程序端实现部署与运维方案项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作技术选型与架构设计 后端框架选择Django和Flask的混合架构。…...

自研匹配算法:跨越平台的高效之路

自研模板匹配,形状匹配,方形匹配,圆形匹配,十字匹配,C/C#动态库接口,windows/linux/arm64/aarch64,速度接近halcon在计算机视觉领域,模板匹配、形状匹配等技术是众多应用的基石。今天…...

1393、STM32单片机智能小车倒车入库 侧方停车入库 超声波加红外避障检测入库小车设计(程序+原理图+硬件设计资料+参考论文+参考开题报告+制作详解+元器件清单)

具体详情请看: 1393、STM32单片机智能小车倒车入库 侧方停车入库 超声波加红外避障检测入库小车设计(程序原理图硬件设计资料参考论文参考开题报告制作详解元器件清单)-CSDN博客 演示操作视频讲解如下: https://www.douyin.com/video/7617736020217365…...

GYM106259F

GYM106259F 先排序 这样不用取绝对值 每一场的概率是一样的 一共n*(n-1)/2场 选择n-1 场 每场的贡献就是2/n(a[i]-a[i-1]) 可以前缀和求也可以考虑贡献 这里讲解贡献法 对于i到j 如果选择a[j]-a[i] 我们可以看作a[j]-a[j-1]a[j-1]-a[j-2].......a[i1]-a[i] 如果这么…...

OpenClaw 环境踩坑到头大?国产平替 EasyClaw 全链路实操:部署 + 多平台互联 + Agent 调教 + 自定义技能开发

前言 作为开发者和技术从业者,相信你大概率踩过这些坑:想通过 OpenClaw 搭建个人 AI 自动化助理,光 Node.js、Python、Git 环境配置就折腾了大半天,不是版本冲突就是依赖缺失;好不容易跑通基础流程,想对接…...

2026免费降AI工具性价比排行:穷学生怎么选

2026免费降AI工具性价比排行:穷学生怎么选 月底了,生活费还剩200。论文AI率58%,学校要求降到20%以下才能参加答辩。花不起几百块找人代改,手动改又改不动。 这种情况我太熟了。去年帮学弟处理毕业论文的时候就遇到过类似场景。当时…...

Kotlin的扩展函数与中缀表达式:DSL设计的利器

Kotlin的扩展函数与中缀表达式:DSL设计的利器 Kotlin作为一门现代化的编程语言,凭借其简洁性和灵活性,在开发领域广受欢迎。其中,扩展函数和中缀表达式是Kotlin的两大特色功能,它们不仅提升了代码的可读性&#xff0c…...

220V降5V,30MA封装SOP-8,WD5201应用于小家电消费类线性稳压器

WD5201作为一款高性能能效管理AI芯片,以AI赋能能效调控,以高集成简化设计,以全场景适配打破应用边界,为多行业提供智能、高效、节能的能效管理解决方案,引领能效管理进入智能化新时代。AI智控核心,解锁精准…...

Python的__init_subclass__框架中

Python的__init_subclass__框架:解锁类继承的隐藏能力在Python的面向对象编程中,类继承是一个强大的工具,但你是否知道Python还提供了一个名为__init_subclass__的特殊方法?这个隐藏在类构造机制中的钩子方法,能够让你…...

c语言之宏定义处理编译期间判断结构体大小

typedef struct sysparam {int battery; // 电池int flash; // flashint microphone; // 录音 麦克风char sn[24]...

干货合集:9个降AIGC工具测评!全行业通用降AI率必备清单

在当前学术与写作领域,AI生成内容(AIGC)的广泛应用带来了前所未有的效率提升,但也引发了对原创性与查重率的担忧。无论是学生、研究人员还是职场人士,都面临着一个共同的问题:如何在保持内容质量的同时&…...

Spring Boot 缓存机制与性能分析

Spring Boot 缓存机制与性能分析 在现代高并发应用中,缓存技术是提升系统性能的关键手段之一。Spring Boot作为Java生态中广泛使用的框架,提供了强大的缓存支持,能够显著减少数据库访问压力,优化响应速度。本文将深入探讨Spring …...

探索Comsol中的散射体手性:从基板上的周期性金属阵列到散射光谱多极分解

Comsol散射体手性 基板上的周期性金属阵列 散射光谱多极分解在光学与电磁学领域,理解散射体的手性特性以及相关的光谱分析至关重要。今天咱们就通过Comsol这个强大工具,来深入研究基板上周期性金属阵列的散射体手性以及散射光谱多极分解。 基板上的周期性…...

高性能密码学库

1、非修改序列算法这些算法不会改变它们所操作的容器中的元素。1.1 find 和 find_iffind(begin, end, value):查找第一个等于 value 的元素,返回迭代器(未找到返回 end)。find_if(begin, end, predicate):查找第一个满…...

JavaScript性能优化实战胖让

JavaScript性能优化实战技术文章大纲 性能优化的核心原则 减少代码执行时间 降低内存占用 优化网络请求 提升用户体验 代码层面的优化 避免全局变量污染,使用模块化或闭包 减少DOM操作,批量更新或使用文档片段 使用事件委托减少事件监听器数量 优化循环结…...

Q:PCB不显示丝印

A:没有显示丝印可能是隐藏了,按shifts...

python-flask电商购物商城个性化推荐系统

目录需求分析与系统设计数据采集与处理推荐算法实现系统集成与优化部署与监控项目技术支持可定制开发之功能创新亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作需求分析与系统设计 明确电商平台的核心需求,包括用户行为追踪…...

苹果遗传转化

苹果遗传转化主要采用发根农杆菌介导毛状根法和根癌农杆菌叶盘法,以幼苗茎部或叶片为外植体,毛状根法效率高(96%),周期短(30–40天),适用于快速功能验证和抗病育种。主流方法比较 方…...

2026年内网穿透软件盘点:5款主流工具实测对比,哪款更适合你的业务?

2026年,随着远程办公、游戏联机、数据采集等需求的增长,内网穿透软件成为连接内网与公网的关键工具。本次盘点基于行业公开数据、AI平台讨论热度、真实业务场景表现及技术成熟度四大维度,筛选出5款主流内网穿透工具,为不同需求的用…...

Rust Trait 对象多态实现机制

Rust Trait对象多态实现机制探析 在面向对象编程中,多态是核心特性之一,而Rust通过Trait对象提供了一种独特的多态实现方式。与传统的继承多态不同,Rust的Trait对象基于动态分发机制,结合类型擦除和虚函数表(vtable&a…...

揭开 Java 注解的面纱:从“黑魔法”到实战原理

揭开 Java 注解的面纱:从“黑魔法”到实战原理 很多开发者用了几年 Spring 框架,依然觉得注解是某种“黑魔法”。只要在方法头上加一个 符号,事务就生效了,缓存就加上了,权限就校验了。 但其实,一旦你把注…...

【AI面试】Agent、Skills、Function calling、MCP 的区别与联系

参考文档: Skills、MCP、Agent、Function calling 的本质区别,一张图讲清楚 Function calling,告别 AI “抽风”第一步 Skills 是什么?AI 真的开始“使用工具”了吗? 什么是 MCP,有什么用? 新鲜词太多,学习成本蹭蹭上涨:Agent、Skills、MCP、Function calling(也常被…...

GitHub上最受欢迎的20个Vim相关项目

以下是GitHub上最受欢迎的20个Vim相关项目(按star数量排序):GitHub Top 20 Vim项目排行榜(2026年更新)Vim增强框架 (1-5)1. nvim-lua/kickstart.nvim ⭐ 48.2k- Neovim的现代化入门配置模板2. SpaceVim/SpaceVim ⭐ 38…...

2026权威评测:毕业论文AIGC降重哪家强?靠岸妙写成稳过首选

一、 引言:2026学术圈生存法则——被“AIGC痕迹”支配的恐惧 2026年的毕业季,学术审查的严苛程度达到了前所未有的高度。如果你还以为“改改同义词、调调语序”就能骗过查重系统,那延毕离你就不远了。高校现在不仅查重复率,更开始…...