Java 获取豆瓣电影TOP250
对于爬虫,Java并不是最擅长的,但是也可以实现,此次主要用到的包有hutool和jsoup。
hutool是一个Java工具包,它简化了Java的各种API操作,包括文件操作、类型转换、HTTP、日期处理、JSON处理、加密解密等。它的目标是使Java的常见操作更简单,提供一个简洁易用的API,让开发者更高效地编写代码。jsoup是一个用于处理HTML的Java库,它提供了非常方便的API来解析HTML文档,并进行文档操作。它可以用来提取HTML中的数据,进行HTML到XML的转换,清理不安全的HTML标签等。
代码实现
import cn.hutool.core.io.FileUtil;
import cn.hutool.http.HttpResponse;
import cn.hutool.http.HttpUtil;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;/*** @author BXB*/
public class DoubanFilm250 {public static void main(String[] args) {for (int i = 0; i < 226; i += 25) {String url = String.format("https://movie.douban.com/top250?start=%d&filter=", i);String request = request(url);select(request);}}public static String request(String url) {// 发送 GET 请求HttpResponse response = HttpUtil.createGet(url).timeout(5000) // 设置超时时间.header("User-Agent", "Mozilla/5.0") // 设置请求头.execute();return response.body();}public static void select(String body) {Document parse = Jsoup.parse(body);Element gridView = parse.getElementsByClass("grid_view").get(0);Elements children = gridView.children();try (BufferedWriter bufferedWriter = new BufferedWriter(new FileWriter("C:/path/to/save/movieTop250.md", true)); // 修改为自己的地址) {bufferedWriter.write("| 电影名称 | 详情页地址 | 评分+金句 |\n");bufferedWriter.write("|:--------:|:--------:|:--------:|");bufferedWriter.newLine();for (Element child : children) {// 获取电影名称String movieName = child.select("div.info div.hd span.title").text();System.out.println("电影名称: " + movieName + "写入成功");bufferedWriter.write("| " + movieName + " | ");// 获取海报链接String posterUrl = child.select("div.pic img").attr("src");saveImage(posterUrl, movieName);// 获取详情页链接String movieUrl = child.select("div.info a").attr("href");bufferedWriter.write( movieUrl + " | ");
//// 评分 金句String text = child.select("div.bd span").text();bufferedWriter.write(text + " | ");bufferedWriter.newLine();}} catch (IOException e) {throw new RuntimeException(e);}}public static void saveImage (String imageUrl, String movieName) {String savePath = "C:/path/to/save/" + movieName.split("[/]")[0] + ".jpg"; // 修改为你要保存的路径和文件名byte[] imageBytes = HttpUtil.downloadBytes(imageUrl); // 下载图片字节数组FileUtil.writeBytes(imageBytes, savePath); // 将字节数组写入到本地文件}
}
相关文章:
Java 获取豆瓣电影TOP250
对于爬虫,Java并不是最擅长的,但是也可以实现,此次主要用到的包有hutool和jsoup。 hutool是一个Java工具包,它简化了Java的各种API操作,包括文件操作、类型转换、HTTP、日期处理、JSON处理、加密解密等。它的目标是使…...
笔试面试相关记录(5)
(1)不包含重复字符的最长子串的长度 #include <iostream> #include <string> #include <map>using namespace std;int getMaxLength(string& s) {int len s.size();map<char, int> mp;int max_len 0;int left 0;int i …...
四、C#—变量,表达式,运算符(2)
🌻🌻 目录 一、表达式1.1 什么是表达式1.2 表达式的基本组成 二、运算符2.1 算术运算符2.1.1 使用 / 运算符时的注意事项2.1.2 使用%运算符时的注意事项 2.2 赋值运算符2.2.1 简单赋值运算符2.2.2 复合赋值运算符 2.3 关系运算符2.4 逻辑运算符2.4.1 逻辑…...
【WSN】基于蚁群算法的WSN路由协议(最短路径)消耗节点能量研究(Matlab代码实现)
💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…...
JVM的内存分配及垃圾回收
内存分配 在了解Java的内存管理前,需要知道JVM中的内存分配。 栈 存储局部变量。在方法的定义中或在方法中声明的变量为局部变量;栈内存中的数据在该方法结束(返回或抛出异常或方法体运行到最后)时自动释放栈中存放的数据结构为…...
Python实现查询一个文件中的pdf文件中的关键字
要求,查询一个文件中的pdf文件中的关键字,输出关键字所在PDF文件的文件名及对应的页数。 import os import PyPDF2def search_pdf_files(folder_path, keywords):# 初始化结果字典,以关键字为键,值为包含关键字的页面和文件名列表…...
【计算机网络笔记一】网络体系结构
IP和路由器概念 两台主机如何通信呢? 首先,主机的每个网卡都有一个全球唯一地址,MAC 地址,如 00:10:5A:70:33:61 查看 MAC 地址: windows: ipconfig / alllinux:ifconfig 或者 ip addr 同一个网络的多…...
硕士应聘大专老师
招聘信息 当地人社局、学校(官方) 公众号(推荐): 辅导员招聘 厦门人才就业信息平台 高校人才网V 公告出完没多久就要考试面试,提前联系当地院校,问是否招人。 校招南方某些学校会直接去招老师。…...
Gram矩阵
Gram矩阵如何计算 Gram 矩阵是由一组向量的内积构成的矩阵。如果你有一组向量 v 1 , v 2 , … , v n v_1, v_2, \ldots, v_n v1,v2,…,vn,Gram 矩阵 G G G 的元素 G i j G_{ij} Gij 就是向量 v i v_i vi 和向量 v j v_j vj 的内积。数学上&#x…...
【数据结构】七大排序算法详解
目录 ♫什么是排序 ♪排序的概念 ♪排序的稳定性 ♪排序的分类 ♪常见的排序算法 ♫直接插入排序 ♪基本思想 ♪算法实现 ♪算法稳定性 ♪时间复杂度 ♪空间复杂度 ♫希尔排序 ♪基本思想 ♪算法实现 ♪算法稳定性 ♪时间复杂度 ♪空间复杂度 ♫直接选择排序 ♪基本思想 ♪算法…...
OpenCV之VideoCapture
VideoCaptrue类对视频进行读取操作以及调用摄像头。 头文件: #include <opencv2/video.hpp> 主要函数如下: 构造函数 C: VideoCapture::VideoCapture(); C: VideoCapture::VideoCapture(const string& filename); C: VideoCapture::Video…...
ESP32微控制器与open62541库: 详细指南实现OPC UA通信协议_C语言实例
1. 引言 在现代工业自动化和物联网应用中,通信协议起着至关重要的作用。OPC UA(开放平台通信统一架构)是一个开放的、跨平台的通信协议,被广泛应用于工业4.0和物联网项目中。本文将详细介绍如何在ESP32微控制器上使用C语言和open…...
怎样快速打开github.com
访问这个网站很慢是因为有DNS污染,被一些别有用心的人搞了鬼了, 可以使用火狐浏览器开启火狐浏览器的远程dns解析就可以了.我试了一下好像单独这个办法不一定有用,要结合修改hosts文件方法,双重保障 好像就可以了...
【C#】.Net基础语法二
目录 一、字符串(String) 【1.1】字符串创建和使用 【1.2】字符串其他方法 【1.3】字符串格式化的扩展方法 【1.4】字符串空值和空对象比较 【1.5】字符串中的转移字符 【1.6】大写的String和小写的string 【1.7】StringBuilder类的重要性 二、数组(Array) 【2.1】声…...
C++之this指针总结(二百二十)
简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…...
C++——如何正确的使用STL中的vector?
什么是vector? 在STL(标准模板库)中,vector是一种动态数组容器,可根据需要自动增长或缩小。它可以存储任意类型的元素,并且支持快速的随机访问。 vector是表示可变大小数组的序列容器vector采用的是连续的…...
【C语言】模拟实现内存函数
本篇文章目录 相关文章1. 模拟 memcpy 内存拷贝2. 模拟 memmove 内存移动 相关文章 【C语言】数据在内存中是以什么顺序存储的?【C语言】整数在内存中如何存储?又是如何进行计算使用的?【C语言】利用void*进行泛型编程【C语言】4.指针类型部…...
Jenkins学习笔记3
gitgithubjenkins: 架构图: 说明:jenkins知道github有更新了,就pull进行构建build,编译、自动化测试。然后部署到应用服务器。 maven java的项目构建工具。 在开发者电脑上创建空密码密钥对。 [rootgit-developer ~…...
基于单片机火灾报警器仿真设计
一、系统方案 1、本设计采用51单片机作为主控器。 2、DS18B20采集温度值送到液晶1602显示。 3、MQ2采集烟雾值,送到液晶1602显示。 4、按键设置温度报警值,大于报警值,声光报警。 二、硬件设计 原理图如下: 三、单片机软件设计…...
阿里测开面试大全(一)附答案完整版
万字长文,建议收藏 1 什么是POM,为什么要使用它? POM是Page Object Model的简称,它是一种设计思想,而不是框架。大概的意思是,把一个一个页面,当做一个对象,页面的元素和元素之间操…...
Intv_AI_MK11大模型微调实战:使用自有数据定制专属AI
Intv_AI_MK11大模型微调实战:使用自有数据定制专属AI 1. 为什么需要微调大模型 想象一下,你买了一套高级西装,虽然剪裁精良,但总感觉少了点个人特色。大模型就像这套西装,通用性强但缺乏针对性。微调就是为它"量…...
Graphormer效果实测:100个DrugBank分子logP预测MAE=0.28(SOTA水平)
Graphormer效果实测:100个DrugBank分子logP预测MAE0.28(SOTA水平) 1. 模型介绍 Graphormer是一种基于纯Transformer架构的图神经网络,专门为分子图(原子-键结构)的全局结构建模与属性预测而设计。该模型在…...
从光纤通信到超快光学:非线性薛定谔方程仿真在工程研究中的5个典型应用场景
从光纤通信到超快光学:非线性薛定谔方程仿真在工程研究中的5个典型应用场景 当一束激光脉冲在光纤中传输时,其强度分布会随时间发生微妙变化——这种看似简单的物理现象背后,隐藏着非线性光学中最富魅力的数学描述:非线性薛定谔方…...
光伏混合储能直流微电网simulink模型 1.直流微电网由锂电池,超级电容,光伏和直流负载组成 2
光伏混合储能直流微电网simulink模型 1.直流微电网由锂电池,超级电容,光伏和直流负载组成 2.光伏采用电导增量法实现最大功率输出 3.锂电池和超级电容采用直流母线电压控制策略,根据直流母线电压高低实现充放电 实现以下目标: 1.光…...
阿姆智创15.6寸工控一体机厂家,源头智造ODM定制方案,赋能SMT产线及设备场景
阿姆智创15.6寸工业触控工控一体机,以强悍硬件性能、丰富工业接口、稳定系统适配与一站式解决方案,深度服务SMT产线、运动控制、机器视觉等工业场景,为设备厂商与制造企业提供高可靠、可定制、易集成的智能控制终端,助力工业自动化…...
4月,新一轮发票抽奖,请收好这份开具发票指南!!
4月,重庆发票抽奖新的一轮发票抽奖已经了(目前第三轮)。你所在的城市不知道是不是也是第三期发票抽奖了。发票抽奖首先需要发票。发票除了线下直接找商家开具外,我们也可以在线上直接开具。这份发票开具指南,归纳总结我…...
用IDM抓取网页动态资源
动态资源抓取的基本原理动态资源通常由JavaScript异步加载或通过API接口返回,传统爬虫难以直接获取。IDM(Internet Download Manager)通过监控浏览器网络请求,可捕获这些动态生成的资源链接。配置IDM捕获动态资源启用IDM的浏览器集…...
【RK3588 Mali610 适配 Qt6 】
主要适配RK3588 Mali610GPU 准备文件 准备文件 1、Qt6源码 2、必须安装的依赖文件 3、缺失的文件fbdev_window.h 其中第三项比较重要,关系到编译初期能够识别到GPU库。 fbdev_window.h内容如下: /** This confidential and proprietary software may be used only as* auth…...
ADC过采样技术提升嵌入式系统测量精度
1. ADC过采样技术概述在嵌入式系统开发中,ADC(模数转换器)的性能往往直接决定了整个系统的测量精度。标准的10位ADC在很多场合已经足够使用,但当我们需要更高精度的测量时,过采样技术就成为了一个经济有效的解决方案。…...
SpringBoot的两种启动方式原理
在技术领域,我们常常被那些闪耀的、可见的成果所吸引。今天,这个焦点无疑是大语言模型技术。它们的流畅对话、惊人的创造力,让我们得以一窥未来的轮廓。然而,作为在企业一线构建、部署和维护复杂系统的实践者,我们深知…...
