Java开发笔记Ⅱ(Jsoup爬虫)
Jsoup 爬虫
Java 也能写爬虫!!!
Jsoup重要对象如下:
Document:文档对象,每个html页面都是一个Document对象
Element:元素对象,一个Document对象里有多个Element对象
Node:节点对象,用于存储数据,标签名称、属性都是节点对象
Jsoup的主要方法如下:
static Connection connect(String url) 创建URL连接
static Document parse(File in, String charsetName) 解析文件为 Document 对象
static Document parse(String html) 解析html代码为 Document 对象
(虽然上边是最主要的方法,但是下边这段代码中,是用 document对象 + css 选择器来获取的信息)
爬虫示例(豆瓣)
/*** 通过访问接口获取代理IP*/public void initIPPool() {System.out.println("开始获取IP...");Process proc;try {// 这个代码之前是python改的,这里偷懒直接调用,这个文件贴在后边proc = Runtime.getRuntime().exec("python getIP.py");BufferedReader in = new BufferedReader(new InputStreamReader(proc.getInputStream()));String line = null;while ((line = in.readLine()) != null) {System.out.println(line);}in.close();proc.waitFor();} catch (Exception e) {System.out.println(e.toString());}System.out.println("成功获取代理IP");}/*** 从存储代理IP的文件获取代理IP*/public void loadIPPool() {File file = new File("ipPool.txt");List<String> list = new ArrayList<String>();synchronized (this) {BufferedReader reader = null;try {reader = new BufferedReader(new FileReader(file));String tempString = null;// 一次读入一行,直到读入null为文件结束while ((tempString = reader.readLine()) != null) {list.add(tempString);}reader.close();} catch (IOException e) {e.printStackTrace();} finally {if (reader != null) {try {reader.close();} catch (IOException e1) {System.out.println(e1.toString());}}}}System.out.println(list);myIPPool = list.toArray(new String[list.size()]);System.out.println("成功载入IP代理池");}public String crawlOnce(Integer start) {StringBuilder finalResult = new StringBuilder();Random random = new Random();// 请求地址String url ="http://movie.douban.com/j/new_search_subjects?sort=T&range=0,10&tags=&start=" +(start);HttpGet request = new HttpGet(url);String proxyIp = myIPPool[random.nextInt(myIPPool.length)];while (proxyIp.split(":").length != 2) {// 在代理ip池里随机获取一个ipproxyIp = myIPPool[random.nextInt(myIPPool.length)];}HttpHost proxy = new HttpHost(proxyIp.split(":")[0],Integer.parseInt(proxyIp.split(":")[1]));SSLContextBuilder builder = new SSLContextBuilder();// 全部信任 不做身份鉴定PoolingHttpClientConnectionManager cm = null;SSLConnectionSocketFactory sslsf = null;try {builder.loadTrustMaterial(null, new TrustStrategy() {@Overridepublic boolean isTrusted(X509Certificate[] x509Certificates, String s) throws CertificateException {return true;}});sslsf = new SSLConnectionSocketFactory(builder.build(), new String[]{"SSLv2Hello","SSLv3", "TLSv1", "TLSv1.2"}, null, NoopHostnameVerifier.INSTANCE);Registry<ConnectionSocketFactory> registry =RegistryBuilder.<ConnectionSocketFactory>create().register("http",new PlainConnectionSocketFactory()).register("https", sslsf).build();cm = new PoolingHttpClientConnectionManager(registry);cm.setMaxTotal(200);//max connection} catch (Exception e) {System.out.println(e.toString());return "";}//设置认证CredentialsProvider provider = new BasicCredentialsProvider();//第一个参数对应代理httpHost,第二个参数设置代理的用户名和密码,如果代理不需要用户名和密码,填空provider.setCredentials(new AuthScope(proxy), new UsernamePasswordCredentials("", ""));//实例化CloseableHttpClient对象CloseableHttpClient httpClient = HttpClients.custom().setSSLSocketFactory(sslsf).setConnectionManager(cm).setConnectionManagerShared(true).setDefaultCredentialsProvider(provider).build();RequestConfig config = RequestConfig.custom().setProxy(proxy).setConnectTimeout(CONNECTION_TIME_OUT).setConnectionRequestTimeout(CONNECTION_TIME_OUT).setSocketTimeout(CONNECTION_TIME_OUT).build();request.setConfig(config);//添加请求头request.addHeader("User-Agent", myUAPool[random.nextInt(myUAPool.length)]);request.addHeader("Cookie", myCookies[random.nextInt(myCookies.length)]);request.addHeader("Accept-Language", "zh-CN,zh;q=0.9");request.addHeader("Sec-Fetch-Mode", "cors");request.addHeader("Sec-Fetch-Site", "same-origin");HttpResponse response = null;BufferedReader rd = null;try {response = httpClient.execute(request);rd = new BufferedReader(new InputStreamReader(response.getEntity().getContent()));} catch (IOException e) {logError(start);return "";}String line = "";StringBuilder result = new StringBuilder();while (true) {try {line = rd.readLine();if (line == null) {break;}} catch (IOException e) {logError(start);break;}// 请求返回了html页面if (line.equals("") || line.charAt(0) == '<') {break;}result.append(line);}System.out.println((start) + "--result:" + result);JSONObject res = JSONObject.parseObject(String.valueOf(result));if (res == null || !res.containsKey("data")) {logError(start);return "";}JSONArray jsonArray = res.getJSONArray("data");for (int i = 0; i < jsonArray.size(); i++) {JSONObject jo = jsonArray.getJSONObject(i);// 通过详情链接爬取电影详情finalResult.append(crawlDetails(jo.getString("url")));}return finalResult.toString();}// 爬取详情private String crawlDetails(String url) {String result = "";Random random = new Random();try {String proxyIp = myIPPool[random.nextInt(myIPPool.length)];// myUAPool这里可以换几个浏览器把useragent手写在变量里Connection con = Jsoup.connect(url).proxy(proxyIp.split(":")[0], Integer.parseInt(proxyIp.split(":")[1])).timeout(10000).userAgent(myUAPool[random.nextInt(myUAPool.length)]).header("Accept-Language", "zh-CN,zh;q=0.9").header("Cookie", myCookies[random.nextInt(myCookies.length)]).timeout(CONNECTION_TIME_OUT); // 设置连接超时时间// 执行连接,获取页面Connection.Response response = con.execute();Document document = con.get();String info = document.select("#info").text();// IDresult += url.substring(33, url.length() - 1);// 标题result += "," + document.select("#content > h1 > span:nth-child(1)").text();// 年份result += "," + document.select("#content > h1 > span.year").text();// 导演result += "," + document.select("#info > span:nth-child(1) > span.attrs > a").text();// 编剧result += "," + document.select("#info > span:nth-child(3) > span.attrs").text();// 主演result += "," + document.select("#info > span.actor > span.attrs").text();// 类型result += "," + document.select("[property=v:genre]").text();// 产地result += "," + info.substring(info.indexOf("制片国家/地区: "), info.indexOf(" 语言:")).substring("制片国家/地区: ".length());// 语言if (info.contains(" 上映日期:")) {result += "," + info.substring(info.indexOf("语言: "), info.indexOf(" 上映日期:")).substring("语言: ".length());} else {result += "," + info.substring(info.indexOf("语言: ")).substring("语言: ".length());}// 片长result += "," + document.select("[property=v:genre]").attr("content");// 评分result += "," +document.select("#interest_sectl > div > div.rating_self.clearfix > strong").text();// 5result += "," + document.select("#interest_sectl > div.rating_wrap.clearbox > div" +".ratings-on-weight > div:nth-child(1) > span" +".rating_per").text();// 4result += "," + document.select("#interest_sectl > div.rating_wrap.clearbox > div" +".ratings-on-weight > div:nth-child(2) > span" +".rating_per").text();// 3result += "," + document.select("#interest_sectl > div.rating_wrap.clearbox > div" +".ratings-on-weight > div:nth-child(3) > span" +".rating_per").text();// 2result += "," + document.select("#interest_sectl > div.rating_wrap.clearbox > div" +".ratings-on-weight > div:nth-child(4) > span" +".rating_per").text();// 1result += "," + document.select("#interest_sectl > div.rating_wrap.clearbox > div" +".ratings-on-weight > div:nth-child(5) > span" +".rating_per").text();// 评分人数result += "," + document.select("[property=v:votes]").text();// 评论数result +="," + document.select("#comments-section > div.mod-hd > h2 > span > a").text();System.out.println(proxyIp + " " + result);} catch (IOException e) {System.out.println(e.toString());}return result + "\n";}
获取代理IP的代码
# coding=UTF-8import requests
import jsonclass FreeIP():def __init__(self):# 代理ip网站self.url = "http://proxylist.fatezero.org/proxy.list"self.headers = {"User-Agent": "这里改为浏览器的useragent"}def check_ip(self, ip_list):correct_ip = []for ip in ip_list:if len(correct_ip) > 10: # 可以根据自己的需求进行更改或者注释掉breakip_port = "{}:{}".format(ip["host"], ip["port"])proxies = {'https': ip_port}try:# 如果请求该网址,返回的IP地址与代理IP一致,则认为代理成功response = requests.get('https://icanhazip.com/', proxies=proxies,timeout=3).text # 可以更改timeout时间if response.strip() == ip["host"]:# print("可用的IP地址为:{}".format(ip_port))correct_ip.append(ip_port)except:# print("不可用的IP地址为:{}".format(ip_port))return correct_ipdef run(self):response = requests.get(url=self.url).content.decode()ip_list = []proxies_list = response.split('\n')for proxy_str in proxies_list:try:proxy = {}proxy_json = json.loads(proxy_str)if proxy_json["anonymity"] == "high_anonymous" and proxy_json["type"] == "https":host = proxy_json['host']port = proxy_json['port']proxy["host"] = hostproxy["port"] = portip_list.append(proxy)except:correct_ip = self.check_ip(ip_list)file_path = 'ipPool.txt'# 写入这个文件with open(file_path, mode='w', encoding='utf-8') as file_obj:for i in correct_ip:file_obj.write(i + "\n")if __name__ == '__main__':ip = FreeIP()ip.run()
相关文章:
Java开发笔记Ⅱ(Jsoup爬虫)
Jsoup 爬虫 Java 也能写爬虫!!! Jsoup重要对象如下: Document:文档对象,每个html页面都是一个Document对象 Element:元素对象,一个Document对象里有多个Element对象 Node&#…...
一五三、MAC 安装MongoDB可视化工具连接
若没有安装brew包管理工具,在命令行输入安装命令 /bin/bash -c “$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)”上面步骤安装完成后,开始安装MongoDB,输入安装命令: brew tap mongodb/brewbrew u…...
ULTRAINTERACT 数据集与 EURUS 模型:推动开源大型语言模型在推理领域的新进展
在人工智能的浪潮中,大型语言模型(LLMs)已经成为推动自然语言处理技术发展的关键力量。它们在理解、生成语言以及执行复杂任务方面展现出了巨大的潜力。然而,尽管在特定领域内取得了显著进展,现有的开源LLMs在处理多样…...
【leetcode刷题】面试经典150题 , 27. 移除元素
leetcode刷题 面试经典150 27. 移除元素 难度:简单 文章目录 一、题目内容二、自己实现代码2.1 方法一:直接硬找2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析 2.2 方法二:排序整体删除再补充2.1.1 实现思路2.1.2 实现代码2.1.3 结果分析 三、…...
红队内网攻防渗透:内网渗透之内网对抗:横向移动篇PTH哈希PTT票据PTK密匙Kerberoast攻击点TGTNTLM爆破
红队内网攻防渗透 1. 内网横向移动1.1 首要知识点1.2 PTH1.2.1 利用思路第1种:利用直接的Hash传递1.2.1.1、Mimikatz1.2.2 利用思路第2种:利用hash转成ptt传递1.2.3 利用思路第3种:利用hash进行暴力猜解明文1.2.4 利用思路第4种:修改注册表重启进行获取明文1.3 PTT1.3.1、漏…...
springBoot不同module之间互相依赖
在 Spring Boot 多模块项目中,不同模块之间的依赖通常是通过 Maven 或 Gradle 来管理的。以下是一个示例结构和如何设置这些依赖的示例。 项目结构 假设我们有一个多模块的 Spring Boot 项目,结构如下: my-springboot-project │ ├── p…...
[modern c++] 类型萃取 type_traits
前言: #include <type_traits> type_traits 又叫类型萃取,是一个在编译阶段用于进行 类型判断/类型变更 的库,在c11中引入。因为其工作阶段是在编译阶段,因此被大量应用在模板编程中,同时也可以结合 constexpr…...
函数模板和类模板的区别
函数模板和类模板在C中都是重要的泛型编程工具,但它们之间存在一些显著的区别。以下是它们之间的主要区别: 实例化方式: 函数模板:隐式实例化。当函数模板被调用时,编译器会根据传递给它的参数类型自动推断出模板参数…...
ChatGPT 提示词技巧一本速通
目录 一、基本术语 二、提示词设计的基本原则 三、书写技巧 2.1 赋予角色 2.2 使用分隔符 2.2 结构化输出 2.3 指定步骤 2.4 提供示例 2.5 指定长度 2.6 使用或引用参考文本 2.7 提示模型进行自我判断 2.8 思考问题的解决过程 编辑 2.10 询问是否有遗漏 2.11 …...
【windows解压】解压文件名乱码
windows解压,文件名乱码但内容正常。 我也不知道什么时候设置出的问题。。。换了解压工具也没用,后来是这样解决的。 目录 1.环境和工具 2.打开【控制面板】 3.点击【时钟和区域】 4.选择【区域】 5.【管理】中【更改系统区域设置】 6.选择并确定…...
使用Flink CDC实时监控MySQL数据库变更
在现代数据架构中,实时数据处理变得越来越重要。Flink CDC(Change Data Capture)是一种强大的工具,可以帮助我们实时捕获数据库的变更,并进行处理。本文将介绍如何使用Flink CDC从MySQL数据库中读取变更数据࿰…...
学生课程信息管理系统
摘 要 目前,随着科学经济的不断发展,高校规模不断扩大,所招收的学生人数越来越 多;所开设的课程也越来越多。随之而来的是高校需要管理更多的事务。对于日益增 长的学生相关专业的课程也在不断增多,高校对其管理具有一…...
如何看待鸿蒙HarmonyOS?
鸿蒙系统,自2019年8月9日诞生就一直处于舆论风口浪尖上的系统,从最开始的“套壳”OpenHarmony安卓的说法,到去年的不再兼容安卓的NEXT版本的技术预览版发布,对于鸿蒙到底是什么,以及鸿蒙的应用开发的讨论从来没停止过。…...
【论文复现|智能算法改进】一种基于多策略改进的鲸鱼算法
目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】 2.改进点 混沌反向学习策略 将混沌映射和反向学习策略结合,形成混沌反向学习方法,通过该方 法…...
yarn安装配置及使用教程
Yarn 是一款 JavaScript 的包管理工具,是 Facebook, Google, Exponent 和 Tilde 开发的一款新的 JavaScript 包管理工具,它提供了确定性、依赖关系树扁平化等特性,并且与 npm 完全兼容。以下是 Yarn 的安装及使用教程: Yarn 安装…...
有那么点道理。
...
蔚蓝资源包和数据分析
代码如下 /* * COMPUTER GENERATED -- DO NOT EDIT* */#include <windows.h>static FARPROC __Init_Fun_2__; int __RestartAppIfNecessary__Fun() {return 0; } int Init_Fun() {__Init_Fun_2__();return 1; }static FARPROC __GameServer_BSecure__; static FARPROC _…...
MySQL----利用Mycat配置读写分离
首先确保主从复制是正常的,具体步骤在MySQL----配置主从复制。MySQL----配置主从复制 环境 master(CtenOS7):192.168.200.131 ----ifconfig查看->ens33->inetslave(win10):192.168.207.52 ----ipconfig查看->无线局域网适配器 WLA…...
【科学计算与可视化】2. pandas 基础
1. 安装 Pandas 首先,确保你已经安装了 Pandas。你可以使用以下命令安装:pip install pandas 2. 导入 Pandas 在开始使用 Pandas 之前,你需要先导入它:import pandas as pd 3. 创建数据结构 Pandas 主要有两种数据结构&#…...
医学记录 --- 腋下异味
逻辑图地址 症状 病因 汗液分泌旺盛:由于天气炎热、活动出汗、肥胖等因素导致汗液分泌旺盛,可引起腋下有异味表现。在这种情况下,建议保持身体清洁,特别是在炎热和潮湿的环境下。可以使用抗菌洗液、喷雾或霜剂来帮助减少细菌滋…...
Flask RESTful 示例
目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务 中文乱码问题: 下面创建一个简单的Flask RESTful API示例。首先,我们需要创建环境,安装必要的依赖,然后…...
阿里云ACP云计算备考笔记 (5)——弹性伸缩
目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...
Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
MVC 数据库
MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...
【OSG学习笔记】Day 16: 骨骼动画与蒙皮(osgAnimation)
骨骼动画基础 骨骼动画是 3D 计算机图形中常用的技术,它通过以下两个主要组件实现角色动画。 骨骼系统 (Skeleton):由层级结构的骨头组成,类似于人体骨骼蒙皮 (Mesh Skinning):将模型网格顶点绑定到骨骼上,使骨骼移动…...
Unit 1 深度强化学习简介
Deep RL Course ——Unit 1 Introduction 从理论和实践层面深入学习深度强化学习。学会使用知名的深度强化学习库,例如 Stable Baselines3、RL Baselines3 Zoo、Sample Factory 和 CleanRL。在独特的环境中训练智能体,比如 SnowballFight、Huggy the Do…...
OpenLayers 分屏对比(地图联动)
注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 地图分屏对比在WebGIS开发中是很常见的功能,和卷帘图层不一样的是,分屏对比是在各个地图中添加相同或者不同的图层进行对比查看。…...
什么是Ansible Jinja2
理解 Ansible Jinja2 模板 Ansible 是一款功能强大的开源自动化工具,可让您无缝地管理和配置系统。Ansible 的一大亮点是它使用 Jinja2 模板,允许您根据变量数据动态生成文件、配置设置和脚本。本文将向您介绍 Ansible 中的 Jinja2 模板,并通…...
让回归模型不再被异常值“带跑偏“,MSE和Cauchy损失函数在噪声数据环境下的实战对比
在机器学习的回归分析中,损失函数的选择对模型性能具有决定性影响。均方误差(MSE)作为经典的损失函数,在处理干净数据时表现优异,但在面对包含异常值的噪声数据时,其对大误差的二次惩罚机制往往导致模型参数…...
【Go语言基础【13】】函数、闭包、方法
文章目录 零、概述一、函数基础1、函数基础概念2、参数传递机制3、返回值特性3.1. 多返回值3.2. 命名返回值3.3. 错误处理 二、函数类型与高阶函数1. 函数类型定义2. 高阶函数(函数作为参数、返回值) 三、匿名函数与闭包1. 匿名函数(Lambda函…...
