Java爬虫----HttpClient方式(获取数据篇)
目录
一、爬虫的定义
二、获取数据
(1)基于Get方式的请求(无参)
(2)基于Get方式请求(有参)
(3)基于Post方式的请求(无参)
(4)基于Post方式的请求(有参)
一、爬虫的定义
爬虫指的是一种自动化程序,能够模拟人类在互联网上的浏览行为,自动从互联网上抓取、预处理并保存所需要的信息。
爬虫运行的过程一般是先制定规则(如指定要抓取的网址、要抓取的信息的类型等),紧接着获取该网址的HTML源代码,根据规则对源代码进行解析和抽取,最后进行处理和保存。爬虫在实际应用中广泛使用,如搜索引擎、大数据分析、交易数据采集等领域,都需要用到爬虫技术来实现信息的定向采集和处理
关于爬虫,我们基本上可以分为两步,第一是获取数据,第二是解析数据;
二、获取数据
(1)基于Get方式的请求(无参)
public static void main(String[] args) throws IOException {CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet=new HttpGet("https://www.lanqiao.cn/");//发送http中的get请求HttpEntity entity=null;CloseableHttpResponse response=null;//判断是否得到正确的数据try {response= httpClient.execute(httpGet);if(response.getStatusLine().getStatusCode()==200){//获取响应数据entity=response.getEntity();//获取的数据输出其实是个对象System.out.println(entity);//将响应数据以html源码形式展示String html = EntityUtils.toString(entity, "UTF-8");System.out.println(html);}}catch (Exception e){e.printStackTrace();}finally {try{if(response!=null)response.close();//响应成功后关闭if(httpClient!=null)httpClient.close();}catch(Exception e){e.printStackTrace();}}}
(2)基于Get方式请求(有参)
public static void main(String[] args) throws IOException {CloseableHttpClient httpClient = HttpClients.createDefault();HttpGet httpGet=new HttpGet("https://www.lanqiao.cn/");//发送http中的get请求HttpEntity entity=null;CloseableHttpResponse response=null;//判断是否得到正确的数据try {response= httpClient.execute(httpGet);if(response.getStatusLine().getStatusCode()==200){//获取响应数据entity=response.getEntity();//获取的数据输出其实是个对象System.out.println(entity);//将响应数据以html源码形式展示String html = EntityUtils.toString(entity, "UTF-8");System.out.println(html);}}catch (Exception e){e.printStackTrace();}finally {try{if(response!=null)response.close();//响应成功后关闭if(httpClient!=null)httpClient.close();}catch(Exception e){e.printStackTrace();}}}
(3)基于Post方式的请求(无参)
public class HtppClientDemo1 {public static void main(String[] args) throws IOException {CloseableHttpClient httpClient=HttpClients.createDefault();//创建post请求HttpPost httpPost=new HttpPost("https://www.lanqiao.cn/");HttpEntity entity=null;CloseableHttpResponse response=null;try{response=httpClient.execute(httpPost);if(response.getStatusLine().getStatusCode()==200){//获取响应数据entity=response.getEntity();System.out.println(entity);//网页源代码String html=EntityUtils.toString(entity,"UTF-8");System.out.println(html);}}catch(Exception e){e.printStackTrace();}finally {try{if(response!=null)response.close();if(httpClient!=null)httpClient.close();}catch (Exception e){e.printStackTrace();}}}
(4)基于Post方式的请求(有参)
public static void main(String[] args) {CloseableHttpClient httpClient = HttpClients.createDefault();//创建post请求HttpPost httpPost = new HttpPost("https://www.lanqiao.cn/");HttpEntity entity = null;CloseableHttpResponse response = null;try {//设置参数BasicNameValuePair basicNameValuePair=new BasicNameValuePair("progid","20");//装入集合List<BasicNameValuePair> list=new ArrayList<>();list.add(basicNameValuePair);//开始进行参数请求,进行网络请求UrlEncodedFormEntity urlEncodedFormEntity=new UrlEncodedFormEntity(list,"UTF-8");httpPost.setEntity(urlEncodedFormEntity);//请求参数结束response = httpClient.execute(httpPost);if (response.getStatusLine().getStatusCode() == 200) {//获取响应数据entity = response.getEntity();System.out.println(entity);//网页源代码String html = EntityUtils.toString(entity, "UTF-8");System.out.println(html);}} catch (Exception e) {e.printStackTrace();} finally {try {if (response != null) response.close();if (httpClient != null) httpClient.close();} catch (Exception e) {e.printStackTrace();}}}
相关文章:
Java爬虫----HttpClient方式(获取数据篇)
目录 一、爬虫的定义 二、获取数据 (1)基于Get方式的请求(无参) (2)基于Get方式请求(有参) (3)基于Post方式的请求(无参) &…...
计算机视觉实验:图像增强应用实践
本次实验主要从基于统计、函数映射的图像增强方法和基于滤波的图像增强方法两种方法中对一些图像增强的算法进行实现。主要的编程语言为python,调用了python自带的PIL图像库用于读取图像,利用numpy进行图像运算,最后使用opencv第三方库进行对…...
ES6:Generator函数详解
ES6:Generator函数详解 1、 概念2、yield表达式2.1 yield 语句与 return 语句区别2.2 Generator函数不加yield语句,这时变成了一个单纯的暂缓执行函数2.3 yield 表达式只能用在 Generator 函数里面,用在其它地方都会报错2.4 yield 表达式如果…...
前端小练-产品宣传页面
文章目录 前言页面结构固定钉头部轮播JS特效 完整代码总结 前言 经过一个月的爆肝,花费了一个月(期间还花费了将近半个月的时间打比赛,还要备研)算是把数二高数的内容强化了一遍,接下来刷熟练度即可,可惜的…...
arm学习之stm32设备树学习-中断控制led灯亮灭+字符设备指令控制led灯亮灭
中断控制led灯亮灭 驱动文件源码 led-key.c #include<linux/init.h> #include<linux/module.h> #include<linux/of.h> #include<linux/of_gpio.h> #include<linux/gpio.h> #include<linux/of_irq.h> #include<linux/interrupt.h> s…...
快速开发框架若依的基础使用详解
Hi I’m Shendi 快速开发框架若依的基础使用详解 最近在为公司制作新的项目,经过了一段时间的技术沉淀,我开始尝试接触市面上用的比较多的快速开发框架,听的最多的当属若依吧 于是就选用了若依 介绍 为什么选?目的是为了提高开发…...
RabbitMQ 教程 | 第4章 RabbitMQ 进阶
👨🏻💻 热爱摄影的程序员 👨🏻🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻🏫 一位高冷无情的编码爱好者 大家好,我是 DevO…...
小程序如何从分类中移除商品
有时候商家可能需要在商品分类中删除某些商品,无论是因为商品已下架、库存不足还是其他原因。在这篇文章中,我们将介绍如何从分类中移除商品。 方式一:分类管理中删除商品。 进入小程序管理后台,找到分类管理,在分…...
P1219 [USACO1.5] 八皇后 Checker Challenge
题目 思路 非常经典的dfs题,需要一点点的剪枝 剪枝①:行、列,对角线的标记 剪枝②:记录每个皇后位置 代码 #include<bits/stdc.h> using namespace std; const int maxn105; int a[maxn];int n,ans; bool vis1[maxn],vis…...
如何在不使用脚本和插件的情况下手动删除 3Ds Max 中的病毒?
如何加快3D项目的渲染速度? 3D项目渲染慢、渲染卡顿、渲染崩溃,本地硬件配置不够,想要加速渲染,在不增加额外的硬件成本投入的情况下,最好的解决方式是使用渲云云渲染,在云端批量渲染,批量出结…...
SpringCloud Gateway 在微服务架构下的最佳实践
作者:徐靖峰(岛风) 前言 本文整理自云原生技术实践营广州站 Meetup 的分享,其中的经验来自于我们团队开发的阿里云 CSB 2.0 这款产品,其基于开源 SpringCloud Gateway 开发,在完全兼容开源用法的前提下&a…...
Android studio修改app图标
步骤如下: 1.右键app名称→New→ImageAsset 2. 进行下面的配置 图源:https://blog.csdn.net/Qingshan_z/article/details/126661650 3.配置分辨率 4.图标自动保存在mipmap文件夹下 再启动就更换成功了!!! 参考&…...
<C++> 三、内存管理
1.C/C内存分布 我们先来看下面的一段代码和相关问题 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] {1, 2, 3, 4};char char2[] "abcd";const char *pChar3 "abcd";int *ptr1…...
大模型开发(十五):从0到1构建一个高度自动化的AI项目开发流程(上)
全文共5600余字,预计阅读时间约13~20分钟 | 满满干货(附全部代码),建议收藏! 本文目标:提出一种利用大语言模型(LLMs)加快项目的开发效率的解决思路,本文作为第一部分,主要集中在如何完整的执行引导Chat模…...
HarmonyOS 开发基础(二)组件拼凑简单登录页面
一、简单登录页面 Entry Component /* 组件可以基于struct实现,组件不能有继承关系,struct可以比class更加快速的创建和销毁。*/ struct Index {State message: string Hello Worldbuild() {// https://developer.harmonyos.com/cn/docs/documentation/…...
flutter minio
背景 前端 经常需要上传文件 图片 视频等等 到后端服务器, 如果到自己服务器 一般会有安全隐患。也不方便管理这些文件。如果要想使用一些骚操作 比如 按照前端请求生成不同分辨率的图片,那就有点不太方便了。 这里介绍以下 minio,࿰…...
ChatGPT:人工智能交互的新时代
ChatGPT的背景和发展: ChatGPT是OpenAI公司在GPT-3基础上的进一步升级。GPT(Generative Pre-trained Transformer)是一种基于Transformer架构的深度学习模型,它能够处理自然语言,实现自动对话、写作等任务。而ChatGPT在…...
C. Binary String Copying - 思维
分析: 赛时我是直接模拟的,tle然后mle,补提,发现规律,每一个改变的字符串都只会对应一个需要改变的区间,例如第一个样例前两个101100 -> 011100和101100 -> 011100,对应区间在确定改变的范…...
哈工大计算机网络课程网络安全基本原理详解之:密钥分发中心与公钥认证中心
哈工大计算机网络课程网络安全基本原理详解之:密钥分发中心与公钥认证中心 在介绍密钥分发中心的概念前,先来回顾一下之前介绍的身份认证协议AP4.0:利用随机数R来避免“回放攻击”,并借助于对称加密算法来保证R的加密传输和解密&…...
md5sum
概念作用及原理 md5sum是一种常用的哈希算法,用于计算数据的MD5哈希值。MD5(Message Digest Algorithm 5)是一种广泛使用的加密散列函数,用于将任意长度的数据映射为固定长度的哈希值(通常是128位)。这个哈…...
HUNYUAN-MT 7B翻译终端性能展示:并发请求压力测试与响应时间报告
HUNYUAN-MT 7B翻译终端性能展示:并发请求压力测试与响应时间报告 最近在星图GPU平台上部署了HUNYUAN-MT 7B翻译终端,很多朋友都好奇它的实际表现到底怎么样。特别是当多个用户同时使用时,它还能不能保持快速响应?会不会因为压力太…...
【内测开启】一个 Token,让你的Agent拥有地图能力!
各位AI大佬/极客朋友们: 期待已久的 百度地图 Map Agent Plan 正式开启首批内测招募啦!✨ 我们深知独立开发者和 OpenClaw 玩家们的痛点,所以这次我们玩点不一样的: ✅ 极简集成: 告别复杂API申请流程,一个…...
Turbo Boost Switcher设备适配完全指南:从系统要求到机型验证全流程
Turbo Boost Switcher设备适配完全指南:从系统要求到机型验证全流程 【免费下载链接】Turbo-Boost-Switcher Turbo Boost disabler / enable app for Mac OS X 项目地址: https://gitcode.com/gh_mirrors/tu/Turbo-Boost-Switcher Turbo Boost Switcher是一款…...
DAMO-YOLO智能视觉系统作品集:多场景零售货架检测效果惊艳展示
DAMO-YOLO智能视觉系统作品集:多场景零售货架检测效果惊艳展示 1. 零售视觉检测的新标杆 走进现代零售空间,商品陈列的艺术背后隐藏着复杂的运营挑战。传统的人工巡检方式已经难以满足快节奏零售环境的需求,这正是DAMO-YOLO智能视觉系统大放…...
springboot+vue基于web的校园招聘求职系统
目录同行可拿货,招校园代理 ,本人源头供货商系统功能模块划分关键技术实现数据安全设计扩展性考虑项目技术支持源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作同行可拿货,招校园代理 ,本人源头供货商 系统功能模块划分 后端(S…...
AI原生应用领域链式思考:构建高效应用架构
AI原生应用领域链式思考:构建高效应用架构 关键词:AI原生应用、链式思考、应用架构、大模型协同、上下文管理 摘要:本文从AI原生应用的核心特征出发,结合"链式思考"这一关键设计模式,系统讲解如何构建高效能…...
从idea ai插件到在线原型:用快马平台快速构建你的智能代码生成器
最近在开发中频繁使用IDEA的AI插件辅助编码,发现这类工具能大幅减少重复劳动。但插件功能往往局限于当前IDE环境,于是萌生了一个想法:能否把这种智能生成能力搬到线上,做成一个轻量级的Web工具?经过在InsCode(快马)平台…...
可视掏耳勺哪个牌子好?用什么掏耳朵最好?掏耳勺神器新款第一名
用什么掏耳朵最好?如今耳道护理成为家庭日常刚需,可视掏耳勺凭借“边看边清洁”的核心优势,彻底解决了传统盲掏易戳伤耳道、推深耳垢的痛点,成为越来越多人的首选。但当前可视掏耳勺市场陷入参数内卷,不少品牌盲目追求…...
主体代码分析
一、整体架构分析这个程序是一个图片管理工具,采用MVC模式的变体,分为:UI层:界面定义(ui_image_manager.py,由Qt Designer生成)逻辑层:当前文件的业务逻辑业务层:busines…...
ComfyUI-FramePackWrapper终极指南:3种AI视频生成模型加载方案深度对比
ComfyUI-FramePackWrapper终极指南:3种AI视频生成模型加载方案深度对比 【免费下载链接】ComfyUI-FramePackWrapper 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-FramePackWrapper 在AI视频生成领域,ComfyUI-FramePackWrapper是一款革…...
