当前位置: 首页 > news >正文

Java爬虫

什么是爬虫?

通过请求,从而去获取互联网上的各种数据与资源,如文字,图片,视频。
本质上原理都一样,都是通过api请求,然后服务器就会发给你信息,然后你再根据这些信息去提取你想要的资源。
还有比如抢票,你只是通过发送请求,从而达到抢票的目的,但是并没有获取信息之类的,这也算是爬虫吧。
反正不重要,总而言之,爬虫简单说就是去请求接口,获取信息或进行一系列操作。

一.HttpClient,Jsoup,WebMagic

HttpClient--原始,请求完之后要自己用字符串处理工具或正则表达式去解析页面来提取自己想要的数据。
Jsoup--请求完之后有专门用来处理HTML的一套API,可以像前端一样的DOM一样操作和提取所获得页面的各个元素,从而来获得自己想要的信息。
WebMagic--还没学,不过可以参考一下别人的对比,简单说就是适合大规模爬取,效率高之类的。
2023年流行的Java网页抓取库:Jsoup、HtmlUnit和WebMagic

我学的主要是Jsoup
入门视频:【狂神说Java】Jsoup爬虫入门实战_哔哩哔哩_bilibili

二.爬取的策略和实战中会遇到的问题

语言只是一个工具,最重要是解决问题的思路,有了思路剩下的就是了解api(现在有了gpt了解api也不难了)和写代码了。

记住一个知识点并非看完整套视频再去学习,很多时候实战是更好的学习方式。

爬虫的话最先要学会用好游览器看两个东西,一个是请求,打开检查的网络就可以抓取请求,另一个是页面的源代码,要知道那个元素对应哪个标签,这样才可以准确爬取对应的信息。

除此之外,还要了解restful api,知道get,post,delete等请求,知道query参数和json参数。

技巧一:添加请求头,不少爬取除了请求的链接外都还要添加请求头。

【1】场景一:需要登录
就是模拟发送post请求,然后就会返回cookie或者token,获取cookie并加入下一个请求的请求头。

【2】场景二:UA伪装
UA:User-Agent---请求载体的身份标识,有些网站会检验这个请求头来判断是否是爬虫。
所以我们要加入User-Agent请求头,参数通过游览器查看请求获取。

技巧二:有些网站会通过IP请求频率来封IP,我们可以提高抓取的时间间隔。


 

相关文章:

Java爬虫

什么是爬虫? 通过请求,从而去获取互联网上的各种数据与资源,如文字,图片,视频。 本质上原理都一样,都是通过api请求,然后服务器就会发给你信息,然后你再根据这些信息去提取你想要的…...

海外应用商店优化实用指南之关键词

和SEO一样,关键词是ASO中的一个重要因素。就像应用程序标题一样,在Apple App Store和Google Play中处理应用程序关键字的方式也有所不同。 关键词研究。 对于Apple,我们的所有关键词只能获得100个字符,Google Play没有特定的关键…...

element+vue 之动态form

1.页面部分 <div v-for"(item,index) in formList" :key"index"><el-col :span"6" v-if"item.inputType0"><el-form-item :label"item.conditionName" :prop"item.conditionCode":rules"{req…...

winform学习(3)-----Windows窗体应用和Windows窗体应用(.Net Framework)有啥区别?

1.模板选择 在学习winform的时候总是会对这两个应用不知道选择哪个&#xff1f;而且在学习的时候也没有具体的说明 首先说一下我是在添加控件的时候出现了以下问题 对于使用了Windows窗体应用这个模板的文件在工具箱中死活不见控件。 在转换使用了Windows窗体应用(.NET Fram…...

虚拟化中的中断机制:X86与PIC 8259A探索(上)

本系列深入探讨虚拟化中断技术&#xff0c;从X86架构和PIC 8259A的基础&#xff0c;到IOAPIC和MSI的编程&#xff0c;再到MSIX技术与Broiler设备的实战应用&#xff0c;全面剖析中断虚拟化的前沿进展。 X86 中断机制 ​ 在计算机架构中&#xff0c;CPU 运行的速度远远大于外设…...

软件外包开发语言排行榜

软件开发语言的排行榜是一个动态的话题&#xff0c;而在未来的几年中&#xff0c;新的技术和语言可能会不断涌现&#xff0c;影响排名。然而以下是一些在过去几年中一直受欢迎并有前途的软件开发语言&#xff0c;如果是新入门软件开发行业在学习语言做选择&#xff0c;希望下面…...

BI技巧丨利用OFFSET计算同环比

微软最近更新了很多开窗函数&#xff0c;其内部参数对比以往的DAX函数来说&#xff0c;多了很多&#xff0c;这就导致学习的时间成本直线上升。 而且对于新增函数的应用场景&#xff0c;很多小伙伴也是一知半解的&#xff0c;本期我们就来聊一聊关于最近新增的开窗函数——OFF…...

整理mongodb文档:collation

文章连接 整理mongodb文档:collation 看前提示 对于mongodb的collation。个人主要用的范围是在createcollection&#xff0c;以及find的时候用&#xff0c;所以本片介绍的时候也是这两个地方入手&#xff0c;对新手个人觉得理解概念就好。不要求强制性掌握&#xff0c;但是要…...

【LangChain】Prompts之Prompt templates

Prompts 编程模型的新方法是通过提示(prompts)。 prompts是指模型的输入。该输入通常由多个组件构成。 LangChain 提供了多个类和函数&#xff0c;使构建和使用prompts变得容易。 Prompt templates(提示模板): 参数化模型输入Example selectors(选择器示例): 动态选择要包含在…...

【数字IC基础】时序违例的修复

时序违例的修复 建立时间违例保持时间违例Buffer 插入位置参考资料 建立时间违例 基本思路是减少数据线的延时、减少 Launch clock line 的延时、增加capture clock line的delay 加强约束&#xff0c;重新进行综合&#xff0c;对违规的路径进行进一步的优化&#xff0c;但是一…...

深度学习实战46-基于CNN的遥感卫星地图智能分类,模型训练与预测

大家好,我是微学AI,今天给大家介绍一下深度学习实战46-基于CNN的遥感卫星地图智能分类,模型训练与预测。随着遥感技术和卫星图像获取能力的快速发展,卫星图像分类任务成为了计算机视觉研究中一个重要的挑战。为了促进这一领域的研究进展,EuroSAT数据集应运而生。本文将详细…...

Node.js-fs模块文件创建、删除、重命名、文件内容的写入、读取以及文件夹的相关操作

一、写入文件操作 异步写入&#xff1a;writeFile() 同步写入&#xff1a;writeFileSync() const fs require("fs"); fs.writeFile("目标文件路径", "要写入的内容", err > {if(err){console.log(err);return;}console.log("写入成功&a…...

LIN协议总结

目录 一、LIN是什么1、LIN的概念2、扩展介绍一下同步通信和异步通信的区别3、LIN连接结构及节点构成 二、LIN的特点三、LIN协议层1、帧的结构2、帧的类型3、进度表4、状态机实现5、网络管理6、状态管理 四、帧收发的硬件实现1、组成2、硬件特点3、协议控制器4、总线收发器5、LI…...

Redis BigKey案例

面试题&#xff1a; 阿里广告平台&#xff0c;海量数据里查询某一固定前缀的key小红书&#xff0c;你如何生产上限制keys*/flushdb/flushall等危险命令以防止误删误用&#xff1f;美团&#xff0c;MEMORY USAGE命令你用过吗&#xff1f;BigKey问题&#xff0c;多大算big&#…...

ThinkPHP v6.0.8 CacheStore 反序列化漏洞

漏洞说明 1. 漏洞原理&#xff1a;ThinkPHP 6.0.8 CacheStore 会触发POP利用链子&#xff0c;造成任意命令执行 2. 组件描述&#xff1a; ThinkPHP是一个免费开源的&#xff0c;快速、简单的面向对象的轻量级PHP开发框架 3. 影响版本&#xff1a;V6.0.8 漏洞复现 1. 环境安…...

Spring 事务详解(注解方式)

目 录 序言 1、编程式事务 2、配置声明式事务 2.1 基于TransactionProxyFactoryBean的方式&#xff08;不常用&#xff0c;因为要为每一个类配置TransactionProxyFactoryBean&#xff09; 2.2 基于AspectJ的XML方式&#xff08;常用&#xff0c;可配置在某些类下的所有子…...

华为云waf 使用场景

防护Web应用免受攻击就用华为云Web应用防火墙 Web应用防火墙&#xff08;Web Application Firewall&#xff0c; WAF&#xff09;&#xff0c;通过对HTTP(S)请求进行检测&#xff0c;识别并阻断SQL注入、跨站脚本攻击、网页木马上传、命令/代码注入、文件包含、敏感文件访问、第…...

?.的写法 后缀修饰符

概览&#xff1a;处理后端返回的数据data&#xff0c;写法&#xff1a;data?.name。解决vue框架编译出现的报错Cannot read property name of undefined。出现问题的原因&#xff1a;这是因为我们试图访问对象中不在的 key 为 name 的属性&#xff0c;那么怎么解决呢&#xff…...

org.apache.hadoop.hive.ql.exec.DDLTask. show Locks LockManager not specified解决

Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. show Locks LockManager not specified解决 当在Hive中执行show locks语句时&#xff0c;出现"LockManager not specified"错误通常是由于…...

Adaptive autosar 都有哪些模块?各有什么功能?

Adaptive autosar是一种用于高性能计算ECU的软件平台,它支持自适应应用程序的开发和运行。它由两部分组成:基础(Foundation)和服务(Service)。基础包括了操作系统接口、执行管理、网络管理、识别访问管理、加密、更新和配置管理等功能。服务包括了通信管理、RESTful、时间…...

PowerBI主题模板:让数据可视化设计效率提升80%的开源解决方案

PowerBI主题模板&#xff1a;让数据可视化设计效率提升80%的开源解决方案 【免费下载链接】PowerBI-ThemeTemplates Snippets for assembling Power BI Themes 项目地址: https://gitcode.com/gh_mirrors/po/PowerBI-ThemeTemplates 在数据驱动决策的时代&#xff0c;Po…...

MVP.css跨浏览器兼容性终极指南:7个实用技巧解决常见问题

MVP.css跨浏览器兼容性终极指南&#xff1a;7个实用技巧解决常见问题 【免费下载链接】mvp MVP.css — Minimalist classless CSS stylesheet for HTML elements 项目地址: https://gitcode.com/gh_mirrors/mv/mvp MVP.css是一款极简主义的无类CSS样式表&#xff0c;专为…...

the-glorious-dotfiles 核心功能解析:从通知中心到屏幕录制

the-glorious-dotfiles 核心功能解析&#xff1a;从通知中心到屏幕录制 【免费下载链接】the-glorious-dotfiles A glorified personal dot files 项目地址: https://gitcode.com/gh_mirrors/th/the-glorious-dotfiles the-glorious-dotfiles 是一套功能丰富的个人配置文…...

eksctl多集群管理终极指南:跨区域部署和统一运维实践

eksctl多集群管理终极指南&#xff1a;跨区域部署和统一运维实践 【免费下载链接】eksctl The official CLI for Amazon EKS 项目地址: https://gitcode.com/gh_mirrors/ek/eksctl eksctl作为Amazon EKS官方CLI工具&#xff0c;为用户提供了快速创建、管理和运维Kuberne…...

ImportExcel版本更新:7.8.10新特性解析和改进点详解

ImportExcel版本更新&#xff1a;7.8.10新特性解析和改进点详解 【免费下载链接】ImportExcel PowerShell module to import/export Excel spreadsheets, without Excel 项目地址: https://gitcode.com/gh_mirrors/im/ImportExcel ImportExcel是一款强大的PowerShell模块…...

3步终极指南:如何快速解决openpilot驾驶辅助系统的5大常见问题

3步终极指南&#xff1a;如何快速解决openpilot驾驶辅助系统的5大常见问题 【免费下载链接】openpilot openpilot is an operating system for robotics. Currently, it upgrades the driver assistance system on 300 supported cars. 项目地址: https://gitcode.com/GitHub…...

探索MacOS窗口管理新境界:3步掌握Easy Move+Resize高效操作

探索MacOS窗口管理新境界&#xff1a;3步掌握Easy MoveResize高效操作 【免费下载链接】easy-move-resize Adds "modifier key mouse drag" move and resize to OSX 项目地址: https://gitcode.com/gh_mirrors/ea/easy-move-resize Easy MoveResize是一款专为…...

告别重复造轮子:用快马平台生成mpu6050优化算法库,开发效率提升数倍

告别重复造轮子&#xff1a;用快马平台生成mpu6050优化算法库&#xff0c;开发效率提升数倍 在嵌入式开发中&#xff0c;MPU6050这款六轴传感器几乎成了运动控制和姿态检测的标配。但每次新项目都要从头写驱动、调滤波算法、实现姿态解算&#xff0c;这种重复劳动实在太低效了…...

Linux CFS调度器:从红黑树到vruntime,手把手带你读懂内核4.18.10源码里的公平艺术

Linux CFS调度器&#xff1a;从红黑树到vruntime&#xff0c;手把手带你读懂内核4.18.10源码里的公平艺术 在计算机科学的世界里&#xff0c;调度算法就像一位隐形的指挥家&#xff0c;默默协调着CPU资源的分配。而Linux内核中的CFS&#xff08;Completely Fair Scheduler&…...

汽车ECU安全解锁实战:手把手教你用C语言实现AES-CMAC算法(附完整源码)

汽车ECU安全访问实战&#xff1a;AES-CMAC算法深度解析与工程实现 在汽车电子控制单元&#xff08;ECU&#xff09;的安全访问机制中&#xff0c;27服务作为常见的诊断协议&#xff0c;其核心安全认证流程往往依赖于AES-CMAC算法。本文将带您深入理解这一算法的工程实现细节&am…...