当前位置: 首页 > news >正文

1.初识爬虫

爬虫是批量模拟网络请求的程序,想百度谷歌这种搜索类网站本质上就是爬虫

使用爬虫的时候不应该对别人的网站有严重的影响,比如你爬的频率太高了,让人家的网站崩溃了。不应该爬取网页上显示不到的内容,比如有一个直播的网站,人家显示的是热度值而不是具体人数,热度值是根据具体人数计算出来的,但是具体人数人家没展示在网页上,这个时候你不应该爬具体人数

目录

1  爬虫的分类

2  反爬机制与反反爬策略

3  robots.txt

4  加密方式


1  爬虫的分类

爬虫分为下面三类

  • 通用爬虫:搜索引擎(百度谷歌这种)抓取系统的主要组成部分,通用爬虫抓取一整张页面的数据
  • 聚焦爬虫:基于通用爬虫抓取整张页面数据后提取页面中特定的局部内容
  • 增量式爬虫:检测网站中数据更新的情况,只抓取增量内容(新更新的数据)

2  反爬机制与反反爬策略

反爬机制:被爬的网站设置不让你爬的一些规则。比如被爬的网站就可以设置同一个mac码一秒中的访问数量不能超过两次

反反爬策略:想爬取网站的人规避反爬机制的策略。比如被爬的网站设置了同一个mac码访问频率,你就可以多搞几个mac码去访问,从而得到数据

爬虫是一门对抗类的技术,你想爬但没爬到你就输了,你想不让别人爬但是别人爬到了那你就输了。这种对抗类的技术如果你想成功率高的话需要投入很多,所以面对某一些反爬机制强的网站,及时的放弃不一定是坏事

3  robots.txt

网站被爬不全是坏事,网站被爬可以带来流量。但我们又不希望网站无限制被爬,这个时候就产生了robots.txt协议,robots.txt协议由被爬的网站注明,其中会写明网站哪些东西可以被爬,哪些东西不可以被爬。robots.txt中的内容对于代码没有任何约束,只是给人看的,你如果爬了robots.txt中的禁止爬取的内容人家可能会去法院告你

我们可以在网站的域名后加上 /robots.txt 来查看当前网站的robots.txt协议。比如百度,这里面就告诉你哪个路由你不能动

再比如淘宝,他的robots.txt就是百度不准爬跟路径,剩下的都能爬。如果你不是百度,那你根路径也能爬

4  加密方式

对称密钥加密:客户端或服务端把密钥与信息一起发到对方(客户端发给服务端,服务端发给客户端),然后由服务端解密。如果发送的过程中信息被捕获了,那么加密信息与密钥都会暴露,相当于信息泄露了

非对称密钥加密:A是客户端,B是服务端,总的来讲就是就是客户端与服务端都加密。如果发送的过程中信息被捕获了,信息不会泄露。客户端的的加密方式叫私钥,服务端的加密方式叫公钥

非对称密钥中没有私钥的传递

非对称密钥加密的缺点是,如果在 步骤2 被捕获了,也就是公钥暴露了,第三方就可以篡改公钥,导致客户端收到的响应不对。而且非对称加密的效率很低

证书密钥加密:在对称加密的基础上对 步骤2 进行了改进,客户端先把密码发送给 证书认证机构,然后证书认证机构给公钥签名做防伪(签名后的公钥叫做证书),之后把证书发给服务端

证书密钥加密是https的加密方式

相关文章:

1.初识爬虫

爬虫是批量模拟网络请求的程序,想百度谷歌这种搜索类网站本质上就是爬虫 使用爬虫的时候不应该对别人的网站有严重的影响,比如你爬的频率太高了,让人家的网站崩溃了。不应该爬取网页上显示不到的内容,比如有一个直播的网站&#…...

TLA+学习记录1——hello world

0x01 TLA是个好工具 编程人员一个好习惯是凡事都想偷懒,当然是指要科学地偷懒,而不是真的偷懒。一直想找到一种能检验写出的代码,做出的设计是否真的完全正确,而不是靠经验检视、代码Review、反复测试去检验。因为上述方法不管怎…...

基于QWebEngine实现无头浏览器

无头浏览器 无头浏览器(Headless Browser)是一种没有图形用户界面(GUI)的浏览器。它通过在内存中渲染页面,然后将结果发送回请求它的用户或程序来实现对网页的访问,而不会在屏幕上显示网页。这种方式使得无…...

编译Micropython固件For树莓派Raspberry Pi Pico

1. 前言 由于想把自己编写的py文件打包的固件中,所以记录下如何编译micropython固件和打包。 2. 编译 最简单的方式就是在你的树莓派上进行,我用的是RP Pi2 下载所需文件: $ cd ~/ $ mkdir pico $ cd pico $ git clone -b pico https://gi…...

基于googlenet网络的动物种类识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ................................................................. % 获取输入层的尺寸 Inp…...

如何用Jmeter编写脚本压测?

随着商业业务不断扩张,调用adsearch服务频率越来越高,所以这次想做个压测,了解目前多少并发量可以到达adsearch服务的界值。 这次选用的jmeter压测工具,压测思路如图: 一、日志入参 日志选取的adsearch 的 getads部分…...

SpingMVC之拦截器使用详解

拦截器概述 SpringMVC的处理器拦截器,类似于Servlet开发中的过滤器Filter,用于对处理器进行预处理和后处理。 过滤器和拦截器区别 过滤器:依赖于servlet容器。在实现上基于函数回调,可以对几乎所有请求进行过滤,但是缺点是一个过…...

motionface respeak新的aigc视频与音频对口型数字人

在当今的数字化时代,人工智能(AI)正在逐渐渗透到我们生活的方方面面。其中,AI技术在视频制作和处理领域的应用也日益广泛。本文将探讨如何利用AI技术实现视频中人脸与音频同步对口型的方法,旨在进一步丰富视频制作的效…...

【计算机网络】 静态库与动态库

文章目录 静态库实践使用方法总结 动态库实践使用方法总结 静态库与动态库的优缺点静态库优点缺点 动态库缺点优点 库有两种:静态库(.a、.lib)和动态库(.so、.dll)。所谓静态、动态是指链接。静态库是将整个库文件都拷…...

web端调用本地摄像头麦克风+WebRTC腾讯云,实现直播功能

目录 关于直播直播流程直播视频格式封装推流和拉流 获取摄像头和麦克风权限navigator.getUserMedia()MediaDevices.getUserMedia() WebRTC腾讯云快直播 关于直播 视频直播技术大全、直播架构、技术原理和实现思路方案整理 直播流程 视频采集端: 1、视频采集&#…...

React笔记(八)Redux

一、安装和配置 React 官方并没有提供对应的状态机插件,因此,我们需要下载第三方的状态机插件 —— Redux。 1、下载Redux 在终端中定位到项目根目录,然后执行以下命令下载 Redux npm i redux 2、创建配置文件 在 React 中,…...

数据库 | 数据库概述、关系型数据库、非关系型数据库

目录: 1.数据库:1.1 数据库的含义1.2 数据库的特点 2.数据表3.数据库管理系统4.数据库系统5.关系型数据库 和 非关系型数据库:5.1 关系型数据库5.2 关系型数据库“优势”5.3 非关系型数据库 6.关系型数据库 和 非关系型数据库 的“区别” 1.数…...

【备战csp-j】 csp常考题目详解(4)

四.数值转换与编码 1. 十进制数 11/128 可用二进制数码序列表示为( ) 。 A.1011/1000000 B.1011/100000000 C.0.001011 D.0.0001011 答案:D 解析:暂时未找到解决方法,以后会解决。 2. 算式(2047)10 - (3FF)16 + …...

linux中常见服务端安装

linux安装服务脚本 1、yum安装 # 通过apt安装yum apt install yum # yum安装软件 yum install pam-devel # yum 卸载 yum remove pam-devel2、rpm安装 # 安装 rpm -i example.rpm #安装 example.rpm 包; rpm -iv example.rpm #安装 example.rpm 包并在安装过程…...

L1-058 6翻了(Python实现) 测试点全过

前言: {\color{Blue}前言:} 前言: 本系列题使用的是,“PTA中的团体程序设计天梯赛——练习集”的题库,难度有L1、L2、L3三个等级,分别对应团体程序设计天梯赛的三个难度。更新取决于题目的难度,…...

初学Python记

Python这个编程语言的大名当然听说过了呀,这几年特别火,火的一塌涂地。大家可以回忆一下:朋友圈推荐的广告里经常可以看见python的网课广告。 本学期,学校开设了python课程,这几天学习了一下入了一下门,感…...

计算机竞赛 基于深度学习的目标检测算法

文章目录 1 简介2 目标检测概念3 目标分类、定位、检测示例4 传统目标检测5 两类目标检测算法5.1 相关研究5.1.1 选择性搜索5.1.2 OverFeat 5.2 基于区域提名的方法5.2.1 R-CNN5.2.2 SPP-net5.2.3 Fast R-CNN 5.3 端到端的方法YOLOSSD 6 人体检测结果7 最后 1 简介 &#x1f5…...

sentinel-core

引入依赖<dependencies><dependency><groupId>com.alibaba.csp</groupId><artifactId>sentinel-core</artifactId></dependency><dependency><groupId>com.alibaba.csp</groupId><artifactId>sentinel-anno…...

【美团3.18校招真题1】

大厂笔试真题网址&#xff1a;https://codefun2000.com/ 塔子哥刷题网站博客&#xff1a;https://blog.codefun2000.com/ 小美剪彩带 提交网址&#xff1a;https://codefun2000.com/p/P1088 题意&#xff1a;找出区间内不超过k种数字子数组的最大长度 使用双指针的方式&…...

Springboot 实践(14)spring config 配置与运用--手动刷新

前文讲解Spring Cloud zuul 实现了SpringbootAction-One和SpringbootAction-two两个项目的路由切换&#xff0c;正确访问到项目中的资源。这两个项目各自拥有一份application.yml项目配置文件&#xff0c;配置文件中有一部分相同的配置参数&#xff0c;如果涉及到修改&#xf…...

还在熬夜改论文格式?okbiye 本科毕业论文写作功能,一键搞定你的毕业难题

okbiye-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/AI PPT毕业论文 - Okbiye智能写作https://www.okbiye.com/ai/bylw 当查重报告里飘红的句子、学校格式手册里密密麻麻的排版要求、凌晨三点还没理顺的论文大纲&#xff0c;成为每个本科生毕业季的共同记忆时&…...

终极微信聊天记录备份指南:免费开源工具WeChatExporter完整教程

终极微信聊天记录备份指南&#xff1a;免费开源工具WeChatExporter完整教程 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否担心珍贵的微信聊天记录会因手机损坏或…...

用STM32F103C8T6驱动Ra-01SC模组实现点对点通信(附完整代码与接线图)

STM32与Ra-01SC模组实战&#xff1a;从零搭建LoRa点对点通信系统 在物联网和远程监测领域&#xff0c;LoRa技术以其低功耗、远距离的特性成为无线通信的热门选择。Ra-01SC模组作为一款高性价比的LoRa模块&#xff0c;配合STM32F103C8T6这款经典MCU&#xff0c;能够快速构建稳定…...

ESP32-C3 I²S实战:手把手教你驱动ES8311音频编解码器实现回声消除

ESP32-C3与ES8311音频系统实战&#xff1a;从硬件连接到回声消除算法优化 在智能语音交互设备、会议系统和便携式录音设备中&#xff0c;音频处理能力已成为核心需求。ESP32-C3作为一款高性价比的Wi-Fi/BLE双模芯片&#xff0c;其内置的IS接口为音频应用提供了专业级数字音频传…...

GD32 RISC-V BSP框架设计:从硬件抽象到跨平台移植实战

1. 项目概述&#xff1a;为什么我们需要一个专属的BSP框架&#xff1f;如果你正在使用GD32的RISC-V内核MCU&#xff0c;比如GD32VF103系列&#xff0c;并且是从STM32或者其他ARM Cortex-M平台转过来的&#xff0c;那你大概率踩过这样的坑&#xff1a;官方提供的固件库&#xff…...

别再死记硬背了!COBOL中COMP、COMP-3、COMP-5数据类型的区别与实战赋值避坑指南

COBOL数值类型实战手册&#xff1a;COMP家族的内存布局与精准赋值策略 在金融核心系统维护中&#xff0c;我曾目睹过因COMP-3类型使用不当导致整月利息计算误差达六位数的生产事故。这种"古董级"数据类型的独特设计&#xff0c;至今仍在每秒处理数百万交易的银行系统…...

用树莓派和LED灯带,我亲手搭了个能跑程序的‘图灵机’(附完整代码和接线图)

用树莓派和LED灯带打造实体图灵机&#xff1a;从理论到硬件的沉浸式实践 当计算机科学从抽象的数学公式变成指尖跳动的LED灯光&#xff0c;理论突然有了温度。去年冬天&#xff0c;我在车库工作台前完成了这个项目——用树莓派和LED灯带构建的实体图灵机。当第一个加法程序成功…...

精密运放ADA4091-2驱动能力不够?试试‘复合放大器’这招,带宽和带载能力都翻倍

精密运放驱动能力不足的终极解决方案&#xff1a;复合放大器架构深度解析 在精密信号链设计中&#xff0c;工程师们常常面临一个两难选择&#xff1a;要么选择ADA4091-2这类具有超低噪声和卓越直流性能的精密运放&#xff0c;但牺牲驱动能力&#xff1b;要么选用大电流运放&…...

YimMenu技术深度探索:现代GTA V菜单框架的安全架构与扩展机制

YimMenu技术深度探索&#xff1a;现代GTA V菜单框架的安全架构与扩展机制 【免费下载链接】YimMenu YimMenu, a GTA V menu protecting against a wide ranges of the public crashes and improving the overall experience. 项目地址: https://gitcode.com/GitHub_Trending/…...

模电数电不再怕:用甘晴void的三本笔记法,搞定HNU电路与电子学课堂测验与作业

模电数电不再怕&#xff1a;用甘晴void的三本笔记法&#xff0c;搞定HNU电路与电子学课堂测验与作业 电路与电子学这门课&#xff0c;对很多计算机专业的学生来说就像一座难以逾越的高山。模电的抽象概念、数电的逻辑设计&#xff0c;加上频繁的课堂测验和课后作业&#xff0c;…...