爬虫学习笔记之Robots协议相关整理
定义
Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。
robots.txt文件的样例
- 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
- 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
- 允许所有爬虫访问所有目录
User-agent:*
Disallow:
- 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
- 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/
一些常见的爬虫名称

robotparser使用
该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。
RobotFileParser类的常用方法
- set_url:用来设置robots.txt文件的链接。
- read:读取robots.txt文件进行分析。
- parse:用来解析robots.txt文件
- can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
- mtime:返回上次抓取和分析robots.txt文件的时间。
- modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间
代码示例
from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

- 这里能看到,Googlebot是被严格禁止了的,所以为false

注
以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~
相关文章:
爬虫学习笔记之Robots协议相关整理
定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…...
Python小游戏29乒乓球
import pygame import sys # 初始化pygame pygame.init() # 屏幕大小 screen_width 800 screen_height 600 screen pygame.display.set_mode((screen_width, screen_height)) pygame.display.set_caption("打乒乓球") # 颜色定义 WHITE (255, 255, 255) BLACK (…...
220.存在重复元素③
目录 一、题目二、思路三、解法四、收获 一、题目 给你一个整数数组 nums 和两个整数 indexDiff 和 valueDiff 。 找出满足下述条件的下标对 (i, j): i ! j, abs(i - j) < indexDiff abs(nums[i] - nums[j]) < valueDiff 如果存在,返回 true &a…...
使用 Go 语言调用 DeepSeek API:完整指南
引言 DeepSeek 是一个强大的 AI 模型服务平台,本文将详细介绍如何使用 Go 语言调用 DeepSeek API,实现流式输出和对话功能。 Deepseek的api因为被功击已不能用,本文以 DeepSeek:https://cloud.siliconflow.cn/i/vnCCfVaQ 为例子进…...
AJAX笔记原理篇
黑马程序员视频地址: AJAX-Day03-01.XMLHttpRequest_基本使用https://www.bilibili.com/video/BV1MN411y7pw?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p33https://www.bilibili.com/video/BV1MN411y7pw?vd_sour…...
ubuntu直接运行arm环境qemu-arm-static
qemu-arm-static 嵌入式开发有时会在ARM设备上使用ubuntu文件系统。开发者常常会面临这样一个问题,想预先交叉编译并安装一些应用程序,但是交叉编译的环境配置以及依赖包的安装十分繁琐,并且容易出错。想直接在目标板上进行编译和安装&#x…...
尝试把clang-tidy集成到AWTK项目
前言 项目经过一段时间的耕耘终于进入了团队开发阶段,期间出现了很多问题,其中一个就是开会讨论团队的代码风格规范,目前项目代码风格比较混乱,有的模块是驼峰,有的模块是匈牙利,后面经过讨论,…...
一文了解性能优化的方法
背景 在应用上线后,用户感知较明显的,除了功能满足需求之外,再者就是程序的性能了。因此,在日常开发中,我们除了满足基本的功能之外,还应该考虑性能因素。关注并可以优化程序性能,也是体现开发能…...
【怎么用系列】短视频戒断——对推荐算法进行干扰
如今推荐算法已经渗透到人们生活的方方面面,尤其是抖音等短视频核心就是推荐算法。 【短视频的危害】 1> 会让人变笨,慢慢让人丧失注意力与专注力 2> 让人丧失阅读长文的能力 3> 让人沉浸在一个又一个快感与嗨点当中。当我们刷短视频时&#x…...
C#中的委托(Delegate)
什么是委托? 首先,我们要知道C#是一种强类型的编程语言,强类型的编程语言的特性,是所有的东西都是特定的类型 委托是一种存储函数的引用类型,就像我们定义的一个 string str 一样,这个 str 变量就是 string 类型. 因为C#中没有函数类型,但是可以定义一个委托类型,把这个函数…...
PostCss
什么是 PostCss 如果把 CSS 单独拎出来看,光是样式本身,就有很多事情要处理。 既然有这么多事情要处理,何不把这些事情集中到一起统一处理呢? PostCss 就是基于这样的理念出现的。 PostCss 类似于一个编译器,可以将…...
Linux 系统上安装 Docker 并进行配置
Docker 是一种开源的应用容器引擎,它允许开发者打包他们的应用以及应用的依赖包到一个可移植的容器中,然后发布到任何流行的 Linux 机器上,也可以实现虚拟化。容器是完全使用沙箱机制,相互之间不会有任何接口(类似 iPh…...
DeepSeek 等 AI 技术能否推动股市的繁荣?
在科技浪潮汹涌澎湃的当下,DeepSeek 等 AI 技术宛如闪耀在天际的耀眼星辰,吸引着全球各界的高度关注。面对这些前沿技术,投资者和市场参与者心中不禁泛起疑问:它们是否能成为推动股市繁荣的强劲动力?这一问题不仅左右着…...
【网络】应用层协议http
文章目录 1. 关于http协议2. 认识URL3. http协议请求与响应格式3.1 请求3.2 响应 3. http的常见方法4. 状态码4.1 常见状态码4.2 重定向 5. Cookie与Session5.1 Cookie5.1.1 认识Cookie5.1.2 设置Cookie5.1.3 Cookie的生命周期 5.2 Session 6. HTTP版本(了解&#x…...
大数据数仓实战项目(离线数仓+实时数仓)2
1.课程目标和课程内容介绍 2.数仓维度建模设计 3.数仓为什么要分层 4.数仓分层思想和作用 下面是阿里的一种分层方式 5.数仓中表的种类和同步策略 6.数仓中表字段介绍以及表关系梳理 订单表itcast_orders 订单明细表 itcast_order_goods 商品信息表 itcast_goods 店铺表 itcast…...
测试csdn图片发布
测试csdn图片发布 ...
站在JavaScript的视角去看,HTML的DOM和GLTF的Json数据。
很多前端小伙伴没有见过、操作过gltf文件,对非常懵逼,本文从前端小伙伴最熟悉的dom模型为切入口,以类别的方式来学习一下gltf文件。 一、结构与组织形式 HTML DOM(文档对象模型): 树形结构:HT…...
传输层协议 UDP 与 TCP
🌈 个人主页:Zfox_ 🔥 系列专栏:Linux 目录 一:🔥 前置复盘🦋 传输层🦋 再谈端口号🦋 端口号范围划分🦋 认识知名端口号 (Well-Know Port Number) 二…...
VSCode源码分析参考资料
VSCode Architecture Analysis - Electron Project Cross-Platform Best Practices 中文版 VSCode 架构分析 - Electron 项目跨平台最佳实践 Sihan Li博客上的vscode源码分析系列:分析了微服务架构、事件体系、资源管理、配置系统等 文召博客上的vscode 源码解析…...
使用VCS对Verilog/System Verilog进行单步调试的步骤
Verilog单步调试: System Verilog进行单步调试的步骤如下: 1. 编译设计 使用-debug_all或-debug_pp选项编译设计,生成调试信息。 我的4个文件: 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…...
从‘ylim auto’到‘ylim manual’:深入理解Matlab坐标轴范围管理机制与性能优化
从‘ylim auto’到‘ylim manual’:深入理解Matlab坐标轴范围管理机制与性能优化 在数据可视化领域,Matlab作为一款强大的科学计算工具,其图形系统的精细控制能力常常被低估。当我们处理静态数据时,坐标轴范围的自动调整ÿ…...
【零基础部署】Ollama 部署 Qwen2.5 保姆级教程
你是否想在本地运行大语言模型,但又被复杂的环境配置劝退?Ollama 是一款轻量级的本地大模型运行工具,只需一行命令即可部署。Qwen2.5 是阿里巴巴通义千问团队推出的强大开源模型,支持多种规格。本教程将手把手带你通过 Ollama 在 Ubuntu 上部署 Qwen2.5,从安装到 API 调用…...
有人开源了一个完全不用向量数据库的 RAG 系统,在财务问答上准确率达 98.7%
有人开源了一个完全不用向量数据库的 RAG 系统,在财务问答上准确率达 98.7% | 传统 RAG 的核心机制是将文档切分为 chunk,经向量化后存入向量库,检索时通过语义相似度匹配。但"相似"不等于"相关"——这在专业领域尤其明显…...
OpenClaw(小龙虾)Windows 一键部署教程,零基础搭建本地 AI 智能体
OpenClaw 是一款面向本地自动化场景的轻量级执行框架,凭借稳定的系统级交互能力、简洁的架构设计及良好的扩展性,在桌面自动化、批量任务处理、办公效率提升等场景中广泛应用。与传统脚本工具相比,它无需编写复杂代码,通过自然语言…...
我为什么劝测试新人先别急着学自动化?
在软件测试行业,“自动化”这三个字几乎成了某种图腾。打开任何一个技术社区,铺天盖地的自动化测试框架教程、编程语言速成班广告、以及“不懂自动化就要被淘汰”的焦虑贩卖,像潮水一样涌向每一个刚踏入测试门槛的新人。不少新人在还没搞清楚…...
嵌入式Linux调试笔记(三十一)------SYSRQ机制在串口调试中的实战与内核实现剖析
1. SYSRQ机制:嵌入式Linux调试的"救命稻草" 在嵌入式Linux开发中,系统崩溃、死机、卡顿是家常便饭。想象一下,你的设备正在野外运行,突然系统卡死,没有图形界面,唯一的调试接口就是串口——这时候…...
别再死记硬背公式了!带你用‘小偷分金币’的故事彻底理解巴什博弈(Bash Game)
从"小偷分金币"到必胜策略:用生活故事破解巴什博弈 想象一下这个场景:两个小偷A和B刚偷了一袋金币,正坐在昏暗的灯光下准备分赃。桌上整齐地码放着30枚金光闪闪的硬币,他们约定轮流拿取,每次最少拿1枚&#…...
深度评测:五款主流AI框架在推理场景下的性能对比
1. 引言:从模型训练到推理部署的挑战随着深度学习模型在NLP、CV等领域取得突破性进展,AI能力的核心瓶颈正从“如何训练”转向“如何高效部署并推理”。对于开发者和基础设施工程师而言,在资源受限的边缘设备(如手机、IoTÿ…...
ElevenLabs客服机器人语音部署全链路:从API密钥配置到情感语调微调,手把手带跑通生产环境
更多请点击: https://intelliparadigm.com 第一章:ElevenLabs客服机器人语音部署全链路概览 ElevenLabs 提供高质量、低延迟的文本转语音(TTS)服务,是构建拟人化客服机器人的核心语音层。在实际生产环境中,…...
