SEO系列--robots.txt的用法
原文网址:SEO系列--robots.txt的用法-CSDN博客
简介
本文介绍网站的robots.txt文件的用法。
Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。
搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。
如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。
robots.txt文件格式
robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。
一条记录的格式如下所示:
<field>:<optional space><value><optionalspace>
- 可以使用#进行注解
- 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行
通配符
可以使用通配符*和$来模糊匹配url。
*:匹配0或多个任意字符
$:匹配行结束符。
User-agent
该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。
如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。
如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow
表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
例如:
- Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
- Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
Allow
表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
例如:
- Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。
Sitemap
表示站点地图的地址:
Sitemap: https://abc.com/mysitemap.txt
对于百度来说,支持以下两种Sitemap格式:
- txt文本格式
- xml格式
示例
最常用的配置
User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml
例1.允许所有的robot访问
User-agent: *
Allow: /
(或者也可以建一个空文件robots.txt)。
一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:
User-agent: *
Allow: /
Disallow: /*?*
例2.禁止所有搜索引擎访问网站的任何部分
user-agent: *
Disallow: /
例3.仅禁止Baiduspider访问您的网站
user-agent: Baiduspider
Disallow: /
例4.仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /
例5.仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /
例6.禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/
例7.允许访问特定目录中的部分url
User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8.使用*限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9.使用$限制访问url
仅允许访问以.htm为后缀的URL。
User-agent: *
Allow: *.htm$
Disallow: /
例10.禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps
例12.仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13.仅禁止Baiduspider抓取.Jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$
相关文章:
SEO系列--robots.txt的用法
原文网址:SEO系列--robots.txt的用法-CSDN博客 简介 本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。 搜索引擎使用spider…...

环形链表(快慢指针)
给你单链表的头节点 head ,请你反转链表,并返回反转后的链表 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环…...

vue day06
1、路由模块封装 2、声明式导航 实现导航高亮效果 直接通过这两个类名对相应标签设置样式 点击a链接进入my页面时,a链接 我的音乐高亮,同时my下的a、b页面中的 我的音乐也有router-link-active类,但没有精确匹配的类(只有my页…...
ffmpeg 输入文件,输入出udp-ts 指定pid、Programid ts流参数
要使用FFmpeg将输入文件转换为UDP传输流(TS)并指定特定的PID、Program ID以及其他TS流参数,您可以使用以下命令: ffmpeg -i input_file -c:v libx264 -preset ultrafast -tune zerolatency -f mpegts -map 0:v:0 -map 0:a:0 -pid …...

操作系统透视:从历史沿革到现代应用,剖析Linux与网站服务架构
目录 操作系统 windows macos Linux 服务器搭建网站 关于解释器的流程 curl -I命令 名词解释 dos bash/terminal,(终端) nginx/apache(Linux平台下的) iis(Windows平台下的) GUI(图形化管理接口ÿ…...
金蝶82新建员工信息维护菜单,并新建导入模板,导入时出现不能在此处导入模板
原因:82版本bug,校验了所有T_BS_SHRFileTemplate中 FDATANUMBER001的uipk 只要任意一个模板里面不包含当前列表的uipk就会抛出异常 解决办法: 将当前列表uipk加到其他FDATANUMBER001的模板中 例如: update T_BS_SHRFileTemplate set FU…...

套你npm镜像
套你npm镜像 大天才,给我错误镜像信息,然后npm install卡住!! gpt生成的淘宝镜像地址: https://registry.npm.taobao.org/安装情况:卡死如下… 正确镜像地址: # 更换npm config set registry…...

[网络安全]IIS---FTP服务器 、serverU详解
一 . FTP服务器(File Transfor Protocol) : 协议:文件传输协议 端口号:TCP: 20(数据) / 21(控制) 二 . FTP工作方式: 1.主动模式 : (FTP服务器21端口与FTP客户端产生的随机端口先建立连接 建立连接后,再使用FTP服务器21端口与FTP客户端创建的一个新的随机端口进行发送…...
校园自助洗浴设施运维服务认证的介绍
校园自助洗浴设施运维服务认证是一种针对校园自助洗浴设施运维服务质量的评估和认证体系。通过该认证,学校可以确保自助洗浴设施的安全、可靠、卫生和持续运行,为师生提供更好的洗浴体验。 自助洗浴设施运维服务通常包括的具体工作: 1.设备维…...
NetCore iText7 根据PDF模板 导出PDF文件
iText 7 是一个用于处理 PDF 文件的流行的开源库,它提供了丰富的功能,包括创建、编辑和处理 PDF 文档。它支持 .NET 平台,因此可以在 .NET Core 中使用该库来处理 PDF 文件。 使用 iText 7,您可以进行以下操作: 1. 创…...

Notion 开源替代品:兼容 Miro 绘图 | 开源日报 No.162
toeverything/AFFiNE Stars: 25.6k License: NOASSERTION AFFiNE 是下一代知识库,将规划、排序和创建集于一身。它是一个注重隐私、开源、可定制且即插即用的替代方案,可以与 Notion 和 Miro 相媲美。主要功能和优势包括: 超融合࿱…...

LangChain 81 LangGraph 从入门到精通三
LangChain系列文章 LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 62 深入理解Lang…...

Python学习从0到1 day13 Python数据容器.4.set集合、dict字典,映射
他往黑夜里去了,我陪他 ——24.2.4 一、set集合 1.为什么使用集合? 通过特性来分析: 列表可修改、支持重复元素且有序 元组、字符串不可修改、支持重复元素且有序 局限在于:它们都支持重复元素 当场景需要对内容进行去重处理&am…...
Java生成微信小程序二维码的方式有哪些?
大家好我是咕噜美乐蒂,很高兴又见面啦!今天我们来谈一下如何使用Java生成微信小程序二维码,有哪些方式方法呢? 生成微信小程序二维码是开发微信小程序时的常见需求之一。在Java中,我们可以使用多种方式来生成微信小程…...

一箭11星,吉利未来出行星座第二个轨道面部署完成!
临近春节,国内卫星产业又传来好消息! 2024年2月3日7时37分,11颗卫星通过长征二号丙运载火箭,在西昌卫星发射中心发射升空。火箭顺利将所有卫星送入预定轨道,所有卫星状态正常,发射任务获得圆满成功。 本次发…...
【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》
一、论文信息 1 标题 Continual Learning with Pre-Trained Models: A Survey 2 作者 Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan 3 研究机构 National Key Laboratory for Novel Software Technology, Nanjing University; School of Artifici…...
redis的AOF
redis 提供了两种持久化方式—— RDB(Redis DataBase) 和 AOF(Append Only File) ,可以将 Redis 在内存中的数据库状态保存到磁盘里。 RDB快照并不是很可靠。如果服务器突然宕机了,最新的数据就会丢失。除了 RDB 持久化功能之外,Redis 还提供…...
TDengine 签约杭州云润,助力某大型水表企业时序数据处理
在智慧电表水表的数据采集和存储过程中,时序数据处理成为一个重要的问题。由于电表水表数据具有时间序列的特点,传统的数据库和数据处理方式往往难以满足大规模数据的高速采集、存储和实时分析需求。因此,越来越多的企业开始进行数据架构改造…...
迷宫(蓝桥杯省赛C/C++)
题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 下图给出了一个迷宫的平面图,其中标记为 1 的为障碍,标记为 0 的为可以通行的地方。 010000 000100 001001 110000 迷宫的入口为左上角&am…...
Elastic Search
ES 与关系型数据库 MySQL 的数据参考关系 MySQLESdatabaseindextabletyperowdocumentcolumnfieldschemamappingindexdefaultsqlQuery DSL E-SQLES 安装启动 docker network ls | grep elastic || docker network create elastic version=8.3.3 docker run -d \ --name elas…...
Python|GIF 解析与构建(5):手搓截屏和帧率控制
目录 Python|GIF 解析与构建(5):手搓截屏和帧率控制 一、引言 二、技术实现:手搓截屏模块 2.1 核心原理 2.2 代码解析:ScreenshotData类 2.2.1 截图函数:capture_screen 三、技术实现&…...
golang循环变量捕获问题
在 Go 语言中,当在循环中启动协程(goroutine)时,如果在协程闭包中直接引用循环变量,可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下: 问题背景 看这个代码片段: fo…...

React第五十七节 Router中RouterProvider使用详解及注意事项
前言 在 React Router v6.4 中,RouterProvider 是一个核心组件,用于提供基于数据路由(data routers)的新型路由方案。 它替代了传统的 <BrowserRouter>,支持更强大的数据加载和操作功能(如 loader 和…...

JavaScript 中的 ES|QL:利用 Apache Arrow 工具
作者:来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。 想获得 Elastic 认证吗?了解下一期 Elasticsearch Engineer 培训的时间吧! Elasticsearch 拥有众多新功能,助你为自己…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...

[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
C++.OpenGL (10/64)基础光照(Basic Lighting)
基础光照(Basic Lighting) 冯氏光照模型(Phong Lighting Model) #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

网站指纹识别
网站指纹识别 网站的最基本组成:服务器(操作系统)、中间件(web容器)、脚本语言、数据厍 为什么要了解这些?举个例子:发现了一个文件读取漏洞,我们需要读/etc/passwd,如…...