当前位置: 首页 > news >正文

SEO系列--robots.txt的用法

原文网址:SEO系列--robots.txt的用法-CSDN博客

简介

本文介绍网站的robots.txt文件的用法。

Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。

搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。

如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。

robots.txt文件格式

robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。

一条记录的格式如下所示:

<field>:<optional space><value><optionalspace>
  1. 可以使用#进行注解
  2. 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行

通配符

可以使用通配符*和$来模糊匹配url。

*:匹配0或多个任意字符
$:匹配行结束符。

User-agent

该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。

如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。

如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。

例如:

  • Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
  • Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

Allow

表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。

例如:

  • Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。

Sitemap

表示站点地图的地址:

Sitemap: https://abc.com/mysitemap.txt

对于百度来说,支持以下两种Sitemap格式:

  1. txt文本格式
  2. xml格式

示例

最常用的配置 

User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml

例1.允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件robots.txt)。

一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:

User-agent: *
Allow: /
Disallow: /*?*

例2.禁止所有搜索引擎访问网站的任何部分

user-agent: *
Disallow: /

例3.仅禁止Baiduspider访问您的网站

user-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /

例5.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /

例6.禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/

例7.允许访问特定目录中的部分url

User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8.使用*限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm


例9.使用$限制访问url

仅允许访问以.htm为后缀的URL。

User-agent: *
Allow: *.htm$
Disallow: /

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps

例12.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13.仅禁止Baiduspider抓取.Jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

相关文章:

SEO系列--robots.txt的用法

原文网址&#xff1a;SEO系列--robots.txt的用法-CSDN博客 简介 本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道&#xff0c;站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。 搜索引擎使用spider…...

环形链表(快慢指针)

给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表 给你一个链表的头节点 head &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环…...

vue day06

1、路由模块封装 2、声明式导航 实现导航高亮效果 直接通过这两个类名对相应标签设置样式 点击a链接进入my页面时&#xff0c;a链接 我的音乐高亮&#xff0c;同时my下的a、b页面中的 我的音乐也有router-link-active类&#xff0c;但没有精确匹配的类&#xff08;只有my页…...

ffmpeg 输入文件,输入出udp-ts 指定pid、Programid ts流参数

要使用FFmpeg将输入文件转换为UDP传输流&#xff08;TS&#xff09;并指定特定的PID、Program ID以及其他TS流参数&#xff0c;您可以使用以下命令&#xff1a; ffmpeg -i input_file -c:v libx264 -preset ultrafast -tune zerolatency -f mpegts -map 0:v:0 -map 0:a:0 -pid …...

操作系统透视:从历史沿革到现代应用,剖析Linux与网站服务架构

目录 操作系统 windows macos Linux 服务器搭建网站 关于解释器的流程 curl -I命令 名词解释 dos bash/terminal&#xff0c;(终端) nginx/apache&#xff08;Linux平台下的&#xff09; iis&#xff08;Windows平台下的&#xff09; GUI(图形化管理接口&#xff…...

金蝶82新建员工信息维护菜单,并新建导入模板,导入时出现不能在此处导入模板

原因&#xff1a;82版本bug&#xff0c;校验了所有T_BS_SHRFileTemplate中 FDATANUMBER001的uipk 只要任意一个模板里面不包含当前列表的uipk就会抛出异常 解决办法&#xff1a; 将当前列表uipk加到其他FDATANUMBER001的模板中 例如: update T_BS_SHRFileTemplate set FU…...

套你npm镜像

套你npm镜像 大天才&#xff0c;给我错误镜像信息&#xff0c;然后npm install卡住&#xff01;&#xff01; gpt生成的淘宝镜像地址&#xff1a; https://registry.npm.taobao.org/安装情况&#xff1a;卡死如下… 正确镜像地址&#xff1a; # 更换npm config set registry…...

[网络安全]IIS---FTP服务器 、serverU详解

一 . FTP服务器(File Transfor Protocol) : 协议:文件传输协议 端口号:TCP: 20(数据) / 21(控制) 二 . FTP工作方式: 1.主动模式 : (FTP服务器21端口与FTP客户端产生的随机端口先建立连接 建立连接后,再使用FTP服务器21端口与FTP客户端创建的一个新的随机端口进行发送…...

校园自助洗浴设施运维服务认证的介绍

校园自助洗浴设施运维服务认证是一种针对校园自助洗浴设施运维服务质量的评估和认证体系。通过该认证&#xff0c;学校可以确保自助洗浴设施的安全、可靠、卫生和持续运行&#xff0c;为师生提供更好的洗浴体验。 自助洗浴设施运维服务通常包括的具体工作&#xff1a; 1.设备维…...

NetCore iText7 根据PDF模板 导出PDF文件

iText 7 是一个用于处理 PDF 文件的流行的开源库&#xff0c;它提供了丰富的功能&#xff0c;包括创建、编辑和处理 PDF 文档。它支持 .NET 平台&#xff0c;因此可以在 .NET Core 中使用该库来处理 PDF 文件。 使用 iText 7&#xff0c;您可以进行以下操作&#xff1a; 1. 创…...

Notion 开源替代品:兼容 Miro 绘图 | 开源日报 No.162

toeverything/AFFiNE Stars: 25.6k License: NOASSERTION AFFiNE 是下一代知识库&#xff0c;将规划、排序和创建集于一身。它是一个注重隐私、开源、可定制且即插即用的替代方案&#xff0c;可以与 Notion 和 Miro 相媲美。主要功能和优势包括&#xff1a; 超融合&#xff1…...

LangChain 81 LangGraph 从入门到精通三

LangChain系列文章 LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 62 深入理解Lang…...

Python学习从0到1 day13 Python数据容器.4.set集合、dict字典,映射

他往黑夜里去了&#xff0c;我陪他 ——24.2.4 一、set集合 1.为什么使用集合&#xff1f; 通过特性来分析&#xff1a; 列表可修改、支持重复元素且有序 元组、字符串不可修改、支持重复元素且有序 局限在于&#xff1a;它们都支持重复元素 当场景需要对内容进行去重处理&am…...

Java生成微信小程序二维码的方式有哪些?

大家好我是咕噜美乐蒂&#xff0c;很高兴又见面啦&#xff01;今天我们来谈一下如何使用Java生成微信小程序二维码&#xff0c;有哪些方式方法呢&#xff1f; 生成微信小程序二维码是开发微信小程序时的常见需求之一。在Java中&#xff0c;我们可以使用多种方式来生成微信小程…...

一箭11星,吉利未来出行星座第二个轨道面部署完成!

临近春节&#xff0c;国内卫星产业又传来好消息&#xff01; 2024年2月3日7时37分&#xff0c;11颗卫星通过长征二号丙运载火箭&#xff0c;在西昌卫星发射中心发射升空。火箭顺利将所有卫星送入预定轨道&#xff0c;所有卫星状态正常&#xff0c;发射任务获得圆满成功。 本次发…...

【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》

一、论文信息 1 标题 Continual Learning with Pre-Trained Models: A Survey 2 作者 Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan 3 研究机构 National Key Laboratory for Novel Software Technology, Nanjing University; School of Artifici…...

redis的AOF

redis 提供了两种持久化方式—— RDB(Redis DataBase) 和 AOF(Append Only File) &#xff0c;可以将 Redis 在内存中的数据库状态保存到磁盘里。 RDB快照并不是很可靠。如果服务器突然宕机了&#xff0c;最新的数据就会丢失。除了 RDB 持久化功能之外&#xff0c;Redis 还提供…...

TDengine 签约杭州云润,助力某大型水表企业时序数据处理

在智慧电表水表的数据采集和存储过程中&#xff0c;时序数据处理成为一个重要的问题。由于电表水表数据具有时间序列的特点&#xff0c;传统的数据库和数据处理方式往往难以满足大规模数据的高速采集、存储和实时分析需求。因此&#xff0c;越来越多的企业开始进行数据架构改造…...

迷宫(蓝桥杯省赛C/C++)

题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 下图给出了一个迷宫的平面图&#xff0c;其中标记为 1 的为障碍&#xff0c;标记为 0 的为可以通行的地方。 010000 000100 001001 110000 迷宫的入口为左上角&am…...

Elastic Search

ES 与关系型数据库 MySQL 的数据参考关系 MySQLESdatabaseindextabletyperowdocumentcolumnfieldschemamappingindexdefaultsqlQuery DSL E-SQLES 安装启动 docker network ls | grep elastic || docker network create elastic version=8.3.3 docker run -d \ --name elas…...

XCTF-web-easyupload

试了试php&#xff0c;php7&#xff0c;pht&#xff0c;phtml等&#xff0c;都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接&#xff0c;得到flag...

STM32标准库-DMA直接存储器存取

文章目录 一、DMA1.1简介1.2存储器映像1.3DMA框图1.4DMA基本结构1.5DMA请求1.6数据宽度与对齐1.7数据转运DMA1.8ADC扫描模式DMA 二、数据转运DMA2.1接线图2.2代码2.3相关API 一、DMA 1.1简介 DMA&#xff08;Direct Memory Access&#xff09;直接存储器存取 DMA可以提供外设…...

Caliper 配置文件解析:config.yaml

Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...

智能仓储的未来:自动化、AI与数据分析如何重塑物流中心

当仓库学会“思考”&#xff0c;物流的终极形态正在诞生 想象这样的场景&#xff1a; 凌晨3点&#xff0c;某物流中心灯火通明却空无一人。AGV机器人集群根据实时订单动态规划路径&#xff1b;AI视觉系统在0.1秒内扫描包裹信息&#xff1b;数字孪生平台正模拟次日峰值流量压力…...

NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中&#xff0c;车辆不再仅仅是传统的交通工具&#xff0c;而是逐步演变为高度智能的移动终端。这一转变的核心支撑&#xff0c;来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒&#xff08;T-Box&#xff09;方案&#xff1a;NXP S32K146 与…...

华为OD机考-机房布局

import java.util.*;public class DemoTest5 {public static void main(String[] args) {Scanner in new Scanner(System.in);// 注意 hasNext 和 hasNextLine 的区别while (in.hasNextLine()) { // 注意 while 处理多个 caseSystem.out.println(solve(in.nextLine()));}}priv…...

uniapp 集成腾讯云 IM 富媒体消息(地理位置/文件)

UniApp 集成腾讯云 IM 富媒体消息全攻略&#xff08;地理位置/文件&#xff09; 一、功能实现原理 腾讯云 IM 通过 消息扩展机制 支持富媒体类型&#xff0c;核心实现方式&#xff1a; 标准消息类型&#xff1a;直接使用 SDK 内置类型&#xff08;文件、图片等&#xff09;自…...

边缘计算网关提升水产养殖尾水处理的远程运维效率

一、项目背景 随着水产养殖行业的快速发展&#xff0c;养殖尾水的处理成为了一个亟待解决的环保问题。传统的尾水处理方式不仅效率低下&#xff0c;而且难以实现精准监控和管理。为了提升尾水处理的效果和效率&#xff0c;同时降低人力成本&#xff0c;某大型水产养殖企业决定…...

ubuntu中安装conda的后遗症

缘由: 在编译rk3588的sdk时&#xff0c;遇到编译buildroot失败&#xff0c;提示如下&#xff1a; 提示缺失expect&#xff0c;但是实测相关工具是在的&#xff0c;如下显示&#xff1a; 然后查找借助各个ai工具&#xff0c;重新安装相关的工具&#xff0c;依然无解。 解决&am…...

二维数组 行列混淆区分 js

二维数组定义 行 row&#xff1a;是“横着的一整行” 列 column&#xff1a;是“竖着的一整列” 在 JavaScript 里访问二维数组 grid[i][j] 表示 第i行第j列的元素 let grid [[1, 2, 3], // 第0行[4, 5, 6], // 第1行[7, 8, 9] // 第2行 ];// grid[i][j] 表示 第i行第j列的…...