当前位置: 首页 > news >正文

SEO系列--robots.txt的用法

原文网址:SEO系列--robots.txt的用法-CSDN博客

简介

本文介绍网站的robots.txt文件的用法。

Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。

搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。

如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。

robots.txt文件格式

robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。

一条记录的格式如下所示:

<field>:<optional space><value><optionalspace>
  1. 可以使用#进行注解
  2. 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行

通配符

可以使用通配符*和$来模糊匹配url。

*:匹配0或多个任意字符
$:匹配行结束符。

User-agent

该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。

如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。

如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。

例如:

  • Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
  • Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

Allow

表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。

例如:

  • Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。

Sitemap

表示站点地图的地址:

Sitemap: https://abc.com/mysitemap.txt

对于百度来说,支持以下两种Sitemap格式:

  1. txt文本格式
  2. xml格式

示例

最常用的配置 

User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml

例1.允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件robots.txt)。

一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:

User-agent: *
Allow: /
Disallow: /*?*

例2.禁止所有搜索引擎访问网站的任何部分

user-agent: *
Disallow: /

例3.仅禁止Baiduspider访问您的网站

user-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /

例5.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /

例6.禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/

例7.允许访问特定目录中的部分url

User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8.使用*限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm


例9.使用$限制访问url

仅允许访问以.htm为后缀的URL。

User-agent: *
Allow: *.htm$
Disallow: /

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps

例12.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13.仅禁止Baiduspider抓取.Jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

相关文章:

SEO系列--robots.txt的用法

原文网址&#xff1a;SEO系列--robots.txt的用法-CSDN博客 简介 本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道&#xff0c;站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。 搜索引擎使用spider…...

环形链表(快慢指针)

给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表 给你一个链表的头节点 head &#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环…...

vue day06

1、路由模块封装 2、声明式导航 实现导航高亮效果 直接通过这两个类名对相应标签设置样式 点击a链接进入my页面时&#xff0c;a链接 我的音乐高亮&#xff0c;同时my下的a、b页面中的 我的音乐也有router-link-active类&#xff0c;但没有精确匹配的类&#xff08;只有my页…...

ffmpeg 输入文件,输入出udp-ts 指定pid、Programid ts流参数

要使用FFmpeg将输入文件转换为UDP传输流&#xff08;TS&#xff09;并指定特定的PID、Program ID以及其他TS流参数&#xff0c;您可以使用以下命令&#xff1a; ffmpeg -i input_file -c:v libx264 -preset ultrafast -tune zerolatency -f mpegts -map 0:v:0 -map 0:a:0 -pid …...

操作系统透视:从历史沿革到现代应用,剖析Linux与网站服务架构

目录 操作系统 windows macos Linux 服务器搭建网站 关于解释器的流程 curl -I命令 名词解释 dos bash/terminal&#xff0c;(终端) nginx/apache&#xff08;Linux平台下的&#xff09; iis&#xff08;Windows平台下的&#xff09; GUI(图形化管理接口&#xff…...

金蝶82新建员工信息维护菜单,并新建导入模板,导入时出现不能在此处导入模板

原因&#xff1a;82版本bug&#xff0c;校验了所有T_BS_SHRFileTemplate中 FDATANUMBER001的uipk 只要任意一个模板里面不包含当前列表的uipk就会抛出异常 解决办法&#xff1a; 将当前列表uipk加到其他FDATANUMBER001的模板中 例如: update T_BS_SHRFileTemplate set FU…...

套你npm镜像

套你npm镜像 大天才&#xff0c;给我错误镜像信息&#xff0c;然后npm install卡住&#xff01;&#xff01; gpt生成的淘宝镜像地址&#xff1a; https://registry.npm.taobao.org/安装情况&#xff1a;卡死如下… 正确镜像地址&#xff1a; # 更换npm config set registry…...

[网络安全]IIS---FTP服务器 、serverU详解

一 . FTP服务器(File Transfor Protocol) : 协议:文件传输协议 端口号:TCP: 20(数据) / 21(控制) 二 . FTP工作方式: 1.主动模式 : (FTP服务器21端口与FTP客户端产生的随机端口先建立连接 建立连接后,再使用FTP服务器21端口与FTP客户端创建的一个新的随机端口进行发送…...

校园自助洗浴设施运维服务认证的介绍

校园自助洗浴设施运维服务认证是一种针对校园自助洗浴设施运维服务质量的评估和认证体系。通过该认证&#xff0c;学校可以确保自助洗浴设施的安全、可靠、卫生和持续运行&#xff0c;为师生提供更好的洗浴体验。 自助洗浴设施运维服务通常包括的具体工作&#xff1a; 1.设备维…...

NetCore iText7 根据PDF模板 导出PDF文件

iText 7 是一个用于处理 PDF 文件的流行的开源库&#xff0c;它提供了丰富的功能&#xff0c;包括创建、编辑和处理 PDF 文档。它支持 .NET 平台&#xff0c;因此可以在 .NET Core 中使用该库来处理 PDF 文件。 使用 iText 7&#xff0c;您可以进行以下操作&#xff1a; 1. 创…...

Notion 开源替代品:兼容 Miro 绘图 | 开源日报 No.162

toeverything/AFFiNE Stars: 25.6k License: NOASSERTION AFFiNE 是下一代知识库&#xff0c;将规划、排序和创建集于一身。它是一个注重隐私、开源、可定制且即插即用的替代方案&#xff0c;可以与 Notion 和 Miro 相媲美。主要功能和优势包括&#xff1a; 超融合&#xff1…...

LangChain 81 LangGraph 从入门到精通三

LangChain系列文章 LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 62 深入理解Lang…...

Python学习从0到1 day13 Python数据容器.4.set集合、dict字典,映射

他往黑夜里去了&#xff0c;我陪他 ——24.2.4 一、set集合 1.为什么使用集合&#xff1f; 通过特性来分析&#xff1a; 列表可修改、支持重复元素且有序 元组、字符串不可修改、支持重复元素且有序 局限在于&#xff1a;它们都支持重复元素 当场景需要对内容进行去重处理&am…...

Java生成微信小程序二维码的方式有哪些?

大家好我是咕噜美乐蒂&#xff0c;很高兴又见面啦&#xff01;今天我们来谈一下如何使用Java生成微信小程序二维码&#xff0c;有哪些方式方法呢&#xff1f; 生成微信小程序二维码是开发微信小程序时的常见需求之一。在Java中&#xff0c;我们可以使用多种方式来生成微信小程…...

一箭11星,吉利未来出行星座第二个轨道面部署完成!

临近春节&#xff0c;国内卫星产业又传来好消息&#xff01; 2024年2月3日7时37分&#xff0c;11颗卫星通过长征二号丙运载火箭&#xff0c;在西昌卫星发射中心发射升空。火箭顺利将所有卫星送入预定轨道&#xff0c;所有卫星状态正常&#xff0c;发射任务获得圆满成功。 本次发…...

【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》

一、论文信息 1 标题 Continual Learning with Pre-Trained Models: A Survey 2 作者 Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan 3 研究机构 National Key Laboratory for Novel Software Technology, Nanjing University; School of Artifici…...

redis的AOF

redis 提供了两种持久化方式—— RDB(Redis DataBase) 和 AOF(Append Only File) &#xff0c;可以将 Redis 在内存中的数据库状态保存到磁盘里。 RDB快照并不是很可靠。如果服务器突然宕机了&#xff0c;最新的数据就会丢失。除了 RDB 持久化功能之外&#xff0c;Redis 还提供…...

TDengine 签约杭州云润,助力某大型水表企业时序数据处理

在智慧电表水表的数据采集和存储过程中&#xff0c;时序数据处理成为一个重要的问题。由于电表水表数据具有时间序列的特点&#xff0c;传统的数据库和数据处理方式往往难以满足大规模数据的高速采集、存储和实时分析需求。因此&#xff0c;越来越多的企业开始进行数据架构改造…...

迷宫(蓝桥杯省赛C/C++)

题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 下图给出了一个迷宫的平面图&#xff0c;其中标记为 1 的为障碍&#xff0c;标记为 0 的为可以通行的地方。 010000 000100 001001 110000 迷宫的入口为左上角&am…...

Elastic Search

ES 与关系型数据库 MySQL 的数据参考关系 MySQLESdatabaseindextabletyperowdocumentcolumnfieldschemamappingindexdefaultsqlQuery DSL E-SQLES 安装启动 docker network ls | grep elastic || docker network create elastic version=8.3.3 docker run -d \ --name elas…...

Scalatra 异步编程完整指南:构建高性能 Web 服务

Scalatra 异步编程完整指南&#xff1a;构建高性能 Web 服务 【免费下载链接】scalatra Tiny Scala high-performance, async web framework, inspired by Sinatra 项目地址: https://gitcode.com/gh_mirrors/sc/scalatra Scalatra 是一个轻量级、高性能的 Scala Web 微…...

深入解析PG332 ERNIC:基于RoCE v2的嵌入式RDMA加速引擎

1. PG332 ERNIC&#xff1a;重新定义嵌入式网络加速 第一次接触PG332 ERNIC这个IP核时&#xff0c;我正为一个工业视觉项目头疼——传统TCP/IP协议栈的延迟让机械臂控制指令总是慢半拍。直到测试了基于RoCE v2的ERNIC方案&#xff0c;端到端延迟直接从毫秒级降到微秒级&#xf…...

机械臂速成小指南(十九):圆弧轨迹平滑优化与MATLAB实践

1. 机械臂圆弧轨迹规划基础概念 机械臂的圆弧轨迹规划是工业自动化中的常见需求&#xff0c;比如在焊接、喷涂、装配等场景中&#xff0c;机械臂末端需要沿着圆弧路径运动。与直线轨迹相比&#xff0c;圆弧轨迹需要考虑更多的几何约束和运动连续性。 在实际应用中&#xff0c;圆…...

FSearch:让Linux文件搜索快到极致的GTK3神器,告别find命令的漫长等待

FSearch&#xff1a;让Linux文件搜索快到极致的GTK3神器&#xff0c;告别find命令的漫长等待 【免费下载链接】fsearch A fast file search utility for Unix-like systems based on GTK3 项目地址: https://gitcode.com/gh_mirrors/fs/fsearch 还在为Linux系统中查找文…...

Stepper595:基于74HC595的轻量步进电机驱动库

1. Stepper595库概述&#xff1a;基于74HC595的轻量级步进电机驱动方案Stepper595是一个面向资源受限嵌入式平台的精简型步进电机控制库&#xff0c;其核心设计哲学是“用最少的硬件引脚、最简的时序逻辑、最低的代码开销实现可靠双电机协同控制”。该库不依赖传统GPIO逐位模拟…...

HJ165 小红的优惠券

题目题解(36)讨论(31)排行 入门 通过率&#xff1a;49.28% 时间限制&#xff1a;1秒 空间限制&#xff1a;256M 知识点贪心 校招时部分企业笔试将禁止编程题跳出页面&#xff0c;为提前适应&#xff0c;练习时请使用在线自测&#xff0c;而非本地IDE。 描述 小红的购物车…...

贾子智慧定理(Kucius Wisdom Theorem):悟空·洞察·永续——东西方智慧融合的三大定律体系

贾子智慧定理&#xff08;Kucius Wisdom Theorem&#xff09;&#xff1a;悟空洞察永续——东西方智慧融合的三大定律体系摘要贾子智慧定理&#xff08;Kucius Wisdom Theorem&#xff09;由Kucius Teng于2025年3月提出&#xff0c;2026年4月正式发布&#xff0c;融合东西方文化…...

单目相机实战:用OpenCV的solvePnP实现物体位姿估计(附Python代码)

单目相机实战&#xff1a;用OpenCV的solvePnP实现物体位姿估计&#xff08;附Python代码&#xff09; 在机器人导航、增强现实和工业检测等领域&#xff0c;精确获取物体相对于相机的位置和姿态是关键挑战。单目相机因其成本优势和轻量化特点&#xff0c;成为许多视觉系统的首选…...

Qt+OpenGL实战:从SOLIDWORKS到UR3机械臂OBJ模型渲染全流程

QtOpenGL实战&#xff1a;从SOLIDWORKS到UR3机械臂OBJ模型渲染全流程 在机器人仿真开发领域&#xff0c;将工业设计软件中的精密模型转化为可交互的三维可视化应用是一个关键且具有挑战性的环节。UR3协作机械臂作为工业自动化领域的明星产品&#xff0c;其高精度模型的渲染与操…...

微信小程序解包神器:wxappUnpacker 完整使用指南与源码还原技巧

微信小程序解包神器&#xff1a;wxappUnpacker 完整使用指南与源码还原技巧 【免费下载链接】wxappUnpacker 项目地址: https://gitcode.com/gh_mirrors/wxappu/wxappUnpacker 你是否曾经好奇过微信小程序背后的实现原理&#xff1f;或者想要学习优秀小程序的开发技巧却…...