SEO系列--robots.txt的用法
原文网址:SEO系列--robots.txt的用法-CSDN博客
简介
本文介绍网站的robots.txt文件的用法。
Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。
搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。
如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。
robots.txt文件格式
robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。
一条记录的格式如下所示:
<field>:<optional space><value><optionalspace>
- 可以使用#进行注解
- 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行
通配符
可以使用通配符*和$来模糊匹配url。
*:匹配0或多个任意字符
$:匹配行结束符。
User-agent
该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。
如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。
如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。
Disallow
表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。
例如:
- Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
- Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。
Allow
表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。
例如:
- Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。
Sitemap
表示站点地图的地址:
Sitemap: https://abc.com/mysitemap.txt
对于百度来说,支持以下两种Sitemap格式:
- txt文本格式
- xml格式
示例
最常用的配置
User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml
例1.允许所有的robot访问
User-agent: *
Allow: /
(或者也可以建一个空文件robots.txt)。
一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:
User-agent: *
Allow: /
Disallow: /*?*
例2.禁止所有搜索引擎访问网站的任何部分
user-agent: *
Disallow: /
例3.仅禁止Baiduspider访问您的网站
user-agent: Baiduspider
Disallow: /
例4.仅允许Baiduspider访问您的网站
User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /
例5.仅允许Baiduspider以及Googlebot访问
User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /
例6.禁止spider访问特定目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/
例7.允许访问特定目录中的部分url
User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例8.使用*限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例9.使用$限制访问url
仅允许访问以.htm为后缀的URL。
User-agent: *
Allow: *.htm$
Disallow: /
例10.禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。
user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps
例12.仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片
User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$
例13.仅禁止Baiduspider抓取.Jpg格式图片
User-agent: Baiduspider
Disallow: /*.jpg$
相关文章:
SEO系列--robots.txt的用法
原文网址:SEO系列--robots.txt的用法-CSDN博客 简介 本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。 搜索引擎使用spider…...

环形链表(快慢指针)
给你单链表的头节点 head ,请你反转链表,并返回反转后的链表 给你一个链表的头节点 head ,判断链表中是否有环。 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环…...

vue day06
1、路由模块封装 2、声明式导航 实现导航高亮效果 直接通过这两个类名对相应标签设置样式 点击a链接进入my页面时,a链接 我的音乐高亮,同时my下的a、b页面中的 我的音乐也有router-link-active类,但没有精确匹配的类(只有my页…...
ffmpeg 输入文件,输入出udp-ts 指定pid、Programid ts流参数
要使用FFmpeg将输入文件转换为UDP传输流(TS)并指定特定的PID、Program ID以及其他TS流参数,您可以使用以下命令: ffmpeg -i input_file -c:v libx264 -preset ultrafast -tune zerolatency -f mpegts -map 0:v:0 -map 0:a:0 -pid …...

操作系统透视:从历史沿革到现代应用,剖析Linux与网站服务架构
目录 操作系统 windows macos Linux 服务器搭建网站 关于解释器的流程 curl -I命令 名词解释 dos bash/terminal,(终端) nginx/apache(Linux平台下的) iis(Windows平台下的) GUI(图形化管理接口ÿ…...
金蝶82新建员工信息维护菜单,并新建导入模板,导入时出现不能在此处导入模板
原因:82版本bug,校验了所有T_BS_SHRFileTemplate中 FDATANUMBER001的uipk 只要任意一个模板里面不包含当前列表的uipk就会抛出异常 解决办法: 将当前列表uipk加到其他FDATANUMBER001的模板中 例如: update T_BS_SHRFileTemplate set FU…...

套你npm镜像
套你npm镜像 大天才,给我错误镜像信息,然后npm install卡住!! gpt生成的淘宝镜像地址: https://registry.npm.taobao.org/安装情况:卡死如下… 正确镜像地址: # 更换npm config set registry…...

[网络安全]IIS---FTP服务器 、serverU详解
一 . FTP服务器(File Transfor Protocol) : 协议:文件传输协议 端口号:TCP: 20(数据) / 21(控制) 二 . FTP工作方式: 1.主动模式 : (FTP服务器21端口与FTP客户端产生的随机端口先建立连接 建立连接后,再使用FTP服务器21端口与FTP客户端创建的一个新的随机端口进行发送…...
校园自助洗浴设施运维服务认证的介绍
校园自助洗浴设施运维服务认证是一种针对校园自助洗浴设施运维服务质量的评估和认证体系。通过该认证,学校可以确保自助洗浴设施的安全、可靠、卫生和持续运行,为师生提供更好的洗浴体验。 自助洗浴设施运维服务通常包括的具体工作: 1.设备维…...
NetCore iText7 根据PDF模板 导出PDF文件
iText 7 是一个用于处理 PDF 文件的流行的开源库,它提供了丰富的功能,包括创建、编辑和处理 PDF 文档。它支持 .NET 平台,因此可以在 .NET Core 中使用该库来处理 PDF 文件。 使用 iText 7,您可以进行以下操作: 1. 创…...

Notion 开源替代品:兼容 Miro 绘图 | 开源日报 No.162
toeverything/AFFiNE Stars: 25.6k License: NOASSERTION AFFiNE 是下一代知识库,将规划、排序和创建集于一身。它是一个注重隐私、开源、可定制且即插即用的替代方案,可以与 Notion 和 Miro 相媲美。主要功能和优势包括: 超融合࿱…...

LangChain 81 LangGraph 从入门到精通三
LangChain系列文章 LangChain 60 深入理解LangChain 表达式语言23 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 61 深入理解LangChain 表达式语言24 multiple chains链透传参数 LangChain Expression Language (LCEL)LangChain 62 深入理解Lang…...

Python学习从0到1 day13 Python数据容器.4.set集合、dict字典,映射
他往黑夜里去了,我陪他 ——24.2.4 一、set集合 1.为什么使用集合? 通过特性来分析: 列表可修改、支持重复元素且有序 元组、字符串不可修改、支持重复元素且有序 局限在于:它们都支持重复元素 当场景需要对内容进行去重处理&am…...
Java生成微信小程序二维码的方式有哪些?
大家好我是咕噜美乐蒂,很高兴又见面啦!今天我们来谈一下如何使用Java生成微信小程序二维码,有哪些方式方法呢? 生成微信小程序二维码是开发微信小程序时的常见需求之一。在Java中,我们可以使用多种方式来生成微信小程…...

一箭11星,吉利未来出行星座第二个轨道面部署完成!
临近春节,国内卫星产业又传来好消息! 2024年2月3日7时37分,11颗卫星通过长征二号丙运载火箭,在西昌卫星发射中心发射升空。火箭顺利将所有卫星送入预定轨道,所有卫星状态正常,发射任务获得圆满成功。 本次发…...
【持续学习系列(九)】《Continual Learning with Pre-Trained Models: A Survey》
一、论文信息 1 标题 Continual Learning with Pre-Trained Models: A Survey 2 作者 Da-Wei Zhou, Hai-Long Sun, Jingyi Ning, Han-Jia Ye, De-Chuan Zhan 3 研究机构 National Key Laboratory for Novel Software Technology, Nanjing University; School of Artifici…...
redis的AOF
redis 提供了两种持久化方式—— RDB(Redis DataBase) 和 AOF(Append Only File) ,可以将 Redis 在内存中的数据库状态保存到磁盘里。 RDB快照并不是很可靠。如果服务器突然宕机了,最新的数据就会丢失。除了 RDB 持久化功能之外,Redis 还提供…...
TDengine 签约杭州云润,助力某大型水表企业时序数据处理
在智慧电表水表的数据采集和存储过程中,时序数据处理成为一个重要的问题。由于电表水表数据具有时间序列的特点,传统的数据库和数据处理方式往往难以满足大规模数据的高速采集、存储和实时分析需求。因此,越来越多的企业开始进行数据架构改造…...
迷宫(蓝桥杯省赛C/C++)
题目描述 本题为填空题,只需要算出结果后,在代码中使用输出语句将所填结果输出即可。 下图给出了一个迷宫的平面图,其中标记为 1 的为障碍,标记为 0 的为可以通行的地方。 010000 000100 001001 110000 迷宫的入口为左上角&am…...
Elastic Search
ES 与关系型数据库 MySQL 的数据参考关系 MySQLESdatabaseindextabletyperowdocumentcolumnfieldschemamappingindexdefaultsqlQuery DSL E-SQLES 安装启动 docker network ls | grep elastic || docker network create elastic version=8.3.3 docker run -d \ --name elas…...
在 Allegro PCB Editor 中取消(解除或删除)已创建的 **Module** 的操作指南
在 Allegro PCB Editor 中取消(解除或删除)已创建的 Module 有两种主要场景,操作也不同: 📌 场景一:仅想解除元件与 Module 的关联(保留元件位置和布线,但可独立编辑) …...
NoSQL之redis哨兵
一、哨兵的核心功能 监控(Monitoring) 持续检查主节点和从节点的运行状态(是否存活、延迟等)。 自动故障转移(Automatic Failover) 当主节点不可用时,自动选举一个从节点升级为主节点。 更新…...
RNN循环网络:给AI装上“记忆“(superior哥AI系列第5期)
🔄 RNN循环网络:给AI装上"记忆"(superior哥AI系列第5期) 嘿!小伙伴们,又见面啦!👋 上期我们学会了让AI"看懂"图片,今天要给AI装上一个更酷的技能——…...

【论文阅读笔记】万花筒:用于异构多智能体强化学习的可学习掩码
摘要 在多智能体强化学习(MARL)中,通常采用参数共享来提高样本效率。然而,全参数共享的流行方法通常会导致智能体之间的策略同质,这可能会限制从策略多样性中获得的性能优势。为了解决这一关键限制,我们提出…...
动静态库的使用(Linux下)
1.库 通俗来说,库就是现有的,可复用的代码,例如:在C/C语言编译时,就需要依赖相关的C/C标准库。本质上来说库是一种可执行代码的二进制形式,可以被操作系统载入内存执行。通常我们可以在windows下看到一些后…...

CppCon 2015 学习:C++ in the audio industry
实时编程(real-time programming):音频处理对延迟极度敏感,要求代码必须非常高效且稳定。无锁线程同步(lock-free thread synchronization):避免阻塞,提高性能,尤其是在多…...

Vue3 + UniApp 蓝牙连接与数据发送(稳定版)
本教程适用于使用 uni-app Vue3 (script setup) 开发的跨平台 App(支持微信小程序、H5、Android/iOS 等) 🎯 功能目标 ✅ 获取蓝牙权限✅ 扫描周围蓝牙设备✅ 连接指定蓝牙设备✅ 获取服务和特征值✅ 向设备发送数据包(ArrayBu…...
Vue中的自定义事件
一、前言 在 Vue 的组件化开发中,组件之间的数据通信是构建复杂应用的关键。而其中最常见、最推荐的方式之一就是通过 自定义事件(Custom Events) 来实现父子组件之间的交互。 本文将带你深入了解: Vue 中事件的基本概念如何在…...
Mysql的B-树和B+树的区别总结
B 树也称 B- 树,全称为 多路平衡查找树,B 树是 B 树的一种变体。B 树和 B 树中的 B 是 Balanced(平衡)的意思。 目前大部分数据库系统及文件系统都采用 B-Tree 或其变种 BTree 作为索引结构。 B 树& B 树两者有何异同呢&…...

视频汇聚平台EasyCVR“明厨亮灶”方案筑牢旅游景区餐饮安全品质防线
一、背景分析 1)政策监管刚性需求:国家食品安全战略及 2024年《关于深化智慧城市发展的指导意见》要求构建智慧餐饮场景,推动数字化监管。多地将“AI明厨亮灶”纳入十四五规划考核,要求餐饮单位操作可视化并具备风险预警能力…...