Skip to main content
 Web开发网 » 站长学院 » Wordpress教程

关于WordPress的robots.txt文件的那些事

2021年07月15日9520百度已收录

  安装完wordpress站点后关于robots.txt文件的书写一直烦恼着很多站长,Robots.txt文件协议又叫搜索引擎机器人协议,搜索引擎爬虫在爬取网站的时候,首先会看网站根目录下是否有robots.txt文件,然后遵循robots.txt协议爬取网站主希望搜索引擎爬取的内容。robots.txt文件意在告诉搜索引擎爬虫哪些页面可以爬取,哪些页面不能爬取,可以有效的保护用户的隐私,同时也有利于节省蜘蛛的带宽,从而让蜘蛛爬取更加容易,促进收录。

  先来简单的说下robots.txt文件的规则:

  1、允许所有的搜索引起爬取任何内容

  User-agent: *

  Disallow:

  这个意思就是允许所有的搜索引擎爬取所有的页面,虽然Disallow是不允许的意思,但是后面是放空状态,这意思是没有不允许爬取的页面。

  2、屏蔽其中一种或者几种搜索引擎的爬取,以最近比较火的360综合搜索为例

  User-agent: 360spider

  Disallow: /

  User-agent:*

  Disallow:

  前两行的意思是不允许360综合搜索蜘蛛爬取任何页面,后面的解释见第一点。同理,如果除了屏蔽360综合搜索也想屏蔽百度蜘蛛,那就在开头继续添加。

  3、不允许搜索引擎抓取其中的某些页面,这边以不允许所有搜索引擎爬取wordpress的管理后台页面为例

  User-agent:*

  Disallow:/wp-admin/

  我们都知道,wordpress的管理后台在根目录下的wp-admin文件夹里面,在disallow后面加上/wp-admin的意思就是不允许搜索引擎蜘蛛爬取。

  至于不允许百度爬取后台,允许其他搜索引擎爬取后台,或者不允许360综合搜索爬取后台,允许其他搜索引擎爬取后台等等组合,请参考以上三点内容进行组合。

  本文由 pptv去广告: 提供

评论列表暂无评论
发表评论
微信