导读:Robots协议作为网站上线前必备的站点协议,对于一个网站的重要性不言而喻,网站本身很多程序语言以及图片这些是我们不需要让蜘蛛去抓取的,
Robots协议作为网站上线前必备的站点协议,对于一个网站的重要性不言而喻,网站本身很多程序语言以及图片这些是我们不需要让蜘蛛去抓取的,这不仅仅会浪费资源,而且会造成蜘蛛抓取的浪费,我们需要的是蜘蛛区抓取我们的文章以及产品,其他的就不需要了,这需要我们去正确的写好我们的robots协议。
首先,我们需要新建一个文本文档将其命名为robots,第一句话一般是User-agent: *
这代表允许所有蜘蛛的抓取(当然如果我们不允许谷歌蜘蛛的抓取,写法就是
User-agent:Googlebot
Disallow:/
同理当我们不允许其他我们不想的蜘蛛来抓取的时候,也可以用同样的方法替代。)
根目录下的语言程序我们不需要让百度蜘蛛来抓取,我们通过下面命令来禁止。
Disallow: /wp-admin/ 屏蔽蜘蛛抓取wp-admin下所有内容
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /wp-login 屏蔽注册表页面
Disallow: /?s=*/ 屏蔽搜索页面产生的所有动态路径
Disallow: /date/ 屏蔽文档归类页面
Disallow: /author 屏蔽文档归类页面
Disallow: /.jpg$ 屏蔽网站所有图片的抓取
Disallow: / .jpeg$
Disallow:/ .gif$
Disallow:/ .png$
Disallow: /.bmp$
一般的网站差不多就是这么多内容了,如果我们在服务器日志中,发现蜘蛛还抓取了程序语言,我们可以用Disallow: 命令来阻止蜘蛛来抓取。如果还有其他不懂的欢迎给我留言,或者直接与我交谈。