首页>>资讯

【网站优化】用Robots协议引导蜘蛛对页面进行抓取

2023-05-15 21:04:51 59

  Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解读Robots文件的策略,蜘蛛可以知道哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在HTTPS下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。【网站优化

  (1)复制一份到HTTP下。

  (2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。

  关于Robots文件,详细说明如下。

  (1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。

  (2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。

  关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。

  http://www.abc.com/?id=1

  http://www.abc.com/?id=2

  ......

  (已经批量生成了如下)

  http://www.abc.com/ 1.html

  http://www.abc.com/2.html

  ......

  如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。

  Disallow : /*?*

  在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。

  以上就是《用Robots协议引导蜘蛛对页面进行抓取》的全部内容,仅供站长朋友们互动交流学习,SEO优化是一个需要坚持的过程,希望大家一起共同进步。

相关标签:网站优化