【网站优化】用Robots协议引导蜘蛛对页面进行抓取

2023-05-15 21:04:51 83

　　Robots协议是放在根目录下的一个协议，也是蜘蛛爬行网站的时候需要访问的第一个文件，通过解读Robots文件的策略，蜘蛛可以知道哪些页面可以爬行，哪些不可以爬行。一般来说，网站都是可以开发给蜘蛛来抓取的，某些不允许抓取的页面或者频道，只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但是在实际运营中，可能面临更复杂的情况，比如整站已经在HTTPS下，但是部分页面需要蜘蛛爬行，怎么办?有以下几个解决办法。【网站优化】

　　(1)复制一份到HTTP下。

　　(2)使用user-agent判断来访者，将蜘蛛引导到HTTP页面。

　　关于Robots文件，详细说明如下。

　　(1)特定页面已经不需要蜘蛛抓取，可以进行Disallow。

　　(2)某类集中的页面具有共同的URL参数，可以实现批量禁止抓取功能。在操作批量禁止的时候，需要避免误伤，即具有同样URL特征的功能可能并不在禁止的目的之内，无意中被禁止了。

　　关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站，初始页面都是动态页面，从SEO角度考虑，这些动态页面全部批量生成了对应的静态页面，如下。

　　http://www.abc.com/?id=1

　　http://www.abc.com/?id=2

　　......

　　(已经批量生成了如下)

　　http://www.abc.com/ 1.html

　　http://www.abc.com/2.html