任何事都有自己的双面性,设置robots.txt也有双面性,成都SEO 猫鼬博客接下来带你了解robots.txt的双面性。
设置robots. txt好处:
1.现在的搜索引擎蜘蛛几乎都会按照robots.txt写出的抓取范围去抓取内容。搜索引擎蜘蛛到某个网站抓取内容时,首先访问的是该站点的robots.txt,如果没有robots.txt的话,搜索引擎蜘蛛则会访问到404页面。据相关研究,如果网站采用的自定义的404页面,那么搜索引擎蜘蛛则会把它当做robots.txt,这样的话搜索引擎蜘蛛可能会比较懵,会影响到该网站的收录。
2.robots.txt可以限制搜索引擎蜘蛛的抓取范围,比如说后台管理页面和另一些管理者不想公开的页面。如果不加以限制,搜索引擎可能会收录网站后台登录页面等没有太大意义的页面。
3.某些网站拥有丰富的内容和很多页面,如果不设置robots.txt的话,大量的搜索引擎蜘蛛会对网站进行抓取。如洪水一般的蜘蛛前来抓取网站会给网站造成巨大的压力,如果前来抓取同一个站点的蜘蛛数量过多的话,甚至会对网站的正常访问影响。
4.robots.txt可以限制一些不必要的搜索引擎蜘蛛占用服务器的带宽,比如说不想被某个搜索引擎的蜘蛛抓取,就可以加以限制,避免占用服务器带宽。还有就是如果是文字类的网站,则可以限制抓取图片的蜘蛛对网站内容抓取。
5.如果站点存在内容重复的情况的话,也需要使用robots.txt限制搜索引擎蜘蛛对重复页面的抓取,这样的话反而可以避免搜索引擎的一些惩罚。
设置robots. txt风险:
在本文的开头已经说过了,凡是有利必有弊。设置robots.txt也是这样,不知道大家发现了没有,robots.txt上书写的路径很多是私密数据的位置(比如网站后台登陆页面等),这样就会给攻击者透露网站结构。在服务器安全措施完善的情况下,这并不是个大问题,但是至少也给攻击者降低了些难度。
我们应该如何避免私密数据被访问呢?成都SEO 猫鼬博客有一招:
比如说网站的私密数据在/abc目录下,我们就可以设置访问权限,对/abc下的文件加密。
比如说网站的私密数据在/abc目录下,把/abc目录下的index.html文件改名,比如说改成123index.html,这样的话访问路径就会改变。再制作一个新的index.html,内容大致为:没有权限访问该目录。这样的话攻击者就不知道该文件的具体位置了。
除了文件位置泄露的风险外,如果robots.txt设置不对的话,可能会导致搜索引擎收录全部被删除。