设置robots. txt好处及风险
本文最后更新于 654 天前,文中的信息可能已经有所变化。如有误,请留言反馈。

任何事都有自己的双面性,设置robots.txt也有双面性,成都SEO 猫鼬博客接下来带你了解robots.txt的双面性。
设置robots. txt好处:
1.现在的搜索引擎蜘蛛几乎都会按照robots.txt写出的抓取范围去抓取内容。搜索引擎蜘蛛到某个网站抓取内容时,首先访问的是该站点的robots.txt,如果没有robots.txt的话,搜索引擎蜘蛛则会访问到404页面。据相关研究,如果网站采用的自定义的404页面,那么搜索引擎蜘蛛则会把它当做robots.txt,这样的话搜索引擎蜘蛛可能会比较懵,会影响到该网站的收录。

2.robots.txt可以限制搜索引擎蜘蛛的抓取范围,比如说后台管理页面和另一些管理者不想公开的页面。如果不加以限制,搜索引擎可能会收录网站后台登录页面等没有太大意义的页面。

3.某些网站拥有丰富的内容和很多页面,如果不设置robots.txt的话,大量的搜索引擎蜘蛛会对网站进行抓取。如洪水一般的蜘蛛前来抓取网站会给网站造成巨大的压力,如果前来抓取同一个站点的蜘蛛数量过多的话,甚至会对网站的正常访问影响。

4.robots.txt可以限制一些不必要的搜索引擎蜘蛛占用服务器的带宽,比如说不想被某个搜索引擎的蜘蛛抓取,就可以加以限制,避免占用服务器带宽。还有就是如果是文字类的网站,则可以限制抓取图片的蜘蛛对网站内容抓取。

5.如果站点存在内容重复的情况的话,也需要使用robots.txt限制搜索引擎蜘蛛对重复页面的抓取,这样的话反而可以避免搜索引擎的一些惩罚。

设置robots. txt风险:
在本文的开头已经说过了,凡是有利必有弊。设置robots.txt也是这样,不知道大家发现了没有,robots.txt上书写的路径很多是私密数据的位置(比如网站后台登陆页面等),这样就会给攻击者透露网站结构。在服务器安全措施完善的情况下,这并不是个大问题,但是至少也给攻击者降低了些难度。

我们应该如何避免私密数据被访问呢?成都SEO 猫鼬博客有一招:
比如说网站的私密数据在/abc目录下,我们就可以设置访问权限,对/abc下的文件加密。
比如说网站的私密数据在/abc目录下,把/abc目录下的index.html文件改名,比如说改成123index.html,这样的话访问路径就会改变。再制作一个新的index.html,内容大致为:没有权限访问该目录。这样的话攻击者就不知道该文件的具体位置了。

 

除了文件位置泄露的风险外,如果robots.txt设置不对的话,可能会导致搜索引擎收录全部被删除。

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇