本文最后更新于 804 天前,文中的信息可能已经有所变化。如有误,请留言反馈。
robots.txt当中往往含有许多特殊符号,有什么意义呢?接下来成都SEO 猫鼬博客为你解答:
1.robots.txt当中的*是什么意思?
我们可以使用*来匹配字符序列,如果需要拦截所有以admin开头的子目录的抓取,就可以写为:
User-agent:(某个搜索引擎蜘蛛名称或*)
Disallow:/admin*/
robots.txt禁止抓取动态网页:
User-agent:*
Disallow:/*?*
2.robots.txt当中的$是什么意思?
我们可以使用$字符指定和网址的结束字符匹配。比如需要禁止抓取以.php结尾的网址:
User-agent:(某个搜索引擎蜘蛛名称或*)
Disallow:/*.php$
可以将这种匹配模式加上Allow命令一起使用,比如一个?是一个会话的ID,那么我们就可以排除所有包含该ID的网址,用以保证搜索引擎不会重复收录网页。
3.Allow扩展名
Allow和Disallow原理是一样的,但是实现的效果却完全相反。Allow是写出允许访问的目录,Disallow是禁止访问的目录。
我们可以同时使用Allow和Disallow,比如需要拦截abc目录当中除开123.html页面的其他所有页面:
User-agent:(某个搜索引擎蜘蛛名称或*)
Disallow:/abc/
Allow:/abd/123.html
也可用来禁止某个搜索引擎蜘蛛抓取但允许此搜索引擎图片蜘蛛抓取:
User-agent:禁止的搜索引擎蜘蛛名称
Disallow:/
User-agent:允许的同一个搜索引擎蜘蛛名称
Allow: