robots的作用
robots的作用主要是控制搜索引擎的抓取,主要有以下几个方面
1:屏蔽站内的死链接。
2:屏蔽无页面的内容,这点对站点的权重有较大的影响。 通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。 通过这样,避免搜索引擎抓取这些无内容的页面。
3:屏蔽站点目录:在这里,主要是一些程序目录——比如后台管理目录,会员管理目录等重要保密信息的目录。
4:屏蔽一些功能页面:比如成都机票网的在线机票查询这样的功能页面。
在这里穿插一个很有用的语法,<meta content=”Baiduspider” content= “noarchive”> 这个语法的主用是禁止在百度搜索引擎上显示百度快照。 “Baiduspider”即百度蜘蛛。 对于其他搜索引擎的快照屏蔽也可以使用这个语言。
备注 Google蜘蛛名称: Googlebot
百度(Baidu)蜘蛛名称:Baiduspider
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp
有道(Yodao)蜘蛛名称:YodaoBot
搜狗(sogou)蜘蛛名称:sogou spider
robots语法
1:User-agent:(定义搜索引擎)
例如User-agent:Googlebot (定义百度)
User-agent:Baiduspider (定义谷歌)
User-agent:*(定义所有搜索引擎)
2: Disallow:(禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。
例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html(禁止蜘蛛爬去abc.html页面)
Disallow:/help.html(禁止蜘蛛爬去help.html页面)
整套语法示范:
User-agent:*
Disallow:/admin(禁止所有搜索引擎的蜘蛛爬取站点的admin这个目录)
那么接下来我们会遇到一个问题:如果我一个站点,它的某个目录比如说admin目录;我想禁止admin目录里除了/admin/1.php 这个页面,所有页面都禁止 搜索引擎的蜘蛛爬取。 如果按照Disallow语法,工作量就相当的大。 如何操作,我们且看第三个语法。
3:allow:(允许语法) 用来定义允许蜘蛛爬取的页面或子目录。
例如:Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
allow:/admin/abc.html(禁止蜘蛛爬去admin目录中的abc.html页面)
从上面我们可以看到allow的出现,解决了我们在屏蔽某些目录的时候,又必须让目录里面的一些文件被蜘蛛抓取的问题。 接下来,又出现一个问题;我们如果要批量屏蔽一些相同属性的文件呢,这些文件在不同的目录;用 Disallow也不适合,工作量大。 我们接下来看第四个语法
4:匹配符”$”和 ”*”
”$” 匹配行结束符。 ”*” 匹配0或多个任意字符
例如:屏蔽百度蜘蛛以.php结束的所有页面。
User-agent: Baiduspider
Disallow:.php$
或者User-agent: Baiduspider
Disallow:/*.php
以上就是关于使用robots的一些技巧和语法,不尽之处请各位多多指点。
1、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录
例:禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp
User-agent:Baiduspider
Disallow:/admin/
Allow:/admin/a.asp
Allow:/admin/b.asp
2、”$” 匹配行结束符 ”*” 匹配0或多个任意字符
例:屏蔽百度蜘蛛以.php结束的所有页面
User-agent: Baiduspider
Disallow:.php$
或者User-agent: Baiduspider
Disallow:/*.php 从手机浏览器访问《生活宝典》 |