首页 > 常识 > 互联网 > 网站制作 > 网站推广

搜索引擎公共协议(robots)的作用及范例

作者:擎天柱  时间:2016-04-14
描述:屏蔽无页面的内容,这点对站点的权重有较大的影响。 通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。 通过这样,避免搜索引擎抓取这些无内容的页面。
robots的作用
 
robots的作用主要是控制搜索引擎的抓取,主要有以下几个方面
 
1:屏蔽站内的死链接。
 
2:屏蔽无页面的内容,这点对站点的权重有较大的影响。 通过使用robots,我们可以屏蔽掉论坛的会员个人中心、留言板、旅游等站点的在线预订页面、404页面等。  通过这样,避免搜索引擎抓取这些无内容的页面。
 
3:屏蔽站点目录:在这里,主要是一些程序目录——比如后台管理目录,会员管理目录等重要保密信息的目录。
 
4:屏蔽一些功能页面:比如成都机票网的在线机票查询这样的功能页面。
 
在这里穿插一个很有用的语法,<meta content=”Baiduspider”   content= “noarchive”>  这个语法的主用是禁止在百度搜索引擎上显示百度快照。 “Baiduspider”即百度蜘蛛。    对于其他搜索引擎的快照屏蔽也可以使用这个语言。
 
备注 Google蜘蛛名称: Googlebot 
 
百度(Baidu)蜘蛛名称:Baiduspider 
 
雅虎(Yahoo)蜘蛛名称:Yahoo Slurp 
 
有道(Yodao)蜘蛛名称:YodaoBot 
 
搜狗(sogou)蜘蛛名称:sogou spider
 
robots语法
 
  1:User-agent:(定义搜索引擎)
 
  例如User-agent:Googlebot (定义百度)
 
           User-agent:Baiduspider  (定义谷歌)
 
           User-agent:*(定义所有搜索引擎)
 
  2:   Disallow:(禁止语法)  用来定义禁止蜘蛛爬取的页面或目录。
 
  例如:Disallow:/    (禁止蜘蛛爬取网站的所有目录)
 
            Disallow:/admin     (禁止蜘蛛爬取admin目录)
 
            Disallow:/abc.html(禁止蜘蛛爬去abc.html页面)
 
            Disallow:/help.html(禁止蜘蛛爬去help.html页面)
 
   整套语法示范:
 
           User-agent:*
 
           Disallow:/admin(禁止所有搜索引擎的蜘蛛爬取站点的admin这个目录) 
 
  那么接下来我们会遇到一个问题:如果我一个站点,它的某个目录比如说admin目录;我想禁止admin目录里除了/admin/1.php 这个页面,所有页面都禁止搜索引擎的蜘蛛爬取。 如果按照Disallow语法,工作量就相当的大。 如何操作,我们且看第三个语法。
 
  3:allow:(允许语法)  用来定义允许蜘蛛爬取的页面或子目录。
 
  例如:Disallow:/    (禁止蜘蛛爬取网站的所有目录)
 
            Disallow:/admin     (禁止蜘蛛爬取admin目录)
 
            allow:/admin/abc.html(禁止蜘蛛爬去admin目录中的abc.html页面)
 
  从上面我们可以看到allow的出现,解决了我们在屏蔽某些目录的时候,又必须让目录里面的一些文件被蜘蛛抓取的问题。 接下来,又出现一个问题;我们如果要批量屏蔽一些相同属性的文件呢,这些文件在不同的目录;用  Disallow也不适合,工作量大。 我们接下来看第四个语法
 
  4:匹配符”$”和  ”*”
 
   ”$” 匹配行结束符。  ”*” 匹配0或多个任意字符
 
  例如:屏蔽百度蜘蛛以.php结束的所有页面。
 
  User-agent: Baiduspider
 
  Disallow:.php$
 
  或者User-agent: Baiduspider
 
Disallow:/*.php
 
以上就是关于使用robots的一些技巧和语法,不尽之处请各位多多指点。
 
1、allow:(允许语法)用来定义允许蜘蛛爬取的页面或子目录
 
例:禁止百度收录admin的文件夹,允许收录admin文件中的/a.asp/b.asp
 
User-agent:Baiduspider
 
Disallow:/admin/
 
Allow:/admin/a.asp
 
Allow:/admin/b.asp
 
2、”$” 匹配行结束符 ”*” 匹配0或多个任意字符
 
例:屏蔽百度蜘蛛以.php结束的所有页面
 
User-agent: Baiduspider
 
Disallow:.php$
 
或者User-agent: Baiduspider
 
Disallow:/*.php

从手机浏览器访问《生活宝典》

站内搜索
  • 搜索引擎(ROBOTS)蜘蛛人的秘密
  • robots.txt 相关问题的解答
  • robots.txt文件 用法案例
  • robots:搜索引擎公共协议
  • 微商帮
    世界网站大全
    中国科研团队:大象的长鼻子是如何越变越长了
    中国科研团队:大象的长
    自己是否能够像自己想的那样做成一件事,身旁人的判断会比自己准确
    自己是否能够像自己想
    火宫殿:吃喝玩乐看,烧香拜神佛,红火的庙会经济
    火宫殿:吃喝玩乐看,烧香
    眼见为实也不为实,更须谨慎看到的并非全貌
    眼见为实也不为实,更须