4月 082012
 

  每个人都有自己的隐私,网站也是这样,网站中也有不希望被蜘蛛看到的东西,比如会员密码等等,而想要遮挡住这部分隐私,一般情况下站长都会在第一时间想到Robots.txt。没错,Robots.txt文件的使用的确可以给蜘蛛指明道路,告诉它什么地方该去,什么地方不该去,也正是因为这点原因,很多站长都热衷于用Robots.txt,但是大家真的会用Robots.txt吗?对于它的编写规则大家又知道多少呢?本人不才,但对于这方面总归有点经验,在这分享出来,让大家有个参考,当然老鸟可以飞过了。

  Robots.txt编写的顺序问题

  举个最简单的例子,如果你想让自己a文件中的b.html被抓取,那么你怎么编写呢?是

  Allow:/a/b.html Disallow:/a/ 还是Disallow:/a/ Allow:/a/b.html这样?

  在Robots.txt编写规则中,它并不执行树状分析结构,换句话说编写时并不应该把母文件夹放在最前,而是遵循一种就近原则,如果我们把母文件夹放在前面,蜘蛛会认为这个途径被封闭了,不能访问,而我们最终的目的却是访问,这样一来,目标和实际就大相迳庭了。

  Robots.txt编写的开放性问题

  很多站长,尤其是新手站长对于Robots.txt的理解过于片面,他们认为既然Robots.txt可以规定蜘蛛的访问途径,那我们何必不开放,把所有文件都设置成可访问,这样一来网站的收录量不久立即上升了,其实问题远远没有我们想象的简单,大家都知道网站中一些固定的文件是不必传送给搜索引擎访问的,如果我们把网站“全方位开放”,后果就是加大网站服务器负载,降低访问速度,减缓蜘蛛的爬行率,对于网站收录没有一点用处,所以对于固定不需要访问的文件,我们直接Disallow掉就可以了。

  一般情况下,网站不需要访问的文件有后台管理文件、程序脚本、附件、数据库文件、等等。

  Robots.txt编写的重复性问题

  我们每天都在写着原创内容,然后更新到自己的网站中,大家想过没有我们这样做的目的是什么?当然是为了讨搜索引擎的好,大家都知道搜索引擎很看重原创内容,对于原创内容的收录很快,相反,如果你的网站中充斥着大量的复制内容,那么我只能遗憾的告诉你,网站的前途一片渺茫。不过这也从另一个方面告诉我们要积极的利用robots文件禁止重复页面的代码,降低页面的重复度,但是在编写robots文件时一定要记得

  在User-agent后加入某个搜索引擎,例如User-agent:BaiduSpider Disallow:/,如果没有加入,编写成User-agent: * Disallow: /形式,则是对网站所有内容的“屏蔽”。

  Robots.txt编写的meta问题

  在 Robots.txt编写规则中,有一个取最强参数法则,而且如果网站以及页面标签上同时出现robots.txt文件和meta标签,那么搜索引擎就会服从两个规则中较为严格的一个,即禁止搜索引擎对于某个页面的索引,当然如果robots.txt文件和meta标签不是出现一个文件中,那么搜索引擎就会遵循就近原则,就会索引meta标签前的所有文件。

  Robots.txt编写的细节性问题

  1.反斜杠的插入

  还是以Disallow:/a/b.html为例,在编写该语句的时候,如果忘记加入了反斜杠,则是对全部内容进行开放,这与编写语句的想法相悖,因为反斜杠的意义是根目录。

  2.空格的出现

  空格的出现就很好理解了,因为搜索引擎对于这个特殊符号的出现并不识别,它的加入只会使语句失去应有的效用。

  现在大家理解我为什么说有人知道robots.txt文件,但是少有人知道该怎么正确编写了robots.txt文件了吧。其实robots.txt文件中还会其他的细节以及注意问题,在以后的时间里我会继续和说一下robots.txt文件编写中涉及到的目录大小、user-agent的数量等问题。

  本文出自手机壁纸网http://www.maogege.com,欢迎转载,谢谢。

 Leave a Reply

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

(required)

(required)