SEO基础之robots协议详解

12-12月-2011

本帖要讲的内容也是SEO一个基本的东西–robot.txt协议

　　robots是什么意思

　　robots在英语之中的意思是机器人，而对我们SEOer所接触到的所讲的robots是一个txt文本形式的协议，形象的来说就是我们网站与搜索引擎沟通的一种方式，通过robots.txt协议我们可以告诉搜索引擎哪些页面是可以抓取的，哪些页面是不允许抓取的。所以搜索引擎来到一个网站的时候首先会访问的第一个文件就是存放在网站根目录之下的robots.txt。在了解了网站的设置之后就会按照要求来进行网站页面的抓取。

　　robots.txt的使用方法

　　robots.txt的使用方法非常的简单，我们只需要建立一个文本文档以robots.txt命名在我们写好了规则之后直接将这个文本文档上传至网站的根目录就可以了。具体的写法我这里就不多说了，在百度搜索帮助中心-禁止搜索引擎收录的方法之中有非常详细的说明和例子。认真的看一看应该就能够自己写出符合自己网站的规则出来。同时在我们写好并上传了robots.txt之后，我们可以通过谷歌管理员工具后台的工具像谷歌一样抓取来测试我们所写的规则是否正确。

　　robots.txt与nofollow标签的不同之处

　　常常有人对于这两个东西弄混淆，实际上robots.txt和nofollow不同的地方还是很多的，robots.txt是用来限制网站某个页面不被收录的，告诉搜索引擎我不希望这个页面被收录或者是这种形式的页面不被收录，而nofollow标签则是告诉搜索引擎在这个页面之上不对这个页面上的链接传递权重或者是不对某一个特定的链接传递权重，并不意味着某一个链接加了nofollow标签它就不会被收录了。

　　常见的robots蜘蛛

　　baiduspider 百度的综合索引蜘蛛

　　Googlebot 谷歌蜘蛛

　　Googlebot-Image专门用来抓取图片的蜘蛛

　　Mediapartners-Google 广告联盟代码的蜘蛛

　　YodaoBot 网易蜘蛛

　　Sosospider 腾讯SOSO综合蜘蛛

　　sogou spider 搜狗综合蜘蛛

　　Yahoo Slurp 雅虎蜘蛛

　　Yahoo! Slup China 雅虎中国蜘蛛

　　Yahoo!-AdCrawler 雅虎广告蜘蛛

　　通过robots.txt我们可以对于特定的蜘蛛进行一些屏蔽，比如说我们可以让某一个页面允许被百度抓取而不让谷歌抓取，我们就需要在robots.txt之中通过User-agent:(某个蜘蛛)这样的形式来控制某一个蜘蛛特定的权限。

　　robots.txt的好处

　　常常有很多的网站就是因为没有对robots.txt进行合理设置再加上自己的网站程序不够完善导致了很多垃圾页面或者是重复页面的收录，这样就会让网站的权重分散，大量的重复页面也会让网站收录变得不理想，出现需要被收录的没有被收录，不希望收录的倒是被收录了的情况，就拿wordpress来说*?replytocom=这个回复链接是常常被收录的，如果不进行屏蔽就会出线非常多的垃圾页面，所以一般情况下都会在robots.txt之中写上Disallow: /*?replytocom=将这种形式的链接全都屏蔽掉从而减少垃圾页面的收录。

　　善用robots.txt让网站更有价值的页面被收录，减少垃圾页面和不必要的页面收录也是非常重要的一点。

　　如感兴趣，可继续关注会搜SEO基础系列知识。

上篇新闻：SEO基础之目标关键词与长尾关键词

下篇新闻：中移动力推原创手机视频：作者按比例分成