robots.txt-告诉搜索引擎哪些网页需要收录

搜索引擎用来爬取网页内容的工具我们称之为搜索引擎机器人。

Robot英文直译是机器人,在搜索引擎优化SEO中,我们经常翻译为:探测器。

不同的搜索引擎给他们自己的探测器(Robot)起不同的名字。有时,你会碰到crawler(爬行器),spider(蜘蛛),都是探测器之一,只是叫法不同。

搜索引擎机器人每次来到要抓取的网站,都会先访问这个网站根目录下的一个文件(robots.txt),如果不存在该文件,则搜索引擎机器人默认这个网站允许其全部抓取。

如何制作robots.txt文件?

非常简单。打开你的文本编辑器选择记事本(开始> 程序 >附件菜单)。切勿使用Word 文件,可以使用HTML编辑器来建立的robots.txt文件,但要确保将它命名为txt文件,而不是HTML文件。注意robots.txt的命名,都应该是小写。

搜索引擎机器人通过robots.txt里的说明,理解该网站是否可以全部抓取或部分抓取。
按照以下格式输写robots.txt文件。

阻止所有蜘蛛抓取整个网站:

User-agent: *

Disallow: /

允许蜘蛛抓取网站的所有内容:

User-agent: *

Disallow:

阻止抓取某些目录:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /personal/

Disallow: /photos/staffchristmasparty/

阻止某些蜘蛛的抓取:

User-agent: Googlebot

Disallow: /

允许某种蜘蛛,而阻止其他蜘蛛抓取:

User-agent: Googlebot

Disallow:  

User-agent: *

Disallow: /

星号说明,允许所有的搜索引擎来收录,包括百度、googleyahoo等。

Disallow: /tmp/  说明不允许收录/tmp/里的所有文件。

谷歌:googlebot  百度:baiduspider   MSN:MSNbot   Yahoo:Slurp 

注意事项:

  • 每条命令必须换行。
  • 空白行区分不同的指示(如最后一个例子)。
  • User-agent后的星号有特殊的意义不能用来作为通配符。如果要阻止抓取所有的gif图像,写成Disallow: *.gif是错误的。
  • robots.txt的命名,都应该是小写。如果你希望搜索引擎收录你网站的全部网页,则你可以不设置robots.txt或上传一个命名为robots.txt的空记事本到根本目录。上传你的robots.txt后,通过 你的域名/robots.txt 可以正常访问。

robots.txtXML sitemap

如果你看过我们前面关于创建XML Sitemaps的课程,应该知道robots.txt文件可以让搜索引擎快速收入网站地图。

你需要在robots.txt文件的最后一行,粘贴下面这行代码:

Sitemap: <http://www.example.com/sitemap.xml>

如果你有多个网站地图:

Sitemap: <http://www.example.com/sitemap1.xml>

Sitemap: <http://www.example.com/sitemap2.xml>

Sitemap: http://www.example.com/sitemap3.xml 

所有的蜘蛛都重视的robots.txt文件吗?

搜索引擎Spider是非常有礼貌的。但是也有不礼貌的探测器。在互联网里肆意搜刮内容并抓取电子邮件地址添加到它的垃圾邮件列表中。它们并不在乎robots.txt文件,对此我们也无能为力。

robots.txt文件是可以公开访问的!

不要用robots.txt文件隐藏在网站内容,任何人键入www.yoursite.com / robots.txt都可以看到你不想公开的内容。

如果有些内容真的不希望别人看到,最好的选择是目录的密码保护。主机控制面板中的工具可以帮助你做到这一点。

 

本文版权所有 互联网营销教研室 请勿转载!
——
网赚网上赚钱网络赚钱经验分享


 网站建设课程


 

Comments are closed.