让传统企业在网上牛起来4000-333-087

首页SEO常见问题 Robots文件详解

Robots文件详解

2014年11月07日09:38 

Robots 文件详解

主要围绕四个知识点来讲解 robots 文件

1 、什么是 robots 文件

2 、 robots 文件的作用

3 、 robots.txt 文件的格式

4 、 robots 屏蔽文件类型

一、什么是 robots 文件

robots.txt是一个协议,而不是一个命令。 robots.txt 是搜索引擎访问网站的时候要查看的第一个文件。 robots.txt 文件告诉蜘蛛程序在服务器上什么文件是可以被抓取、哪些文件是禁止抓取。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在 robots.txt ,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

注: robots.txt 文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。如指向网站的链接中的定位文字或者发布信息的标题)

二、 Robots 的作用

Robots 的作用主要是控制搜索引擎的抓取,建一个名为 robots.txt 的文件,存放在网站根目录下,主要有以下几个方面:

1 、屏蔽站内的死链接。网站改版或 URL 重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用 robots.txt 文件删除旧的链接符合搜索引擎友好。

2 、用 robots.txt 屏蔽相似的页面或没内容的页面,这点对站点的权重有较大的影响。如:我们可以屏蔽掉屏蔽一些功能页面:关于我们、联系我们、 404 页面等分散权重功能页面。通过这样设置,避免搜索引擎抓取这些无内容的页面。

3 、屏蔽站点目录:主要是一些程序目录用到——比如后台管理目录,会员管理目录等重要保密信息的目录。

4 、不同的链接指向相似的网页内容。这不符合 SEO 上讲的“网页内容互异性原则”。采用 robots.txt 文件可以屏蔽掉次要的链接。

5、屏蔽模版图片目录(注:我说的是模版图片目录 )

图片是组成网站构成的重要元素,但主题模板中相似图片在搜索引擎中比比皆是,搜索引擎一遍遍的比较下去还会对网站进行收录吗 ? 即便收录了,所带的结果也可以忽略不计的。一个好的网站,每天多多少少加起来会有不下几千次搜索引擎蜘蛛来访,这样无疑很浪费带宽,所以建议屏蔽一下图片目录,屏蔽的目录如“ Skin ”。

6、很多网站都具有一些缓存目录,假如蜘蛛持续进行索引的时候,这些无疑会造成反复内容索引,对网站是有害无益的。当然,其他程序还有其他的缓存目录,建议针对性地进行目录屏蔽最为适合。(缓存就是用来避免频繁的到数据库获取数据而建立的一个快速临时存储器)

7、屏蔽模板目录

关于程序模板,大部分站长都非自己自定义设计的模板,而是套用他人的。模板的高复重复也会成为搜索引擎里信息的多余部分,因此建议使用 Robots.txt 来进行模板的屏蔽。

8、对网站地图链接的重要性

各大搜索引擎都发布了对网站地图的新的支持方式,就是在 robots.txt 文件里直接包括 sitemap 文件的链接。如果把网站地图链接放在 robots.txt 文件里,那么就不用怎么样到各个搜索引擎的站长工具去提交 sitemap 文件了

三、 robots.txt 文件的格式

robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

1 : User-agent :(定义搜索引擎)

写法: User-agent : * 或搜索引擎的蜘蛛名称、这里的 * 代表的所有的搜索引擎种类, * 是一个通配符

例如
User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)

User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)

User-agent:Baiduspider

Disallow: / (屏蔽 Baiduspider 搜索引擎) 或

Allow: / ( 仅允许 Baiduspider 访问网站 )

2 : Allow: (允许语法) 用来定义允许蜘蛛爬取的页面或子目录、目录名后添加正斜线。

例如 : Allow:/ ( 允许蜘蛛爬取网站的所有目录 )

Allow:/admin/( 允许蜘蛛爬取 admin 目录 )

Allow:/admin/abc.html("/" 表示根目录下,允许蜘蛛爬去 admin 目录中的 abc.html 页面)

从上面我们可以看到 allow 的出现,解决了我们在屏蔽某些目录的时候,又必须让目录里面的一些文件被蜘蛛抓取的问题。

3 : Disallow: (禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。

   写法: DisAllow:/ 文件夹目录 / (表示禁止蜘蛛爬取网站的其中一个目录)

或 DisAllow: / 文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)

例如 :

Disallow:/ ( 禁止蜘蛛爬取网站的所有目录 "/" 表示根目录下 )

Disallow:/admin/ ( 禁止蜘蛛爬取 admin 目录 )

Disallow:/abc.html ( 禁止蜘蛛爬去 abc.html 页面 )

4 :匹配符 "$" 和 "*" ( 又称两个通配符)

$ 通配符:匹配 URL 结尾的字符;

* 通配符:匹配 0 个或多个任意字符;

例 1 :充许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下 :

User-agent: *

例 2 :设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下 :

User-agent: * 禁止抓取网站上所有 jpg 图片、仅允许抓取网页

Disallow: /.jpg$

User-agent: * ( 作用:禁止访问网站中所有的动态页面)

Disallow: /*?* 或: Disallow: /index.php?

四、 robots.txt 文件的格式之 Meta 标签

用 meta 标签限制 robots 的行为

Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而 Robots Meta 标签则主要是针对一个个具体的页面。和其他的 META 标签(如使用的语言、页面的描述、关键词等)一样, Robots Meta 标签也是放在页面中,专门用来告诉搜索引擎 ROBOTS 如何抓取该页的内容。

不允许所有机器人建立快照

允许 Google 机器人索引本页面,不允许由此页面上的链接继续索引,允许建立快照

也可写成 content= ” ALL ”,允许 Googlebot 进行上述所有操作

也可写成 content= ” NONE ”,不允许所有机器人做任何操作。

Robots Meta标签中没有大小写之分, name= ” Robots ”表示所有的搜索引擎,可以针对某个具体搜索引擎写为 name= ” BaiduSpider ”。

content部分有四个指令选项: index 、 noindex 、 follow 、 nofollow ,指令间以“,”分隔。

index 指令告诉搜索机器人抓取该页面;

follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是 index 和 follow ,我们可以用<meta name= ” {robot} ” content= ” " />的方法限制 robots 的行为。

其中 {robot} 可以制定一个机器人名,比如 robots (所有)、 Googlebot ( Google 机器人)、 Baiduspider (百度蜘蛛)等。

其中 content 部分可以是如下内容:

· archive / noarchive: 是否允许建立快照

· index / noindex: 是否抓取这个页面

· follow / nofollow: 是否根据页面上的链接继续抓取下去

· snippet / nosnippet :要不要在搜索结果页的列表里显示含此标签的网站的描述语句,并且不要在列表里显示快照链接

四、Robots 屏蔽文件类型

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

网友热评