SEO教程分类
SEO最新文章
SEO教程标签
快典SEO培训首页 / 网站结构 / ROBOTS文件如何使用

ROBOTS文件如何使用

发布时间:2020-09-27 01:58:03      浏览:88

有的时候,站长并不希望某些页面被收录,如付费内容、还在测试阶段、搜索筛选的页面等,抓取过多会消耗掉搜索引擎分配给这个网站的总抓取时间,造成真正有意义的页面反倒不能被抓取和收录。如果通过检查日志文件发现这些无意义页面被反复大量抓取,想要收录的页面却根本没被抓取过,那应该直接禁止抓取无意义的页面。

要确保页面不被抓取,需要使用ROBOTS文件。

搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。

只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。

robots文件由记录组成,记录之间以空行分开。

最简单的robots文件:

User-agent: *

Disallow: /

上面这个robots文件禁止所有搜索引擎抓取任何内容。

User-agent:指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。

只适用于百度蜘蛛则用:

User-agent: Baiduspider

Disallow:告诉蜘蛛不要抓取某些文件或目录。

User-agent: *

Disallow: /n/

Disallow: /p/

Disallow: /ab/index.HTML

Disallow:禁止的目录或文件必须分开写,每个一行,不能写成:

Disallow: /n/ /p/ /ab/index.html

下面的指令相当于允许所有搜索引擎抓取任何内容:

User-agent: *

Disallow:

下面的代码禁止除百度外的所有搜索引擎抓取任何内容:

User-agent: Baiduspider

Disallow:

User-agent: *

Disallow: /

Allow:告诉蜘蛛应该抓取某些文件。由于不指定就是允许抓取,Allow:单独写没有意义,Allow和Disallow配合使用,可以告诉蜘蛛某个目录下大部分不允许抓取,只允许抓取一部分。

User-agent: *

Disallow: /aa/

Allow: /aa/bd/

$通配符:匹配URL结尾的字符。例如,下面的代码将允许蜘蛛抓取以.htm为后缀的URL:

User-agent: *

Allow: .htm$

下面的代码将禁止百度抓取所有.jpeg文件:

User-agent: Baiduspider

Disallow: .jpeg$

*通配符:告诉蜘蛛匹配任意一段字符。例如,下面一段代码将禁止蜘蛛抓取所有htm文件:

User-agent: *

Disallow: /*.htm

Sitemaps位置:告诉蜘蛛XML网站地图在哪里,格式为:

Sitemap: <网站地图位置>

主流搜索引擎都遵守robots文件指令,robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,但是索引库中还是有这个URL的信息。

如淘宝网


本文地址:http://www.kdd.cc/160.html 标签:
猜你喜欢SEO文章:
欢迎对快典SEO教程表达您的观点