SEO教程分类
SEO最新文章
SEO教程标签
快典SEO培训首页 / 搜索引擎 / 搜索引擎工作原理

搜索引擎工作原理

发布时间:2020-09-21 01:20:11      浏览:67

搜索引擎用来爬行和访问页面的程序被称为蜘蛛,也称为机器人、爬虫

1.爬行。爬行和抓取是搜索引擎工作的开始,目的是完成数据收集的任务。

搜索引擎访问网站页面时跟搜索用户访问浏览器网页差不多,蜘蛛程序发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码下载存入原始页面数据库。

搜索引擎为了提高爬行和抓取速度,一般都会有多个蜘蛛并发分布爬行。

搜索引擎蜘蛛访问一个网站时,首先会先访问网站根目录下的ROBOTS.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。

整个互联网是由相互链接的网站及页面组成的,为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到另一个页面,就好像蜘蛛在蜘蛛网上爬行那样。蜘蛛从任何一个页面出发,顺着链接理论上可以爬行到网上的所有页面。

蜘蛛爬行策略分为两种,一种是深度优先,另一种是广度优先。

深度优先:指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

广度优先:是指蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

从理论上说,给蜘蛛足够的时间,深度优先和广度优先都能爬完整个互联网。在实际工作中,蜘蛛的带宽资源、时间有限,不可能爬完所有页面,也没有必要。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。

深度优先和广度优先通常是混合使用的,既可以照顾到尽量多的网站,也能照顾到一部分网站的内页。

2.抓取。蜘蛛爬行的页面数据,存入到原始页面数据库中,并给每个URL一个文件编号,收集来网址都只是存入地址库而已,是否收录还要看页面重要性如何。同时,蜘蛛在爬行抓取文件时候进行一定程度的复制内容检测,网站大量转载和抄袭内容,蜘蛛可能会停止爬行。

3.文字提取。搜索引擎以文字内容为基础。蜘蛛抓取到的页面HTML代码,除了用户在浏览器上可以看到的可见文字外,还包含了大量的HTML格式标签、JavaScrIPt程序等无法用于排名的内容。搜索引擎从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。搜索引擎也会提取出一些特殊的包含文字信息的代码,如Meta标签中的文字、ALT文字、Flash文件的替代文字、链接锚文字等。

4.中文分词。


本文地址:http://www.kdd.cc/130.html
猜你喜欢SEO文章:
欢迎对快典SEO教程表达您的观点