搜索引擎的预处理过程

发表时间：2020-06-22 来源：互联网作者：admin

上次给大家说了一下搜索引擎爬行和抓取的大致过程，今天继续再介绍一下搜索引擎的预处理。上一篇文章说过，搜索引擎会先抓取页面，但抓取的页面不能直接来进行排名处理，因为数据库中的页面数量太多，计算量太大，无法在几秒钟内返回结果，所以就要行预处理。

蜘蛛抓取到的页面中有很大一部分是HTML代码，这些代码大部分都是需要去掉的，搜索引擎只提取文字和一些包含文字信息的代码。提取文字后要对这些文字进行分词，这是中文搜索引擎特有的步骤。英语中单词与单词之间有空格分隔，但中文的句子中都是连在一起的，所以搜索引擎要分辨句子中的单词。

再之后是索引，这一步分为正向索引和倒排索引。正向索引简单的说就是把每个页面记录为一串关键词的集合，其中每个关键词的信息也都有明确的记录，如词频、格式、位置等，然后把它以表格形式存进索引库。

而倒排索引则是每一个单独的关键词对应着哪些页面，这些页面中都出现了这个关键词。如此当用户搜索关键词时，排序程序在倒排索引中定位到这个关键词，就可以快速找到包含这个关键词的页面。

本文标签：

责任编辑：admin