上次给大家说了一下搜索引擎爬行和抓取的大致过程,今天继续再介绍一下搜索引擎的预处理。上一篇文章说过,搜索引擎会先抓取页面,但抓取的页面不能直接来进行排名处理,因为数据库中的页面数量太多,计算量太大,无法在几秒钟内返回结果,所以就要行预处理。
蜘蛛抓取到的页面中有很大一部分是HTML代码,这些代码大部分都是需要去掉的,搜索引擎只提取文字和一些包含文字信息的代码。提取文字后要对这些文字进行分词,这是中文搜索引擎特有的步骤。英语中单词与单词之间有空格分隔,但中文的句子中都是连在一起的,所以搜索引擎要分辨句子中的单词。
另外句子中的一些无实际意义的虚词、介词感叹词等等也都会被去掉,还有一些页面上的版权声明、广告等也都是要去掉的内容。
再之后是索引,这一步分为正向索引和倒排索引。正向索引简单的说就是把每个页面记录为一串关键词的集合,其中每个关键词的信息也都有明确的记录,如词频、格式、位置等,然后把它以表格形式存进索引库。
而倒排索引则是每一个单独的关键词对应着哪些页面,这些页面中都出现了这个关键词。如此当用户搜索关键词时,排序程序在倒排索引中定位到这个关键词,就可以快速找到包含这个关键词的页面。
上一篇:网页压缩对网站有哪些好处
下一篇:网站建设公司介绍网站用户体验问题