当前位置:首页 > 新闻中心 > 搜索引擎的预处理过程

搜索引擎的预处理过程

发表时间:2020-06-22 来源:互联网 作者:admin

上次给大家说了一下搜索引擎爬行和抓取的大致过程,今天继续再介绍一下搜索引擎的预处理。上一篇文章说过,搜索引擎会先抓取页面,但抓取的页面不能直接来进行排名处理,因为数据库中的页面数量太多,计算量太大,无法在几秒钟内返回结果,所以就要行预处理。   

蜘蛛抓取到的页面中有很大一部分是HTML代码,这些代码大部分都是需要去掉的,搜索引擎只提取文字和一些包含文字信息的代码。提取文字后要对这些文字进行分词,这是中文搜索引擎特有的步骤。英语中单词与单词之间有空格分隔,但中文的句子中都是连在一起的,所以搜索引擎要分辨句子中的单词。

另外句子中的一些无实际意义的虚词、介词感叹词等等也都会被去掉,还有一些页面上的版权声明、广告等也都是要去掉的内容。   

再之后是索引,这一步分为正向索引和倒排索引。正向索引简单的说就是把每个页面记录为一串关键词的集合,其中每个关键词的信息也都有明确的记录,如词频、格式、位置等,然后把它以表格形式存进索引库。

而倒排索引则是每一个单独的关键词对应着哪些页面,这些页面中都出现了这个关键词。如此当用户搜索关键词时,排序程序在倒排索引中定位到这个关键词,就可以快速找到包含这个关键词的页面。


上一篇:网页压缩对网站有哪些好处

下一篇:网站建设公司介绍网站用户体验问题

相关文章

10年沉淀值得信赖 ,累计超13,371家企业和个人的共同选择

我们致力于做您身边的互联网整合营销专家,客户的选择是我们不断进步的源泉!

点击关闭
  • 售前客服
    王经理
    微信:1766534168
    微信二维码
cache
Processed in 0.008769 Second.