论文部分内容阅读
在信息社会中,如何在浩如烟海的信息中找到我们所需要的、有用的信息成为一个十分重要的问题,Web搜索引擎也因此应运而生,影响我们的生活。目前许多搜索引擎都使用基于关键字查询的传统的信息检索算法和技术,返回的页面数量仍然是成千上万。例如,在百度中搜索“搜索引擎”,找到相关网页约51,200,000篇,在google中找到14,600,000篇。搜索结果数量巨大,根本没办法全部浏览。并且其中大部分网页对用户是没有用的。由此可见,搜索引擎仅有广度,没有深度,是不能满足用户需求的。对这个问题的解决办法是建立垂直搜索引擎。垂直搜索引擎,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩。它是与综合搜索引擎截然不同的引擎类型。本文根据开源代码Lucene、Heritrix等进行垂直搜索引擎技术的研究,主要包括搜索引擎的架构组成,Lucene、Heritrix的架构组成,及如何构建垂直搜索引擎。本文首先介绍搜索引擎的历史,然后介绍搜索引擎的基本构成。接下来介绍Hritrix和Lucene的架构及主要部件。并对深度优先查找、广度优先查找算法、trie算法进行研究,提出用trie实现倒排索引的想法。最后结合实例介绍构建垂直搜索引擎的全过程。