论文部分内容阅读
随着internet的迅速发展,网络资源日益丰富,传统的搜索引擎技术不加区分的从网络上收集网页,产生了大量用户不需要的无关信息,大大影响了用户的使用,为了更精确更迅速的获得用户关心的相关领域的信息,垂直搜索引擎技术应运而生。垂直搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。Nutch是一个刚刚诞生开放源代码(open-source)的web搜索引擎。它使用Lucene作为索引和检索的模块,其工作流程包括网页搜集,预处理和检索模块,具有与商用搜索引擎相同的工作流程,且其各功能模块相对独立,通过改造Nutch的相关功能模块,可以迅速搭建一个垂直搜索引擎。本文的工作目标是构建一个基于垂直搜索引擎技术的旅游信息搜索网站,搜索引擎部分是一个中文主题搜索引擎,因此,中文处理的问题与主题相关性的问题是首要解决的重要问题。本文采用Nutch来构建基本搜索引擎架构,并修改了Nutch的两个重要模块,网页搜集模块和中文分词模块,使其能够适应垂直搜索的使用。在此基础上,本文首先介绍了通用搜索引擎与垂直搜索引擎的不同,讨论了通用搜索引擎的核心技术,以及垂直搜索引擎的技术特点,接着介绍了Nutch的工作原理,在搜索模块中,本文采用了shark search算法实现主题相关网页的抓取;网页抓取下来后,使用向量空间模型进行主题相关度判定,将相关度低于一定阈值的URL去除;使用在中文分词模块中,本文改进了Nutch基于单字切分的分词方式,设计了一种新的词典机制,并将一种新的分词算法引入到分词模块中。随后,本文讨论了旅游信息搜索引擎的总体设计过程,包括手机客户端和web搜索引擎的实现过程。设计过程重点论述了需求分析、手机客户端和网站的功能规划和总体结构、数据库设计等内容。最后,对本文工作进行了总结,提出了今后的工作方向,并对垂直搜索引擎的技术发展方向做出了展望。