论文部分内容阅读
近年来,互联网的飞速发展导致网页数量不断增长,而综合搜索引擎由于存储、计算资源和带宽等方面的问题想要检索互联网上全部的网页是不可能的。因此,为了满足特定领域的用户需求,保证检索结果的专业性,人们开始对垂直搜索引擎进行研究。垂直搜索引擎采用主题爬虫对特定主题的网页进行抓取,对特定的领域进行了专业的过滤和筛选,使得某一特定领域内信息更加全面和深入。然而,垂直搜索引擎相对于综合搜索引擎来说更易抓取到重复或者近似重复的网页,而且它在抓取的时候具有不同于综合搜索引擎的特殊性,因此现有的网页去重策略在垂直搜索引擎的网页去重中存在缺陷。本文围绕垂直搜索引擎的设计和实现,首先对垂直搜索引擎的现状做了简要介绍,然后针对垂直搜索引擎中的主题爬虫和全文索引进行了深入分析,为最后一部分的系统实现提供了理论基础。针对垂直搜索引擎中的网页去重,首先对网页重复的原因、类型、去重的意义和常用的网页去重算法做了简要介绍,然后指出现有垂直搜索引擎中进行网页去重的不足,即它们都没有考虑垂直搜索引擎的特殊性,没有利用垂直搜索引擎的自身特点进行网页去重。因此,本文将基于内容的主题爬虫算法和基于内容的网页去重算法相结合,提出了一种适用于垂直搜索引擎的网页去重策略,使得主题爬虫在抓取网页的过程中能够过滤掉重复或者近似重复的网页,减轻了搜索引擎后期处理重复网页和构建索引的负担,并通过几组相关实验证明了本文提出的网页去重策略的优越性。在本文最后一部分进行了垂直搜索引擎的设计与实现,应用上述理论设计了一种主题与“中药材”相关、基于Solr服务器的垂直搜索引擎。在实现过程中,针对如何获取“中药材”相关的种子URL和主题词典提出了实际可行的方法,并采用JAVA技术对搜索引擎的主题爬虫进行了改进,使其能够在抓取网页的时候过滤掉重复或者近似重复的网页。