论文部分内容阅读
自互联网诞生以来,网络信息每年几乎都成指数量增长。搜索引擎是人们获得互联网信息的重要工具,但是传统的搜索引擎利用网络爬虫从互联网上大规模的搜集到的信息其中很多信息是完全重复或近似重复的,还有很多信息是用户不需要的,这样就加重了用户使用搜索引擎的负担。而垂直搜索引擎能够精确的获得用户关心的相关领域信息。垂直搜索引擎不像通用搜索引擎那样,它仅仅搜集某一特定领域相关的网页内容。本文首先描述了垂直搜索引擎的工作原理,并讨论了垂直搜索引擎的几个关键技术,主要技术包括:网络爬虫技术、中文分词技术、网页预处理技术、网页去重技术、索引和检索技术等。对包含这几项关键技术的功能模块进行了详细描述并进行具体实现。本文设计了一个多线程网络爬虫,使其高效的爬取互联网资源,并使用布隆过滤器,用来排除重复的url;网页主题内容提取部分实现了基于网页内容结构和正则表达式技术的算法,和其他网页主题内容提取技术相比,性能有所提高;网页索引部分,采用Lucene技术,高效的建立了倒排索引库;研究并分析了中文分词技术,实现了基于双向最大匹配法和基于数学统计分析的两种歧义消除规则的算法,试验结果表明,该算法在歧义消除和正确分词上都有了提高;此外对网页去重技术进行了深入研究,提出了基于web文档长度和web主题内容的重复网页检测算法,试验结果表明,该算法相比传统的基于主题内容的网页去重算法和MinHash算法在运行效率去重质量上有了提高。基于以上技术,本文实现了一个新闻垂直搜索引擎。