论文部分内容阅读
企业搜索引擎为用户提供互联网和企业内部与特定组织或特定主题相关联的网络信息检索服务。随着网络信息量爆炸式的增长,企业搜索引擎需要提高采集数据质量,并保障系统的处理规模。本文通过改进搜索策略来提高采集数据的质量,此外,通过研究和实现并行检索系统的性能优化技术,来在大数据量和高并发度的情况下保证快速的用户查询响应。
本文在采集系统添加了主题采集模块,采用了基于网页主题重要性的搜索策略。即根据链接上下文信息得到主题相关度预测,并将其融合到主题重要性的计算中。同时,根据网页的主题重要性排序,来指导主题爬行器的爬行方向。最后,通过实验结果表明,基于网页主题重要性的排序算法TopicRank比PageRank、TSPR(Topical-Sensitive PageRank)对主题爬行更有指导意义。
本文还设计并实现了一套并行检索系统,该系统由Broker、Querier和Indexer节点共同组成。这些节点相互配合完成由Web Server提交的用户查询请求,Broker只负责状态管理和响应查询的Querier节点选择;Querier负责查询请求的分发和结果的聚合;Indexer负责数据的索引和检索。通过并行计算,提高了系统的性能和处理的数据量。
本文对检索系统的性能进行了以下几方面的测试:系统的可扩展性、系统的吞吐量、系统处理的数据量、Querier个数的影响等。实验表明,相对于木棉原并行检索系统,本文改进后的系统降低了用户查询的响应时间,提高了系统的吞吐量,增加了系统处理的数据量。同时,Querier节点的设计减轻了Broker节点的负担,消除了系统瓶颈,增强了系统的可扩展性。本文还对并行架构的开销进行了探讨,并且通过测试证明缓存模块对于提高并行检索系统的平均性能比较有效。