论文部分内容阅读
搜索引擎是一项伟大的技术,它使人们从浩如烟海的网页中解放出来。企业级搜索引擎是面向企业应用的中小型搜索引擎,可帮助企业处理内部信息,并将各种企业相关的网络信息联系起来,实现资源的共享及整合。木棉检索是面向校园网应用的企业级搜索引擎,也是下一代互联网分布式搜索平台SE6的主要节点搜索引擎。本文在其原有架构的基础上,对一些核心模块及流程做了重新设计,并加入一些新的模块,使系统在性能、扩展性、容错性等能力上有更大的提高。本文针对查询性能的优化,重新设计了查询模块,搜索节点引入了开源企业级搜索引擎——Solr,并设计了分布式网页存储,以一致性哈希为划分策略。在保持原有系统并行查询的特点外,加入了对索引的维护功能,包括增、删、改索引;节点通信方式也由RPC改成了更加开放、标准的HTTP方式,接口更加规范。重新设计后,系统的查询效率得到了提高,开放、扩展性也得到了提升。针对正文管理不规范、生成摘要速度慢、索引冗余等问题,本文设计了网页元数据管理系统。与原有的正文管理方式相比,网页元数据管理更加系统、规范、高效,满足了网页规模不断增长的需求,在存储节点增、删时,能快速重新划分及完成数据迁移的工作。为了提高系统的容错性、扩展性和错误恢复能力,本文设计了动态发现机制。动态发现机制抛弃了原有的节点管理方式,分布式系统里的节点分布等信息统一由动态发现机制维护。通过动态发现机制,在节点新增、宕机、退出、网络异常等情况下,系统依然能保持正常的服务状态,容错能力大大提高。本文最后对整个系统进行了性能评测。评测主要通过索引的建立速度、网页在节点间的分布是否均匀、查询响应速度几个方面进行,并通过与原有系统的对比来评测最终效果。测试的数据来自实验室SE6分布式搜索引擎平台中的校园网在线数据。