论文部分内容阅读
企业级搜索引擎是一个主要针对企业内部各网站和web系统的搜索引擎系统,由于企业内部信息不仅分布在网站上,很多非常重要的信息分布广泛,例如数据库、文件系统或者是内容资料库中,且以不同的格式存在并按照不同的分类组织,受不同的安全机制控制。对于最终使用内容的用户,只是希望通过简单的搜索命令字,然后系统自动从系统所建立的索引或者缓存中搜索到相应的内容反馈给用户,这样可以实现信息的简单快速访问。因而企业信息搜索系统应运而生。本文提出了集成Nutch和Solr的企业级分布式搜索引擎的设计方案。本方案中,Nutch主要负责对网页内容的抓取、提取和解析,对于企业内部的文档类信息,则设计了专用的文档采集器对其进行采集解析等。而Solr作为搜索后端,使用Zookeeper作为集群配置信息的管理,这样充分利用了Solr Server的拼写检查、搜索提醒和查询缓存等功能,实现了企业系统内部的分布式搜索功能。本方案还引入IKAnalyzer来增强系统的中文分词能力并实现了对用户搜索日志的采集、更新以及归档。最后本文通过实验证明本方案所提出的企业级搜索引擎可以实现快速、高质量的搜索。