论文部分内容阅读
随着互联网技术的快速发展,以及企业的日益国际化,使企业间的竞争越来越激烈。如何能更及时、精确且全面的找到公司内部信息,对于一个企业来说是相当重要的。虽然Google等大型商业搜索引擎也能实现企业内部的检索功能,但由于其商业性及大众化,导致这种选择存在很大的缺陷。因此,如何有效利用现有主流搜索引擎技术,更快捷、更方便的搭建自己的企业内部搜索引擎,成为目前重要的研究课题。本课题就是针对这种需求,分析企业搜索引擎的必要性及实现方案,本文基于Solr进行企业搜索引擎的研究过程中,先对搜索引擎的概念以及系统结构进行介绍,接着深入研究全文索引技术和信息检索技术,并重点介绍本文系统所涉及到的关键技术及经典算法。同时还对Solr的有关内容进行分析与应用,如中文分词器MMSeg4j、Solr的Java客户端Solrj、以及Solr的DataImportHandler处理器等。由于Solr是一个独立的企业搜索引擎应用服务器,它对Lucene的一些代码进行封装,具有简单易用、功能强大等特点。本文就是在此基础上,结合其他关键技术如网络爬虫、信息抽取、中文分词等,设计实现一个小型企业搜索引擎系统。基于上述分析,并结合基本理论和相关技术的研究,本文最终设计实现了一个基于Solr的小型企业搜索引擎的实例。针对深度抓取工具Heritrix存在碰到即抓的缺陷,本文根据实例特征对Heritrix框架进行改进和扩展,并成功将特定网页下载到本地;研究解析工具HTMLParser的工作原理,并根据实例特点编写代码实现解析模块,同时,将信息存储到MySQL数据库中;通过对Solr的索引和检索框架进行研究及必要的配置,搭建起Solr搜索引擎服务器;研究MMSeg4j中文分词器的四种分词模式,并与Solr进行集成,并通过测试统计出其分词准确度达到98%;针对企业数据几乎存储在数据库这种现状,本文应用Solr的DataImportHandler处理器,将数据库数据导入Solr中,实现了针对企业这个目的;研究并改进Solrj源码实现了搜索功能,并设计了良好的用户界面,进而实现一个完整的企业搜索引擎。最后,在功能上和性能上对本系统进行测试,得出该系统具有查询准确率高、实时性好的特点,且具有较好的实际应用价值。