论文部分内容阅读
当前,随着企业信息化水平逐渐提高,企业信息资源越来越丰富,不仅包括各种数据库信息,而且还包括企业内部存储的大量文本信息。然而,这些文本信息资源分布分散,信息组织形态多样化,迫切的需要进行统一整合和查找。企业内部信息资源搜索引擎系统的建立,对于优化企业信息资源检索显得越来越重要。该文分析了企业搜索引擎的研究现状和存在的不足,并针对企业的电子文档组织管理领域,定制了一个基于Lucene的企业搜索引擎系统,扩展了Lucene的应用功能。着重研究了Lucene内部的文档排序算法,改进了文档排序算法模型,利用层次分析法来确定文档排序的权重。利用K-means聚类算法将搜索结果自动聚类,形成一个类似文件夹的层次结构的搜索结果页面,以便于用户浏览。利用多线程技术实现了索引的分布式管理策略,提高了系统的效率和稳定性。改进后的系统实现了企业中pdf、word、html、text等常见文本格式的文本抽取,将其转化成Lucene所支持的固定索引格式,从而使系统支持各种文本格式的信息检索。最后,通过结合中小企业信息资源平台的具体案例,对实现检索系统中各个功能模块进行了详细的设计和分析,在SSH(Struts,Spring,Hibernate)框架上实现了基于Lucene的企业搜索引擎系统。该系统具有一个统一检索界面,用户只需输入相应的关键字就能搜索到需要的结果。通过系统运行证明,该系统能够满足企业的业务需求,具有一定的可行性和实用性。