论文部分内容阅读
随着互联网信息技术的快速发展,电子设备承载的数据越来越多,越来越丰富,甚至已经悄然进入大数据时代。伴随着企业数据量的不断增长和积累,企业需要解决在数据海洋中快速定位所需资料以及如何从大量文本资料中快速找到关键信息等问题。传统的方法主要是数据库直接检索,但利用数据库检索技术进行全文检索时效率很低,更无法和百度、Google等搜索引擎相媲美。同时,关系型数据库检索不能有效的处理非结构化数据。为提高全文检索的效率,本文在研究全文检索技术的基础上,对索引构建和检索过程进行优化,改进匹配算法,并结合分布式技术开发一个分布式全文检索系统,能有效处理非结构化数据,显著提高检索效率以及系统的可扩展性与可维护性。本文的具体内容主要包括:1)首先介绍了全文检索和分布式相关技术,包括Lucene的系统结构和工作流程、倒排索引机制、排序算法、分词技术以及分布式计算和分布式集群。2)分析了倒排索引底层结构及原理,并使用混合倒排索引以及不同域使用各自简化的分词器的方法进行了改进;深入剖析了全文检索过程与检索模型,提出了利用缓存和索引合并进行优化的建议;研究了Lucene的排序算法和分词技术并对现有的分词匹配算法进行改进,很好地支持了最大词匹配问题,并提出了实时更新词典的方法。3)设计了一个信息安全全文检索系统,包括索引构建、检索模块以及分词和字典的设计。通过分析Solr与Lucene的关系,使用Solr设计和实现了分布式全文检索服务器,提高了系统的可扩展性和可维护性。4)通过对原型系统的测试分析,对比使用Solr搜索服务器前后相关性能的测试结果,表明了索引创建的优化取得良好的效果,用户检索效率高,能有效检索各种非结构化数据,满足了企业内部全文检索的日常工作需要。