论文部分内容阅读
随着网络的迅猛发展,一些企业和校园内部局域网的信息量也大幅增长。人们发现即使是获取局域网的信息也变得困难。目前虽然已经有google、百度这些优秀的通用搜索引擎,但是它们并不能很好的解决这个问题。一方面,通用搜索引擎的覆盖率都不太高,很多局域网的信息都无法完全搜集;另一方面,通用搜索引擎的页面更新比较慢,信息的实时性、准确性都无法保证。因此,为了提高局域网内信息检索的效率,本文设计并实现了适用于局域网信息检索的小型搜索系统。本文以校园网为平台,在深入研究了通用搜索引擎基本原理、架构设计和核心技术的基础上,结合小型搜索引擎的个性化需求,构建了一个运行稳定,性能良好且具有可扩展性的小型搜索引擎系统。论文不仅完成了对整个搜索引擎系统框架的设计,而且基本上完成了所有的开发测试工作。本文论述了系统开发的背景和国内外搜索引擎技术发展现状,分析了小型搜索系统的个性化需求,明确了系统开发过程中要解决的问题,提出了具体的设计方案。论文的主要工作以及创新如下:1.利用了分布式处理模型Hadoop,搭建了系统分布式框架,提高了系统的整体性能。2.针对搜索结果的不准确、滞后问题,分析了网络信息更新的特点,利用了Quartz作业调度系统,设计并实现了页面更新模块,提高了信息搜索的准确性和实时性。3.基于Lucene软件包,设计实现了系统核心的索引和搜索模块,完成了对页面的索引和搜索。在此过程中,设计了页面解析框架,实现了对多种格式的文本解析;研究并改进了最大正向分词算法,提高了对中文信息的分词效率;4.针对搜索结果中出现大量的重复页面的问题,研究了MD5算法实现对索引中重复页面的消除,部分优化了搜索结果。最后,通过在校园网上运行,分析了运行的数据,证明系统已成功达到了预期的目标。