基于Lucene的企业文档搜索引擎研究与应用

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:lxw19831201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着企业信息化建设的快速发展,企业所产生的电子文档越来越多,面对浩瀚的企业内部数据,如何有效获取有用信息成为一个非常重要的问题;另外,由于企业文档涉及商业信息,利用商用搜索引擎检索会让公司蒙受损失。因此,设计高效、可靠的企业文档搜索引擎,检索企业相关信息成为当前研究的热点。本文在企业文档搜索引擎总体设计的基础上,充分结合了词典分词速度快和统计分词的新词识别能力的特点,提出了基于词典的统计分词算法,相比Lucene自带的分词算法具有较大改进,减少了关键字所对应的文档数量,提高了分词的准确性和索引质量。在向量空间模型的基础上引入分类和加权方法,充分利用了向量空间模型计算文档的相关性,使用分类技术对文档进行分类从而缩小文档集合的范围,降低了计算规模,利用加权处理以突出不同文档集合的重要性,进一步提高了重要文档的得分,提高了搜索准确度。然后,在基于Lucene的企业文档搜索引擎系统中应用基于词典和统计的分词算法、基于分类加权的向量空间模型的排序算法,改进了Lucene的核心模块,提高了搜索结果的准确率,使之具有更高的实用价值。同时,为企业文档搜索引擎设计了索引、检索、Web等层面的缓存,有效地降低了搜索的时间。在lucene索引的基础上引入了基于数据库的索引结构,保证了系统的性能要求。实验结果表明,本文提出的基于Lucene的企业文档搜索引擎改善了Lucene的文档排序效果和检索效率,保证了搜索结果的准确性。
其他文献
大数据正在成为继云计算、物联网、移动互联网之后新的信息革命高潮。无论是从数据传递及共享、数据存储,还是从数据检索及分析,信息技术正面临前所未有的挑战。信息表示和查询
软件测试是为了保证软件的正确运行而进行的一项重要活动,回归测试是软件修改后为了确认修改的正确性而进行的软件测试。回归测试策略分为重测所有(retest-all)和选择性(selec
随着WWW的迅速发展和普及,人们已经从信息资源匮乏的时代迅速过渡到信息极为丰富的数字化时代。面对网上海量的信息资源,人们很难迅速有效的找到真正所需的信息。因此,如何合
数字图像每天都以惊人的速度产生和发布。图像中含有的信息往往比文本更加丰富,在人们的日常生活中起着至关重要的作用。因此,如何更加有效的组织、管理大型图像数据库,并且能从
处于大数据时代下,网络信息出现迅猛增长的趋势,互联网日趋发展成为一个信息覆盖面广的共享仓库,与此同时,对信息资源进行准确地理解也变得越来越困难,这是信息时代中一个亟
物联网感知层是物联网末端的一项全新的有着特殊意义的技术,也是它的核心部分。常见的物联网感知层常见形式有传统条码、二维码标签和无线射频识别技术,其中无线射频识别技术
XML已经成为Internet上数据表示和数据交换的标准格式。近年来,在Web上涌现了大量的XML数据。为了更容易的操作XML文档中的数据,专家和学者们在编码、索引、查询等方面做了积
随着Internet的普及应用,人们对网络安全的需求日益增加,访问控制是防止非授权访问的一种重要的网络安全手段。基于角色的访问控制(RBAC:Role Based Access Control)模型有效
自愈调控是构建可信计算机系统的必要手段,也是系统高可用性的重要保证。传统的分布式系统失效恢复技术主要依赖高成本冗余和人为管理,由于系统失效后人为修复的难度和成本加
随着多媒体技术的飞速发展,复杂背景图像中的文本定位研究不仅丰富了图像处理理论,而且在诸如Internet环境下的图像检索、交通管理中的车牌识别等具有重大的价值。复杂背景文