基于Lucene的分布式全文检索技术的研究与应用

被引量 : 21次 | 上传用户:shagen_gw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的快速发展,电子设备承载的数据越来越多,越来越丰富,甚至已经悄然进入大数据时代。伴随着企业数据量的不断增长和积累,企业需要解决在数据海洋中快速定位所需资料以及如何从大量文本资料中快速找到关键信息等问题。传统的方法主要是数据库直接检索,但利用数据库检索技术进行全文检索时效率很低,更无法和百度、Google等搜索引擎相媲美。同时,关系型数据库检索不能有效的处理非结构化数据。为提高全文检索的效率,本文在研究全文检索技术的基础上,对索引构建和检索过程进行优化,改进匹配算法,并结合分布式技术开发一个分布式全文检索系统,能有效处理非结构化数据,显著提高检索效率以及系统的可扩展性与可维护性。本文的具体内容主要包括:1)首先介绍了全文检索和分布式相关技术,包括Lucene的系统结构和工作流程、倒排索引机制、排序算法、分词技术以及分布式计算和分布式集群。2)分析了倒排索引底层结构及原理,并使用混合倒排索引以及不同域使用各自简化的分词器的方法进行了改进;深入剖析了全文检索过程与检索模型,提出了利用缓存和索引合并进行优化的建议;研究了Lucene的排序算法和分词技术并对现有的分词匹配算法进行改进,很好地支持了最大词匹配问题,并提出了实时更新词典的方法。3)设计了一个信息安全全文检索系统,包括索引构建、检索模块以及分词和字典的设计。通过分析Solr与Lucene的关系,使用Solr设计和实现了分布式全文检索服务器,提高了系统的可扩展性和可维护性。4)通过对原型系统的测试分析,对比使用Solr搜索服务器前后相关性能的测试结果,表明了索引创建的优化取得良好的效果,用户检索效率高,能有效检索各种非结构化数据,满足了企业内部全文检索的日常工作需要。
其他文献
我国报刊业迅速发展的同时,面临着数字化、融合化与全球化的挑战。实施报刊业数字出版战略刻不容缓。我国报刊业需要从科技投入、扶持政策、产业基地、知识产权保护、标准制
我国纸媒微信平台的发展正在由平台建构的初级阶段,转向发展期的品牌传播与运营模式探索阶段。本文引入品牌生态学的理念,认为纸媒微信平台可以通过品牌生态位竞争策略、生态
目的观察自拟痛经汤治疗寒凝血瘀型痛经的临床疗效。方法随机选择2013年5月~2014年5月收治的痛经患者70例,根据中医辨证均属寒凝血瘀型痛经,将患者以双盲法分为两组,对照组采
作为第四代反应堆六个候选堆型之一的熔盐堆,在近年来受到国际核能界的广泛关注和研究。反应堆系统安全分析软件是反应堆设计的重要工具,在反应堆热工水力设计、运行策略、保护
介绍了开发绿色包装材料的重要性,简述了绿色包装材料的研究现状和发展前景。
<正>加强中小企业服务平台建设是新形势下政府创新公共服务、促进中小企业发展、惠及就业创业的一项重要举措。目前景德镇市各类服务平台大致有三类:人才管理培训类平台、信
在不同的历史时期,由于社会经济发展水平的阶段性特征,以及经济与社会管理体制的改革与变迁,我国的基本公共服务供给制度,也必然要经历发展与演变的过程.本文按照社会经济发
当前,基于自身特点的微博舆论在网络舆论乃至社会舆论形成方面发挥出越来越肯綮的作用。微博舆论在结构上显现出参与性与互动性交融、节点化与网状化交融、低燃点与多热点交
随着移动互联网技术的快速发展,手机智能化伴随着移动互联网大潮席卷而来,电视观众,特别是年轻观众正在一点点被蚕食。去年底艾瑞咨询的一项数据显示,过去三年,仅北京市的电视机开