面向全文检索的在线索引关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jxj198711
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息的日益膨胀,人们能够获得的信息越来越多,但要准确、及时的获取需要的最新信息却有些困难。在线索引构建及管理作为搜索系统的重要组成部分,目的是要针对浩瀚的互联网数据高效的构建索引,做到实时更新索引,从而为检索用户提供及时、准确、全面的最新信息。本文主要研究的就是如何在线环境下构建并管理索引,如何平衡索引和检索之间的性能。本文从全文检索的倒排索引技术展开,重点研究基于动态文档集的索引构建和管理算法及索引和检索性能的平衡,取得了以下研究成果:(1)本文对基于倒排索引的文件结构以及索引构建合并算法进行了研究,针对在线索引的应用场景和需求,设计并实现了一种针对在线索引的高效的倒排索引文件结构,有效的支持了在线索引的构建及更新。(2)本文通过研究在线环境下索引更新的特点,提出了针对文档删除的索引管理算法。与传统的针对删除的索引管理算法相比,该算法引入了基于门限值进行垃圾文档删除的思想,实验表明,该算法有效的提高了文档删除时的索引性能,同时也保证了高效的检索性能。(3)提出了一种基于动态类哈夫曼树的索引构建及管理算法。与传统的索引构建及更新算法相比,该算法能够并行的处理文档插入和删除时的情况,并采用了多路合并的方式,可以选择非相邻的子索引合并,更为灵活。实验结果表明,该算法能够有效的处理文档增加和删除时的索引更新,并且能够平衡索引和检索性能。基于上述研究成果,本文设计了针对动态文档集的全文检索系统,包括解析模块、索引模块、检索模块、存储模块等,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
传统的写优化数据库管理系统多数采用按行存储的方式,而对读优化的数据仓库管理系统而言,列存储表现出比行存储更加显著的性能。这是由于列存储技术是将数据表以列为单位进行
在多Agent系统中,运用Agent的自主、交互等特性来实现某个系统目标或求解大规模问题时,Agent通信是实现Agent相互作用必不可少的手段。然而由于各个Agent所拥有的知识和所处平
在构建大规模企业级应用时,采用面向服务的体系架构(SOA)不失为一种可以有效控制开销的方式。通过使用SOA,企业系统可以定义、执行分布式、跨多重服务领域的服务。然而,对于
随着信息技术的飞速发展,互联网上的数据呈现爆炸式增长,其中大部分数据以文本信息的形式存在。在大数据的时代背景下,面对大规模的文本数据,传统的单机串行式文本聚类算法在
随着网络技术和信息技术的快速发展,不同身份认证体系之间的信息需要在保障用户隐私和信息安全的前提下交互和融合。如何既能保障安全,又能在不同身份认证体系之间建立互通机
珍珠产业是中国传统产业,我国的珍珠产量居世界首位。然而,我国的珍珠分选加工过程仍然以人工为主,根据珍珠的颜色、光泽、表面质量和形状进行分选,人工分选成本高、效率低。
现有的广播电视覆盖面较广,但是它越来越难以满足用户的个性化要求。随着国家“十一五”规划中关于电信网、广播电视网、互联网三网融合政策的颁布以及互联网的飞速发展,各运
安卓(Android)移动操作系统基于Linux内核,具有自由开放的源码、兼容丰富硬件和易于开发等特点;随着Google的大力推广,安卓已占领智能可穿戴设备和车载移动设备等市场。近年
视觉选择性注意模型是以认知科学、神经心理学等相关领域的研究成果为基础的,在计算机信息处理中引入并研究这种选择性注意机制,其理论成果对于智能信息研究发展具有重要的意
作为近年来刚刚兴起的概念,云计算很快以不可阻挡之势得到了快速的发展。云计算是一种计算方式,通过互联网将资源“以服务”的形式提供给用户,而用户不需要了解、知晓或者控