面向动态文本的在线索引若干问题研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:woshishouhushen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
倒排索引是提高检索效率的重要技术,如何平衡倒排索引的空间效率、动态性能和检索效率是倒排索引面临的关键问题。本文主要围绕动态环境下索引的构建合并与更新、压缩存储和查询检索等方面展开研究,以提高检索系统的综合性能。论文首先介绍了所选课题的研究背景与意义,分析了国内外在线索引的结构模型、压缩及更新维护的现状,同时提出了本课题研究的主要内容。其次重点分析在线索引的存储问题,设计了在线索引的四级层次结构,并实现了支持在线索引的文件系统,主要包括barrels桶文件、fdd存储域文件、fd1存储域链接文件,voc词典表文件和fot词条频率文件等。随后,针对海量数据存储空间不足,传统压缩文件的查询、元素的添加、修改和删除操作比较麻烦等问题,在分析Golomb编码和BIC编码等常用编码基础上,提出了面向位操作的动态分块自索引压缩方法(Bit_DIB)和面向字节操作的动态分块自索引压缩方法(Byte_DIB)。论文接着研究了在线索引的更新维护问题,设计了基于DIB自索引压缩结构的索引更新算法,该方法适合文本内容更新量较小的情况。随后,针对索引合并问题,提出了合并策略应遵循的四个原则,分析了re-build、re-merge、in-place和hybrid approach四种索引维护方式,在总结GP、LOG和DBT等合并策略的基础上设计了基于N级类状态图(NSD)的索引合并算法。最后,在理论研究的基础上,设计并实现了在线索引工具(On-line Indexing Tools)的原型系统,为后继研究提供了实验平台。
其他文献
随着基于位置社交网络的发展和信息过载问题的出现,使得兴趣点推荐研究得到国内外研究学者的广泛关注。基于位置社交网络中的兴趣点推荐不仅可以帮助用户有效地发现新地方,为
根据液压支架虚拟概念设计提出的实际要求,本文以液压支架关键部位的截面识别为主要研究内容,在利用特征识别及相关计算机图形学基本原理的基础上,提出了截面识别的新方法,实
随着互联网中的信息量剧增,用户个性化需求日趋急切,推荐系统已经成为信息过滤的热门工具。协同过滤推荐算法是应用最广泛的推荐算法。为进一步提升推荐结果的准确度,大量基
随着网络的快速发展和计算机相关技术的普及,企业信息化的脚步也越来越快,越来越多的企事业单位使用专用的管理信息系统进行业务管理。企业由于业务发展的需要和出于节约成本
无线Mesh网络(Wireless Mesh Network)即无线网状网(WMN),是一种新型的“无线接入网络技术”。它具有自配置、自愈合、高带宽以及广泛兼容性等特点。路由协议是无线Mesh网络
随着经济的快速发展,安全防范在我们的生活中引起了社会的越来越多的关注,所以视频监控系统逐渐进入了我们的日常生活,并起着不可替代的作用。但是传统的视频监控系统如模拟
随着多处理器技术的发展,多核技术得到了广泛的应用。多核处理器通过提高软件的并行性来提高计算机性能,改变了计算机以前只依靠提高硬件性能来提高软件运行效率的规则,人们
软件复用是在软件开发中避免重复劳动的解决方案。通过软件复用,可以提高软件开发的效率和质量。依据复用的对象,可以将软件复用分为产品复用和过程复用。其中,基于构件的复
人工智能(AI)是目前在计算机科学界最令人感兴趣的研究领域之一,它既可以帮助研究者更好的理解人的大脑的决策过程,同时也可以增加组织对决策制定的参与过程。AI的核心是它包