基于TermID序列排序的标识符重分配的倒排索引压缩研究

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:b56240320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于信息科技的飞速发展,数据爆炸式增长,形成了人类史上前所未有的海量文本信息。面对海量的文本信息,倒排索引作为一种有效的全文索引技术,能够快速准确地帮助人们查找所需要的信息。但是海量的文本信息形成了规模庞大的倒排索引,其规模最大可达原文的300%,所以倒排索引的压缩是十分必要的。倒排索引生成算法的一般流程是docID分配、Posting Lists生成和Posting Lists压缩。常见的标识符分配算法有基于URL排序的标识符分配算法和基于交叉的标识符重分配算法;常见的Posting Lists压缩算法有Unary Code、Variable Byte Code、 Simple-9和PForDelta等。本文提出了基于TermID序列排序的标识符重分配算法。通过遍历已创建的倒排索引生成正排表,规定正排表内termID序列的排序规则,并按照该规则对正排表中的文档记录进行排序得到新顺序的文档序列,然后根据新的文档顺序依次为文档分配新标识符,重新创建倒排索引。本文实现了基于URL排序的标识符分配算法(URL)、基于交叉的标识符重分配算法(IBDA)、基于TermID序列排序的标识符重分配算法(SBDRA)等标识符分配算法和VByte、Simple-9、Simple-16、New PFD、Opt PFD、PForDelta等posting lists压缩算法。使用Wikipedia网站文档数据集,实现了18组混合交叉实验。实验结果表明,对于大规模的文档数据集,本文提出的基于TermID序列排序的标识符重分配算法性能优于基于URL排序的标识符分配算法和基于交叉的标识符重分配算法,其生成的倒排索引具有更好的整体压缩效果。
其他文献
关联规则挖掘作为数据挖掘的一个重要研究领域,通过各事务项集之间的相关联系,给用户提供感兴趣的规则,在商业、科学和其它应用方面得到了广泛应用。但是,传统的关联规则挖掘
在移动计算环境中,数据一致性是移动数据库在实际应用中必须解决的主要问题之一,而同步复制技术是维持数据一致性的关键技术。然而,现有的同步复制方案存在一定的局限性:日志
软硬件划分是软硬件协同设计中的关键技术。软硬件划分是指在系统设计时,确定各个功能模块是采取软件还是硬件的实现方式。软件实现的特点是灵活、成本低;而硬件实现的特点是
人类进入二十一世纪以来,随着科学技术的发展,网络信息技术也得到了飞速发展。与此同时,网络中各种各样的安全隐患也层出不穷。尤其是近几年来,由于拒绝服务攻击易于实施,破
文本倾向分析目的是确定文本所表达的态度或观点,近几年来已经成为信息检索和自然语言处理领域的一个热点问题。文本倾向分析分为两个方面:情感(emotion)和情感倾向(sentimen
社交网络的快速发展使得人们获取信息的方式发生了巨大的变化,越来越多的人开始习惯于通过网络来获取自己感兴趣的新闻资讯、热点信息等。其中,微博作为一种被普遍应用的网络
随着面向服务的计算(Service-Oriented Computing, SOC)与面向服务的体系架构(Service-Oriented Architecture, SOA)的不断发展,不同企业间的应用集成已成为一种趋势,这使得
学位
随着计算机技术和网络技术的飞速发展,各种信息系统的广泛应用,计算机安全问题也日益突出。许多传统的安全技术面对高速网络时无法快速的检测出入侵攻击,不能识别新型的攻击
个性化信息服务的核心技术之一是用户建模技术,用户模型(又称用户描述文件)主要描述用户的特征以及用户之间的关系,在个性化服务系统中能否建立一个高质量的用户模型直接关系