面向海量数据的位图索引技术及应用研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:asd17844412dsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,数量巨大、种类繁多的数据涌入互联网,大数据时代随之到来。在数据量大、种类繁多的海量数据中快速、准确的查找到满足条件的数据具有重要的现实意义。为加快和优化查询过程,索引技术应运而生。在众多索引技术中,位图索引以存储空间小,查询速度快等特点在一些场合得到了切实有效的应用。为了适应海量数据在存储和查询上需求,提出了分值-区间型位图索引技术,并研究了基于此索引结构的“集合型查询”的优化方案。同时,设计了一种面向海量数据的位图索引结构。本文的具体工作内容如下:1)结合位图索引和数据特点,提出了分值-区间型位图索引结构为了进一步节约海量数据下索引数据存储空间,结合基本位图索引、区间型位图索引和分值型位图索引优势,提出了一种新型的位图索引方案——分值-区间型位图索引。该存储结构可以较大程度节约索引的存储,并且更加有利于集合型查询。2)利用数据挖掘技术,优化分值-区间型位图索引下集合型查询为了提高数据的检索速度,通过分析用户查询数据的特点,使用Apriori挖掘算法挖掘某一特定属性列的多个属性值之间的关联性。结合所提出的分值-区间型位图索引方法,将挖掘出的属性值关联应用到集合型查询语句的优化中,从而提高集合型查询效率。3)提出海量数据下位图索引应用的结构论文提出了一种“二级位图索引”的索引结构,该结构由全局数据的元索引和局部数据的分布索引两部分构成。首先,在元索引表上对研究属性列建立了位图索引,提高元索引表访问速度。其次,对元索引的生成进行了优化和完善,使得数据能够更加“合理”地分配到各个分布式存储节点,更好地利用分布式节点的存储能力。最后,为了使用高并发查询,在元索引服务器(全局服务器)节点使用了查询负载均衡的策略。同时对局部数据的分布索引在查询方面做了进一步的优化。4)设计实验方案,测试了海量数据下位图索引各项性能分别测试了各种位图索引下进行定值、范围和集合型查询耗时对比;测试了高并发对全局数据元索引负载均衡器性能的影响;测试存储节点扩展对整体读性能的影响。实验结果表明,论文提出的分值-区间型位图索引以及面向海量数据的二级位图索引结构,具有可行性与有效性。本文的创新工作包括以下两点:1)提出了分值-区间型位图索引结构,并在此结构基础上对集合型查询做了优化。2)提出了一种适应海量数据分布式存储和查询的“二级位图索引”结构,并对该结构的优势和局限性做了分析。
其他文献
自然景物的计算机模拟是计算机图形学中研究的一个重要课题。自然景物在外形上的随机性和不规则性难以用传统的方法加以描述。自分形概念创立后,其作为一门新兴的交叉学科,受到
随着我国各行各业信息化的发展和变革,文献信息资源也越来越多并呈指数级增长,全文检索技术目前正在得到越来越广泛的应用。但是,随着云计算和互联网的高速发展,信息安全的需
目前大部分企业的信息化建设已经进入了一个快速、稳定发展的新阶段,部分规模企业正由基础信息化管理阶段向全面信息化管理阶段过渡。但是由于企业当前所使用的信息系统通常
在多agent系统(multi-agentsystems,MAS)中,由于单个agent自身能力和资源有限,agent间需要组成联盟并通过交互和协同工作来求解许多复杂的任务,因此联盟机制是MAS中的一个重要研
粗糙集理论是一种处理不精确、不一致、不完整等问题的数学工具,无需提供问题所需处理的数据集合之外的任何先验信息,可直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的
随着互联网媒体的发展及智能设备的技术革新,智能电视已经成为人们家庭娱乐的中心。尽管人们可以使用多种方式来看视频、听音乐及玩游戏,然而手机的屏幕较小且声音播放单元简
宽带综合业务网(integrated service digital network,ISDN)实际上是一个多速率业务的系统,它旨在为用户提供多样性的服务,传输语音、视频、电子邮件(E-mail)以及计算机文件
目前网络连接的一个重要方式是无线局域网(WLAN)连接,它具有灵活的移动能力,适合一些人员流动性大的场所,如机场、车站、学校、酒店等。在这些场所无线用户(WLC)在WLAN中的切
要构建一个实际应用的多主体规划系统往往是一个非常复杂的工作。我们需要对系统进行建模,抽象出核心的要素,简化许多不需要的因素。然后在这种抽象的模型上讨论系统的性质和系
本文在研究了偏振模色散(PMD)补偿反馈方式的基础上,着重研究了前馈补偿方法,主要工作包括:(1)介绍了偏振模色散的相关基础知识,包括偏振模色散的定义、形成原因、表示方法和