论文部分内容阅读
随着互联网的飞速发展,数量巨大、种类繁多的数据涌入互联网,大数据时代随之到来。在数据量大、种类繁多的海量数据中快速、准确的查找到满足条件的数据具有重要的现实意义。为加快和优化查询过程,索引技术应运而生。在众多索引技术中,位图索引以存储空间小,查询速度快等特点在一些场合得到了切实有效的应用。为了适应海量数据在存储和查询上需求,提出了分值-区间型位图索引技术,并研究了基于此索引结构的“集合型查询”的优化方案。同时,设计了一种面向海量数据的位图索引结构。本文的具体工作内容如下:1)结合位图索引和数据特点,提出了分值-区间型位图索引结构为了进一步节约海量数据下索引数据存储空间,结合基本位图索引、区间型位图索引和分值型位图索引优势,提出了一种新型的位图索引方案——分值-区间型位图索引。该存储结构可以较大程度节约索引的存储,并且更加有利于集合型查询。2)利用数据挖掘技术,优化分值-区间型位图索引下集合型查询为了提高数据的检索速度,通过分析用户查询数据的特点,使用Apriori挖掘算法挖掘某一特定属性列的多个属性值之间的关联性。结合所提出的分值-区间型位图索引方法,将挖掘出的属性值关联应用到集合型查询语句的优化中,从而提高集合型查询效率。3)提出海量数据下位图索引应用的结构论文提出了一种“二级位图索引”的索引结构,该结构由全局数据的元索引和局部数据的分布索引两部分构成。首先,在元索引表上对研究属性列建立了位图索引,提高元索引表访问速度。其次,对元索引的生成进行了优化和完善,使得数据能够更加“合理”地分配到各个分布式存储节点,更好地利用分布式节点的存储能力。最后,为了使用高并发查询,在元索引服务器(全局服务器)节点使用了查询负载均衡的策略。同时对局部数据的分布索引在查询方面做了进一步的优化。4)设计实验方案,测试了海量数据下位图索引各项性能分别测试了各种位图索引下进行定值、范围和集合型查询耗时对比;测试了高并发对全局数据元索引负载均衡器性能的影响;测试存储节点扩展对整体读性能的影响。实验结果表明,论文提出的分值-区间型位图索引以及面向海量数据的二级位图索引结构,具有可行性与有效性。本文的创新工作包括以下两点:1)提出了分值-区间型位图索引结构,并在此结构基础上对集合型查询做了优化。2)提出了一种适应海量数据分布式存储和查询的“二级位图索引”结构,并对该结构的优势和局限性做了分析。