论文部分内容阅读
随着互联网技术的飞速发展,全球数据量呈爆炸性增长,并且数据种类极为丰富,传统的存储模型和索引技术已经无法适用于现今的大数据管理环境中。因此,针对大数据的特点和需求,借鉴传统索引技术的设计思想,研究面向大数据的索引技术已经成为学术界比较关注的研究课题。大数据具有多样性,也就是说组织中的数据不再单单是过去传统的结构化的关系型数据,还包括来自网页、社交媒体、电子邮件等大量非结构化数据。由于两种数据具有异构性,所以经常被分开存储和处理,但在一个应用系统中,往往存在大量的相互关联的异构数据,而当用户需要搜索这些数据时,亟需要一种索引机制实现结构化和非结构化数据的快速统一访问。而在过去的研究中,只是针对某一种数据类型的索引技术进行研究和应用,对异构数据索引技术的研究工作还很少,极其缺乏一个完善的索引机制用于解决异构海量数据的查询问题。除多样性外,大数据还具有一个明显的特征便是海量性。为了存储海量的数据,出现了很多具有代表性的分布式存储和管理系统,如Google的分布式文件系统GFS、雅虎的PNUTS、Hadoop的HDFS等。但它们大部分只提供简单的基于主键的快速查询,因缺乏必要的索引等机制,而无法高效地支持多种查询方式,如范围查询、非主键查询等。因此,为满足用户的多样化查询需求,提高数据查询处理的效率,对海量数据的索引技术展开研究已成为一个亟待解决的挑战性问题。针对上述两个方面的问题和挑战,本文主要做了以下工作:(1)提出一种关联索引模型,用于解决海量异构数据的统一查询问题。该索引机制利用结构化数据与非结构化数据之间对共同实体的描述来建立联系,并将该实体作为关键字创建索引。索引的结构采用web上广泛使用的RDF元数据形式,来描述实体与结构化和非结构化资源之间的对应关系。为了减少关联索引的冗余以及快速定位相应资源,本模型在关联索引层之下又引入辅助索引层,分别为结构化数据创建B+tree索引,为非结构化的自由文档创建基于实体的倒排索引。该关联索引模型很好的解决了结构化数据和非结构化数据索引分离的问题,为混合数据的查询提供了统一的接口。最后通过实验结果分析表明,该索引体制不仅能够有效地支持异构数据的混合查询,而且还提高了查询结果的准确性。(2)提出一种两级位图索引模型,将精简的位图索引模式应用到大数据环境中,结合MapReduce并行计算框架为存储在分布式文件系统中的海量数据分别创建基于分块级别的位图索引和记录级别的位图索引。分块级别的位图索引相当于一个全局位图,指示某个属性值在各个分块中的存在情况,从而避免查询不相关的分块,而记录级别的位图索引则相当于一个局部位图,指示了在一个分块内部属性值的分布情况,从而可以过滤掉不相关的记录,快速定位目标元组。该索引方案从两个层次上避免了读取无用数据,从而有效提高了海量数据的处理效率。最后实验结果证明,该索引机制不仅具有较少的时间开销和空间开销,而且明显优于无索引环境。