论文部分内容阅读
近年来,随着数据量的急剧增长,数据处理技术也同步获得非常巨大的发展。有别于过去传统的数据查询分析技术,借助于云计算技术的海量数据查询处理与分析技术有其本质特征。目前,云环境下的海量数据查询处理与分析技术仍处于不成熟阶段,但其先进性和实用价值已无可置疑。因此,研究云环境下的海量数据查询处理与分析技术具有重要意义。现有的研究已经解决了大部分简单的查询处理问题,对于一些更为复杂的查询处理分析问题,要么不能解决,要么效率不高。本文围绕云环境下海量数据的k近邻连接查询,和k Means聚类分析进行研究,主要研究工作如下:(1)根据云环境下大规模数据查询处理分析的特点,提出了一种适用于多个具有依赖关系的Map Reduce任务的计算框架——基于数据流的计算框架。由于Map Reduce任务均需要读写分布式文件系统,导致Map Reduce不能有效表达多个任务之间依赖关系。该框架将数据处理过程不再按照单任务建模,而是作为一种数据流图来处理,减少了多个具有依赖关系Map Reduce任务之间的文件存储。重新组合任务提高运行效率。(2)k-近邻连接(k NN Join)查询是空间数据库中一种常用操作,随着数据呈爆炸式增长,设计分布式k-近邻连接查询算法成为了目前急需解决的问题。由于现有的分布式k NN Join查询算法都包括了多轮串行的Map Reduce任务,因此提出了一种基于数据流计算框架上高效的k NN Join算法,利用空间填充曲线(z曲线)将多维数据映射为一维数据,从而将k-近邻连接查询转化为一维范围查询。(3)传统的集中式k Means算法已不能适应当前的数据规模。现有分布式k Means算法是基于Map Reduce计算框架而且没有考虑到初始聚类中心的影响。因此,在基于数据流框架基础上,提出了一种高效的k Means算法。该算法采用了基于多次采样的方式确定初始聚类中心实现负载均衡降低算法迭代次数。(4)对Hive进行了改进和扩充,针对空间数据查询处理分析的复杂性,云环境下大规模数据查询处理与分析出现的特点及需求,以Hive大规模数据查询处理与分析平台为基础,对现有系统进行了扩充,使其能够提供对更为复杂的查询处理分析的支持。