云环境下海量数据查询处理与分析技术研究

来源 :南京航空航天大学 | 被引量 : 1次 | 上传用户:LQL12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着数据量的急剧增长,数据处理技术也同步获得非常巨大的发展。有别于过去传统的数据查询分析技术,借助于云计算技术的海量数据查询处理与分析技术有其本质特征。目前,云环境下的海量数据查询处理与分析技术仍处于不成熟阶段,但其先进性和实用价值已无可置疑。因此,研究云环境下的海量数据查询处理与分析技术具有重要意义。现有的研究已经解决了大部分简单的查询处理问题,对于一些更为复杂的查询处理分析问题,要么不能解决,要么效率不高。本文围绕云环境下海量数据的k近邻连接查询,和k Means聚类分析进行研究,主要研究工作如下:(1)根据云环境下大规模数据查询处理分析的特点,提出了一种适用于多个具有依赖关系的Map Reduce任务的计算框架——基于数据流的计算框架。由于Map Reduce任务均需要读写分布式文件系统,导致Map Reduce不能有效表达多个任务之间依赖关系。该框架将数据处理过程不再按照单任务建模,而是作为一种数据流图来处理,减少了多个具有依赖关系Map Reduce任务之间的文件存储。重新组合任务提高运行效率。(2)k-近邻连接(k NN Join)查询是空间数据库中一种常用操作,随着数据呈爆炸式增长,设计分布式k-近邻连接查询算法成为了目前急需解决的问题。由于现有的分布式k NN Join查询算法都包括了多轮串行的Map Reduce任务,因此提出了一种基于数据流计算框架上高效的k NN Join算法,利用空间填充曲线(z曲线)将多维数据映射为一维数据,从而将k-近邻连接查询转化为一维范围查询。(3)传统的集中式k Means算法已不能适应当前的数据规模。现有分布式k Means算法是基于Map Reduce计算框架而且没有考虑到初始聚类中心的影响。因此,在基于数据流框架基础上,提出了一种高效的k Means算法。该算法采用了基于多次采样的方式确定初始聚类中心实现负载均衡降低算法迭代次数。(4)对Hive进行了改进和扩充,针对空间数据查询处理分析的复杂性,云环境下大规模数据查询处理与分析出现的特点及需求,以Hive大规模数据查询处理与分析平台为基础,对现有系统进行了扩充,使其能够提供对更为复杂的查询处理分析的支持。
其他文献
随着信息交换需求迅速增长,交换信息容量的巨增,系统内部上下级数据库之间的数据传输和不同系统之间的数据交换已成为信息系统发展的一个瓶颈。针对这种现代大型网络信息系统
目前主流的全分布式非结构化P2P网络在构造拓扑时都没有考虑节点的自主行为特征,节点在拓扑上的地位是相同的,对等网络缺乏有效的机制保证网络的良性发展,这降低了节点获得服务
敏捷供应链和经济全球化的发展促使企业集成信息系统从组织内部扩展到组织之间。SOA通过建立模块化服务,来支持所在组织以及外部组织共同参与到一个跨组织的业务过程中,为企
随着信息网络技术的发展,用户对移动性的要求越来越高。移动IPv6协议的出现,使得单一接口的移动节点在IPv6子网间移动时可以保持其通信的连续性。与此同时,全球范围内存在多
在软件技术迅猛发展的今天,软件测试作为软件开发重要环节的同时,也成为了保证软件质量的重要手段。在面向对象软件的开发过程中,需要不断的测试和修改,在修改的过程容易引入
虚拟仪器就是利用数据采集设备加上数据分析软件来代替传统的测量仪器。以PC为平台的虚拟仪器系统长期以来充当着智能测试系统的平台,随着后PC时代的来临,业界对仪器的个性化
商业智能技术(Business Intelligence,BI)是当前信息处理技术中的一项热点课题,具有集成化数据管理、灵活的数据访问、强大的数据分析和可视化的报告等能力。BI主要应用了数
为了解决将对象持久化到关系数据库时所面临的问题,减少对象模型和关系模型之间的阻抗不匹配给应用系统设计开发所带来的消极影响,本论文分析了对象模型与关系模型相互映射的
工作流建模是当前工作流研究领域的热点问题之一。研究更具柔性和适应性的工作流建模方法,并探索模型对实际工作流系统开发的指导作用,使其更好地适应业务流程的动态变化,是
近年来随着因特网用户人数的增多,因特网通讯的体积迅速增长,这就要求越来越多的网络带宽。为适应因特网通讯,骨干网的容量已由WDM(波分复用)技术提高。基于WDM技术的波长路由