分布式平台下基于开销估算的多数据集连接方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:edwinshi97531
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式计算的发展为大数据的分析和处理提供了一个新的平台。Map Reduce是一种能够在分布式系统中实现大规模数据并行运算的分布式计算框架。但是Map Reduce自身的不足限制了它处理多数据集连接的能力。如何改进现有的利用Map Reduce处理多数据集连接的方法,提高Map Reduce处理数据集连接的效率,对于提高数据的查询、分析效率,更好地支持大数据的分析处理具有重要的意义。分析Map Reduce计算框架中Map阶段和Reduce阶段的数据处理过程,在现有连接开销模型的基础上,细化Map阶段和Reduce阶段中的数据排序、压缩等过程,加入map函数和reduce函数部分的计算开销。给出利用概率分布函数估算连接结果数据量的方法,使模型能更好地服务于连接计划的规划。以开销估算模型为基础,设计一个结合贪心和动态规划策略的多数据集连接方法。首先利用预等值连接减少参与非等值连接的数据集的数据量,降低后续处理非等值连接所需的开销;其次,利用ThetaJoin分步连接和二路Theta Join连接组处理所有非等值连接;最后,利用贪心和动态规划将等值连接分解成多个子模块,并为每个子模块选择合适的连接方案。这种启发式的连接方法利用开销模型分析现有连接方法在处理不同连接场景时的优劣,将任务进行分解,为每个子任务选择合适的连接方法,实现以减少局部连接的开销来提高整个连接任务效率的目的。设计不同的连接场景,在搭建的Hadoop并行计算平台上对多种不同的连接方法进行实验。实验结果表明,设计的连接方法比其余的连接方法更能适应不同的连接场景,具有更高的效率,更好的有效性。
其他文献
数据备份系统最常用的用途是恢复用户偶然错误删除的文件和恢复由于磁盘损坏而丢失的数据。传统的数据备份系统需要整个系统停止运行才能进行,在备份期间,无法进行正常的数据访
在电力学科中,静态安全分析技术是保证电网稳定运行的一项关键技术,由于包含非常庞大的计算量,所以通常需要借助于高性能计算机帮助计算。而在经典的计算机架构下计算机的计算能力难以保证其业务的实时性。随着GPU技术的不断发展,NVIDIA公司推出的CUDA架构让GPU在通用计算领域越来越普及,由于GPU在硬件上的特点,拥有良好并行计算能力,能很好应对需要大规模计算量的场景。在静态安全分析系统中引入GPU来
随着计算机和网络的迅速发展,人们对身份认证技术提出了更高的要求,基于生物特征识别的智能身份认证方法也逐渐受到广泛的关注。在众多的生物识别技术中,指纹识别技术是发展最早
数字水准仪是集光学、电子、编码技术、图像处理、计算机技术于一体的当代先进的水准测量仪器。它凭借其速度快、精度高、操作简单等优点很快得到了广大用户的认可,并被应用于
随着计算机图形学与计算机网络技术的发展,越来越多的应用需要通过互联网、数字电视网络、甚至是无线网络,来访问那些存放在异地的三维几何图形数据。这使得本已经十分有限的网
随着信息系统与软件产品规模的急剧扩大,软件体系结构逐渐成为软件工程领域的热点及关键技术,日益受到国内外学术界和工业界的关注。软件体系结构关注系统的全局组织形式,是
层次型无线传感器网络是大量节点按簇结构呈层次性组织的一类传感器网络。提供安全的网内处理和被动参与功能以减少通信量是层次型无线传感器网络安全中的重点。由于传感器网
动态预测是实际工程领域和科学研究中普遍存在的问题。在应用中,很多系统都可以看作是一类复杂的非线性时变问题,一些问题由于缺乏先验理论和知识,以及内部变换和环境因素相
随着电子技术和通信技术的发展,一方面使路由器的性能越来越高,它不仅仅是进行简单的转发数据,而且还可以提供服务分类(CoS)功能;另一方面,SDH/SONET能够为节点之间的互联提
软件维护是软件投入使用后,对软件进行适应性、修正性、完善性、预防性维护的阶段,是整个生命周期中最漫长,时间成本最高的阶段。据报告,在整个软件维护过程中,程序理解的时