大数据集全比较问题的数据分配策略研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:djf344010190
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据集全比较是一种特殊的计算问题,对数据集中的任意两个数据进行比较计算,广泛存在于生物信息学,生物计量学,数据挖掘等领域。基于分布式存储架构的分布式计算由于具有高效益,高可靠性和高可扩展性等优点,而被广泛地用于解决大规模的计算问题,包括全比较计算。它把一个大问题分解为多个小问题,然后把每个小问题交给分布式系统中的各个节点来处理。然而,它的性能依赖于数据分配,任务分解和任务调度策略。对于比较任务来说,不合理的数据分配和低的数据本地性会极大地降低整体的计算性能,此外,分布式系统中不均衡的计算负载也会影响计算性能。  本文首先介绍了问题产生的背景,以及对该问题传统的解决方法的不足。其次,对全比较问题进行了深入的理论研究,模型构建,并提出了相应的算法,获得了好的计算性能。本文的贡献主要为以下几点:  (1)对全比较问题进行深入的理论剖析,对全比较计算的数据分配问题进行了模型构建。  (2)提出了基于贪心思想的启发式的数据分配算法。根据数据分配问题的理论模型,提出了启发式规则,并根据这些规则提出了数据分配算法。保证了所有比较任务的数据本地性为100%,与在每个节点上存储所有的数据文件的策略相比,提高了存储效率,与Hadoop默认的数据分配策略相比,提高了整体的计算性能和良好的可扩展性。  (3)提出了基于图覆盖的数据分配算法。该方法为本文首次提出,用于解决全比较问题。首先,介绍了用图覆盖来解决全比较计算的数据分配问题的理论基础。其次,证明了在某种条件下可以构造出图覆盖的最优解,并且成功构造了几组最优解。与启发式相比,除了保证比较任务具有100%的数据本地性,负载均衡以外,在特解的情况下,基于图覆盖的数据分配算法具有更好的计算性能。
其他文献
全球卫星定位导航系统因其定位精度高、连续性好等优点而被广泛应用于抗震救灾、国防军事、现代农业、智慧城市等各大领域,但单一的卫星导航系统易受恶劣地貌环境或人为干扰
提取作入射到传感器阵列上的信号源的位置,即为达波方向(DOA)的估计。DOA估计适用无线通信、雷达、射电天文学、声纳、导航、多目标追踪及其他工程应用。电磁矢量传感器阵列相较
随着社会信息化程度的加深,对通信系统容量、质量和不同场景适应能力的需求越来越高。本文借鉴甚小线性调频键控(Very Minimum Chirp Keying,VMCK)的技术思路,利用调频信号的
北斗(Compass)卫星导航系统是一种重大的空间信息基础设施,在社会、经济、军事和科研等领域被广泛应用。卫星导航信号是联系空间段、地面段和用户段的核心纽带,具有十分独特
超短波通信的通信质量高、通信距离远、信道条件好。因此超短波电台广泛的应用于军事通信、地址灾害监控、洪水预警等很多系统。在无线通信系统中,射频收发机位于系统的最前端
语言是人类最重要的交流工具,它能准确、高效、方便的传递信息。随着社会的不断发展,越来越多的机器参与到人类的活动中来,因此人类和机器的关系就变得越来越密切和重要,语音交互
互联网规模的迅速膨胀,使得IPv6取代IPv4变成必然。而随着移动通信技术的发展和无线终端接入的普及,人们对移动终端在移动过程中的网络连贯性提出了新的需求。为了让移动终端能
因为人脸识别在安全领域具有更直观的识别效果,所以一直受到人们的重视。本文主要进行的是关于侧面人脸识别的研究。通过查阅相关资料可以了解到现有的算法大多数是针对正面人
超椭圆曲线是一类特殊的代数曲线,一般可以看成是椭圆曲线的推广。超椭圆曲线应用于公钥密码体制中,相比于其它公钥密码体制,具有诸多优势。例如,与椭圆曲线密码体制相比,在相同的
光纤无线通信(Radio-Over-Faber, ROF)技术是采用光纤链路传输高频微波毫米波信号,该技术将宽带移动通行技术和光纤通信的大容量、超带宽、高可靠性有机结合起来,具有覆盖面