针对天文学交叉证认的分布式连接算法优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:huang_hh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对天文学交叉证认应用,对分布式连接(Join)算法进行优化研究,基于现有的连接算法基础,提出了基于MapReduce分布式计算框架下的BMJoin连接算法;经过理论分析和实验验证,本文证明了BMJoin算法针对大数据集下的数据连接操作,相对于现有算法具有较高的性能提升。  交叉证认是天文学中基本且关键的计算过程,其任务是将来自不同观测源的天体信息整合为统一的观测星表,以进行下一步的天文学研究。该应用的主要计算是针对来自不同星表的天体进行分析,通过计算它们的位置,以确定它们是否是相同的对象,进而将其属性信息整合到一起。该应用可以转化为数据库中多表的连接操作。  本文首先对天文学交叉证认应用进行了详细的分析,对天文观测的数据特征进行了总结,进而将交叉证认应用转换为大数据下的不同数据集间的连接操作。而后,本文阐述了现有的数据系统中的传统连接算法和分布式环境下的连接算法,包括Common Join和Map Join等,并分别分析了其运算优势和瓶颈。  基于现有的连接算法,利用现有的计算框架,本文提出了基于数据分桶机制和Map端计算的分布式连接算法BMJoin(Bucket-based Map Join)。该算法利用现有的分桶机制对海量天文数据进行分区处理,并在MapReduce环境下进行Map端的分布式哈希连接操作。本文详细阐述了本连接算法的设计思路与实现细节,同时对该算法的计算过程进行了建模分析。经过理论分析,本文说明BMJoin算法相对于现有的连接算法的性能提升,并给出了其理论分析结论。  最后,本文利用真实的天文观测数据,对BMJoin算法进行了对比实验;实验结果验证了之前理论分析结论,证明了该算法在保持良好扩展性的基础上,相对于现有连接算法具有较高的运行效率提升。在大表与小表的连接中,BMJoin相对于Map Join算法最多有2.4倍的相对加速比;在大表与大表的连接计算中,BMJoin相对与Common Join算法最多有1.9倍相对加速比的性能提升。  
其他文献
学位
耦合器是地球系统模式重要组成部分,用于连接各个分量模式。中科院地球系统模式CAS-ESM中使用的CPL耦合器在增加新类型的分量模式、添加耦合物理量、设置耦合频率等环节需要对
现代信息化社会,数据呈现爆炸式增长。这会带来三个方面的严重问题,即存储和管理数据的成本越来越高,数据备份和恢复的时间越来越长,以及数据中心的能耗越来越严重。重复数据删除
体光照技术在可视化和影视特效中有着广泛的应用。不同于一般的体绘制,体光照算法是一种计算体数据全局光照的技术,能够模拟光在体数据中真实散射的情况。通过该技术可以模拟基
物体分割是许多计算机视觉和图像处理问题的重要处理步骤,应用在物体识别、场景理解、图像编辑等相关任务中。因此,物体分割具有重要的研究价值和意义。物体类别的类内多样性,同
倒排索引是Web搜索引擎的核心数据结构,也是目前为止被认为最高效的大规模文本索引方法。随着互联网络的发展,数据规模和用户数量相比早期都有了质的飞跃,这给Web搜索引擎的性能
虽然人脸识别技术现已广泛应用到许多场景中,比如安全监控、辅助相机聚焦等,但人脸识别技术仍然面临着许多挑战。其中一个实际应用中经常会遇到的问题是:训练与目标的人脸图像
大数据时代所处理的数据规模、时效性、复杂度以及价值挖掘,对大数据存储与管理系统的扩展性、访问性能、可用性及可靠性都有着极高的要求。近年来,面向大数据的非关系型存储与
现代大规模并行系统除了被广泛应用于传统的高性能计算领域外,还开始用于新兴的云计算领域。通过对近年来高性能计算体系结构和云计算体系结构发展的调研,发现系统互连是构成上
在互联网技术高度发展的今天,人们的生活方式已经跟互联网紧密结合。社交网络作为互联网在这一阶段的产物,满足了人们不同的在线社交需求。当前主流的社交网络有以信息分享为主