基于MapReduce的高效交叉证认实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:uugoooo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
天文望远镜技术的发展实现了天体观测数据的全波段覆盖。交叉证认用来确立不同波段数据间天体的对应关系,是多波段数据融合的关键技术。随着天文数据采集量越来越大,交叉证认这种计算密集型操作的复杂性与难度不断增加,传统的依靠单节点进行证认计算的方式变得十分低效。   基于MapReduce的分布式计算环境可以利用多个节点的计算资源并行处理数据,迎合了大数据间交叉证认的计算需求。设计高效的MapReduce程序实现大数据间交叉证认是本文研究的主要内容。   但是分布式计算环境会带来单机环境不具备的新问题,比如分布式算法的选择、不同计算节点间的负载均衡、数据在网络中传输造成的IO影响等。本文综合多方面因素提出一种简单高效的交叉证认处理方案,并基于Hadoop进行相关实现,主要工作如下:   (1)设计了一种紧凑且易处理的二进制数据存储格式。该格式对数据记录各个属性占用的物理空间进行了详细的定义,属性值可通过随机访问二进制数据得出,解析方便高效。此外,在我们的实验中,二进制数据比使用字符数据节省了22%的物理空间,从本质上降低了分布式计算环境中数据IO造成的影响;   (2)提供了一种高效的证认数据分割方法。该方法将参与证认的两份数据分别物理划分为多个数据块,同一数据的不同数据块保存不同天球区域的数据,把两份大数据间的证认转换为两份大数据所有对应数据块间的证认,不同对应数据块间的计算完全独立,为证认过程的并行处理带来了便利;   (3)给出了一种Map-Only的交叉证认过程,并用真实数据USNOA和2MASS进行了测试。在Map阶段完成证认计算工作并写回证认结果,省去了Reduce阶段需要的shuffle和排序过程,在我们的实验中,Map-Only方式比Map-Reduce方式有83%的性能提升,比分布式数据仓库Hive中Common Join性能提高了86%。
其他文献
学位
云计算平台是一种新型的资源管理以及调度平台,通过采用虚拟化的方法,最大限度地帮助用户获得所需的资源。混合云结合了公有云在资源分配能力及私有云在用户需求定制化方面的优
近年来,工作流技术成为了办公室自动化领域的主要应用技术。工作流技术实现了企业业务流程部分或全部自动化,通过将工作流程按照任务、角色进行分解提升了企业业务流程运行的
随着医疗信息化建设的发展,大量的数字化医疗设备被用于诊疗实践。这些医疗设备的应用所产生的大规模的医疗影像,能够清晰的对人体结构和病理信息进行展示,成为诊疗决策的重
如今,网络技术已经与人们的现代化生活息息相关,无论是政府办公、企业经营,还是个人生活都在享受着网络应用带来的便利和高效。然而,随着人们对网络应用的依赖日益增加,网络技术也
随着人机交互技术和计算机视觉的发展,基于视觉的交互成为当今人机交互发展的主要方向之一,其中的人脸跟踪技术成为国内外研究的热点。人脸作为人类独一无二的生物特征,具备不易
由于近些年经济和科学技术的快速发展,物联网产业也随之而生。在“智慧地球”这一概念被提出之后,新一轮的科技革新即将全面展开。物联网将是以物物相连为基础的,能够应用到
当今世界经济发展迅猛,企业之间的竞争也愈加激烈,各企业之间的竞争焦点也从原来的单纯的提高产品质量,降低生产成本,转移到提高产品服务上。而呼叫中心的诞生,把计算机系统
交互式电子技术手册(Interactive Electronic Technical Manual)是美国和欧洲许多发达国家推行持续采办与寿命周期保障(Continuous Acquisition and Life-Cycle Support,CALS)
在科学计算可视化和真实感图形学领域,体绘制算法目前已经成为针对体数据进行可视化和真实感绘制的标准方法。为了提高体绘制算法的效率和效果,体绘制硬件加速算法和体光照真