论文部分内容阅读
天文交叉证认是实现多波段数据融合的关键技术。经过交叉证认形成的多波段或全波段数据蕴含了更多的可揭示天体物理本质的信息,是加深对天体的认识、促进天文学新发现的关键。天文数据的海量性使其必须要依靠并行计算、分布式计算和海量数据处理等计算机技术加以解决。本文在前人研究的基础上,针对多核处理器环境、大规模集群环境分别研究并实现了高效的并行交叉证认方法和分布式交叉证认方法,并在攻克它的主要性能瓶颈——过于频繁、耗时的数据I/O操作方面取得了一定的突破,真正实现了海量数据上的大规模交叉证认。本文首先研究设计了面向多核环境的并行交叉证认方法,应用HEALPix伪二维球面索引方法在加快数据查询速度的同时实现了数据的区域划分,降低了证认计算的时间复杂度。然后研究并解决了交叉证认的常见问题——边界漏源问题,保证了结果的完全性。实验表明,此方法对交叉证认计算的效率提升明显。此后,针对该方法的最主要耗时环节——数据库查询操作进行了优化,提出了基于限制生长模型的全新数据加载、计算流程,以及任务分配调度的基本单元——最大生长块,既降低了数据重复读取率,又实现了对稀疏数据集中空白区域的过滤,使交叉证认的效率得以继续提高。除此之外,通过理论分析结合实验测试的方式对此并行交叉证认方法在HTM索引下的可行性进行了验证,从而打破了对单一索引方式的依赖,保证了此方法的广泛适应性。为了突破关系数据库在处理海量数据时的性能制约,同时也为了满足海量数据的存储需求,本文继续提出了基于MapReduce分布式并行计算模型及分布式文件系统的交叉证认方法。算法设计上,依照MapReduce模型的特点,通过规划数据在各节点间的分布,尽量地避免了交叉证认计算过程中的节点间通信,保证了接近线性的加速比。实验显示,在大规模数据集上此方法的性能远远优于多核环境下基于关系数据库的并行交叉证认算法,为今后在线实时交叉证认服务的实现打下了基础。此外,本文提出的基于位运算的快速邻域编码计算算法不仅是高效交叉证认得以实现的一个基础性保证,也对诸如锥形检索等多种天文数据处理应用有着重要的作用。本文应用并行计算技术、分布式计算技术、以及海量数据处理技术研究设计的高效交叉证认算法对今后解决同类大规模天文数据处理应用的效率问题有着重要的参考价值。