论文部分内容阅读
在当今大数据的背景下,天文学——一门以数据分析为基础的学科,其观测数据量也一样随之井喷。特别是由于世界范围内,观测设备的精密程度的提升和科技含量的提高,观测到的天文数据已不局限于可观光范畴内的图像数据,而是涵盖各个波段的星体数据。并且望远镜图像分辨率的提高,连续拍摄能力的增强,各个波段数据的完备,天文观测数据的规模越发庞大起来。尽管不同波段的观测设备的观测结果是不同的,但是他们都以“天文星表(Astronomical Catalog)”(以下简称“星表”)为记录观测数据的标准文件。因此,“星表”是我们解决多波段天文数据检索的重要抓手。但是随着不仅单张或单次观测数据的大小越来越大,单位时间内得到的观测数据也越来越多。这就给天文数据的归档以及与用户的交互带来了困难。天文学家或天文爱好者大都是针对特定区域特定位置的坐标进行研究。对于用户来说,一套借助“天文星表”数据搭建起来的高效的天文数据归档体系和天文数据检索方法对其研究领域会有很大的帮助。用户可以直接通过星表中的赤经赤纬数据,从数据量庞大的天文数据集中,快速检索到我们所需要的数据,是我们亟需解决的问题。本文提出了一套基于天区划分索引的天文星表数据高效检索和存储方法(Distributed Cone Search Indexing System,DCSIS)。DCSIS方法主要分为两部分。第一部分,为了摆脱数据库处理大规模数据时的瓶颈,DCSIS中我们设计了天文星表检索专用的文件格式,它基于专门设计的天区索引方法,将提取过坐标信息的星表数据进行分块处理,并对每个分块进行特定的数据处理,建立适合查询的数据结构,再将其序列化到磁盘上成为“元数据”,已备复用。第二部分则是将生成好的元数据通过数据布局算法,分配到商用机集群中,提高并行查询的性能。经过上述两部分的通力协作,DCSIS最终可以接收用户的查询请求,并将结果以较快的速度反馈给用户。DCSIS方法已在天河一号超级计算机以及阿里云集群上进行了实验。其测试结果表明,DCSIS方法有着较强的强可扩展性和弱可扩展性,同时数据,同时可以部署于阿里云集群上,未来可成为中国国家天文台“天文领域云”项目的一部分。