论文部分内容阅读
时域天文学是一个研究具有时变特性的天文现象的领域,要求使用望远镜对同一个目标天体在一定时间尺度内进行足够多次数的观测,因此,望远镜观测数据中天文图像数据的时序子集检索在时域天文学研究中扮演着重要的角色。当前,天文图像数据可能存储在一个或多个地理位置不同的数据中心,通常天文图像数据检索需要以下步骤:首先,下载或者拷贝地理分布式数据中心中包含目标天区天文原始图像数据集到本地服务器上,并手动检索到目标天文原始图像数据;之后,根据时间等因素对原始数据进行排序;最后,手动获取目标天区天文图像数据的时序子集。随着望远镜建造技术与科技水平的发展,手动处理存储在地理分布式环境中的天文图像数据所花费的时间和人力成本越来越高,甚至手动检索已经不能适用于当前时代。地理分布式环境中,高效自动检索天文图像数据时序子集对时域天文学研究有很大的帮助,是亟待解决的科学问题。本文提出了面向地理分布式天文图像数据时序子集高效自动检索方法(Geo-Distributed Astronomy Image Data Retrieval,GAIDR),GAIDR方法接收并解析请求,之后自动高效的检索出目标天区天文图像数据子集并将时序子集返还给天文学家。GAIDR方法中设计了多层级主从存储架构并建立相关天文图像数据索引来实现高效检索,其中数据索引包括天文原始图像数据索引与天文副本图像数据索引。另外,为进一步提高天文图像数据时序子集检索效率,本文提出了一种适用于时域天文学天文图像数据访问的副本策略并融入GAIDR方法中。本文副本策略通过副本坐标映射算法减少天文图像数据副本的文件大小并合并相同或相近目标区域的副本文件,根据天文图像数据的被访问情况识别出热门的天文图像数据进行副本数据替换,并根据时域天文学中时间与空间的特点设计了副本数据布局算法,实现并行的天文图像数据子集检索。在地理分布式环境中,GAIDR方法相对其他检索方法可以获取最高的副本命中率与最低的平均响应时间,GAIDR方法的平均响应时间相对性能最好的NoDataLayout检索方法可以降低14.07%。