太阳望远镜海量数据存储关键技术研究

来源 :中国科学院研究生院(云南天文台) | 被引量 : 14次 | 上传用户:wangrong2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前天文数据处理技术已经进入了数据密集型的天文信息学时代,大数据是比较典型的特征。在太阳观测中,具体表现为数据量庞大、数据采集速率高和数据连续性增长。传统的本地存储技术,例如DAS,以及网络存储技术,例如NAS以及SAN等,在天文大数据存储、处理和管理的需求背景下,表现出诸多的局限性,这些局限性为很多科研活动的开展带来不便。以海量数据为基础的现代天文观测迫切需要先进的大数据处理技术来加快数据的处理,例如MapReduce,为了支持这些处理技术的应用,存储系统需要能够提供高性能、可扩展的并发读写能力和具备海量天文数据的管理能力。一米新真空红外太阳望远镜(The1m New Vacuum Solar Telescope-NVST)已经投入运行,采用高速度、多通道、多终端的数据采集模式,目前已经产生了超过200TB的太阳观测数据。在观测条件理想时,光球和色球两个通道同时观测,当前色球通道和光球通道能够分别达到每小时60GB和190GB的高速采集速率,按照8小时观测时长计算,一天能够产生2TB(Terabytes)左右的观测数据。随着NVST高分辨率成像系统对数据的时间和空间分辨率要求的提高,未来更多通道并发工作时,单向写入速度能够达到每秒TB量级。如果考虑到实时的数据处理,这个速度还要翻倍。在这样的速度下,单机硬盘存储已难以满足NVST持续、高速的数据写入。当前一些主流存储技术,例如固态硬盘,因为成本,读写次数有限等因素限制它们在太阳观测中的应用,这极大地限制了NVST的科研产出。另外,传统的数据存储关键技术,例如本地文件系统Ext3、Ext4以及新兴的文件系统ZFS等已难以满足太阳观测中高速的并发数据读写需求;基于关系型数据库的数据管理技术也不能很好的应对NVST海量数据管理的需要。面对这些问题,就迫切需要寻求能够管理海量数据,具有高性能、高扩展性以及能适应NVST存储需求动态变化和支持高速数据处理的存储技术。虽然一些前沿技术,例如基于DAS和SAN的存储整合技术、虚拟化存储技术能够满足这些需要,但是他们的技术复杂、实际部署、配置和管理维护成本较高,也不适合在太阳观测中应用。分布式并行存储技术能够很好地满足这些需求,因为基于分布式的存储能够提供高性能的并发存储并具有良好的横向扩展特性,可以部署在普通的廉价主机上,综合成本、性能和可扩展管理等方面的考虑,分布式存储比较适合NVST多通道多波段观测模式的海量数据存储技术。另外,如何高效快速地检索和查询海量观测数据也是存储管理中具有挑战性的难题,基于分布式的非关系型数据库(NoSQL)数据存储管理技术能够有效应对这些挑战。因此,本论文以分布式存储技术为核心,研究分布式文件系统和基于NoSQL海量数据检索查询技术在太阳观测中的应用,论文主要研究工作包括:1)分布式文件系统在太阳观测中的应用。通过实验从横向和纵向两方面深入研究了分布式文件系统的存储性能、可扩展性,以及分布式文件系统在太阳观测应用中的可行性;研究了基于FITS文件的存储性能优化,通过Bonding技术在千兆网络环境下单进程能够达到3.4Gb/s的存储速度,满足了NVST当前高速的存储需要;重点研究了分布式文件系统在太阳观测中的应用模式和如何满足异构平台的数据存储需要;2)研究了太阳FITS元数据和数据在分布式存储中的不一致性问题。在分布式存储环境下,因为高效的数据查询和管理需要,观测的FITS元数据与数据被分离存储。这可能因为短暂的网络、硬盘等故障导致大量的元数据和数据之间的不一致。如何采取有效的保障机制约束元数据和数据之间的一致性是在高速数据存储过程中容易被忽略的问题。本文在这方面进行了研究,分析了不一致性产生的原因,不一致性模型以及应对措施,并提出应用两段提交协议来尽可能保证二者之间的一致性;3)设计了面向太阳观测的分布式存储系统AstroFS,阐述了它的核心组件设计。其中包括了高性能特性设计,例如,根据太阳观测的要求,放弃多层次树状文件目录,使用两级扁平化的目录存储观测文件;研究设计基于网络的RAID0数据分片技术。对系统中的其它关键技术也进行了详细的分析和设计,例如数据的聚合拆分,数据均衡分布存储,并发以及复制等;4)通过形式化方法描述了NoSQL存储非结构化FITS文件的通用模式,使用基于压缩的字对齐位图索引算法来对海量天文数据进行索引。设计和实现了一个基于Fastbit的天文观测数据归档系统,该系统具有高效的索引性能和检索效率等优点。论文研究的面向海量太阳观测数据的分布式存储技术和基于压缩字对齐位图索引技术解决了NVST观测数据的快速存储和高效检索难题,实际应用性较强。研究方法也为未来国内外类似太阳望远镜的存储和海量数据的检索提供了参考,具有一定的应用和推广价值。
其他文献
磁场的精密测量在众多领域有着广泛的应用。其中,原子磁力计由于其灵敏度高并且易于小型化的优势,受到人们的重视。近年来,基于非线性磁光效应的原子磁力计发展迅猛,在零磁环
根据GenBank中登录的牛病毒性腹泻病毒(BVDV)毒株序列,选择5’NTR保守区域设计1对特异性引物和1条Taqman探针,通过矩阵法筛选引物探针的最佳浓度,建立了检测BVDV的荧光RT-PCR
在分析滨州文化背景基础上提出了滨州水生态文明城市水文化体系的建设任务,从水利工程生态化与人文化、开展水文化教育、开展水文化活动等方面论述了构建水文化体系的具体建
稀土发光材料是由稀土元素作为激活剂或基质组分而制成的功能材料,稀土发光材料具有强吸收能力、高转换效率和发射紫外到红外波段光谱等优势,在显示、照明、生物成像、传感、
本论文主要试图以上世纪八十年代以来中国当代小说创作为研究和讨论的对象,来阐释文学审美、文学创作及其作家写作主体之间的内在关系、写作状态或精神品质。批判地、辩证地
以湖南某雄黄矿区采选含砷危险废物作为研究对象,通过小试试验药剂筛选、效果验证,确定航天凯天环保科技股份有限公司自主研发的复配重金属高效稳定剂(HK-As-4系列)稳定化效
目的:子痫前期(Preeclampsia,PE)是产科严重的妊娠期并发症,目前诊断主要依靠孕晚期的临床表现及生化检查结果,而在PE发生的早期,临床表现、常规生化等变化多不典型,故发现PE
印刷板式换热器(printed circuit heat exchanger,PCHE)具有紧凑度高,换热面积大,耐高压低温等优点,是一种较为有前景的板式换热器。由于具有较高的紧凑性从而具有较小的体积,作为汽化器特别适用于高压条件下的有限体积的气化过程。PCHE的通道形状一般有直通道、Z型通道、通道中带有间断的S型翅片及翼型翅片四种流道结构。其中Z型通道由于相对简单的制造工艺和较低的制造维护成本,
有机多孔聚合物制备方法的发展,使得科研工作者们能够在纳米尺度上构建孔结构。通过单体或者聚合物作为起始原料的模板法或利用嵌段共聚物自组装法通常可以制备具有特殊的规
语义分割是对图像中的每个像素点进行分类,将图像分割成若干个具有特定语义类别的区域,是计算机视觉领域的核心技术。近年来,卷积神经网络(CNN)不断取得突破性进展,利用深度