论文部分内容阅读
宇宙的形成、发展和演化是人类永恒的研究课题。宇宙包含了所有的空间、时间、物质和能量。对于宇宙的研究水平,标志着一个国家在科技发展中的位置,对自然科学的众多学科有着特殊的重要意义,也是当代科学技术,特别是尖端空间技术发展的巨大推动力。天文学研究的途径在光学波段主要有两种:天体光谱和天文图像。前者是一维数据,后者是二维数据,二者之间联系密切。光谱分析可以定性或定量地测定天体的化学组成,通过直接或间接的方法确定天体的光度、表面温度、直径、质量、视向速度及自转。因此,光谱分析在天文学中占有重要的地位。对天文图像的分析是另一种研究宇宙天体的途径。利用天文图像可以对天体目标的形态结构信息,包括天体的年龄、状态、演变趋势等进行研究,为天文目标观测与研究提供重要的技术支持。国家大科学项目LAMOST(Large Sky Area Multi-Object Fiber Spectroscopic Telescope)于1997年正式立项,2009年6月通过国家验收,并逐步投入运行。它具有4米口径,可以观测到20.5星等的暗弱天体。在5度视场上可以放置4000根光纤,最多可以同时获得4000个天体的光谱,成为世界上光谱获取率最高的望远镜。LAMOST的观测目标是宇宙中星系与恒星。随着LAMOST的运行,在每个观测夜晚都能够采集万余条光谱,得到的光谱数据量是数十亿字节。因此,在光谱数据的自动识别和分析方面,急需研究海量天体光谱的自动识别与分析方法,包括天体光谱的自动识别、分类以及物理参数自动测量等。山东大学威海天文台WOSDU (Weihai Observatory of Shandong University)用于搜寻太阳系小行星和超新星巡天。每天会产生大量的天文图像数据。以小行星搜索为例,每天都会拍摄大量的天文图像,图像尺寸为2048x2048×16bit,数据量为8M。要发现新的小行星,首先要在图像中快速检测各个星体,然后根据图像坐标换算成天球坐标,再在星表中进行比对。若发现星表里不存在,则将其作为候选体继续追踪观测,并计算出相应轨道,以便确认是否是新的小行星。由于天文图像数量很大,这一流程涉及到大量的处理工作,而天体目标检测就是一个重要的步骤。图像识别中,准确度和速度成为主要的指标。如何快速有效地识别图像中的天体便成为我们研究的一个课题。由此可见,海量天文图像的快速及有效的处理,向计算机信息技术提出了迫切的需求,同时,天文数据所具有的海量性和开放性也为计算机信息技术展开了一个重要的研究和应用领域。对这些海量数据及时有效的处理,需要借助于图像处理、数据挖掘、信号处理等多项现代信息处理技术。本课题利用数据挖掘、图像处理、人工智能、信号处理等先进的信息技术,在国家自然基金项目的支持下,以LAMOST与WOSDU的天文数据为研究和应用背景,针对天文数据的预处理、天文图像的目标检测、高维天体光谱数据的自动分类、稀少天体的数据挖掘等若干关键问题展开研究,设计和验证了一系列有效的算法,并开发出可供LAMOST使用的天体光谱自动识别与分析系统。本研究属于天文和信息交叉学科的研究,是将最新的计算机信息技术在天文领域的一项具体的应用,以期在天文研究中取得新的科学成果。因此,本课题的研究具有非常好的理论和应用价值。本课题研究的内容包括四个方面:(1)天文数据预处理及发射线识别;(2)图像的目标检测;(3)天文光谱的自动分类;(4)稀少天体的数据挖掘。针对上述关键问题,开展了如下的研究和创新工作:首先是天文光谱去噪的研究。通过望远镜观测到的一维光谱数据在探测阶段因噪声而受到影响,导致信噪比降低,因而去噪工作非常重要。作为信号估计的一个组成部分,去噪问题一直在信号处理领域被广泛研究。信号降噪的目的是从被加性噪声污染的信号中还原原始信号。在过去的二十多年中,许多研究集中在使用小波变换去除噪声。已经提出了许多基于正交小波的阈值规则。然而,正如Coifman和Donoho指出的,基于正交小波的去噪算法在不连续信号的邻域中会表现出伪吉布斯现象。因此他们提出了一种平移不变的降噪模式来减少这种影响。另外,就均方根误差和信噪比而言,相对于非冗余的信号表示,冗余的信号表示显示了相当好的优越性。因此,这种平移不变的冗余转变是非常适合于光谱信号的降噪的。Kingsbury提出的双树复小波变换是冗余而且近似于平移不变的。本文提出一种基于双树复小波变换(DTCWT)的光谱降噪算法,该算法处理的光谱具有更高的信噪比和光谱质量。针对天文光谱的预处理,本文研究了基于双树复小波变换的自适应降噪方法。该方法利用最大后验估计理论来对复小波系数进行自适应收缩,在保护谱线等重要信息的前提下,抑制噪声和伪吉布斯现象,提高去噪算法运行效率,为光谱的后续处理提供了有效的工具。此外,我们还进行了具有发射线恒星的自动检测研究。恒星光谱一般具有明显的吸收线或者吸收带特征,而具有发射线的恒星光谱对应着特殊类型的恒星,如激变变星、Herbig Ae/Be等。对这些光谱的后续研究有着重要的意义。本文提出了一种能够自动识别发射线恒星光谱的方法。该方法首先对光谱进行连续谱归一化,然后通过比较谱线对应的流量及其邻域流量的均值和标准差,来判断是否存在发射线。对SDSS DR8大样本数据的实验表明,该方法能够完整、准确地识别发射线恒星。而且,由于该方法不涉及复杂的变换和运算,因而识别速度非常快,可用于诸如LAMOST、SDSS这样大型光谱巡天项目中发现发射线恒星光谱。其次,是天体目标的检测。在天文研究中,通过天体观测而得到的CCD图像(Charge Coupled Device,电荷耦合器件)通常以FITS文件(Flexible Image Transport System)格式存储。每幅图像都很大,可以达到8M或更大。此外,通过连续观测而得到的这类图像的数量又是非常大的,因此如何对这些图像进行实时的处理是非常重要的,也是具有挑战性的。而天体的检测又是天文图像处理的一个重要步骤。本文设计并实现了基于空域的天文图像目标检测方法。利用递归方式,设计并实现了扫描加速器。实验表明,该算法大大提高了目标检测速度,实现了对目标的快速准确的检测并可获得目标的多个参数,同时建立了天球三维模型,可以根据指定天区,对满足一定条件的恒星从星表数据库中进行检索,然后在三维天球坐标系中形象地显示其分布,实现了星表查询结果的三维可视化。再次,对于高维光谱数据分类研究。随机森林是一种高效、稳定的算法,和其他算法相比在效率和准确率上具有一定的优势。随机森林中计算效率和准确率,受树的个数和随机属性的个数影响。在保证训练时间和准确率的情况下,选择适当的阂值,可以使训练时间最短准确率最高。合适的树的个数阈值会在保证准确率的基础上,使训练时间最短;而合适的随机属性的个数会使得训练的时间最短。而阈值是和数据相关的,阈值选取的好坏直接影响效率和准确率。本文提出了利用遗传算法优化随机森林分类参数的模式。利用该模式可以快速地确定随机森林进行光谱分类时所需的关键参数,从而改变了传统单纯凭经验设定随机森林分类参数的方式,提高了分类算法的自动化和智能化程度,提高了分类准确率,减少了分类器训练时间。最后,针对激变变星的搜寻,提出了利用PCA降维与BP人工神经网络相结合的稀少天体的数据挖掘方法。利用PCA降维,大大减少了高维光谱数据的维度空间,然后利用BP人工神经网络进行筛选,提高了激变变星搜寻的准确率,减少了模型训练时间。实验证明,该方法对于发现特殊天体是行之有效的。该方法不仅对激变变星适用,对于其它类别的特殊天体也是适用的。该方法可极大地减少人工处理的工作强度和时间。由于速度快,基本可满足LAMOST光谱数据的准实时处理。如果具备并行数据处理环境,还可以使数据的输入、降维、挖掘等操作同时进行,提高科学成果的产出率。