论文部分内容阅读
天体光谱中蕴含了丰富的物理信息,随着LAMOST望远镜投入使用,每个观测夜将获得上万条光谱。传统分析光谱的方法效率低、速度慢,无法满足对日益增长的数据的处理。数据挖掘作为信息发展到一定阶段的产物,从大量的、有噪声的的数据中提取出隐含在其中的有用信息,可以实现相关性预测、分类、聚类、孤立点发现、时间序列分析等许多功能,尤其是高维数据的处理非常有效。LAMOST的海量天体光谱,不但对大样本天文学的研究有重要作用,还将产生许多副产品。数量如此巨大的光谱中隐藏着相对较多的稀有天体、时变天体和未知天体。激变变星是一种稀少天体,是研究吸积盘的“最佳天体物理实验室”,对其光学观测,特别是光谱观测对研究激变变星的物理特性和运动规律,对研究吸积盘的理论以及恒星演化等都具有重要意义。本文主要工作是通过研究激变变星的光谱,根据不同波段的特点,如巴尔默线系的发射与吸收、驼峰现象、双峰现象等,利用数据挖掘技术提取出已知激变变星的光谱特征,用于筛选激变变星的候选体。各类激变变星的光谱虽有一些共同特征,但是不同类型甚至同一类型的不同天体也有它的特殊性,加上某些爆发阶段的光谱与某些非激变变星光谱并无明显差别,因此,本文主要进行了以下工作:(1)研究了激变变星的主要特点,特别是其光谱特性,并且采用了PCA方法构造光谱的主分量,对光谱特征进行提取。采用主分量为轴,直接把样本点在主分量坐标轴上进行投影,可以得到二维平面上的样本特征点,大大降低了光谱数据的维数。(2)分别研究了支持向量机、人工神经网络、K均值、K近邻等常用数据挖掘方法在分类和聚类上的应用。研究了一种新的方法:蚁群算法,分别就其在分类和聚类方而的模型进行研究(3)在MATLAB不境下,根据数据挖掘的一般步骤,采用支持向量机、人工神经网络、K均值、K近邻以及随机森林,分别对同一数据集进行激变变星挖掘实验。对各种方法得到的结果进行时间、类CVs个数等综合分析和比较。比较不同方法筛选出激变变星的候选体,并分析其原因。