论文部分内容阅读
脉冲星搜索是射电天文学中的重要前沿领域。随着现代搜索设备性能的不断提升,分辨率和灵敏度显著提高,设备可以接收到更微弱的脉冲星信号的同时,接收到的干扰信号也越来越多。因此,现代射电天文设备会接收到大量的数据,但脉冲星信号只占其中的一小部分。同时,部分射频干扰(RFI)形似脉冲星信号,这也增加了样本分类的难度。因而,如何从海量信号中准确地识别出脉冲星信号成为一个亟需解决的问题。本文围绕着使用机器学习算法解决脉冲星候选样本分类的问题,考虑不同应用场景和需求,探索了监督学习方法、半监督学习方法和无监督学习方法在脉冲星候选样本分类问题上的应用。首先,针对脉冲星样本集不均衡且缺少对专家设计的人工特征优化分析的问题,提出了一种用于不均衡条件下脉冲星样本分类的混合集成学习算法。通过引入树模型对特征的相对重要度进行分析和特征选择,优化特征集合;针对样本极度不均衡的情况,借鉴Easy Ensemble思想将不均衡数据集分成若干较为均衡的子数据集,并利用XGBoost模型和随机森林模型作为基学习器,在子数据上分别进行代价敏感训练,从而实现混合集成,提升了基于人工特征分类的算法性能。在HTRU(High Time Resolution Universe survey)1数据集上,算法的查全率和查准率分别是0.967和0.971,较DCGAN-SVM算法分别提升0.4%和0.6%;在HTRU 2数据集上,算法实现0.920的查全率和0.917的查准率,对应的F值为0.918,比PNCN算法提升4.4%。其次,针对人工设计特征存在的偏向性问题,针对性设计了脉冲星样本分类的卷积神经网络模型,实现端到端处理。通过将脉冲星候选样本的时间-相位图和频率-相位图的原始数据作为模型的输入,再经过多层卷积神经网络的处理,实现特征自动提取,最终输出分类结果。同时,针对样本不均衡的问题,根据脉冲星数据的特点,提出了一种线性归一化混合的数据增广方式,有效扩展了脉冲星训练样本的分布,满足模型对数据的需求,从而降低了卷积模型的泛化误差。在HTRU 1数据集上,算法的查全率为0.962,查准率为0.963。相较于同类型卷积方法,F-值(0.962)提升1%。之后,针对脉冲星样本不均衡的问题和对未知类型脉冲星数据挖掘的需求,将脉冲星分类问题转化为异常检测问题解决。通过将数据量丰富的RFI和噪声数据当作正常样本,数据量稀少的脉冲星和未知类型数据当作异常样本,建立了基于孤立森林算法的脉冲星异常检测模型。在HTRU 1数据上的测试结果表明,模型在只使用非脉冲星样本训练下,实现0.978的查全率和0.05的假正例率;增大阈值后,当假正例率为0.07时,脉冲星的查全率为0.991。最后,针对脉冲星标记样本数据不足的问题,基于深度嵌入聚类的方法,建立了脉冲星候选样本的无监督聚类分析模型。算法使用样本的时间-相位图和频率-相位图作为输入,通过将卷积自编码器和K均值聚类层相结合,并使用重构损失和基于KL散度的聚类损失对模型进行参数的共同优化,以端到端的形式实现了特征学习和样本聚类。在没有标注数据的情况下,在HTRU 1数据集上正负样本比例为1:7.5时,算法的查全率为0.96,假正例率为0.046;当正负样本比例为1:22.5时,查全率为0.95,假正例率为0.048。算法适用于对未标记样本的初步分类,对不均衡样本具有较好的稳定性。