基于机器学习的脉冲星候选样本分类算法研究

来源 :中国科学院大学(中国科学院国家空间科学中心) | 被引量 : 1次 | 上传用户:xiaoshen1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
脉冲星搜索是射电天文学中的重要前沿领域。随着现代搜索设备性能的不断提升,分辨率和灵敏度显著提高,设备可以接收到更微弱的脉冲星信号的同时,接收到的干扰信号也越来越多。因此,现代射电天文设备会接收到大量的数据,但脉冲星信号只占其中的一小部分。同时,部分射频干扰(RFI)形似脉冲星信号,这也增加了样本分类的难度。因而,如何从海量信号中准确地识别出脉冲星信号成为一个亟需解决的问题。本文围绕着使用机器学习算法解决脉冲星候选样本分类的问题,考虑不同应用场景和需求,探索了监督学习方法、半监督学习方法和无监督学习方法在脉冲星候选样本分类问题上的应用。首先,针对脉冲星样本集不均衡且缺少对专家设计的人工特征优化分析的问题,提出了一种用于不均衡条件下脉冲星样本分类的混合集成学习算法。通过引入树模型对特征的相对重要度进行分析和特征选择,优化特征集合;针对样本极度不均衡的情况,借鉴Easy Ensemble思想将不均衡数据集分成若干较为均衡的子数据集,并利用XGBoost模型和随机森林模型作为基学习器,在子数据上分别进行代价敏感训练,从而实现混合集成,提升了基于人工特征分类的算法性能。在HTRU(High Time Resolution Universe survey)1数据集上,算法的查全率和查准率分别是0.967和0.971,较DCGAN-SVM算法分别提升0.4%和0.6%;在HTRU 2数据集上,算法实现0.920的查全率和0.917的查准率,对应的F值为0.918,比PNCN算法提升4.4%。其次,针对人工设计特征存在的偏向性问题,针对性设计了脉冲星样本分类的卷积神经网络模型,实现端到端处理。通过将脉冲星候选样本的时间-相位图和频率-相位图的原始数据作为模型的输入,再经过多层卷积神经网络的处理,实现特征自动提取,最终输出分类结果。同时,针对样本不均衡的问题,根据脉冲星数据的特点,提出了一种线性归一化混合的数据增广方式,有效扩展了脉冲星训练样本的分布,满足模型对数据的需求,从而降低了卷积模型的泛化误差。在HTRU 1数据集上,算法的查全率为0.962,查准率为0.963。相较于同类型卷积方法,F-值(0.962)提升1%。之后,针对脉冲星样本不均衡的问题和对未知类型脉冲星数据挖掘的需求,将脉冲星分类问题转化为异常检测问题解决。通过将数据量丰富的RFI和噪声数据当作正常样本,数据量稀少的脉冲星和未知类型数据当作异常样本,建立了基于孤立森林算法的脉冲星异常检测模型。在HTRU 1数据上的测试结果表明,模型在只使用非脉冲星样本训练下,实现0.978的查全率和0.05的假正例率;增大阈值后,当假正例率为0.07时,脉冲星的查全率为0.991。最后,针对脉冲星标记样本数据不足的问题,基于深度嵌入聚类的方法,建立了脉冲星候选样本的无监督聚类分析模型。算法使用样本的时间-相位图和频率-相位图作为输入,通过将卷积自编码器和K均值聚类层相结合,并使用重构损失和基于KL散度的聚类损失对模型进行参数的共同优化,以端到端的形式实现了特征学习和样本聚类。在没有标注数据的情况下,在HTRU 1数据集上正负样本比例为1:7.5时,算法的查全率为0.96,假正例率为0.046;当正负样本比例为1:22.5时,查全率为0.95,假正例率为0.048。算法适用于对未标记样本的初步分类,对不均衡样本具有较好的稳定性。
其他文献
目的:考察团体心理辅导对改善调节快乐自我效能的作用。方法:采用随机实验组控制组前测后测设计,研究选取有自杀意念的大学生28名(15名控制组,13名实验组)进行心理实验研究。
堆肥茶是指堆制腐熟的有机物料经过发酵获得的水浸提液,常作为植物叶面营养液肥使用。以植物废料做堆肥茶原料的报道尚不多见,以堆肥茶作为黄瓜(Cucumis sativus L.)营养液的
通过对继电保护装置信息的处理与传输系统的实践,提出了可行的实施方法。
主持人在节目主持的过程中把握受众审美是很重要的,不是一味地顺从,而是因势利导,找到受众的心理共鸣点,明确受众审美地位,从而提高主持人节目主持的主题内涵,提升主持人的语
【目的】临床指南是用来辅助医疗决策的重要医疗文件,对于规范临床路径有重要意义。但由于文本格式的制约,临床指南很难在医疗实践中发挥真正作用。因此,本文拟采用本体技术,
进入21世纪以来,随着经济全球化的深入发展,给全球贸易注入了巨大的推动力。与此同时,促进了中国经济的高速发展,市场经济出现繁荣,消费者对产品的需求选择呈现出了个性化和
现代科技的变革与进步,令曾经只在尖端领域应用的虚拟现实与增强现实技术逐渐融入普通大众的生活。增强现实技术(AR)因其技术门槛与成品成本相对较低,更符合现代人的视觉感知
针对图像的统计分析破译技术,提出了一种基于混沌序列、置换矩阵的能制造伪特征的图像加密算法.首先将原图像根据Logistic模型构造的混沌矩阵进行像素值异或,完成图像的像素
文章解读了"工匠精神"的具体内涵,分析了"工匠精神"的特点,并从质量荣辱价值观的缺失、专注精神的缺失、法律制度的缺失和质量精神的缺失四个方面对当代"工匠精神"的缺失进行
<正>李丹天士力制药集团股份有限公司项目化办公室主任,高级经济师,IPMPB级,"首届中国IPMP国际项目经理大奖"优秀国际项目经理。成功主持完成天士力内部多个项目,使企业在创