基于集成学习的恒星/星系分类研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:wdqbupt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的国家开始开展大型巡天项目是因为天文学研究已经成为体现一个国家综合国力强弱的重要标准。在诸多的巡天任务当中,恒星/星系分类一直是天文学研究的一个重要目标。之前被普遍用以解决恒星/星系分类问题的是基于图形状态、启发式分割等原始方法。近些年来,随着原始方法在解决恒星/星系分类问题上速度慢,分类准确率低等缺点的突显。基于机器学习的优秀模型和算法也随之展开,但是机器学习的预测效果往往依赖于具体的问题。集成学习通过综合考虑若干个基学习器来预测最终结果,因此,其适应各种场景的能力较强,分类准确率较高。为此,本文研究基于集成学习的算法模型,并将其用于解决复杂天文数据的恒星/星系分类困难的问题。通过实验结果表明,集成学习算法模型综合考虑多个模型的优点,在解决天文数据的恒星/星系分类正确率低的问题上具备较强的学习能力。因此,基于集成学习的算法模型在解决恒星/星系分类问题上优于传统的数据挖掘分类算法,进而获得更好的分类效果。论文主要内容工作如下:(1)机器学习算法理论知识的介绍与准备。为了解决天文数据挖掘中恒星/星系的分类问题,本文首先,对机器学习的发展和理论知识做简单介绍;然后,详细论述了机器学习中的决策树、支撑向量机等基础算法;最后,重点研究了集成学习中Bagging思想、Boosting思想以及Stacking思想的算法原理,并且分别就不同的集成思想重点论述了随机森林、Adaboost、梯度提升决策树、XGBoost等算法。(2)基于斯隆数字巡天测光数据构建XGBoost集成算法模型并进行实验仿真。在讨论了集成学习中Boosting算法的基本思想以后,重点介绍了由Adaboost算法思想改进并延申的GBDT、XGBoost等强学习算法。同时考虑到斯隆测光数据中暗源星等集和最暗源星等集数据量欠缺、噪声较大等特点导致的恒星/星系分类准确率较低的问题,引入了XGBoost算法模型。在实验仿真中,使用完整的SDSS-DR7测光数据,即包括亮源星等集、暗源星等集以及最暗源星等集。首先,分别对亮源集、暗源集和最暗源集使用十折交叉验证法划分数据,然后使用划分后的数据训练XGBoost模型,最后将XGBoost模型在测试集上的预测结果同文献中功能树算法的实验结果相比,发现XGBoost算法在暗源星等集和最暗源星等集上的分类准确率分别提升了约11%和5%。(3)基于Stacking集成学习的恒星/星系最暗源星等集分类算法的设计与实验仿真。针对斯隆数字巡天计划恒星/星系中最暗源星等集分类正确率低的问题,本文构建一种新的基于Stacking集成学习的恒星/星系分类算法。在集成模型设计中,使用支持向量机算法、随机森林算法、XGBoost算法作为基分类器模型;使用梯度提升决策树算法作为元分类器模型,进而构建两层Stacking集成学习模型。在实验仿真中,首先,对最暗源星等集使用10折嵌套交叉验证划分数据,然后使用划分后的数据训练Stacking集成学习模型,最后实验结果表明,Stacking集成学习模型在最暗源星等集的恒星/星系分类准确率相比于文献中功能树算法提高了10%,同其它传统的机器学习算法、提升算法、深度学习算法相比也均有较大的提升。
其他文献
针对传统视频监控系统存在系统执行效率低、画面质量较差、网络带宽受到限制以及数据网络传输过程丢包等问题,设计出一种基于HI3518E的网络视频监控系统。本系统选用HI3518E芯片作为视频编码和网络传输的主控制器,结合AR0130摄像头与rtl8201以太网卡等外设构成系统硬件平台。通过对目前压缩算法优缺点进行分析,在H.264压缩算法的基础对图像进行编码处理,最后通过RTSP实时传输协议,将H.2
本文研究了导电硅胶作为芯片和PCB互连材料的方法,以及结合实验和实际应用问题来综合分析了这种互连方法的效果。本研究中选用了两种导电硅胶,分别是导电硅胶胶条和导电硅胶薄膜。导电硅胶胶条是由桂林恒昌电子科技公司提供,其在受到压缩后形变量超过5%时电阻率小于6Ω·cm,P值的范围在0.02mm至0.08mm之间,厚度是1mm。导电硅胶薄膜是由日本日立公司生产制造的ACF2685JLP150垂直导电胶,其
随着我国新型建筑工业化的进一步推进,在交通工程领域中BIM技术的高精度实景建模技术飞速提升。实景建模技术将非接触测绘、计算机图像学、BIM技术等融为一体,使得高精度的实景模型在各个学科及行业中的应用愈演愈烈。本论文将以高精度的实景建模方法为研究对象,分析了不同飞控参数的组合影响,并对参数的影响分析了不同设备的误差。为进一步提高实景模型的精度分析了 TIN金字塔构造原则,结合轻量化的实景模型打造BI
随着我国农业智能化的不断提升,自动采摘技术成为农业采摘机器人重要组成部分。近几年,采摘机器人自动采摘技术研究任务中采摘对象的实时检测成为研究难点。为了提高采摘机器人对采摘对象的精准分类和定位,结合自然环境下百香果成熟度检测面临的实际问题,利用深度学习与图像处理相关技术进行百香果成熟度实时检测研究,并设计了百香果成熟度检测系统。本文主要研究内容如下:介绍了水果目标检测的研究现状,分析了卷积神经网络原
Fano共振是一种会产生非对称线型的共振现象,其非对称线型源于离散态的窄谱和连续态的宽谱之间的干涉作用,并广泛应用于微波、光学和太赫兹频段。基于全介质和金属表面等离激元结构所实现的Fano共振呈现出很多具有强吸引力的特性。通过改变结构几何参数实现的可调Fano共振的方式称为无源可调,具有可调自由度小的缺点。而通过改变电参数和磁参数实现的动态可调称为有源可调。等离子体是一种色散材料,其相对介电常数与
脑电图(Electroencephalogram,EEG)指大脑内部神经活动产生的电信号经过容积传导由紧贴头皮的传感器记录到的电位。EEG是一种无创脑电信号采集方式,时间分辨率很高,能够实时反应大脑活动过程,已经被广泛用于认知科学研究、脑部疾病诊断和脑机接口技术等方面。由于脑电信号属于微弱信号,在采集的过程中很容易受到各种伪迹的干扰,所以EEG通常在临床或者实验室的环境中记录,同时由医护人员或者研
在Al中添加少量的合金元素,会给Al合金的微观结构带来显著影响及明显地提升合金的性能。Ag元素于空位有选择的相互作用,能够降低Al合金基体中溶质原子的扩散速度,提高Al合金中沉淀相的形核速率;同时能够限制Al合金在淬火及时效过程中位错环的形成,消除Al合金中沉淀相的非均匀形核的位置。目前,对Al合金中加入微量元素的析出及微观结构的演化机理的研究有待深入,而对Al-Ag合金的研究具备典型意义。因为A
随着环境和能源问题的日益严重,节能减排成为汽车行业发展的必然趋势。传统燃油汽车的发展已经不能够满足人们对环境保护的需求,而纯电动汽车逐渐成为汽车行业发展的新方向。整车控制系统作为纯电动汽车的技术核心,其性能的优良对纯电动汽车的发展以及商业化推广有至关重要的作用,因此逐渐成为当今研究的热点。本文依托于柳州市科技计划项目,以某公司某款纯电动物流车为研究对象。深入研究纯电动汽车的驱动转矩控制和制动能量回
环形液滴是一种截面为圆形的环状结构,在生物器官的制备中具有广泛的应用前景。利用3D打印技术制备具有环形自由界面的形貌结构是目前材料工程、生物医学领域最为常用的方法,可以用于水凝胶的成型、生物组织器官的重构等。本课题以具有自由表面的流体在3D打印中所面临的关键科学问题为研究背景,以悬浮在粘性液体中的环形液滴为主要研究对象,以液-液相中环形液滴的动力学特性为主要研究目标,开展了系统的实验研究与数值研究
随着网络通信技术和社交软件的高速发展和广泛应用,数字图像变得越来越容易获取、传输和修改。人们应该关注在共享和传输过程中诸如商业或军事图像之类的秘密数据的隐私和安全性。对于含有敏感信息的图像(如国家高科技专利图纸、企业工程机密图像和个人隐私图像等)的保护显得愈发关键。相较于图像直接加密和信息隐藏,秘密图像分享(secret image sharing,SIS)方法具有丢失容忍、降低秘密图像丢失几率的