基于XGBoost的不平衡分类方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:syysyysyy1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,对不平衡数据分类的研究主要分为数据层面、算法层面和评价指标层面。针对传统集成学习算法在不平衡数据分类时容易产生过拟合,使得分类效果不理想的问题,本文基于XGBoost集成学习算法,融合特征选择以及参数优化相关算法,对不平衡数据分类问题和数据集的特征选择算法展开了研究。本文的主要研究工作可以总结为如下几点:(1)文中提出了一种面向不平衡数据分类的Relief算法,该算法不仅解决了传统Relief算法在随机采样时可能会出现伪权重过大的问题,而且能够选择出对少数类分类更加有利的特征。(2)基于改进型的Relief特征选择算法,文中提出了基于Relief特征选择和GP(高斯过程)参数优化的XGBoost不平衡分类方法。该方法首先使用改进的Relief算法选择出对少数类分类更加有利的特征,然后使用XGBoost算法进行分类预测,同时利用高斯过程优化算法寻找XGBoost最优超参数组合。通过8组UCI数据集的测试实验,实验结果表明,该方法能够有效提高不平衡数据分类性能。(3)针对改进型的Relief算法存在人为地设置特征权重阈值δ,而过大或过小的权重阈值δ有可能会剔除相对重要的特征或者保留冗余特征的问题。本文从粗糙集理论出发,提出了一种新的粗糙集模型。为了在多粒度粗糙集模型中对目标概念达到更好的近似逼近效果,首先将直觉模糊粗糙集与多粒度粗糙集进行结合,提出直觉模糊多粒度粗糙集模型,由于该模型的目标近似存在过于宽松的缺陷,然后通过引入参数的方式,对所提模型进行改进,提出一种可变直觉模糊多粒度粗糙集模型,并证明了该模型的有效性,最后基于该模型提出了相应的近似分布约简算法。在仿真实验结果中,本文的所提出的下近似分布约简结果比已提出的模糊多粒度决策理论粗糙集约简和多粒度双量化决策理论粗糙集多了 2至4个属性,所提出的上近似分布约简算法比这些算法少了 1至5个属性,同时约简结果的近似精度拥有了更为合理且优越的表现。因此,理论和实验均验证了本文所提的可变直觉模糊多粒度粗糙集模型在近似逼近和数据降维方面均具有更高的优越性。(4)基于可变直觉模糊多粒度粗糙集模型近似分布约简算法,本文提出了基于粗糙集属性约简和GP参数优化的XGBoost不平衡分类算法。实验结果表明,相比于传统的集成学习算法和第三章本文提出的算法,不平衡数据分类效果更为有效。该算法无论是在F-Measure值还是在AUC值评价指标上,均取得了良好的不平衡数据分类效果。
其他文献
再版书是由上版作品“脱胎”而来,必然要保留上一版的基本框架、编排结构,继承、保留上版书好的内容。本文从法律层面论述了“长版”科技图书再版中的著作权主体问题,强调在变更
目的探讨腹腔热灌注治疗腹腔转移癌的疗效,并分析不同原发病疗效的差别。方法总结河南科技大学第一附属医院自2013年3月至2015年3月治疗的腹腔转移癌治疗的临床资料,共254例,
新课程实施以来,创设情境在数学教学中广泛使用,但在教学实践中存在不少问题,表现为:盲目仿效、以偏概全、牵强附会、脱离现实、"食而无味"。针对以上问题的应对策略有:自主
伴随着互联信息技术的快速发展,各种新兴媒体不断涌现,对传统的广播媒体造成了比较严重的冲击。传统媒体为了能够更好的适应互联网环境的发展趋势,促进传统媒体实现转型升级,
我国1997年《刑法》将单位作为犯罪主体类型中的一种,对于打击组织犯罪具有一定的帮助作用,但在功利主义下的“反教义学化”思潮和刑罚目的失效的共同作用下,单位犯罪的适用
本文以贵州省某项萤石矿勘察工程为例,对高岭萤石矿区域内的地质特征进行详细、全面的分析,为后期矿产开发提供参考资料。
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
中小企业在国民经济中占有重要地位,尤其是日用品制造销售型企业,因其产品、客户量大面广的特点,在市场活动中显得异常活跃。但随着市场竞争的日益加剧,这些企业在分销控制上
随着大跨度大空间吊顶的增多,施工中反映的问题也越来越多,做法质量良莠不齐,经济性不佳,现行的吊顶规范中的要求模糊、笼统,并且关于大空间吊顶支撑体系设置的具有参考借鉴