基于集成学习的不平衡数据分类问题研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:jxc678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据在现实世界中无处不在,疾病风险预测、欺诈检测、网络入侵识别、故障诊断等许多应用面临着不平衡数据分类问题。然而目前大多数机器学习算法都是基于平衡数据设计的,在不平衡数据上性能较差,阻碍了机器学习进一步在实际生产生活中的应用。在机器学习中,集成学习由于其良好的泛化性能,在分类任务、回归任务以及聚类任务上都有广泛的应用。集成学习能够降低模型误差,防止模型陷入局部最优,具有较好的准确性和稳定性。因此,本文基于集成学习,对不平衡数据分类问题展开研究,主要工作如下:(1)针对集成学习的数据预处理采用欠采样方法容易造成数据结构信息丢失的问题,从保持数据结构完整性的角度,提出一种基于K-means聚类抽样的Bagging集成分类算法(KS-Bagging)。利用K-means聚类充分挖掘数据的结构信息,并基于K-means聚类的结果,制定分层抽样策略,使生成的平衡子集能充分保留原数据的结构信息。采用Bagging集成,对生成的多个平衡子集进行融合。实验结果表明,提出的KS-Bagging在总体分类性能和对少数类的识别精度上都优于其它对比算法。(2)针对集成学习的数据预处理采用重采样方法容易造成数据信息丢失或引入噪声等问题,从保持数据数量完整性的角度,提出一种数据平衡分割方法(DBP)来代替重采样方法。该方法利用原数据集的全部样本信息,不需要删除样本或生成新的样本,避免造成数据信息丢失或引入噪声等问题,实现数据的充分利用。(3)针对现有的集成算法大多采用投票的方式对基学习器进行融合,未考虑基学习器的预测结果存在的不平衡问题,结合DBP方法提出一种基于数据平衡分割的代价敏感Stacking集成分类算法(DBPCS)。该算法既能在数据预处理阶段保证数据的完整性,又能通过代价敏感逻辑回归在基学习器融合阶段进一步提高算法解决不平衡数据分类问题的能力。实验结果表明,提出的DBPCS在总体分类性能上优于其它对比算法,并通过了显著性统计检验。(4)针对医疗不平衡数据分类问题,以原发性肝癌数据为例,分别应用KS-Bagging集成分类算法和DBPCS集成分类算法建立原发性肝癌风险预测模型,辅助医生决策。为机器学习在医疗不平衡数据上的应用提供一种解决方案。
其他文献
著名教育学家叶圣陶提过,开展国文教育的主要目的就是培养学生形成相应的阅读习惯,获得文学欣赏能力,由此可知,阅读在语文教学中是极其重要的。因此,本文主要对小学语文的阅读教学现状进行探讨,并提出增强小学语文阅读教学有效性的策略。
期刊
个人信息保护业已成为当今数据治理社会中不可或缺的一个环节;尤其在健康码运用中,不得因防控疫情之公利而摒弃信息保护之私益。以“河南红码事件”为例,我国健康码使用现状存在“监管俘获”、忽视法律原则以及不合防疫目的之三大风险。与此对策分别为:首先,明晰的授权之行政合同之性质以及加强追责机制,不单单仅限于行政责任范畴;其次,将行政手段与欲达成目的的联系必须相当、是否为损害最小的行政手段和损害成本与实现利益
期刊
目的 探讨联合检测血清B型脑钠肽(Brain natriuretic peptide,BNP)、生长分化因子-15(CDF-15)、基质金属蛋白酶-9(MMP-9)对慢性心力衰竭(Congestive heart failure,CHF)患者心功能的评估价值。方法 选取收治的93例CHF患者,依据美国纽约心脏病协会(New York Heart Association,NYHA)心功能分级评估患者
期刊
2013年,混合所有制改革在十八届三中全会上被正式提出,《中共中央关于全面深化改革若干重大问题的决定》文件中最先提出了“积极发展混合所有制经济”。2015年9月出台的《中共中央、国务院关于深化国有企业改革的指导意见》,进一步明确了推行国有企业混合所有制改革,并提出具体改革意见。国家的十四五规划中也提到,要按照完善治理、强化激励、突出主业、提高效率的要求,深化国有企业混合所有制改革,深度转换经营机制
学位
我国重载铁路运输量的逐年增长,对铁路线路基础设施的健康监测工作提出了更高的要求,其中轨道断裂在线监测工作是保障重载铁路线路安全运营的重要举措之一。超声导波在钢轨中传播时可以覆盖钢轨整个横截面,其传播速度快,传播距离远,利用超声导波检测技术进行长距离断轨监测,可以及时检测出钢轨完全断裂和不完全断裂的情况。针对我国重载铁路的长距离断轨在线监测的需求,论文基于超声导波检测技术,设计一套用于重载铁路无缝线
学位
随着空间技术的不断发展,飞行器的交会转移技术越来越成为研究的重点和难点问题,其中无动力交会转移技术越来越多地应用于空间飞行器与非合作目标的交会过程中。本论文以空间飞行器与非合作目标的交会过程为研究背景,重点研究了空间飞行器只在转移初始时刻受一次推力作用而转移过程无动力情况下的转移轨道建模与优化方法,设计了飞行器交会仿真实验与交会精度评估方法。考虑到空间飞行器所处空间环境的特殊性以及交会转移技术的复
学位
为开发适合蓝莓采后贮藏保鲜的非接触式抑菌型天然固体缓释保鲜剂,以蓝莓采后主要病害病原菌灰霉菌为目标菌种,首先采用棋盘法从10种抑菌精油中筛选出具有协同抑菌作用的精油组合,再以包埋率为指标,通过响应面实验优化复合精油-β-环糊精微胶囊最佳制备工艺条件,并对其结构及功能特性进行表征,最后研究了微胶囊对蓝莓的保鲜效果。结果表明,壬醛与香芹酚具有协同抑制灰霉菌生长的效果;最佳制备工艺为β-环糊精/复合精油
期刊
扑翼飞行器是具备鸟类或昆虫飞行特性的一种智能机器人,其通过扑动翅翼从而获得飞行所需的动力。由于其具备较强的灵活性和隐蔽性,因此在军事和民用等领域有较强的应用前景。现有的大部分扑翼飞行器都具备柔性翅翼,但有关柔性翅翼的基本设计参数、气动力模型等研究较不完善,一些针对其流体仿真的研究中并未体现翅翼柔性变化的影响。为了解决上述的问题,本文设计了一台具备柔性翅翼的大型扑翼飞行器,对其进行气动力理论建模、机
学位
机车线路运行时,轴承发出的信号表现为非平稳非线性且混杂着大量的噪声。自适应信号分解方法广泛用于信号消噪和特征提取。变分模态分解(Variational Mode Decomposition,VMD)是一种强有力的自适应信号分解方法。使用VMD需要预先设定模态个数和惩罚因子2个参数,而不合理的参数选择可能导致故障信息丢失。针对以上问题,本文开展自适应变分模态分解研究,提出了基于包络模糊熵的自适应参数
学位
目的 探讨冠状动脉慢血流(CSF)患者血清生长分化因子-15(GDF-15)和超敏C-反应蛋白(hs-CRP)的水平及临床意义。方法 将132例研究对象按照冠状动脉造影(CAG)结果分为CSF组66例和对照组66例,比较2组间血清GDF-15、hs-CRP水平差异;Spearman法分析血清GDF-15和hs-CRP与冠脉血流平均TIMI血流帧数(mTFC)的相关性;二元Logistic回归分析筛
期刊