【摘 要】
:
随着“数据化”时代的到来,数据挖掘成为了研究的热点.研究者们从不同的角度出发,提出了很多有效的数据挖掘方法,取得卓越的研究成果,但同时也面临众多挑战,类不平衡问题就是其中的一种.为了解决该问题,已提出了很多基于算法层面的方法.这些方法主要是改进传统的机器学习算法,使其增加对少数类的关注度,或给予少数类更高的惩罚代价,以减少分类器对多数类的偏好,但是算法的分类性能提高不明显.集成学习作为一种增强单一
论文部分内容阅读
随着“数据化”时代的到来,数据挖掘成为了研究的热点.研究者们从不同的角度出发,提出了很多有效的数据挖掘方法,取得卓越的研究成果,但同时也面临众多挑战,类不平衡问题就是其中的一种.为了解决该问题,已提出了很多基于算法层面的方法.这些方法主要是改进传统的机器学习算法,使其增加对少数类的关注度,或给予少数类更高的惩罚代价,以减少分类器对多数类的偏好,但是算法的分类性能提高不明显.集成学习作为一种增强单一分类器性能的方法,是处理不平衡数据的有效手段.本文基于Boosting和Bagging框架,提出了两个特有的集成算法.针对单一算法在不平衡数据上分类效果不佳的问题,本文提出了基于模糊熵和模糊支持度的Boosting算法,它是一种基于Boosting框架的集成算法,实现了数据重采样和分类器的训练相融合,扩充了数据预处理的领域.该算法首先构造了类全局熵.其次,根据多数类样本的类全局熵值划分所有多数类样本所在的区域为安全区域或边界区域,并利用基于密度峰值的聚类算法选择安全区域代表性样本,完成静态重采样.再次,训练Boosting分类器,在分类器的每一次迭代之前,利用已训练的分类器计算多数类样本的平均类支持度,并结合类全局熵,再次欠采样.最后,为了验证该算法的有效性,在9个人工数据集和34个真实数据集上与传统的集成算法进行了对比实验,实验结果表明新的算法效果明显优于其它算法.为了克服数据层面重采样的缺陷,降低集成分类器的训练成本,本文还提出了另一种基于算法层面的方法,基于聚类和随机森林的过采样算法.它是一种基于Bagging框架对分类器进行“过采样”的方法.它首先对数据集进行静态欠采样.然后,识别数据集的关键区域,对原始数据和关键区域分别训练分类器,并根据权重调整分类器数量的占比.最后,在15个人工数据集和9个KEEL数据集上进行了对比实验分析.实验结果表明,该方法优于数据层面的过采样,比传统的集成算法效果好.
其他文献
随着第二代测序技术的逐渐成熟与广泛应用,基因检测技术得到了快速发展,这对人类疾病研究有着极大促进作用。其中,拷贝数变异是基因组结构变异的重要组成部分,其主要表现为亚显微水平的缺失和扩增。目前已证实该变异类型与人类癌症以及遗传疾病等有密切联系,准确检测拷贝数变异对于癌症机理及靶向药物挖掘具有重要的意义。现有拷贝数变异检测方法大多数在测序数据低覆盖度情况下准确度有限,为此本文提出一种基于统计检验理论的
随着移动通信和互联网技术搭上了发展的快艇,人们对于数据传输的速度要求也越来越高。在通信发展的过程中,光通信的高速率传输能融入到发展的大流中,目前已经成为了重要传输网络的支撑体,在市场上也是领头羊的角色。光通信分为有线和无线。前者也被我们叫做光纤通信,而后者,因为是无线形式,即被称为自由空间光通信(Free Space Optical Communications,FSO)。两者相比,后者拥有很多前
随着移动通信的蓬勃发展,对大容量、高质量以及低延迟的通信要求越来越高,而传统微波小规模天线系统无法满足这些需求。大规模多输入多输出(Massive Multiple-Input Multiple-Output,Massive MIMO)技术与毫米波通信技术天然结合相辅相成,利用该技术可以满足大容量、高质量和低延迟的要求。但随着天线数量的增加也会带来一些新的问题,如硬件成本问题、能量消耗过多问题等等
移动通信在发展的过程中不断优化着用户体验,随着人民群众以及各行业日益增长的对更佳通信质量的需求,第五代移动通信(5G)已逐步推进建设。其中,毫米波频段的使用将缓解频谱资源短缺问题,实现高速率、低时延通信。毫米波天线作为无线通信中的重要一环,具有极高的研究价值。然而,毫米波损耗大、衰减快、传播距离近以及覆盖范围窄等问题限制了毫米波通信建设的推进。针对以上问题,本文围绕24GHz频段开展高增益毫米波多
近年来,随着移动通信技术和无人机(Unmanned Aerial Vehicle,UAV)产业的高速发展,无人机在无线通信领域中的应用成为研究热点。无人机可以作为空中基站(Aerial Base Station,ABS)或空中移动中继,在应急通信或临时通信场景中具有独特的优势。不同于传统的地面基站,无人机基站具有一些特殊的优势,如能快速灵活地按需部署,能提供良好的视距通信链路,能在3D空间自由移动
地海环境特性的研究对于遥感、雷达探测、目标识别等领域具备极大的科学研究价值,只有更加透彻地研究分析环境背景的特性,才能精准地捕获目标信息。通过实测获取环境的电磁散射特性数据代价高昂,因此亟需结合真实环境数据对环境背景进行精确建模,达到理论研究模型与试验测量数据相协同。随着深度学习技术迅猛发展,该技术为传统电磁学提供了一种新式的有效研究思路。本文主要基于真实地海环境数据对典型区域地海环境背景进行针对
针对冬季奥运会的钢架雪车比赛项目,通过运用达朗贝尔原理,本文阐述了钢架雪车运动员在比赛过弯阶段实现贴壁“飞行”的力学原理,设计制作了实验道具并开展了演示实验,阐明了适当的滑行速度和低重心是钢架雪车运动员安全顺利过弯的重要因素。本文还讨论了本演示实验在理论力学教学中的应用前景。
面对越来越复杂的多元化作战环境与国际态势,加之敌方干扰手段的多样化,如果只依靠单传感器来获取战场信息,那么必然会使其生存能力下降,使我方处于不利地位。因此,采用多传感器信息融合系统来洞悉战场环境已经成为一种必然的趋势。与单传感器相比,其增强了系统的可靠性与可信度,扩大了检测范围,减少了信息模糊度,使系统的生存能力大大提升,其优势显而易见。在多传感器系统中有许多功能模块,其中航迹与航迹的关联作为多目