基于CFS-HDRF的不平衡数据集分类算法研究与应用

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:T28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不平衡数据集是数据挖掘研究领域的一类重要数据类型,在客户流失、信用评价和异常检测等应用领域得到广泛关注。随机森林是一种集成学习分类方法,在解决不平衡数据集分类问题上有着优良的性能。但随机森林采用基尼系数作为基分类器决策树的特征选择与结点分裂算法,该算法对不平衡数据具有类别分布偏斜敏感性,影响了数据的分类效果。针对此问题,论文的研究内容主要包括:(1)结合海林格距离与海林格决策树算法,论述与验证该算法对类不平衡不敏感的特点,通过实验验证海林格随机森林算法的效果与评价指标。针对基尼系数偏斜敏感问题,由于海林格距离对类不平衡性不敏感,所以本文采用海林格距离作为决策树的特征选择与结点分裂标准,探究海林格随机森林使用正确率、Kappa分析在不平衡数据集分类上的效果。通过实验发现海林格随机森林在不平衡数据集分类上的良好效果,但是该实验存在缺少特征不平衡与特征冗余的处理,评价指标不合理的问题。(2)构建基于关联规则特征选择的海林格随机森林算法。类别不平衡衍生少数样本类的特征失衡问题,导致多数样本类的过拟合问题,针对海林格随机森林缺少特征不平衡处理与实验中评价指标不合理问题,采用关联规则特征选择进行特征不平衡处理。由于关联规则特征选择能减少冗余特征,因此减少了特征的海林格距离计算数目,可能降低结点个数和降低树的高度,所以本文构建基于关联规则特征选择的海林格随机森林算法。该算法使用精准率、召回率、F1值评价算法性能,实验表明基于关联规则特征选择的海林格随机森林算法有着良好的分类效果。(3)构建基于CFS-HDRF算法的软件工程学习型团队绩效评估原型系统设计。由于现有的软件工程学习型团队绩效评估数据集是不平衡数据集,所以本文将该问题作为不平衡分类问题进行研究与应用。本文将CFS-HDRF算法应用到软件工程学习型团队绩效评估原型系统设计中。通过系统效果分析,与现有的RF算法相比,基于CFS-HDRF算法的软件工程学习型团队绩效评估原型系统有更好的效果。
其他文献
阈值图像分割是图像分割领域中一个经典而有效的方法。但是由于现实图像的复杂性,如何对不同的图像快速有效地选择最佳的阈值一直是阈值分割研究中的一个优化性难题;而图像处
在传统数据分析处理中,监督学习方法使用已标注的数据样本集来构建预测模型,且其性能一般随标注数据数量增加而提升。然而,在很多现实生活场景中,采集到的数据往往是不带标签
随着微阵列技术和新一代测序技术等高通量技术的发展,产生了大量的生物学数据。而做为调控基因表达水平的重要因子之一,micro RNA逐渐成为目前研究的重点和热点,由于已有研究
离群点是指一个数据集中特征明显不同于其他数据的对象,其中往往蕴藏了一些重要的信息,在金融交易、入侵检测等领域具有广泛的应用。由于高维数据往往具有稀疏性,使得低维数
集成了微沟道、微阀、微泵等微单元的微流控芯片,凭借着成本低,反应速度快,效率高的优点,实现了 DNA分析、药物筛选、细胞操作和免疫学检测等功能。相比于传统的硅和玻璃芯片
在体育强国和航天强国的战略背景下,职工体育如何有所作为,是我们关注的一个新课题。中国运载火箭技术研究院,简称航天一院,是国有大型研究院,主要产品是运载火箭和战略导弹,
在团队体育赛事中,团队中的运动员共同创造了团队的成绩。由于团队成绩来自于所有人的努力,直接将团队的成绩划到各个队员的名下名不准确。此时,可以根据各个运动员在团队中
群智能优化算法是人工智能领域不可或缺的一部分,它起源于对人工生命的研究。由于越来越多的高复杂性问题需要的解决方案在合理的时间内是可以实现的,但可能不是最优的,因此
随着电子元器件的热流密度越来越高,其散热问题备受关注,而传统散热装置的散热能力受到空间的限制,难以满足电子元器件小型空间内高功耗的散热需求。分离式热管作为一种有着
卟啉类化合物广泛存在于生命体内及与能量转移密切相关的组织中,例如在氧的传递、呼吸作用、光合作用、能量传输和转移等生命体活动中发挥着十分重要的作用,被喻为“生命色素