论文部分内容阅读
不平衡数据集是数据挖掘研究领域的一类重要数据类型,在客户流失、信用评价和异常检测等应用领域得到广泛关注。随机森林是一种集成学习分类方法,在解决不平衡数据集分类问题上有着优良的性能。但随机森林采用基尼系数作为基分类器决策树的特征选择与结点分裂算法,该算法对不平衡数据具有类别分布偏斜敏感性,影响了数据的分类效果。针对此问题,论文的研究内容主要包括:(1)结合海林格距离与海林格决策树算法,论述与验证该算法对类不平衡不敏感的特点,通过实验验证海林格随机森林算法的效果与评价指标。针对基尼系数偏斜敏感问题,由于海林格距离对类不平衡性不敏感,所以本文采用海林格距离作为决策树的特征选择与结点分裂标准,探究海林格随机森林使用正确率、Kappa分析在不平衡数据集分类上的效果。通过实验发现海林格随机森林在不平衡数据集分类上的良好效果,但是该实验存在缺少特征不平衡与特征冗余的处理,评价指标不合理的问题。(2)构建基于关联规则特征选择的海林格随机森林算法。类别不平衡衍生少数样本类的特征失衡问题,导致多数样本类的过拟合问题,针对海林格随机森林缺少特征不平衡处理与实验中评价指标不合理问题,采用关联规则特征选择进行特征不平衡处理。由于关联规则特征选择能减少冗余特征,因此减少了特征的海林格距离计算数目,可能降低结点个数和降低树的高度,所以本文构建基于关联规则特征选择的海林格随机森林算法。该算法使用精准率、召回率、F1值评价算法性能,实验表明基于关联规则特征选择的海林格随机森林算法有着良好的分类效果。(3)构建基于CFS-HDRF算法的软件工程学习型团队绩效评估原型系统设计。由于现有的软件工程学习型团队绩效评估数据集是不平衡数据集,所以本文将该问题作为不平衡分类问题进行研究与应用。本文将CFS-HDRF算法应用到软件工程学习型团队绩效评估原型系统设计中。通过系统效果分析,与现有的RF算法相比,基于CFS-HDRF算法的软件工程学习型团队绩效评估原型系统有更好的效果。