【摘 要】
:
在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声
论文部分内容阅读
在机器学习领域,随机森林是一种重要和常见的数据挖掘方法。随机森林不仅具有很高的分类性能,而且具有需要调整的参数较少、运算快速高效、不用担心过拟合以及较强的容忍噪声能力等特点。随机森林良好的性能使得其在各个领域都得到了广泛的应用并取得巨大的成功,吸引了人们的广泛关注。虽然许多学者对随机森林进行了广泛的研究,并且取得了许多显著的成果,但是随机森林仍然存在一些局限和不足,拥有一些可改进的空间。首先,在对随机森林样本相似度现有的计算方法研究的基础上,提出了基于特征重要性的样本相似度计算方法和基于决策树上相同属性的样本相似度计算方法这两种改进的计算方法,前者在两个样本落于相同叶子节点时,把它们之间的相似度和叶子节点所处的位置关联起来;后者增加考虑了样本落于不同叶子节点但类标一致的情况,并把样本间的相似程度和样本在决策树上相同属性的数量关联起来,这样更能全面和准确地反映样本间的相似程度。其次,针对随机森林在处理非平衡数据时的不足和SMOTE算法在选取新增负类样本时存在的边缘化问题,提出了KMS_SMOTE算法。KMS_SMOTE算法首先用K-Means算法对原始负类进行二分类,并计算出各自的中心点,然后从这两个中心点出发,有目的地选取新增负类样本,使得选取的新增负类样本向原始负类的中心汇聚,最后在新增负类样本集上利用SMOTE算法得到新数据集,这种方法有效地解决了SMOTE算法的缺陷,从而提升了随机森林算法的分类性能。最后,用UCI机器学习数据库中的数据集,分别对随机森林样本相似度的改进的计算方法和KMS_SMOTE算法进行实验,验证改进的样本相似度计算方法和KMS_SMOTE算法的有效性。
其他文献
基于发动机悬置托臂总成的现有模型,在产品开发初期进行模拟分析,利用ABAQUS软件建立有限元模型,分析托臂在不同工况下的受力情况,并对托臂进行改进设计。
供电可靠性是考核供电系统电能质量的重要指标,反映了电力工业对国民经济电能需求的满足程度,已成为衡量一个国家经济发达程度的标准之一。与世界发达城市供电可靠性水平相比
开展健康的党内政治生活是我们党保持活力、增强凝聚力、保持纯洁性和先进性的重要途径。近些年来,党内政治生活中存在民主生活庸俗化、民主选举形式化、民主监督虚无化、民
随着我国电力系统的发展,水力发电对频率和有功功率调节与控制有了更高的要求,因此引进水轮机自动调节系统具有重要意义。现首先阐述水轮机调节系统的控制原理,进而对水轮机
在物业管理行业不断发展进步的同时,很多的问题也随之出现。文中主要分析了造成房地产物业管理纠纷的原因以及物业管理纠纷中出现的主要问题,最后根据这些问题提出了相应的解决
决明子不仅具有广泛的药用价值,而且还是一味较好的保健药品,对许多疾病如:高血压、高胆固醇、习惯性便秘、抗病毒等疗效较好,因此决明子具有较好的开发应用前景。决明子中化学成
澳门回归六年以来,经济出现持续六年的增长态势。然而,经济的起飞衍生不少矛盾、问题和危机,例如人力资源短缺、贫富差距、政府贪腐等。为甚么在经济起飞的情况下,澳门会实时暴露
鄂尔多斯盆地长7油层组沉积期是湖盆发育的鼎盛期,不但沉积了大面积分布的优质烃源岩,而且还发育一定规模的储层。对储层所处沉积环境、储层特征、成岩相及生、储、盖组合等综
“自力更生是中华民族自立于世界民族之林的奋斗基点,自主创新是我们攀登世界科技高峰的必由之路。”在今年的两院院士大会上,“创新”成为这一科技盛会的重要关键词,被习近
经过多年发展,目前我国毛皮动物养殖已经具备相当规模。全国养殖场家近2万个,狐饲养量达1000万只,水貂700万只(保守估计)。但行业始终处于自由发展状态、管理较为混乱,皮张价格起