论文部分内容阅读
在决策树分类算法的实际应用中,由于数据集本身经常存在着属性值缺失或包含冗余属性较多的情况,同时现有的决策树分支属性选择方法容易产生过多的规则,这些往往导致生成的决策树规模较大。因此,进一步改进决策树算法,使其更加适合数据挖掘的应用要求,具有重要的理论和现实意义。本文从属性值缺失的填补、属性约简和决策树分支属性选择三方面进行研究。第一,由于基于K近邻算法的属性值缺失填补算法中没有考虑填补后是否会导致数据冲突的现象:对K值的选取需多次尝试,但未必取到最优值;而且有些填补是在整个数据集中进行的,这在实际应用中可能会导致填补的数据出现严重错误。针对上述缺陷,本文利用灰色理论和粗糙集理论相结合得到GRFill(Grey theory Rough set put)属性值缺失填补算法,并实现了平均值填补法和基于欧式距离的最近邻填补法,填补完成后通过根均方误差RMSE (Root Mean Squared Error)的大小及C4.5算法生成的决策树的预测准确率来比较GRFill填补算法与上述两种算法的填补效果。第二,针对传统的基于区分矩阵的属性约简算法的时间及空间复杂度高的缺点进行改进,实现了删除冗余属性且对决策树性能有所改进的RSredu(RoughSet reduct)属性约简算法。第三,利用粗糙集理论定义条件属性与决策属性的分类关系,得到了利用条件属性与决策属性分类一致性大小作为分支属性选择标准的RDTree(RoughSet Decesion Tree)决策树算法。实验结果表明,GRFill填补算法的根均方误差RMSE小于平均值填补法和基于欧式距离的最近邻填补法,分类预测准确率高于平均值填补法和基于欧式距离的最近邻填补法;经过RSredu属性约简算法约简后再进行决策树分类,减小了决策树的规模;利用条件属性与决策属性的分类一致性大小作为分支属性选择标准的RDTree决策树算法生成的决策树叶子数及总节点数少于C4.5算法,准确率及平均运行时间与C4.5算法相近。最后,将上述三点研究结合得到组合优化的RGDTree(RoughSet Gray theory Decesion Tree)决策树分类算法,并在WEKA平台上实现,利用UCI标准数据集和FoodMart2000中的数据样本对RGDTree算法的分类性能进行验证,结果表明,本文所做的研究有利于决策树分类器性能的改进。