论文部分内容阅读
针对决策树构建过程中易于出现数据碎片、子树重复等问题,提出了基于分形维构建特征数据集的方法:因为信息增益表示了该属性信息量的多少,因此在确定了数据集的嵌入维数k之后,选择信息增益最大的前k个属性构造原数据集的特征数据集,并分析了依据分形维数和信息增益对冗余属性的删除以及特征集的信息损失对决策树构建的影响。实验过程中,分别采用从原始属性中选择及拟合两种方法构建特征数据集,依据对实验结果的比较分析,进一步证明了该方法的有效。