论文部分内容阅读
决策树归纳算法具有基于信息熵的决策树归纳算法和基于粗糙集的决策树归纳算法两种模式.在粒化冲突导致特征选择失效时,基于粗糙集的决策树算法使用信息函数进行分裂节点选择,降低了模型的分类准确度.对此问题,本学位论文采用粒计算机制提出属性纯度来表征精确性刻画,并结合属性依赖度来构建决策树归纳算法.相关内容涉及如下四个方面.一、先定义条件粒关于决策类的纯度概念(即微观底层纯度).然后在条件粒关于各决策类的底层纯度中,选择具有最大统计值的结果,表示条件粒关于决策分类的纯度(即中观中层纯度).最后采用统计集成策略来建立属性纯度(即宏观高层纯度).高层属性纯度表征了决策分类对于条件分类的识别精确程度,能够用于属性评估与特征优选,即可作为决策树分裂属性选择的标准.从而三层纯度体系得以建立,并具有自底向上的层次集成关系.二、基于高层属性纯度的定量识别特性建立基于属性纯度的一阶段决策树归纳算法(即P算法).同时指出该算法存在收敛速度慢,生成的模型结构复杂等问题.剖析了属性纯度和属性依赖度对粒结构和决策分类隶属关系的表征差异,为合理构建后续二阶段算法奠定基础.三、分析信息增益率和属性依赖度的异质性,澄清属性纯度和属性依赖度的同质异态性.在基于属性纯度的一阶段决策树算法的基础上,结合属性依赖度建立“先属性依赖度定性后属性纯度定量”的二阶段决策树归纳算法(即DP算法).四、决策表实例分析与数据实验验证了信息增益率和属性依赖度的异质性、属性依赖度和属性纯度的同质异态性,并表明所提二阶段算法DP的有效性与改进性.总之,通过三层纯度的构建,最终得到一个关于分类准确性的定量度量――属性纯度,其被选为决策树构造中的属性重要性程度指标.再基于属性纯度和属性依赖度的同质异态性,这两种度量系统引入构建了二阶段决策树算法DP,其具有较高分类精度与更好识别能力.