论文部分内容阅读
随着数据库技术的发展和数据库管理系统的应用,海量信息以不同数据形式被存储起来。数据挖掘就是为了获取这些数据中有价值的信息而发展起来的一种数据处理技术。数据的属性并不是同等重要的,甚至某些属性是冗余的。因而,精炼数据库的属性集(属性约简)成为数据挖掘技术的一个重要环节。本文通过规则知识的形式化描述,提出了确定性知识与核心示例集的概念,结合决策树算法提出了基于核心示例集的决策树属性约简方法,主要工作如下:(1)本文对决策树算法的本质特点进行了研究,在将规则知识形式化的基础上,提出了确定性知识与核心示例集的概念,并证明了规则知识不变性;(2)结合决策树算法,以核心示例集的不变性为理论基础,提出了决策树的属性约简方法与核属性求解方法;(3)在非协调环境下,揭示了决策树通过强制拟合使节点纯度不为1,在确定性知识与核心示例集的概念的基础上提出了β-确定性知识和β-核心示例集,并依此建立了基于β-核心示例集的决策树属性约简方法。结合具体实例,分析了这些方法的特征与性能,结果表明,它们都具有较强的可操作性,可以有效地处理不同类型数据库的约简问题。