论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,数据呈海量增长,出现了“数据爆炸但知识贫乏”的现象。在这种情形下,数据挖掘作为处理海量数据的工具便应运而生了。目前,数据挖掘中常用的方法和技术有:统计分析方法、决策树、神经网络、遗传算法、模糊集方法、粗糙集理论、可视化技术等等。在诸多方法中,粗糙集理论与方法对于处理复杂系统不失为一种较为有效的方法。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种分析不完整、不精确、不确定数据的数据分析理论。将粗糙集理论应用于数据挖掘,具有明显的优越性——无需提供所需处理的数据集合之外的任何先验信息,利用数据集上的等价关系对知识的不确定程度进行度量。恰恰是这一点,使得粗糙集理论在数据挖掘中具有更强的生命力。目前,粗糙集理论广泛应用于数据挖掘的多个方面,比如:属性约简,连续属性离散化,关联规则挖掘等等。本文主要研究粗糙集理论在属性约简和连续属性离散化两个方面的应用。属性约简是粗糙集理论研究的核心问题之一,通过属性约简,删除决策表中不必要的属性,在不丢失决策表基本信息的前提下,简化知识的表示,这正是人们所期望的。粗糙集理论不能直接对连续属性进行处理,而现实中的决策表往往含有连续属性,这是制约粗糙集理论应用的一个重要方面。因此,在数据预处理阶段需要将连续属性离散化。针对粗糙集理论在这两个方面的应用,本文主要做了如下工作:(1)提出了一种通过构造约简树对决策表中的属性进行约简的方法。该方法方便有效、容易被人们理解,在一定程度上降低了属性约简算法的时间复杂度。(2)从逻辑代数的角度出发,定义了可辨布尔矩阵,给出了可辨布尔矩阵的性质,用来简化可辨布尔矩阵的变换,建立了用可辨布尔矩阵和线性逻辑方程组表示的属性约简模型,讨论了该模型的求解方法,给出了线性逻辑方程组有解、有唯一解的充分必要条件。提出了分类系数的概念,给出了一种基于分类系数和线性逻辑方程组的新的高效的属性约简算法。(3)将可辨布尔矩阵和线性逻辑方程组用于连续属性离散化:建立了关于断点集与可辨布尔矩阵的逻辑方程组,在逻辑方程组解的基础上提出了一种新的连续属性离散化算法。(4)将上述提出的属性约简算法和连续属性离散化算法用于数据挖掘过程中,建立了一个基于粗糙集理论的数据挖掘模型。数据挖掘本身及粗糙集理论还有许多问题值得探讨,本论文将二者结合研究肯定还有许多不完善的地方,相关工作还有待进一步研究。