论文部分内容阅读
随着信息时代的到来,人们的周围已经是一个信息世界,信息系统的数据量正爆炸式的增长。如何有效的对庞大的数据进行分析和挖掘是当前数据挖掘领域所要解决的主要问题。波兰华沙大学的Pawlak教授于上世纪八十年代提出的粗糙集理论在数据挖掘领域受到了广泛重视,并有一些很好的应用。粗糙集理论是一种新型的处理模糊和不确定信息的数学工具,在保证分类能力不变的前提下,通过知识的约简导出概念的分类规则,其优点在于实现分类时不需要先验信息。本文的主要工作是对粗糙集理论中的属性约简问题进行研究,通过分析常用的属性约简算法,提出了一些改进算法。本文所做的主要工作详细如下:(1)调研并阐述了粗糙集理论的研究现状、现存的问题和今后的发展趋势,介绍了粗糙集基本理论。(2)研究了基于区分矩阵的经典约简算法、基于信息熵的属性约简算法和基于属性频度函数的属性约简算法,并对基于属性频度函数的属性约简算法进行了改进,接着提出了基于属性桶的约简算法。(3)提出基于长度约束区分矩阵的属性约简算法,通过实验对比以及在网络故障报修系统中的分析应用证明该算法是有效的。