论文部分内容阅读
知识发现是20世纪80年代末提出来的概念,它是指从数据集中提取出有效的、对用户有价值的以及可理解的模式的非平凡的过程,粗糙集理论在知识发现中得到了广泛的应用。粗糙集理论是由Z.Pawlal(于1982年提出的,它是一种能有效地分析和处理不精确、不一致、不完整等各种不确定性信息的数据分析工具。该方法近年来日益受到国际学术界的重视,已经在多个领域得到成功的应用。知识约简是粗糙集方法的核心问题之一,是对粗糙集理论进一步研究和应用的基础和关键技术,是粗糙集方法得到大规模应用的保障,同时也是知识发现的重要研究对象,知识约简已经成为一个备受关注的研究热点。首先,本文从属性约简和值约简两个方面探讨了粗糙集理论的知识约简。属性约简算法主要介绍和分析了基于差别矩阵的属性约简算法、基于属性重要性的属性约简算法和基于属性频度的属性约简算法。有了属性约简,就可以对知识表达系统进行简化,但经过属性约简的系统还不是最优,它还可能包含着大量的冗余信息。所以,引入了值约简概念。值约简的过程就是对每一条记录中的冗余条件属性进行筛选并删除的过程,本文介绍了两种值约简算法:基于核值的值约简算法和启发式的值约简算法。文章主要针对基于核值的值约简算法进行了讨论,并分析了该算法存在的不足或需要改进之处,增强了算法的合理性。然后,本文对一个具体的实例进行分析和总结,得到以下结论:当知识表达系统所对应的决策表是不相容的,并且符合下面2个条件时,由传统定义的差别矩阵的属性约简算法得出的核属性中可能会包含冗余属性,这2个条件分别是:(1)决策表中不相容元素所对应的各个条件属性的取值存在多个取值(只要取值个数大于1即可),将符合要求的条件属性记为集合C’;(2)条件属性集合C’中存在某个条件属性x_i,当x_i取某一个特定值时,其决策属性可以取任何一个值(即决策属性可以取所有的值),并将C’中符合这种要求的条件属性记为集合N。上述集合N中所有的元素都是冗余条件属性,由于冗余属性的存在,导致了利用传统差别矩阵的约简算法得不到最小约简。这也就是现有的基于差别矩阵的属性约简算法所存在的不足之处。为了删除冗余属性,改善算法所存在的不足,本文分两种情况进行了讨论,并在此基础上提出了两种改进的属性约简算法。这两种算法的实质是分别从决策表和差别矩阵中删除冗余属性。(1)当所需要处理的数据集容易产生不相容,并且经常出现一个或多个条件属性取某个特定值时,其决策属性可以取到所有的值,应该在求解差别矩阵之前就应该找出冗余条件属性,之后再从决策表中删除这些冗余属性,优化决策表,最后再根据优化后的决策表求出差别矩阵,从而得出了第一种改进算法。(2)当所需要处理的数据集很少或根本不会出现条件属性取某个特定值时,其决策属性可以取到所有值,可以在求解差别矩阵之后,再对差别矩阵中存在的单属性元素进行检查,如果单属性元素是冗余属性,只需要将差别矩阵中对应的元素值改为0即可,这就是第二种改进算法的主要思想。文章从理论上证明了这两种改进算法的正确性,并进行了实例分析和实验仿真,得到的结果验证了算法的有效性。最后,本文将粗糙集理论中的属性约简算法和值约简算法应用到无线传感器网络的分簇算法中,提出了一种新的分簇算法思想:CRSWSN(Clustering Basedon Rough Sets for Wireless Sensor Networks)。该分簇算法利用属性约简算法找出对簇头的选择影响较大的因素并选出簇头节点,利用粗糙集理论的相关知识来确定簇中的成员,然后通过值约简形成有效的决策规则库进行簇的维护。